半教師ありNMFを利用した音楽信号中のフレーズ検出
増田 太郎, 吉井 和佳*1, 後藤 真孝*2, 森島 繁生
早稲田大学, *1京都大学, *2産業技術総合研究所
研究の背景と目的
ある楽器で演奏したフレーズと同じフレーズが,どの曲のどの時間位置に含まれるかを検索したい!
背景:音響信号から直接楽曲を検索する研究の興隆
- Query-by-Hummingシステム:ユーザの歌唱に基づく曲検索
→データベース中にMIDIファイルなどの楽譜情報が必要
- フィンガープリントシステム:楽曲そのものをクエリとする曲検索
→楽曲の一部の構成要素(楽器など)を手掛かりに探すことは困難
目的: 楽器で演奏したフレーズに基づく楽曲検索
- 楽譜情報不要
- 主旋律以外のメロディも検索可能
楽器で演奏したフレーズをクエリとする検索への需要
- 楽曲名を知らない/忘れてしまった場合でも,その楽曲の特徴的なフレーズを演奏するだけで,直感的に楽曲検索可能
- 思いついたフレーズが,既存の楽曲中でどう編曲されているかを学べる
評価実験
実験条件
- Exact-match:クエリと全く同一の音響信号が楽曲中に含まれる場合
- 楽器変化:楽曲中とは異なる楽器で演奏した場合
- テンポ変化:同一の楽器,楽曲中よりも20%速いテンポで演奏した場合
・データベース= 4曲 ・クエリ= 10種類
実験結果
比較手法に比べて,提案手法がより優れた検索性能を実現
- 従来手法…他の楽器の存在により特徴量が歪められ,性能が落ちる
- 提案手法…楽器やテンポの変更への頑健性が課題
フレーズ検索手法
入力音と楽曲の一部の要素との類似度を計算する手法が必要
- クエリのスペクトログラムにGaP-NMF [Hoffman et al. 2010]を適用し,基底スペクトル及びアクティベーションを推定
- 検索対象の楽曲に対し,クエリの基底を固定することで,固定した基底に対応するアクティベーションを計算(半教師ありNMF)
- クエリ及び楽曲から得たアクティベーション間の相関係数を類似度と定義
→類似度のピークをフレーズ検出箇所とする
ノンパラメトリックベイズの利点を活用
- ・適切な基底の数=複雑さ
を自動的に決定 - ・固定/非固定の音量に対し,
事前分布を調節する
まとめ・今後の課題
楽器フレーズを入力とする楽曲検索手法を提案
- クエリのスペクトル基底を辞書とする半教師ありNMF
- 固定した基底のアクティベーション類似度に基づくフレーズ検出
- 計算時間以外の点では,従来手法を上回る検索性能を確認
今後の課題
- 楽器,テンポの変動に対する検索精度の向上
- 計算コスト削減
- 大規模データベースに対する評価実験