半教師ありNMFを利用した音楽信号中のフレーズ検出

増田 太郎, 吉井 和佳*1, 後藤 真孝*2, 森島 繁生

早稲田大学, *1京都大学, *2産業技術総合研究所

研究の背景と目的

ある楽器で演奏したフレーズと同じフレーズが,どの曲どの時間位置に含まれるかを検索したい!
背景:音響信号から直接楽曲を検索する研究の興隆
  • Query-by-Hummingシステム:ユーザの歌唱に基づく曲検索
    →データベース中にMIDIファイルなどの楽譜情報が必要
  • フィンガープリントシステム:楽曲そのものをクエリとする曲検索
    →楽曲の一部の構成要素(楽器など)を手掛かりに探すことは困難
目的: 楽器で演奏したフレーズに基づく楽曲検索

p22_mokuteki

  • 楽譜情報不要
  • 主旋律以外のメロディも検索可能

楽器で演奏したフレーズをクエリとする検索への需要
  • 楽曲名を知らない/忘れてしまった場合でも,その楽曲の特徴的なフレーズを演奏するだけで,直感的に楽曲検索可能
  • 思いついたフレーズが,既存の楽曲中でどう編曲されているかを学べる

評価実験

実験条件
  1. Exact-match:クエリと全く同一の音響信号が楽曲中に含まれる場合
  2. 楽器変化:楽曲中とは異なる楽器で演奏した場合
  3. テンポ変化:同一の楽器,楽曲中よりも20%速いテンポで演奏した場合
・データベース= 4曲 ・クエリ= 10種類
実験結果
比較手法に比べて,提案手法がより優れた検索性能を実現

p22_jikkenkekka

  • 従来手法…他の楽器の存在により特徴量が歪められ,性能が落ちる
  • 提案手法…楽器やテンポの変更への頑健性が課題

フレーズ検索手法

入力音と楽曲の一部の要素との類似度を計算する手法が必要
  • クエリのスペクトログラムにGaP-NMF [Hoffman et al. 2010]を適用し,基底スペクトル及びアクティベーションを推定
  • 検索対象の楽曲に対し,クエリの基底を固定することで,固定した基底に対応するアクティベーションを計算(半教師ありNMF)
  • クエリ及び楽曲から得たアクティベーション間の相関係数を類似度と定義
    →類似度のピークをフレーズ検出箇所とする
p22_phrase1
ノンパラメトリックベイズの利点を活用
  • ・適切な基底の数=複雑さ
    を自動的に決定
  • ・固定/非固定の音量に対し,
    事前分布を調節する

p22_phrase2

まとめ・今後の課題

楽器フレーズを入力とする楽曲検索手法を提案
  • クエリのスペクトル基底を辞書とする半教師ありNMF
  • 固定した基底のアクティベーション類似度に基づくフレーズ検出
  • 計算時間以外の点では,従来手法を上回る検索性能を確認
今後の課題
  • 楽器,テンポの変動に対する検索精度の向上
  • 計算コスト削減
  • 大規模データベースに対する評価実験