階層ベイズ音響・言語統合モデルに基づく多重基本周波数推定
尾島 優太, 中村 栄太, 糸山 克寿, 吉井 和佳
京都大学
多重基本周波数推定とは
音楽音響信号から各音の音の高さを推定
入力の楽曲に対しピアノロールを出力
入力の楽曲に対しピアノロールを出力
こんなことができるように
曲中の楽器の音色の変更
楽譜が存在しない演奏の再現
楽譜が存在しない演奏の再現
非負値行列因子分解
入力音響信号から得られたスペクトログラムを基底(各音のスペクトル)とアクティベーション(各音の時間的音量変化)の積として近似
音響モデルと言語モデル
キーアイデア
ピアノロールの背後にはコード進行が存在
コード列,コードの構造を同時推定することで音高推定精度の向上を図る
コード列,コードの構造を同時推定することで音高推定精度の向上を図る
推定結果
言語モデルの統合により不必要な音が抑制
音響信号のみに基づき、出力確率としてMajor / Minorに対応したコード構造を獲得
→ 音楽文法としてのコードの構造を音響信号から直接学習可能