階層ベイズ音響・言語統合モデルに基づく多重基本周波数推定

尾島優太, 中村栄太, 糸山克寿, 吉井和佳

京都大学

多重基本周波数推定とは

音楽音響信号から各音の音の高さを推定
入力の楽曲に対しピアノロールを出力

こんなことができるように

曲中の楽器の音色の変更
楽譜が存在しない演奏の再現

p30_dekiru

非負値行列因子分解

入力音響信号から得られたスペクトログラムを基底（各音のスペクトル）とアクティベーション（各音の時間的音量変化）の積として近似

音響モデルと言語モデル

キーアイデア

ピアノロールの背後にはコード進行が存在
コード列，コードの構造を同時推定することで音高推定精度の向上を図る

推定結果

言語モデルの統合により不必要な音が抑制

音響信号のみに基づき、出力確率としてMajor / Minorに対応したコード構造を獲得

→ 音楽文法としてのコードの構造を音響信号から直接学習可能