階層ベイズ音響・言語統合モデルに基づく多重基本周波数推定

尾島 優太, 中村 栄太, 糸山 克寿, 吉井 和佳

京都大学

多重基本周波数推定とは

音楽音響信号から各音の音の高さを推定
入力の楽曲に対しピアノロールを出力

p30_syutsuryoku


こんなことができるように

曲中の楽器の音色の変更
楽譜が存在しない演奏の再現
p30_dekiru


非負値行列因子分解

入力音響信号から得られたスペクトログラムを基底(各音のスペクトル)アクティベーション(各音の時間的音量変化)の積として近似

p30_inshibunkai

音響モデルと言語モデル

キーアイデア

ピアノロールの背後にはコード進行が存在
コード列,コードの構造を同時推定することで音高推定精度の向上を図る

p30_model

推定結果

言語モデルの統合により不必要な音が抑制

p30_kekka1

音響信号のみに基づき、出力確率としてMajor / Minorに対応したコード構造を獲得

p30_kekka2

→ 音楽文法としてのコードの構造を音響信号から直接学習可能