確率的生成モデルに基づく音楽の類似度とありがち度の推定とその応用

中野 倫靖, 持橋 大地*1, 吉井 和佳*2, 後藤 真孝

産業技術総合研究所, *1統計数理研究所, *2京都大学

研究背景

作品の発表時に盗作疑惑を招く事例が増えてしまう懸念

  • 音楽がデジタル化されアクセス可能な楽曲が単調増加
  • あらゆる楽曲は既存曲の影響を受けている
  • 「無自覚に」「何らかの意味で」「部分的に」類似してしまうのは自然
  • 安心して楽曲の制作や発表をしにくい社会になりかねない
  • 類似度に関する人間の能力には限界がある
  • 楽曲すべてを聞いて全体を俯瞰した適切な判断を行うことは不可能

p17_intro2

「何が似ているのか」「どれぐらいありふれているのか」を
知ろうと思ったときに容易に知るための手段の実現
  • 過去の楽曲に敬意を払う文化、感動体験重視型の音楽文化へ
  • 例)論文のように引用(再利用)を可視化し喜びを感じられる音楽文化

  • 「他に類似していないか」という新規性だけを追求するのではなく
  • 過去の楽曲と共存共栄し、人々を感動させる魅力や完成度の高さ等を重視

音楽要素の確率的生成モデル

歌声と伴奏を含む音楽音響信号の音楽要素の生成モデル

  • 各音楽要素(音響特徴量等)がどういう形で出現しやすいか
  • その確率(生成確率)を計算できるモデル
  • 生成確率によって「楽曲間の類似度」や「楽曲のありがち度」を推定する

p18_seiseimodel

現時点では、音楽要素を生成したり楽曲を作ったりすることはできない
(将来的には生成できるよう発展できる可能性がある)

応用

PlaylistPlayer: 音楽プレイリストの可視化・並べ替えインタフェース

[Nakano+, ACM IUI 2016]

p18_playlist

使用例)
  • リズムが「ありがち」な曲から順に再生したい
  • 前後の曲で音色が類似した順で再生したい
  • ボーカルを男女交互に再生したい

楽曲・楽曲集合モデル

[Nakano+, IJSC 2016]

潜在的ディリクレ配分法(Latent Dirichlet Allocation: LDA)

  • ボーカルの歌声:線形予測メルケプストラム係数 (LPMCC)、ΔF0
  • 楽曲中の音色:メル周波数ケプストラム係数 (MFCC), ΔMFCC, Δパワー
  • リズム:Fluctuation Pattern (FP)
  • 歌詞:日本語形態素(原形)、英単語

p18_LDA

可変長Pitman-Yor 言語モデル(VPYLM)

  • 和音進行:8 種類の代表的な和音とその12 種類の根音(+和音がない区間)

p18_VPYLM

評価

  • 類似度(similarity):人間(ミュージシャン1名)の評価結果と比較
– 日本語楽曲20組を評価(類似度が高いと推定された10組、低い10組)
⇒ 類似度が高い曲の評価と低い曲の評価に有意差 (p<5%~0.1%)
  • ありがち度 (typicality):「類似度が高い曲の数」との相関[Barsalou 1985]
認知心理学分野における「典型性」(Central tendency=類似した曲の数)
– 日本語楽曲3,278曲(歌詞に関しては1,996曲分)
⇒ 類似度の高い曲の数と相関 (0.677~0.834) を確認
※英語楽曲415曲を用いた評価も行い、有効性を確認

LDA楽曲集合モデルの改善

[Nakano+, ISMIR 2016]

改善点1:情報理論に基づくありがち度の計算

  • タイプを共有する系列の集合の確率=KL尺度の指数の期待値ありがち度
    • 楽曲のタイプ :各楽曲におけるトピック系列のユニグラム分布
    • 情報源のタイプ :ディリクレ分布(楽曲集合モデル)に従う多項分布

p18_LDAr1

改善点2:楽曲集合モデル(楽曲モデルの統合)をベイズ推定

  • 楽曲集合が各曲のタイプを生成するディリクレ分布を持つとする
⇒ 全曲分のタイプ(多項分布の集合)から事前分布(ディリクレ分布)を推定

p18_LDAr2

ありがち度推定の評価:
ボーカルの男女比率を変えた楽曲集合モデル
  • 提案法で推定した各楽曲のありがち度が、楽曲集合の男女比変化を最も反映