歌声トピックモデルに基づく類似歌声検索とトピック可視化

中野 倫靖, 吉井 和佳*1, 後藤 真孝

産業技術総合研究所, *1京都大学

歌声トピックモデル

音楽音響信号からボーカルの歌声を定量的にモデル化

  • Latent Dirichlet Allocation (LDA) に基づくトピック分析
  • 複数の歌声から潜在的な意味(トピック)を学習
  • ・[従来] 一つの歌声からの特性分析、モデル化

  • 「何と何が似ているか」だけでなく、「どう似ているか」まで分析可能


p15_topicmodel2

手法:特徴抽出・モデル化・類似度計算

  • 「何と何が似ているか」を推定する
  1. メロディーのF0推定: PreFest
  2. 再合成:20次倍音までの正弦波合成
  3. 歌声特徴の抽出: LPMCC (12), ΔF0 (1)
  4. 高信頼度フレーム選択:歌声・非歌声GMM
  5. ベクトル量子化:k-means 法 (k = 100)
  6. LDA学習:
    周辺化Gibbsサンプラー(トピック数100)
  7. 事前分布(ディリクレ分布のハイパーパラメータ)

    α(トピック混合比):1 β(シンボル混合比):0.1

  8. 類似度計算:対称カルバック・ライブラ距離 (KL2)の逆数

p15_syuhou

(A)【音高シフト】 ボーカル声質の変形
  • 検索対象を変形して探索空間を拡張する
  • ・ [従来] 既にあるものから検索する

  • 性別を超えた歌声情報検索が可能となる
  • 例) 「一青窈の歌声を3半音下げると平井堅に似ている」を自動推定

(B)【歌手クラウド】 歌声トピックの意味を歌手名で可視化
  • 「どう似ているか」を分析する
  • ・各トピックを代表する歌手名を大きく表示

    ・トピックの意味をイメージしやすくすることができる

p15_kasyucloud_all

評価実験

ポピュラー音楽で歌声検索の性能を評価

  • ボーカルが1名である12アーティストの楽曲で評価
  • オリコン上位20 位以内(2000-2008)
男性歌手
女性歌手
  • M1 ASIAN KUNG-FU GENERATION
  • M2 BUMP OF CHICKEN
  • M3 福山雅治
  • M4 GLAY
  • M5 氷川きよし
  • M6 平井堅
  • F1 aiko
  • F2 JUDY AND MARY
  • F3 一青窈
  • F4 東京事変
  • F5 宇多田ヒカル
  • F6 矢井田瞳
実験A:歌手名同定

  • 36曲 = 歌手12人(男性6人、女性6人)×各3曲

p15_a_all

実験B:性別を超えた類似歌声検索

  • 音高シフト:-3半音~+3半音(7 種類)

252曲 = 12人× 3 曲×7種類

p15_b_all

本手法の有効性を確認

  • トピックの混合比は、歌手名同定とトピックの意味の可視化に適用できる
  • 類似した歌声を性別非依存に検索可能
  • ・「一青窈を3半音下げると平井堅に似ている」ことを自動推定して実証

  • 「何と何が似ているか」だけでなく、「どう似ているか」まで分析可能

今後の展望

■検索トピック分析結果の定量的な分析:歌声を特徴付ける要素
■F0軌跡の変化等の歌い方のモデル化:歌い方特徴量の追加
■手法の拡張:離散化せずにモデル化、トピック数の無限化