歌声トピックモデルに基づく類似歌声検索とトピック可視化
中野 倫靖, 吉井 和佳*1, 後藤 真孝
産業技術総合研究所, *1京都大学
歌声トピックモデル
音楽音響信号からボーカルの歌声を定量的にモデル化
- Latent Dirichlet Allocation (LDA) に基づくトピック分析
- 複数の歌声から潜在的な意味(トピック)を学習
- 「何と何が似ているか」だけでなく、「どう似ているか」まで分析可能
・[従来] 一つの歌声からの特性分析、モデル化
手法:特徴抽出・モデル化・類似度計算
- 「何と何が似ているか」を推定する
- メロディーのF0推定: PreFest
- 再合成:20次倍音までの正弦波合成
- 歌声特徴の抽出: LPMCC (12), ΔF0 (1)
- 高信頼度フレーム選択:歌声・非歌声GMM
- ベクトル量子化:k-means 法 (k = 100)
- LDA学習:
周辺化Gibbsサンプラー(トピック数100) - 類似度計算:対称カルバック・ライブラ距離 (KL2)の逆数
事前分布(ディリクレ分布のハイパーパラメータ)
α(トピック混合比):1 β(シンボル混合比):0.1
(A)【音高シフト】 ボーカル声質の変形
- 検索対象を変形して探索空間を拡張する
- 性別を超えた歌声情報検索が可能となる
・ [従来] 既にあるものから検索する
例) 「一青窈の歌声を3半音下げると平井堅に似ている」を自動推定
評価実験
ポピュラー音楽で歌声検索の性能を評価
- ボーカルが1名である12アーティストの楽曲で評価
- オリコン上位20 位以内(2000-2008)
男性歌手
女性歌手
- M1 ASIAN KUNG-FU GENERATION
- M2 BUMP OF CHICKEN
- M3 福山雅治
- M4 GLAY
- M5 氷川きよし
- M6 平井堅
- F1 aiko
- F2 JUDY AND MARY
- F3 一青窈
- F4 東京事変
- F5 宇多田ヒカル
- F6 矢井田瞳
本手法の有効性を確認
- トピックの混合比は、歌手名同定とトピックの意味の可視化に適用できる
- 類似した歌声を性別非依存に検索可能
- 「何と何が似ているか」だけでなく、「どう似ているか」まで分析可能
・「一青窈を3半音下げると平井堅に似ている」ことを自動推定して実証