音楽動画に対する印象評価データセットの構築

土屋 駿貴, 大野 直紀, 阿部 和樹, 中村 聡史, 山本 岳洋*1, 後藤 真孝*2,
濱崎 雅弘*2

明治大学 *1京都大学 *2産業技術総合研究所

本研究の目的: 印象に基づく音楽動画検索の実現

音楽動画から受ける「印象」

  • 「爽やか」、「切ない」、「可愛らしい」、「昭和っぽい」、「酒が飲みたくなる」・・・
  • 初音ミクの有名な曲の中で、爽やかな感じの音楽動画を視聴したい!
  • この音楽動画と、似た印象の音楽動画を視聴したい!

何が問題か?

  • 楽曲の印象に関するタグはわずか 5%
    • 楽曲の印象を推定する技術の必要性
  • 評価用データセットの 欠如
    • 既存のデータセットは音楽動画全体を扱うものであり問題が多い
    • 音楽と映像それぞれの印象とその組み合わせはどういう印象?

p27_mokuteki

新たなるデータセットの構築

メディア独立での印象評価データセットの必要性

  • VOCALOIDで視聴数の多い500個の音楽動画を選定
  • 評価対象はサビ部分に限定
  • 音楽のみ、映像のみ、音楽と映像の組み合わせについてそれぞれ評価
  • 8印象軸の印象評価(C1:堂々とした、C2:元気が出る、C3:切ない、
    C4:激しい、C5:滑稽な、C6:かわいい、V: Valence、A: Arousal)
  • 3人以上が評価
下記URLにてデータセットを公開中!

コメントによる印象推定

音楽動画へのコメントからの印象推定(SVM)

  • コメントからの映像の印象推定精度は高い
  • コメントからの音楽の印象推定精度は低い
  • コメントの形容詞が有効に働く

p27_inshosuitei

音楽と映像の印象の組み合わせ

  • オリジナルのものについては音楽と映像は相関
  • 印象軸によって引っ張られる傾向が異なる

p27_insyou

音楽と映像をランダムに組み合わせただけのものは
音楽印象に引っ張られる傾向あり

主観特徴+物理特徴は?

主観的な印象:コメントからの印象推定

物理的な印象:音楽特徴、映像特徴による印象推定
コメントベクトル+音楽特徴ベクトル
  • お互いに補完しあう関係になり、概ね精度は向上

p27_tokucho

+映像特徴については今後追加予定