音楽動画に対する印象評価データセットの構築
土屋 駿貴, 大野 直紀, 阿部 和樹, 中村 聡史, 山本 岳洋*1, 後藤 真孝*2,
濱崎 雅弘*2
明治大学 *1京都大学 *2産業技術総合研究所
本研究の目的: 印象に基づく音楽動画検索の実現
音楽動画から受ける「印象」
- 「爽やか」、「切ない」、「可愛らしい」、「昭和っぽい」、「酒が飲みたくなる」・・・
- 初音ミクの有名な曲の中で、爽やかな感じの音楽動画を視聴したい!
- この音楽動画と、似た印象の音楽動画を視聴したい!
何が問題か?
- 楽曲の印象に関するタグはわずか 5%
- 楽曲の印象を推定する技術の必要性
- 評価用データセットの 欠如
- 既存のデータセットは音楽動画全体を扱うものであり問題が多い
- 音楽と映像それぞれの印象とその組み合わせはどういう印象?
新たなるデータセットの構築
メディア独立での印象評価データセットの必要性
- VOCALOIDで視聴数の多い500個の音楽動画を選定
- 評価対象はサビ部分に限定
- 音楽のみ、映像のみ、音楽と映像の組み合わせについてそれぞれ評価
- 8印象軸の印象評価(C1:堂々とした、C2:元気が出る、C3:切ない、
C4:激しい、C5:滑稽な、C6:かわいい、V: Valence、A: Arousal) - 3人以上が評価
下記URLにてデータセットを公開中!
コメントによる印象推定
音楽動画へのコメントからの印象推定(SVM)
- コメントからの映像の印象推定精度は高い
- コメントからの音楽の印象推定精度は低い
- コメントの形容詞が有効に働く
音楽と映像の印象の組み合わせ
- オリジナルのものについては音楽と映像は相関
- 印象軸によって引っ張られる傾向が異なる
音楽と映像をランダムに組み合わせただけのものは
音楽印象に引っ張られる傾向あり
音楽印象に引っ張られる傾向あり
主観特徴+物理特徴は?
主観的な印象:コメントからの印象推定
物理的な印象:音楽特徴、映像特徴による印象推定
コメントベクトル+音楽特徴ベクトル
- お互いに補完しあう関係になり、概ね精度は向上
+映像特徴については今後追加予定