視聴者コメントに基づく楽曲動画の印象推定とデータセット構築

山本 岳洋, 中村 聡史*1

京都大学, *1明治大学

本研究の目的

印象に基づく楽曲検索の実現

楽曲から受ける「印象」
  • 「爽やか」,「切ない」,「可愛らしい」,「昭和っぽい」,「酒が飲みたくなる」・・・
  • 初音ミクの有名な曲の中で,爽やかな感じの曲が聴きたい!
  • この曲と,似た印象の曲が聴きたい!
何が問題か?
  • 楽曲の印象に関するタグはわずか5%
  • − 楽曲の印象を推定する技術の必要性 ・・・(A)

  • 評価用データセットの欠如
  • − 印象を扱った,標準的なデータセットの必要性 ・・・(B)

(A)-1 コメントに基づく印象推定

アプローチ:視聴者コメント

  • コメント = 視聴者の反応
  • 既存のアプローチ
  • − 音響特徴量や歌詞の利用

p23_sityousyacoment.jpg

コメントからの素性抽出

  • 形容詞・形容動詞
  • 繰り返し文字の正規化
  • かわいいぃぃぃ
    きたああああああああああ
    感情を強く表す表現
    [Brody and Diakopoulos 2011]

  • 繰り返し文字の正規化
  • 仮説:楽曲のサビが楽曲に
    対する印象を決定

    p23_sujoutyuusyutu

    (A)-2 評価実験

    7印象クラス計1,314本の動画を対象

    形容詞が有効な特徴,他の特徴と組み合わせることで分類精度向上
    p23_hyoukajikken_1

    歌詞や音響特徴と比べてコメントが分類に有効.コメントと音響等の組合せによる精度向上
    p23_hyoukajikken_2

    (B)-1 印象データセットの構築

    コミュニティで共有できる評価データの必要性
    • 印象に基づく楽曲動画の検索アルゴリズムの性能を評価したい
    • − 現状では評価データを1から作成する必要
      − ある程度の規模の評価値を集めることは高コスト

    楽曲動画に対する印象データセットの構築・公開

    (B)-2 楽曲動画印象データセット

    データセットの概要

    • 楽曲動画数:500件
    • 各動画あたり最低3名の評価者を割当

    既存研究に基づいた8印象クラス

    p23_dataset_01
    • 堂々
    • 元気が出る
    • 切ない
    • 激しい
    • 滑稽
    • 可愛い
    • Valence
    • Arousal
    p23_dataset_kakko

    p23_dataset_02

    評価者用インタフェース

    p23_dataset_03

    データセットを利用した楽曲検索システム
    下記URLにてデータセットを公開中!
    データセット第2弾
    • 音楽のみ,映像のみ,音楽+映像の3種類のデータに対して,同様の評価データを構築
    • 映像の有無が音楽に対する印象に与える影響の分析