音楽理解とアノテーション分析技術によるサムネイル動画自動生成

中村 聡史, 山本 岳洋*1, 後藤 真孝*2, 濱崎 雅弘*2

明治大学, *1京都大学, *2産業技術総合研究所

背景と研究目的

膨大な動画から目的とする動画を探すのは困難

  • 日々投稿される動画の数は膨大
  • 1日に投稿される動画は5500本程度

    1秒間に47秒分の動画が投稿される

  • 動画に出会うことができない
  • 機会を損失している

p24_haikei_2

p24_haikei_1

サムネイル動画を自動生成してユーザに提示

  • 動画要約ではなく,動画の中でもっとも魅力的な15秒を抽出して提示
  • 視聴判断のための魅力的な15秒を如何にして抽出するか?

サムネイル動画は推薦動画の候補や,検索結果ランキング上で短時間で試聴するかどうかを判断するためや,デイリーランキング動画等で使用可能

アプローチ

音楽理解技術とソーシャルアノテーション分析技術の融合によりここぞというシーンを抽出してユーザに提示

  • 音楽理解に基づくサビ検出技術く
  • ソーシャルアノテーション分析技術による視聴者の盛り上がり検出技術

p24_approach

提案手法

仮説

  • サビ部分は楽曲的に盛り上がる部分ではないか?
  • 視聴者が盛り上がっているシーンは,盛り上がるシーンではないか?

p24_teiansyuhou

最もスコアの高い15秒を抽出してサムネイル動画を生成

結果

評価実験により有効性の検証

  • 比較のために中央15秒を抽出するmiddle手法とコメント量が多い部分を抽出するcomment手法を用意
  • 12人が29件以上の動画(29動画×6手法)をスコアリング
  • sabi + sentiment 手法がもっともよい結果(独立はすべての手法が異なるシーンをサムネイル動画として抽出したもの)
  • サビの少し前から再生すると評価が高くなる傾向(左下表)
  • sabi + sentiment手法は人の心に響くシーンを抽出する傾向あり(右下図)

p24_kekka_all

謝辞:
上記の図では、ピアプロ・キャラクター・ライセンスに基づいてクリプトン・フューチャー・メディア株式会社のキャラクター「初音ミク」を使用した。