音楽理解とアノテーション分析技術によるサムネイル動画自動生成

中村聡史, 山本岳洋1, 後藤真孝2, 濱崎雅弘*2

明治大学, *1京都大学, *2産業技術総合研究所

背景と研究目的

膨大な動画から目的とする動画を探すのは困難

日々投稿される動画の数は膨大

1日に投稿される動画は5500本程度

1秒間に47秒分の動画が投稿される

動画に出会うことができない

機会を損失している

サムネイル動画を自動生成してユーザに提示

動画要約ではなく，動画の中でもっとも魅力的な15秒を抽出して提示
視聴判断のための魅力的な15秒を如何にして抽出するか？

サムネイル動画は推薦動画の候補や，検索結果ランキング上で短時間で試聴するかどうかを判断するためや，デイリーランキング動画等で使用可能

アプローチ

音楽理解技術とソーシャルアノテーション分析技術の融合によりここぞというシーンを抽出してユーザに提示

音楽理解に基づくサビ検出技術く
ソーシャルアノテーション分析技術による視聴者の盛り上がり検出技術

提案手法

仮説

サビ部分は楽曲的に盛り上がる部分ではないか？
視聴者が盛り上がっているシーンは，盛り上がるシーンではないか？

最もスコアの高い15秒を抽出してサムネイル動画を生成

結果

評価実験により有効性の検証

比較のために中央15秒を抽出するmiddle手法とコメント量が多い部分を抽出するcomment手法を用意
12人が29件以上の動画（29動画×6手法）をスコアリング
sabi + sentiment 手法がもっともよい結果（独立はすべての手法が異なるシーンをサムネイル動画として抽出したもの）
サビの少し前から再生すると評価が高くなる傾向（左下表）
sabi + sentiment手法は人の心に響くシーンを抽出する傾向あり（右下図）

謝辞:: 上記の図では、ピアプロ・キャラクター・ライセンスに基づいてクリプトン・フューチャー・メディア株式会社のキャラクター「初音ミク」を使用した。