歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出

平井辰典, 中野倫靖1, 後藤真孝1, 森島繁生

早稲田大学, *1産業技術総合研究所

目　的

音楽動画中の歌唱シーンを音と映像の分析結果の統合によって自動検出

1. はじめに

研究背景

動画共有サービスにおける音楽動画の人気
→YouTubeの歴代再生回数上位30作品中29作品が音楽動画
そのうち26作品がソロ歌手によるMusic clip / ライヴ（歌唱）動画

2. 歌唱シーン検出手法

用語の定義

歌手登場区間 : 映像中で、歌唱の有無にかかわらず歌手が登場する区間
歌声区間 : 音楽中に歌声が含まれている区間（コーラスも含む）
歌唱シーン : 映像中で歌手が歌っており、対応する歌声が聞こえる区間

各検出手法

顔検出手法（平井ら, `12）

p20_kasyou_1

口の動き検出法（Mouth Aperture Dtection : MAD）
歌声区間検出手法（Vocal Activity Detection : VAD）（Fujihara et al. `11）

p20_kasyou_3

検出結果の統合

3. 歌唱シーン検出精度

実験条件

実験動画 : Music clip 9作品 + 演奏動画1作品

実験結果

p20_kensyutuseido

統合検出の精度が最も高かった。
適合率・再現率の一方のみを向上させる複合も可能。

4. まとめ

歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出手法を検討した。今後、より精度が向上する複合方法の検討と共に、歌唱シーン以外の音楽動画中のイベント認識手法へと拡張。