歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出
平井 辰典, 中野 倫靖*1, 後藤 真孝*1, 森島 繁生
早稲田大学, *1産業技術総合研究所
目 的
音楽動画中の歌唱シーンを音と映像の分析結果の統合によって自動検出
1. はじめに
研究背景
- 動画共有サービスにおける音楽動画の人気
-
→YouTubeの歴代再生回数上位30作品中29作品が音楽動画
そのうち26作品がソロ歌手によるMusic clip / ライヴ(歌唱)動画
2. 歌唱シーン検出手法
用語の定義
- 歌手登場区間 : 映像中で、歌唱の有無にかかわらず歌手が登場する区間
- 歌声区間 : 音楽中に歌声が含まれている区間(コーラスも含む)
- 歌唱シーン : 映像中で歌手が歌っており、対応する歌声が聞こえる区間
各検出手法
- 顔検出手法(平井ら, `12)
- 口の動き検出法(Mouth Aperture Dtection : MAD)
- 歌声区間検出手法(Vocal Activity Detection : VAD)(Fujihara et al. `11)
- 検出結果の統合
3. 歌唱シーン検出精度
実験条件
実験動画 : Music clip 9作品 + 演奏動画1作品
実験結果
統合検出の精度が最も高かった。
適合率・再現率の一方のみを向上させる複合も可能。
適合率・再現率の一方のみを向上させる複合も可能。
4. まとめ
歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出手法を検討した。今後、より精度が向上する複合方法の検討と共に、歌唱シーン以外の音楽動画中のイベント認識手法へと拡張。