歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出

平井 辰典, 中野 倫靖*1, 後藤 真孝*1, 森島 繁生

早稲田大学, *1産業技術総合研究所

目 的

音楽動画中の歌唱シーン音と映像の分析結果の統合によって自動検出

p20_mokuteki

1. はじめに

研究背景

  • 動画共有サービスにおける音楽動画の人気
  • YouTubeの歴代再生回数上位30作品中29作品が音楽動画
    そのうち26作品がソロ歌手によるMusic clip / ライヴ(歌唱)動画

p20_hajimeni

2. 歌唱シーン検出手法

用語の定義

  1. 歌手登場区間 : 映像中で、歌唱の有無にかかわらず歌手が登場する区間
  2. 歌声区間 : 音楽中に歌声が含まれている区間(コーラスも含む)
  3. 歌唱シーン : 映像中で歌手が歌っており、対応する歌声が聞こえる区間

各検出手法

  1. 顔検出手法(平井ら, `12)
  2. p20_kasyou_1
  3. 口の動き検出法(Mouth Aperture Dtection : MAD)
    p20_kasyou_2
  4. 歌声区間検出手法(Vocal Activity Detection : VAD)(Fujihara et al. `11)
  5. p20_kasyou_3
  6. 検出結果の統合
  7. p20_kasyou_4

3. 歌唱シーン検出精度

実験条件

実験動画 : Music clip 9作品 + 演奏動画1作品

実験結果

p20_kensyutuseido
統合検出の精度が最も高かった。
適合率・再現率の一方のみを向上させる複合も可能。

4. まとめ

歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出手法を検討した。今後、より精度が向上する複合方法の検討と共に、歌唱シーン以外の音楽動画中のイベント認識手法へと拡張。