統計的機械学習に基づく言語=音楽情報処理の横断的展開

持橋 大地, 吉井 和佳*1, 後藤 真孝*2

統計数理研究所, *1京都大学, *2産業技術総合研究所

単語の意味の連続空間埋め込み

動機: 歌詞や楽曲の存在する空間を探索するための統計的モデルが必要

→トピックモデル
  • LDAなどの従来モデルではなぜいけないのか?
  • 文書の表現が確率分布の単体上に限定
  • 混合モデルでは「意味の重なり」が表現不可能

ナビゲーションのための連続空間トピックモデル (CSTM)

ガウス過程による文書の意味のモデル化

p29_cstm

文書の確率的生成モデル

p29_bunsyonokakuritsutekiseiseimodel

  • 言いたい意味の単語が出やすくなるようスケーリング
  • 文書ごとに単語分布に対するディリクレ過程をきめ細かに制御
実験結果

p29_jikkenkekka

動画コメントからの感情語抽出

動画のコメント:辞書にない文字列の連続
感情に依存 (どこまでが単語かすら分からない
  • 文字列を単語に分けつつ、感情語と機能語に分類する
    ための2クラスの隠れセミマルコフモデルを提案
  • 確率的生成モデル
    For n = 1… N
    1. 文字列言語モデルAまたはBを確率的に選択
    2. 選んだモデルから単語文字列を生成
    3. 出力文字列の末尾に追加
  • 上の逆問題をMCMCで解く
解析例(赤が感情語)
  • リリィ いいね ぇ ・・ ・声 以外 は
  • がくぽ に 聞き入って しまう 件 w w wぱね ぇがくぽ w w w
  • オレンジ に すりゃ よかった のに
  • 調教 次第 で はすごく 伸び そうな 声
  • オレンジか赤が よかった
  • この 場合 緑 www が良かった b
  • もう 好きな 食べ物 神 のアクア でよく ね www
  • 地 に 落ちた 神 にしか見え ない
  • リリィ 可愛い ww
得られた感情語語彙の例(数字は出現回数)
  • “positive”の場合
  • “sad”の場合
  • “happy”の場合
  • “negative”の場合
  • 10537
  • 9929
  • 8505
  • 7850
  • 7687
  • 5472
  • 5317
  • 5034
  • 4465
  • 4185
  • 4015
  • 3576
  • 3480
  • 3422
  • 3314
  • 2965
  • 2922
  • www
  • あああ
  • きた
  • かわいい
  • ・・
  • すげ
  • 好きだ
  • ww
  • 神曲
  • (゜∀゜)
  • 好き
  • いいね
  • 30301
  • 20949
  • 8454
  • 2822
  • 2286
  • 1658
  • 1594
  • 1346
  • 1272
  • 1255
  • 1143
  • 1066
  • 1065
  • 1028
  • 984
  • 953
  • 940
  • ・・
  • t
  • 泣ける
  • が・
  • www
  • マスター
  • な・
  • ああ
  • ざわ
  • か・
  • 15149
  • 2579
  • 1775
  • 1058
  • 895
  • 769
  • 743
  • 651
  • 459
  • 410
  • 399
  • 369
  • 362
  • 343
  • 313
  • 308
  • www
  • ww
  • ktkr
  • www
  • 神曲
  • 吹いたwww
  • 吹いた
  • わろた
  • !
  • 笑い
  • 面白い
  • ww
  • 笑える
  • 5322
  • 3775
  • 3376
  • 2889
  • 2554
  • 2355
  • 2171
  • 2104
  • 1657
  • 1438
  • 1320
  • 1148
  • 1123
  • 1056
  • 962
  • 903
  • www
  • これは
  • ・・
  • ひどい
  • ごめんなさい
  • はは
  • ww
  • はい
  • ぎゃああ

今後の展開:統計的音楽生成

確率的文法に従って音楽を生成できる可能性

a red to expected say the city lindner random suffer out found note various future solution

  • (S (NP (-NP (-NP (DT “a”)
  • (ADJP (JJ “red”)
  • (VP (TO “to”)
  • (VP (VBN “expected”)
  • (VP (VBP “say”) (NP (DT “the”) (NN “city”)))))))
  • (NNP “lindner”))
  • (NNP “random”))
  • (VP (-VP (VB “suffer”) (RP “out”))
  • (NP (-NP (-NP (-NP (VBN “found”) (NN “note”))
  • (JJ “various”))
  • (NN “future”))
  • (NN “solution”))))
Penn Treebank PCFGに基づくランダムウォーク文生成の例