音声可視化データベースの解説
こんにちは、えむしーじじょうのShikiです。
最近ようやく音声可視化グラフのデータベース化が完了しました! 9/6(日)のサイエンスカフェで発表した「 音声可視化技術を使って挑む「アニメ声優さんの声が似ている問題」 」では全ての結果を紹介する時間が無かったため、一部しか紹介できませんでしたが、下記のページではこれまでに分析した全結果を掲載しています。
音声可視化データベース
説明無しにはよく分からないと思いますので、このページで解説いたします。
音声可視化データベースのサンプル
基礎データ
話者
発話している人の名前(敬称略)です。
性別
男性 or 女性 で表記しています。「男性」や「女性」でフィルタをかけると性別による声の傾向を見る事ができます。
タイトル
音源の作品名です。2020/10/23現在では全てアニメ作品です。
シーン
著作権上音声の生データを載せることはできませんが、音源をどの箇所から録っているか分かるように記載しています。5-1は5話目の開始から1分付近の音声を意味します。シーンによる声の偏りを解消するため4つシーンから録音しています。
録音時間
音源の録音時間です。4つのシーンの合計した時間で、無声音部分も含まっています。
キャラクター
話者が演じているキャラクターの名前と引用画像です。
F0スペクトルマップ(手法編)
音声の可視化と言えばスペクトログラムがスタンダードな手法ですが、話者比較するには不向きだったので、F0スペクトルマップというグラフを考案しました。 スペクトログラムを知っている前提で原理を説明するので、スペクトログラムをよく知らない方はこちら (wikipedia)をご覧ください。 F0スペクトルマップのざっくりとした原理は以下の図になります。時間軸からF0を基準に並び替えることでグラフがスッキリとし比較が容易になります。
これを実際に処理した1例が下図になります。うねうねして見辛いグラフからスッキリしたグラフになりました ^ ^ )
手法をより詳しく知りたい方向けには以下の図になります(発表資料から抜粋)。
F0スペクトルマップ(見方編)
グラフの作り方を説明したところでこのグラフの見方を発表資料からの抜粋で説明いたします。話者違い、キャラ違いで差異を比較するときの参考にして下さい。
参考: 酒井えりか : ゲームキャラクタと声質の傾向分析, DEIM forum 2017 E7-4
何となく見方を分かって頂けたでしょうか? この記事を参考に
「音声可視化データベース 」を楽しんで頂ければ幸いです。
終わり。