音声可視化データベースの解説

投稿日: October 23, 2020投稿者: Shiki

こんにちは、えむしーじじょうのShikiです。

最近ようやく音声可視化グラフのデータベース化が完了しました！ 9/6(日)のサイエンスカフェで発表した「 音声可視化技術を使って挑む「アニメ声優さんの声が似ている問題」 」では全ての結果を紹介する時間が無かったため、一部しか紹介できませんでしたが、下記のページではこれまでに分析した全結果を掲載しています。

音声可視化データベース

説明無しにはよく分からないと思いますので、このページで解説いたします。

基礎データ

性別

男性 or 女性で表記しています。「男性」や「女性」でフィルタをかけると性別による声の傾向を見る事ができます。

シーン

著作権上音声の生データを載せることはできませんが、音源をどの箇所から録っているか分かるように記載しています。5-1は5話目の開始から1分付近の音声を意味します。シーンによる声の偏りを解消するため4つシーンから録音しています。

音声の可視化と言えばスペクトログラムがスタンダードな手法ですが、話者比較するには不向きだったので、F0スペクトルマップというグラフを考案しました。スペクトログラムを知っている前提で原理を説明するので、スペクトログラムをよく知らない方はこちら (wikipedia)をご覧ください。 F0スペクトルマップのざっくりとした原理は以下の図になります。時間軸からF0を基準に並び替えることでグラフがスッキリとし比較が容易になります。