はじめに
初音ミクはクリプトン・フューチャー・メディア株式会社のキャラクターです。
今回は、とあるきっかけで初音ミクなどの合成音声の音声を解析したらいろいろと面白かったので共有したいと思います。
解析
解析にはPythonのライブラリであるNumPyやMatplotlib、SciPyを使用しました。
また、Google Colabの環境を利用しました。
(プログラムについては諸事情により非公開とさせていただきます。)
音声データ
今回は、自身が所持している初音ミク V4Xの音声ライブラリを用いました。
また、VoiSonaの知声を用いました。
音声データはWAV形式で用意しました。
お互いの合成音声で音程C4、歌詞「あ」、一拍?、テンポ120の音声データを利用しました。
VOCALOID6 Editorでのスクリーンショットを貼り付けておくのでそれで伝わってほしい()

用意した音声データの種類は3種類で、初音ミクOriginal・Solidと知声です。
それぞれの音声データがこちら
初音ミクV4X Original
初音ミクV4X Solid
知声(This-A)
解析結果
波形
まずは音声データの波形を見てみます。

(左から初音ミクOriginal、Solid、知声)
結構違いがありますね。
周波数スペクトル
次にフーリエ変換を行い、周波数スペクトルを見てみます。

初音ミクOriginalとSolidは似ていますが、知声はかなり異なる形状をしています。
知声は2000Hz付近のピークがないですね。
また、3000Hz付近以降のちょっとしたピークがありません。
ここら辺が初音ミク特有のものっぽいですね。
初音ミク同士で見ると、Solidは500Hz付近のピークが弱いです。
逆に1500Hz付近のピークがSolidは強いですね。
面白い。
短時間フーリエ解析
次は短時間フーリエ解析です。

(左から初音ミクOriginal、Solid、知声)
こちらもかなりの差があります。
初音ミクでも結構差が出ますね。
ただ、初音ミクと知声では1500Hz付近が大きく異なりますね。
知声は1000Hz付近のみです。
実際音声データを聞いて少し近いと感じるSolidと知声で1000Hz付近が似ているのは直感に近いですね。
スペクトル包絡
最後にスペクトル包絡を見てみます。

結構な差がありますね。
なにやら、この結果から声質がわかるようで、グラフが
- 鋭い → 倍音が強調 → 明るい声
- なだらか → 倍音が抑制 → 柔らかい声
という関係があるそうです。
実際知声は丸みのある声だと私は感じましたので、解析結果に同意できます。
初音ミクは実際元気な印象がありますね。
Solidという英単語は「個体」とか「固い」とかの意味もありますが、「安定」という意味もあるらしいです。
実際に波形を見ると一番丸みのあるグラフになっており、柔らかい声質であることがわかります。落ち着いた声ってコトでしょうか。
実際声を聴いた時の印象はとがりのある...で表現があっているかわかりませんが、そんな声質だなと感じましたので、この結果は意外です。解析ミスしてないよね...?
まぁ多分私の声の感じ方だと思います。実際歌ってもらったら印象が変わる気がしなくもない。
おわりに
ということで、今回は合成音声3種類の音声データを解析してみました。
声って奥深いですね。おもしろい。
プログラムを貼れないのが申し訳ないですが、許してください!
それでは。