ブラウザで動く学習系歌声合成「Sinsy」は基本HMMをベースにしています。が、2016年末にはDNNベースの音源「f001j_dnn_beta(謡子)」が追加されました。
2018年にはアップデートされて「f00001j_dnn_beta2(謡子)」になりました。今更ですが、HMM版謡子さんとDNN版謡子さんをちょっと比べてみましょう。
比べてみよう
検証条件
同じ曲を同じシーケンス、同じMIXで聞き比べてみます。課題曲は羽生まゐごさんの「ハレハレヤ」です。
シーケンスはCeVIOで作りました。母音脱落やスラー、ブレスなどもフル活用しています。
HMMバージョン
まずは聞いてみましょう。
ちなみにHMM謡子さん。
ビブラートが全然違う。
DNNは子音前後でピッチが大きくえぐりこむ。この辺がわかりやすい。 pic.twitter.com/7A4gWo7GhC— くろ州=N種の歌声合成で○○ (@kM4osM_96s) October 27, 2019
謡子さんは基本的に民謡や童謡が得意なシンガー。細かいノートよりは長いノートで構成された曲のほうが相性がいいです。
「ー」ノートとの相性はあまりよくないです。スラーを適用しても滑らかにはつながりません。
特徴的なのはビブラートです。深めのビブラートではありますが、ロングトーンの真ん中あたりだけに現れます。ノートの始めと終わりにはビブラートがかからず、結構特徴的。
DNNバージョン
DNN謡子さんで「ハレハレヤ」ちょっとカバー
無調声 pic.twitter.com/iuLNlooNE1
— くろ州=N種の歌声合成で○○ (@kM4osM_96s) October 27, 2019
全く同じシーケンス、MIXです。HMMと比べると、声の安定感が若干落ちます。ピッチを外すことが多くなる。
注目すべきはビブラートと子音のピッチです。HMM版謡子さんのビブラートはノートの真ん中あたりにしか出ませんが、DNN版はノートの末尾までしっかりビブラートがかかります。自然な感じ。
子音のピッチは「あぁ、これはDNNだ」という感じ。CeVIOやSinsyは子音で若干ピッチが下がります。普通の人間も同じようなピッチ推移になるので自然に聞こえるいいポイントです。
DNN版謡子さんは、HMM版謡子さんよりも盛大に子音でえぐります。このピッチカーブどこかで見たなーとか思ったんですが、テクノスピーチさんのAIシンガーも似たようなピッチカーブを描いていました。DNN歌声合成の特徴というか「ぽさ」はここに現れると思う。