Sinsy謡子さんのHMM版とDNN版を比較

AIシンガー

ブラウザで動く学習系歌声合成「Sinsy」は基本HMMをベースにしています。が、2016年末にはDNNベースの音源「f001j_dnn_beta(謡子)」が追加されました。

2018年にはアップデートされて「f00001j_dnn_beta2(謡子)」になりました。今更ですが、HMM版謡子さんとDNN版謡子さんをちょっと比べてみましょう

比べてみよう

検証条件

同じ曲を同じシーケンス、同じMIXで聞き比べてみます。課題曲は羽生まゐごさんの「ハレハレヤ」です。

ハレハレヤ / flower
ハレハレヤ / flower どうも羽生まゐごです。■Music : mylist/53720459■Music : 羽生まゐご (@maigo_hanyuu)■Illustratio...

シーケンスはCeVIOで作りました。母音脱落やスラー、ブレスなどもフル活用しています。

HMMバージョン

まずは聞いてみましょう。

謡子さんは基本的に民謡や童謡が得意なシンガー。細かいノートよりは長いノートで構成された曲のほうが相性がいいです。

「ー」ノートとの相性はあまりよくないです。スラーを適用しても滑らかにはつながりません。

特徴的なのはビブラートです。深めのビブラートではありますが、ロングトーンの真ん中あたりだけに現れます。ノートの始めと終わりにはビブラートがかからず、結構特徴的。

DNNバージョン

全く同じシーケンス、MIXです。HMMと比べると、声の安定感が若干落ちます。ピッチを外すことが多くなる。

注目すべきはビブラートと子音のピッチです。HMM版謡子さんのビブラートはノートの真ん中あたりにしか出ませんが、DNN版はノートの末尾までしっかりビブラートがかかります。自然な感じ。

子音のピッチは「あぁ、これはDNNだ」という感じ。CeVIOやSinsyは子音で若干ピッチが下がります。普通の人間も同じようなピッチ推移になるので自然に聞こえるいいポイントです。

DNN版謡子さんは、HMM版謡子さんよりも盛大に子音でえぐります。このピッチカーブどこかで見たなーとか思ったんですが、テクノスピーチさんのAIシンガーも似たようなピッチカーブを描いていました。DNN歌声合成の特徴というか「ぽさ」はここに現れると思う。

安定感のHMM、ナチュラルなDNN

コメント

タイトルとURLをコピーしました