日本MSのりんな、話声合成と歌声合成の両方で感情スタイルに対応したらしい。
あんま喋らないけどこれが話声のデモ
【バーチャルリアリティ 碓氷峠廃線ウォーク】 「AIりんな車掌チャレンジ」Chapter one【VR】
こっちは歌声のデモ
AIりんな / 音楽性 × 感情「snow, forest, clock」歌唱 DEMO | 日本マイクロソフト
りんな
りんなといえば、歌うま選手権の歌うまいJKみたいな歌い方をするAI。今回は感情スタイルに対応して、「嬉しそうにしゃべる/ニュートラルにしゃべる/悲しそうにしゃべる」ことができるようになった。
歌声合成のほうでは「ロック×喜び」というように、歌唱スタイル×感情スタイルができるようになっている。話声の感情スタイルは「むしろまだだったの?」って感じだが、歌声合成の感情スタイルは結構新しいかも。
話声合成の方
話声合成の出来は、上のデモ動画より、発表文に貼り付けてある音声で聞いたほうがわかりやすい。
マイクロソフト AI「りんな」が音声合成に新たに「感情スタイル」を導入、話し声だけではなく歌声にも感情表現を実現 - News Center Japan
AI「りんな」は、ディープラーニング技術の改良により、話し声と歌声に新たに「感情スタイル」を導入しました。AI「りんな」は、ディープラーニング技術の改良により、話し声と歌声に新たに「感情スタイル」を導入しました。
ニュートラルはまぁ、普通にりんなっぽい声。若干舌が短いカンジ。イントネーション大丈夫か?
喜びは、ニュートラルとそんなに差はないけど、確かに語尾に喜び感が出ている。はっちゃけたりはしていなくて、「元気」とはまた違う。
哀しみは、哀しみというよりは落胆に近い感じがする。音程が下がっているけど声の芯は弱ってないので、聞く人によっては「怒り」に近くも聞こえそう。
「ナレーションであるという前提で少し嬉しそうにしたり悲しそうにしたりしている」くらいの表現。
歌声合成の方
歌声合成のほうは、主に声のハリと音程の安定感が変わっている印象。
ニュートラルはさておき、喜びは声が明るくなって若干強く、ピッチのふるえはあまりない印象。自信を持って歌ってるなという感じ。
哀しみは、声は抑え気味に息成分多く、ピッチがちょっと不安定になる(気がする)。でも歌い方自体は他と変わらず我が強い。
ところで、りんなってこんなに男声ロックシンガーみたいに歌う人だったっけ? って思った。
感情付き歌声合成、コントロールが効けば便利そう(普通に声の明るさパラメーターが欲しい)