中国マイクロソフトがこの前、AI歌声合成ソフト「X Studio」を出しました。いま一般人が触れるAI歌声合成ソフトの中では最も人間との見分けが難しいと思う(個人的な意見です)。
X Studio
中国MSが作ったAI歌声合成ソフト。楽譜を入力すれば勝手に人っぽく歌ってくれる。音源は女声3個、男声1個。
MSがクリエイティブ系のソフト出すってかなり珍しいよね。日本のりんなも音源化して出してほしい。
ちょっと前まで「StudioVoICE」という名前で事前リリースされてたのが、本リリースの時に改名した。
追加機能
基本的な機能なんかはすでに記事にまとめているのでそちらでチェック。StudioVoICE時代からの変更点は「タイミング調整機能」「ピッチ調整機能」が付いたこと。

タイミング調整機能「音素」では子音の長さとリリースの長さがコントロールできる。中国語はそんなに子音いじることないけども。
中国語には二重母音や三重母音があるので、リリースの長さをいじって母音のタイミングを適正化できる。
なお、このリリースの縦線は別に音素と音素の境界に置かれているわけではないので、これを楽譜的にぴったりの位置に設定してもあんまり意味ない。
ピッチ調整機能は、フリーハンドか制御点でのコントロールができます。
制御点を一通り打って適用する。これ結構よい。何がよいかというと制御点がシングルクリックで打てる。
制御点ってだいたいダブルクリックで打ったり、右クリックから適用したりする。手数が多いのだ。
逆に適用後は制御点を動かせない。打ち直すしかない。ちょっと考え方が違うんだな。
レビュー
音質は結構リアル。ただ、多分15kHzくらいまでしか出ない。ちゃんとユーザー登録すれば音質上がるのかも。
ベタ打ちした段階での歌唱力は「無表情」「中間」「表情豊か」の3段階評価なら「中間」。
たまにあんまり主張しないしゃくりが入る。ビブラートは入らない。ピッチをたまに外すのでとてもAIっぽい。
というか、なんかずっと1/3音くらい上にずれてる。なぜ?
さっきも出したこの画像。ピッチの中心がノートの上辺に張り付いている。これ中国の歌声合成ソフトMUTAとほぼ同じなんですよね。
MUTAは上辺に張り付いてるのが正解だったので、X Studioもそうなのかと思ったら、普通にチューニングがおかしいだけだった。曲との相性の問題かな……。
全部書き直せば正しくなるが、それだとAI歌声合成ソフトの意味がないので、書き出した後に一括でチューニングを少し下げる方向で考えたほうがよさそう。
もう一つ微妙なのが超絶重いというところですね。編集して再生ボタンを押すたびに10秒くらい合成待ちの時間がある。スムーズに編集するのがむずい。だって6回編集して6回再生したらすでに1分時間無駄にしてることになるわけだし。
1曲丸ごと1つのシーケンスにまとめると、再生するたびにめちゃくちゃ時間かかる。場合によっては合成しきれないこともあるので、基本1番までとかAメロだけとかで1つのシーケンスにして分けたほうがいい。
あと、RAMの喰い具合が半端ない。合成している間Chromeが動かなくなるくらい。
とはいえ、NEUTRINOを触っている人ならわかると思うが、これもかなりマシなほうなのだ。
NEUTRINOよりはスピーディーだし、ピッチを編集した後に楽譜の編集に戻れる。そもそも打ち込みも編集もGUIでできる。
いいとこ悪いとこあるのだ。