ドワンゴからAIボイスチェンジャーが来ましたね。「SeirenVoice」。ニコ動ではそこそこ有名なヒホさんのお仕事。
比較的特殊なボイチェンなのでちょっと性能テストをしてみました。
SeirenVoice
ニューラルネットワークベースのボイスチェンジャー。「声質を加工して別の声にするタイプ」ではなく「声質を特定の誰かのものに差し替えるタイプ」です。見た目は子供な名探偵が持ってる蝶ネクタイみたいなボイスチェンジャー。プリセットは100人。
という流れでボイスチェンジする。これが特殊。音声→音声ではなく音声→文字→音声という風に媒介を挟んでやることで、結構自由に声質差し替えができる。
クオリティを上げるため、合成には時間がかかる。結論「タイムラグが数十秒あるコ〇ン君」みたいなもの。
無茶振り実験
基本の文章
「セイレーンボイスは低い男声から女性への変換も上手できます」 pic.twitter.com/bVMZKjUTmt
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 15, 2020
基本的な文章はこのように上手に変換してくれる。
このくらいの音域だと、普通のボイチェンでは女声にしにくい。ピッチを1オクターブくらい上げないといけないので劣化してしまう。SeirenVoiceは元音声を加工しないのでピッチが低くても特に問題にならないんだと思う。
なお、男→女ボイチェンでは「どうしてもショタにしかなれない」という相性の悪い人がいる。SeirenVoiceは元の音声の声質とかどうでもいいのでそこら辺の相性は回避できる。
エッジボイス
音域が低すぎて母音がきしむ「エッジボイス」。これはちょっと苦手。品質が下がりがち。なお、全編エッジボイス(周波数100Hz以下)はさすがにほとんどボイチェンできない。
セイレーンボイスに全編エッジボイスな音声を入力するとこうなる。
めっちゃ苦しそう。「苦しそうな演技」をしてる感じはすごく伝わってくる。 pic.twitter.com/ktPT5xnB8C
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 15, 2020
既存のボイスチェンジャーなら、品質は激低くても一応元の音声をそこそこ忠実に再現する。SeirenVoiceはいったん文字化してから再合成するので、基本的に文字化できないような音声は変換できない。特徴的。
無声音
セイレーンボイスに完全なささやき声(全編無声音)を入れるとこうなる。
無理やり有声音を作りだすっぽい。 pic.twitter.com/dOHt3bhV4I
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 15, 2020
ささやき声をインプットすると有声音で返してきます。これもいったん文字化してるから起こることだと思われる。
デスボイス
セイレーンボイスにデスボイスを入れるとこうなる。
※これをデスボイスと呼ぶかどうかは知らない pic.twitter.com/KD7tmPp3Js
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 15, 2020
基本的には無声音を入力したときと似たような挙動。
特殊音素
セイレーンボイスに
特殊音素「t_>a(放出音)」
帯気音化した「た」
普通の「た」を入れるとこうなる。
さすがに無理。※[a][t_>a][tʰa][ta]の順 pic.twitter.com/4ik3Pt3AWy
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 15, 2020
これは当然無理。日本語の「た」はいけるが、過度に帯気音化した「tʰa」、グルジア語などで使われることがある歯茎放出音「t_>a」はもちろん無理。
ただ、まぁわりと遠すぎない感じにはなっている印象。
英語
セイレーンボイスに英語を入れるとこうなる(発音の出来は見逃して)
めっちゃてんぱる。 pic.twitter.com/kHsahvc779
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 15, 2020
英語できないですね。日本語で文字化しにくいので当然かと。おそらく、外国語の中でも向き不向きがあり、日本語と同じ開音節言語はいくらか変換可能。閉音節言語はまず無理でしょう。
中国語
セイレーンボイスに中国語を入れるとこうなる(あってる?)。
声調はピッチである程度反映できるっぽい。 pic.twitter.com/If7BzJs1Bc
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 15, 2020
中国語も閉音節言語ですが、尾子音に出てくるのがほとんど鼻音と流音で、頭子音が二重子音になる場合も子音性Hi+Lowの組み合わせが多いため、あんまり閉音節言語っぽくない。
そのおかげで、SeirenVoiceでもそこそこ変換できる。中国語の特徴でもある声調はピッチコピーでそこそこ再現できます。
韓国語
セイレーンボイスに韓国語を入れるとこうなる(イムニダ言えない。イントネーションは知らない)
イムニダが「梅田」になった。 pic.twitter.com/IX202DgBfA
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 15, 2020
韓国語も閉音節言語ですが、中国語とほぼ同様の理由であんまり閉音節言語っぽくない。よってSeirenVoiceでもそこそこ変換できる。
ボイパ
ボイスチェンジャーに簡易ボイパ pic.twitter.com/maR4OpHrPI
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 25, 2020
ボイパを入れると、まず文字化できないのでそもそも変換ボタンが押せません。なんとなく音声をカタカナにして打ち込んで変換すると↑のような音声ができます。無理は無理だが案外行ける。
歌声
ボイスチェンジャーに歌声 pic.twitter.com/KYkJsa2sba
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 25, 2020
ピッチは音源ごとに変化するが、全体的に原型は残っているので、ピッチ補正すれば普通に歌える。
笛
ボイスチェンジャーにラブフルート pic.twitter.com/LA7d6mxKm5
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) September 25, 2020
ネイティブアメリカンフルートを入力すると、これもまた文字化できないため変換ボタンが押せません。テキトーに「ぽぽぽぽ」歌詞を打てば↑のような音声ができます。