AIボイチェン「SeirenVoice」に無茶振りしてみた(性能テスト)

ドワンゴからAIボイスチェンジャーが来ましたね。「SeirenVoice」。ニコ動ではそこそこ有名なヒホさんのお仕事。

高品質な音声変換ソフトウェア | Seiren Voice
Seiren Voiceは、AI技術を用いた高品質な音声変換ソフトウェアです。誰の声でも狙ったキャラクターの声に変換することができます。

比較的特殊なボイチェンなのでちょっと性能テストをしてみました。

SeirenVoice

ニューラルネットワークベースのボイスチェンジャー。「声質を加工して別の声にするタイプ」ではなく「声質を特定の誰かのものに差し替えるタイプ」です。見た目は子供な名探偵が持ってる蝶ネクタイみたいなボイスチェンジャー。プリセットは100人。

録音→音声認識して文字化→新規に音声合成&ピッチ補正

という流れでボイスチェンジする。これが特殊。音声→音声ではなく音声→文字→音声という風に媒介を挟んでやることで、結構自由に声質差し替えができる。

クオリティを上げるため、合成には時間がかかる。結論「タイムラグが数十秒あるコ〇ン君」みたいなもの。

無茶振り実験

基本の文章

基本的な文章はこのように上手に変換してくれる。

このくらいの音域だと、普通のボイチェンでは女声にしにくい。ピッチを1オクターブくらい上げないといけないので劣化してしまう。SeirenVoiceは元音声を加工しないのでピッチが低くても特に問題にならないんだと思う。

なお、男→女ボイチェンでは「どうしてもショタにしかなれない」という相性の悪い人がいる。SeirenVoiceは元の音声の声質とかどうでもいいのでそこら辺の相性は回避できる。

エッジボイス

音域が低すぎて母音がきしむ「エッジボイス」。これはちょっと苦手。品質が下がりがち。なお、全編エッジボイス(周波数100Hz以下)はさすがにほとんどボイチェンできない。

既存のボイスチェンジャーなら、品質は激低くても一応元の音声をそこそこ忠実に再現する。SeirenVoiceはいったん文字化してから再合成するので、基本的に文字化できないような音声は変換できない。特徴的。

無声音

ささやき声をインプットすると有声音で返してきます。これもいったん文字化してるから起こることだと思われる。

デスボイス

基本的には無声音を入力したときと似たような挙動。

特殊音素

これは当然無理。日本語の「た」はいけるが、過度に帯気音化した「tʰa」、グルジア語などで使われることがある歯茎放出音「t_>a」はもちろん無理。

ただ、まぁわりと遠すぎない感じにはなっている印象。

英語

英語できないですね。日本語で文字化しにくいので当然かと。おそらく、外国語の中でも向き不向きがあり、日本語と同じ開音節言語はいくらか変換可能閉音節言語はまず無理でしょう。

中国語

中国語も閉音節言語ですが、尾子音に出てくるのがほとんど鼻音と流音で、頭子音が二重子音になる場合も子音性Hi+Lowの組み合わせが多いため、あんまり閉音節言語っぽくない。

そのおかげで、SeirenVoiceでもそこそこ変換できる。中国語の特徴でもある声調はピッチコピーでそこそこ再現できます。

韓国語

韓国語も閉音節言語ですが、中国語とほぼ同様の理由であんまり閉音節言語っぽくない。よってSeirenVoiceでもそこそこ変換できる。

ボイパ

ボイパを入れると、まず文字化できないのでそもそも変換ボタンが押せません。なんとなく音声をカタカナにして打ち込んで変換すると↑のような音声ができます。無理は無理だが案外行ける。

歌声

ピッチは音源ごとに変化するが、全体的に原型は残っているので、ピッチ補正すれば普通に歌える。

ネイティブアメリカンフルートを入力すると、これもまた文字化できないため変換ボタンが押せません。テキトーに「ぽぽぽぽ」歌詞を打てば↑のような音声ができます。

文字化の過程を挟むことでかなり特徴的な挙動を示す。それが実験で結構明確に見られる。
タイトルとURLをコピーしました