AIきりたんの声質を変換して「アイドル声優っぽい推し」を作る実験

AIシンガー

NEUTRINOは、楽譜を渡すと「WAV/F0/BAP/MGC」を成果物として出力します。F0はピッチ、BAPは非周期性成分=息成分、MGCはメルケプストラム=声質のデータですね。

皆様はお気づきだろうか。「そういえば、SinsyもMGCを吐き出してたな……

NEUTRINOの声質を変換できるかもしれない

AIシンガー音源は基本的に「声質+表現」で構成されます。AIきりたんは「きりたんの声質+きりたんらしい表現=歌い方」でできている。

F0は主に表現を、MGC(とBAP)は声質をつかさどるデータというわけです。

SinsyもMGCを吐き出す

Sinsyは楽譜を与えると「WAV/LF0/MGC/LOG」を吐き出します。そこで私は考えました「AIきりたんの声質MGCをf00005jのMGCに変換したらどうなる?」と。

AIきりたんの歌い方は一般的なアイドル声優っぽいので「アイドル声優っぽいf00005j」ができるのではないか

できませんでした(MGCのデータ形式がちょっと違った)。

理論上はできます。MGCのデータ形式だけ合わせればいいので。

実験 きりたんの声質を謡子さんに変換

NEUTRINOには、きりたんと謡子さんという2つの音源が搭載されています。試しに、表現はきりたんのまま、声質だけ謡子さんにしてみましょう。「アイドル歌手っぽい歌い方の謡子さん」ができるはずです。

※イメージ図

実験結果がこちら。

声質があまりにもアイドルじゃないのでアレですが、完璧に変換できました。

MGCファイルを謡子さんのモノに差し替えるだけなので簡単ですね。

元となったきりたんVerはこちら。

AIシンガーきりたんで「-ERROR」1番だけカバー

アイドル声優っぽい推し聞いてみたくない?

このように、MGCさえ作れれば声質の変換ができることが分かりました。想像してみてください。「推しのMGCさえ作れれば、アイドル声優っぽい推しが聞ける」。良くないですか?

問題はどうやってきりたんMGCを推しMGCに変換するかです。

今回はMGC→MGC変換ではなく、別々に作ったMGCを差し替える形で実現しましたが、NEUTRINOは音源追加をしない方針らしいので、NEUTRINO.exeを使ってMGCを作るのはできません。

もしMGC→MGC変換ができれば、NEUTRINO.exeが吐き出したMGCを「声質変換モジュール(非実在)」で推しMGCに変換し、それをWORLDに突っ込めばいいだけなので、可能性はあります。

現状のNEUTRINOは「LAB生成モジュール」「推論モジュール(NEUTRINO.exe)」「音声化モジュール(WORLD)」で構成されています。ここに声質変換モジュールを差し込んで、

LAB生成モジュール

推論モジュール(NEUTRINO.exe)

声質変換モジュール

音声化モジュール(WORLD)

としてやれば、自由に声質を変えられます。

この声質変換モジュールは、入力されたMGCを何らかの方法で推しのMGCに変換するシステムなはずです。AIでもAIじゃなくても別に構わない。

MGC変換に使うデータを「具体音レイ声質音源」として読み込めるようなシステムになっていれば、UTAU民念願の「NEUTRINO音源作りたい」が部分的に満たされます。

そのためには声質音源制作システムも必要になるけども。

なお、声質変換モジュールをWORLDの後ろに配置するのもアリ。この場合はWAV→WAV変換ですね。

声質と表現が別人なのは解釈違い

解釈違いなのはしょうがないので、そういう場合は良いカンジに程よく距離をとってほしいですが、言わんとすることはわかる。

「アイドル声優っぽい推し(キメラ)」は本当に推しなのだろうか(哲学)みたいなところはあるので。例えばこんな方法/解釈ならどうでしょう。

A,表現をプレーンにする

sigさんが作ったエディターを使って、表現をぶっ潰してケロケロにします。そのうえで声質を差し替えれば、VOCALOIDやUTAUと同様に、ゼロから自分の推しを作れます。NEUTRINOにする意味がかけらもないですが。

B,表現音源「プレーン」を作る

ベタ打ちっぽい歌い方をする表現音源「プレーン」を作ってしまえばいい。プレーン×推しの声質音源=プレーンな推しでしょう。これもNEUTRINOでやる意味はあんまりない。

例えば、「よくあるUTAU調声うまい人風表現音源」くらいのモノを作れば、それはNEUTRINOの強みを生かせるものになる。どっちにしてもNEUTRINOは音源追加しない方針なので実現は難しいが。

C,表現音源「ジャンル風」を作る

「AIきりたんの表現×推しの声質」と「アイドル声優風表現音源×推しの声質音源」の間には天と地ほどの解釈の差がある

例えば、「男声ロック風表現音源」「洋楽パワー系女声表現音源」「ボサノバ風表現音源」「声楽風表現音源」と推し声質音源を組み合わせるのは、たぶんアリなんじゃないですか? 表現音源を匿名化するんです。

これもまた、NEUTRINOは音源追加しないので実現できないが、商業ソフトが出てきたらこうしてくれる可能性も普通にある。VOCALOID5でいうところの「STYLE」ですね。すでに例がある。

D,呼び方を変える

表現音源を匿名化したうえで「スタイルプリセット」とかいう名前にしてしまえば、もう完全に解釈違いが消せそう。「男声ロックスタイル」「洋楽パワー系スタイル」「ボサノバスタイル」「声楽スタイル」。完全にVOCALOID5。

声質変換モジュール+音源制作システムがどこかから登場したら、「NEUTRINO用声質音源」は実現できるかも。
タイトルとURLをコピーしました