NEUTRINOは、楽譜を渡すと「WAV/F0/BAP/MGC」を成果物として出力します。F0はピッチ、BAPは非周期性成分=息成分、MGCはメルケプストラム=声質のデータですね。
皆様はお気づきだろうか。「そういえば、SinsyもMGCを吐き出してたな……」
NEUTRINOの声質を変換できるかもしれない
AIシンガー音源は基本的に「声質+表現」で構成されます。AIきりたんは「きりたんの声質+きりたんらしい表現=歌い方」でできている。
F0は主に表現を、MGC(とBAP)は声質をつかさどるデータというわけです。
SinsyもMGCを吐き出す
Sinsyは楽譜を与えると「WAV/LF0/MGC/LOG」を吐き出します。そこで私は考えました「AIきりたんの声質MGCをf00005jのMGCに変換したらどうなる?」と。
AIきりたんの歌い方は一般的なアイドル声優っぽいので「アイドル声優っぽいf00005j」ができるのではないか。
できませんでした(MGCのデータ形式がちょっと違った)。
理論上はできます。MGCのデータ形式だけ合わせればいいので。
実験 きりたんの声質を謡子さんに変換
NEUTRINOには、きりたんと謡子さんという2つの音源が搭載されています。試しに、表現はきりたんのまま、声質だけ謡子さんにしてみましょう。「アイドル歌手っぽい歌い方の謡子さん」ができるはずです。
※イメージ図
実験結果がこちら。
できた。AIきりたんの“声質”を謡子さんに差し替え。 pic.twitter.com/ZU4PT3tWVV
— くろ州=N種の歌声合成で○○ (@kM4osM_96s) April 5, 2020
声質があまりにもアイドルじゃないのでアレですが、完璧に変換できました。
MGCファイルを謡子さんのモノに差し替えるだけなので簡単ですね。
元となったきりたんVerはこちら。
アイドル声優っぽい推し聞いてみたくない?
このように、MGCさえ作れれば声質の変換ができることが分かりました。想像してみてください。「推しのMGCさえ作れれば、アイドル声優っぽい推しが聞ける」。良くないですか?
問題はどうやってきりたんMGCを推しMGCに変換するかです。
今回はMGC→MGC変換ではなく、別々に作ったMGCを差し替える形で実現しましたが、NEUTRINOは音源追加をしない方針らしいので、NEUTRINO.exeを使ってMGCを作るのはできません。
もしMGC→MGC変換ができれば、NEUTRINO.exeが吐き出したMGCを「声質変換モジュール(非実在)」で推しMGCに変換し、それをWORLDに突っ込めばいいだけなので、可能性はあります。
現状のNEUTRINOは「LAB生成モジュール」「推論モジュール(NEUTRINO.exe)」「音声化モジュール(WORLD)」で構成されています。ここに声質変換モジュールを差し込んで、
としてやれば、自由に声質を変えられます。
この声質変換モジュールは、入力されたMGCを何らかの方法で推しのMGCに変換するシステムなはずです。AIでもAIじゃなくても別に構わない。
MGC変換に使うデータを「具体音レイ声質音源」として読み込めるようなシステムになっていれば、UTAU民念願の「NEUTRINO音源作りたい」が部分的に満たされます。
そのためには声質音源制作システムも必要になるけども。
なお、声質変換モジュールをWORLDの後ろに配置するのもアリ。この場合はWAV→WAV変換ですね。
声質と表現が別人なのは解釈違い
解釈違いなのはしょうがないので、そういう場合は良いカンジに程よく距離をとってほしいですが、言わんとすることはわかる。
「アイドル声優っぽい推し(キメラ)」は本当に推しなのだろうか(哲学)みたいなところはあるので。例えばこんな方法/解釈ならどうでしょう。
A,表現をプレーンにする
sigさんが作ったエディターを使って、表現をぶっ潰してケロケロにします。そのうえで声質を差し替えれば、VOCALOIDやUTAUと同様に、ゼロから自分の推しを作れます。NEUTRINOにする意味がかけらもないですが。
B,表現音源「プレーン」を作る
ベタ打ちっぽい歌い方をする表現音源「プレーン」を作ってしまえばいい。プレーン×推しの声質音源=プレーンな推しでしょう。これもNEUTRINOでやる意味はあんまりない。
例えば、「よくあるUTAU調声うまい人風表現音源」くらいのモノを作れば、それはNEUTRINOの強みを生かせるものになる。どっちにしてもNEUTRINOは音源追加しない方針なので実現は難しいが。
C,表現音源「ジャンル風」を作る
「AIきりたんの表現×推しの声質」と「アイドル声優風表現音源×推しの声質音源」の間には天と地ほどの解釈の差がある。
例えば、「男声ロック風表現音源」「洋楽パワー系女声表現音源」「ボサノバ風表現音源」「声楽風表現音源」と推し声質音源を組み合わせるのは、たぶんアリなんじゃないですか? 表現音源を匿名化するんです。
これもまた、NEUTRINOは音源追加しないので実現できないが、商業ソフトが出てきたらこうしてくれる可能性も普通にある。VOCALOID5でいうところの「STYLE」ですね。すでに例がある。
D,呼び方を変える
表現音源を匿名化したうえで「スタイルプリセット」とかいう名前にしてしまえば、もう完全に解釈違いが消せそう。「男声ロックスタイル」「洋楽パワー系スタイル」「ボサノバスタイル」「声楽スタイル」。完全にVOCALOID5。