なんか料理本のタイトルみたいになりましたが。この記事では、AI歌声合成ソフトNEUTRINOの調声をやってみて、開発者さんに聞いてみて分かった調声テクニックを書き連ねていこうかと思います。
フツーにGUIのある今までの歌声合成ソフトに慣れている皆さんには新鮮かもしれないですが、これが「AIシンガーの調声」というやつですよ。分かってるのと分かってないのとではかなり違いが出てくるぞ!
AIシンガー調声の基本的な考え方
AIシンガーの調声は基本的に「合成する前が勝負」だと考えましょう。一般的な歌声合成ソフトでは、ベタ打ちをした「後」にどうやって味付けしていくかを考えていきますが、AIシンガーの場合はシーケンスを作る段階で味付けをコントロールしていきます。
歌い方はエディターででも補正できますが、根本的に基本の出力音声がそこそこ上手じゃないと補正もしきれない。AIシンガーをうまく歌わせられるかは、楽譜上でいかに上手に指示を飛ばせるかにかかっているのです。そういう意味では、この場合の調声師は「Vocal Operator(オペレーター)」という感じ。
この記事では、NEUTRINOとsigさんが作ったエディターを使いながら、歌詞やタイミング、ピッチの編集方法を解説します。
sigさんのエディター
基本テク
AIシンガー調声の基本は「歌詞調声」です。ベタ打ちの状態から歌詞を書き換えて手っ取り早く大きな変化をつけよう。
母音脱落
「ぼくら」「あした」と歌わせたいときに、そこそこの割合で「bo k ra」「a sh ta」と歌ってほしいことありますよね? 真ん中の母音が抜け落ちている。
普通に[ぼ][く][ら]とか[あ][し][た]とか打ってもいいんですが、そうすると「bo ku ra」「a shi ta」と、はっきり母音を歌ってしまいます。
これを[ぼく’][ら]とか[あし’][た]と打ち込めば、「bo k ra」「a sh ta」としてくれるので、これだけでかなり「分かってる感」が出せます。リアリティー爆上げ。
ノート分割/母音分割
ロングトーンを[あ][あ]とか[あ][ー]と分割しては“いけません”。NEUTRINOの場合このように分割するとどっちにしてもはっきり言いなおしてくれちゃいます。「ああ~」ではなく「あ、あ~」になります。
分割によってしゃくりなどを演出するのは諦めましょう。勝手にしゃくってくれるのを待つか、書きだした後にピッチ編集で書くのが良いです。
二重母音
ノート分割/母音分割と代替同じなのですが、「あぃ」「おぅ」などの二重母音は普通に打ち込むと「あ、い」「お、う」と区切られてしまうことが多いです。
対処方法は「副母音のノートを十分に短くする」です。「たーいー」ではなく「たーーい」とするとか。どれぐらい短ければいいのかは、時と場合によるので運です。どんなに短くしてもならないかもしれない。
書き出した後の音声を、iZotope VocalSynth 2やVocalizerで加工したり、KotonoFaderでモーフィングしたりして対処する方法もあります。普通の歌声合成ソフトユーザーはやったことないと思うので高難易度。
ピッチ調声
いいカンジの楽譜が出来上がったら、sigさんのエディターに突っ込んで合成し、ピッチをいじりましょう。ピッチ調声に関しては、これまでの歌声合成と特に変わらないので、今まで通りやってください。
詳しい使い方は以下の記事で確認してください。

調声ガチャテク
AIシンガーの歌い方でどうも納得がいかない部分があれば、調声ガチャを引いてみましょう。楽譜やなんやをいじると、より歌い方が安定したり、不意にとても上手に歌うことがあります。
最近はあんまりガチャやらなくても普通にいいカンジに歌ってくれるようになりました。AIきりたんが苦手そうな曲を歌わせるときに、ガチャは役立ちます。
キー変更+ピッチ変更ガチャ
曲全体をnキー上げて打ち込み、NEUTRINOのピッチ変更機能でnキー分下げる「キー変ピッチ変ガチャ」が有効です。
CeVIOやSinsyでもやる「学習系歌声合成あるある」テクですね。上手に歌ってくれるところまで打ち込みの段階でキーを変えておき、後からピッチ変更で正しい音程に戻すテクニック。
←通常通り →2キー下げて打ち込んで、ピッチを2キー分上げて戻す
2キー下で打ち込んでピッチを2キー分上げるとかいうことを、いい音が出るまで繰り返します。ちなみに、出力音声をピッチ変更するのではないので、ここで音質の劣化は起きにくいです。
sigさんのエディターの実行ボタンの横にある⚙から、キーを一曲丸ごと変更することもできます。
音域ガチャ
NEUTRINOは、得意な音域(≒学習データの音域)以外を歌うのが少し苦手です。アップデートで大体の音域は歌えるようになりましたが、歌い方が安定しないこともあります。そういう場合もキー変ピッチ変で対応します。
まずは曲中の最高音/最低音が得意音域に入るようキーを変更して打ち込みます。合成時に変更した分ピッチで補正すれば、上手く歌えるようになるかもしれません。
強弱ガチャ
NEUTRINOには強弱をコントロールするパラメーターがないので、これもキー変ピッチ変ガチャで頑張ります。
AIきりたんの場合、低音は弱く、高音は強く歌う傾向があります。弱くしたければ低く打ち込んでピッチを上げる、強くしたければ高く打ち込んでピッチを下げるようにすると、強弱が演出できるかもしれません。
「っ」ガチャ
CeVIOやSinsyでは一般的に、「っ」を打ち込むと直後の子音が前に伸びます。NEUTRINOの場合は「っ」で子音が伸びることはあまりないんですが、それはそれとして発音が少し変化する可能性があります。
あまりやることはないですが、どうしても発音が直せない場合には、直したいノートかその直前に「っ」を歌詞として書き入れてやるとうまくいくかも。
拗音ガチャ
「ゃゅょぁぃぅぇぉ」などの拗音系の発音は、そもそも対応していなかったりします。学習データにない音は合成できないため。
この場合は、二重母音の作り方と似たやり方で対処できるかもしれません。AIきりたんは[にゃ]が歌えないんですが(なのでNyanyanyanyanyanyanya!が全く歌えない)、これを[に][あ]とか[に][や]と打ち込んで、[に]をできるだけ短くする方法が一つ。
もう一つはiZotope VocalSynth2やVocalizer、KotonoFaderを使う方法ですね。
無声化ガチャ
NEUTRINOでは、ごくまれに意図しない無声音化が起きる場合があります。これは「直前に休符があると起きやすい」ことが分かっています。最近のアップデートで、このエラーはまず起きなくなりました。
対処法は「直前の休符を消す」です。無声化しちゃったのがフレーズ中なら、直前の休符を純粋に埋めてしまえばOK。絶対にそこに小さい休みが欲しいという場合は、直前のノートにブレス記号を適用しましょう。ブレスの分空間が空きますが、休符はないので無声化が回避できます。
無声化しちゃったのがフレーズ頭なら、直前にダミーノート(歌詞が「っ」になっているノートなど。ノートはあっても音は出ない)を置きましょう。
Run.batテク
調声とは少し違いますが、NEUTRINO自体のうまい使い方を紹介します。
NEUTRINOの歌声合成処理には結構なリソースが必要になります。当たり前ですが。
他の作業ができないくらいPCが重くなっている場合でも、回避方法はあります。リソースを制限すればいいんです。
Run.batをメモ帳で開くと「NumThreads」というパラメーターがあるのが分かります。これは「CPUのスレッドを何個使うか」を示しています。デフォルトの値は3=3スレッド。
この数字を小さく書き換えると、合成にかかる時間は長くなりますが、処理を軽くできる。逆に余裕がある場合はNumThreadsを6にするなどして処理速度を速めてもいいでしょう。
NumThreadsの適切な数値はPCにより異なります。使っているPCのCPUの品番をネットで調べてスレッド数を把握してください。
MuseScoreテク
ここまでNEUTRINO側のテクを紹介してきたんですが、MuseScore側にもテクがあります。
既存シーケンスの活用テク
今まで作ったVSQXやUSTをNEUTRINOに取り込めれば楽ですよね。取り込み方はあります。
まず、シーケンスをVOCALOIDやUTAUで開いて、MIDIを書き出します。そして、書き出したMIDIをMuseScoreで読み込みます。
おそらく歌詞が文字化けしてると思うんですが、その場合は画面下の方にある「文字コード」で「Shift JIS」を選んで適用してやれば解消されるはずです。
歌詞が正しく直せたら、MusicXMLを書き出せばOK。だいぶ楽。
CeVIO民だけ使えるチートスキル
CeVIOの人は、CeVIOでシーケンスを打ち込んで、「書き出し」からMusicXMLを書き出しましょう。出来上がったシーケンス.xmlの拡張子を、シーケンス.musicxmlに書き換えるだけでNEUTRINOに取り込めるようになります。
いちいち拡張子を書き換えるのが面倒という場合は、Run.batのほうを書き換えます。
Run.bat内の「SUFFIX=musicxml」を「SUFFIX=xml」にしてやれば、CeVIOで書き出したXMLをマジでそのまま使えます。
好きなソフトでシーケンスを作って変換
五線譜で歌声合成用のシーケンスを作るのに慣れてる人とかいないと思うんですよね。いるとしたらLaLaSongヘビーユーザー。なので、基本的には自分が普段使っているソフトでシーケンスを作って、MuseScoreでMusicXMLに変換するのが楽なんじゃないかと思います。
ファイル名
ファイル名にはローマ字26字と数字だけ使いましょう。スペースや記号はダメ。ほかの文字も使えるかもしれないけど、エラー吐いたらめんどいので私はこうしてます。
タイミング調声テク
NEUTRINOではLABファイルをいじることで音素の長さや発音タイミングをコントロールできます。VOCALOIDでいうところのVEL、UTAUでいうところの子音速度、CeVIOでいうところのTMGですね。
これもまた基本的にsigさんのエディターでやるのが楽です。