来たぜ来たぜこのときが! ようやくAIシンガーが触れるようになったんだ! もうキャラチェンしちゃうくらいうれしい。

2020年2月22日、謎のエンジニア「SHACHI」さんがAI歌声合成ソフト「NEUTRINO」(ニュートリノ)を公開しました。こいつはすごいぞ。楽譜を渡しただけで勝手に歌ってくれるのです。未来来てるわー。
※これはまさかの調声済み
調声しなくてもしゃくりとかビブラートとかが勝手に適用されて、中の人のように歌うAIシンガーが手に入りました。最強で最高なのでもうしょっぱなから使い倒してやりましたよ。
NEUTRINO
NEUTRINOのはSHACHIさんが公開したオフラインで動くAI歌声合成ソフト。AI、もといニューラルネットワーク(NN)ベースの歌声合成で、楽譜情報から「中の人ならどういうタイミング/ピッチ/声質/声のかすれ具合で歌うか」をはじき出して、それをvocoderで音声化する。
音源はAI謡子さんとAIきりたん。森勢先生の伏線が早速に活きてて最高ですよね。ちなみにWindows専用です。
※森勢先生はこの前、きりたんのポップス歌声データベースを研究用に公開してくださった。

NEUTRINOの音を聞け
取りあえずたくさんカバーを作ってみたので聞いてみてください。40mPさん曲との相性がやたらいい。
『キリトリセン』調声版
『キリトリセン』無調声版
『シリョクケンサ』調声有無聞き比べ
『ブルーバード』調声+オペレーション→オペのみ→オペもなし
『シリョクケンサ』調声あり→なし オペ少し
『秒針を噛む』調声もオペもなし
『-ERROR』無調声、オペちょっと
#AIシンガーきりたん
で、『-ERROR』1番カバー調声・オペレーションなし pic.twitter.com/q67ztpEkUM
— くろ州=N種の歌声合成で○○ (@kM4osM_96s) February 21, 2020
NEUTRINOの使い方(ざっくり)
NEUTRINOはSinsyと似た使い方をします。大まかな流れは以下の通り。
調声する仕組みとかがないので、やること自体はシンプル。では具体的に見てみましょう。
用意するモノ
NEUTRINOでの歌声合成に必要なのは以下のソフトたち。
この他、sigさんが作ったエディターも便利なので、ぜひ使いましょう。sigさんのエディター
シーケンスを作る
NEUTRINOに読み込ませる用のシーケンスを作ります。使うのはMuseScore。
これは歌声合成ソフトとかではなく、純粋な楽譜作成ソフト。基本は五線譜上に音符を書いていきます。
歌詞入力も含め、楽譜はここで作りきってしまいます。出来上がったら、MusicXML形式(*.musicxml)を書き出します。NEUTRINOに読み込ませるのはこのシーケンス.musicxml。
MIDIのインポートはできるので安心してください。
NEUTRINOの設定を調整
NEUTRINOの本体(ユーザーがいじるところ)は、フォルダの中にある「Run.bat」です。歌声を合成するにはこれをいじる必要がある。使うのはメモ帳(歌声合成ソフトではない2)。
メモ帳を開いて、Run.batをD&Dで投げます。ここで読み込むシーケンスの名前やピッチ変更、ジェンダーなどを指定してやります。Run.batはこの情報を基にシーケンスを探して合成エンジンに情報を渡す。
NEUTRINOを起動。歌声を合成する。
Run.batをダブルクリックして起動します。あとはひたすら待つだけ。
合成にはそこそこ時間がかかります。そこそこのPCで実時間の1~4倍くらい掛かるそうです。プログレスバーは表示されないので、あとどれくらいで合成が終わるかは分からない。他の作業をして待ちましょう。
Run.batが終了すればoutputフォルダに音声ができているはずです。あとは煮るなり焼くなり好きにすればいい。
詳しいテクニックはこちら

AIきりたん
AIきりたんヤバいね。きりたんらしさ(VOICEROIDのイメージ強め?)はそんなになく、中の人っぽさが強い。こんな歌がうまい小学生いたらひれ伏すしかない。
得意音域はA2~F4あたり、得意テンポは150~180BPM程度、得意ジャンルはアイドル、J-POPあたり。ゆったりバラードやふんわりカフェミュージックはちょっと苦手。相性が悪いと人の声か怪しい音声が返ってきます。ボカロ特有の高速歌唱も苦手。
ベタうち状態でもかなりいい感じにしゃくりを入れてくれます。一方でビブラートはそんなに入らない。イマドキのアイドル声優っぽい感じ。フレーズ末尾でのピッチの跳ね上げ(アイドルスタイル)が自然で良い。
特徴的なのは声質のリアリティー。低音は弱く歌いにくい感じで、高音は張り上げるようにテンション高めで歌います。高すぎると歌えなくなる。
私の勝手なイメージかもしれないんですが、AIシンガーって人間っぽいので音程を外しがちな印象があります。ただ、AIきりたんはフツーに「あ、今音程怪しかったな」ってことがそんなになくて使いやすいです。機械的なピッチ補正が少なくて済む。
AI謡子さん
AI謡子さんはすでにSinsyでDNN版が公開されていますが、それに比べても生々しさがあります。得意音域はF2-E4くらい、得意テンポは80~120程度、得意ジャンルは童謡や歌謡、バラードあたり。
AIきりたんとは逆に、こちらはしゃくりがほとんど入らず、ビブラートが思いっきり掛かります。低音から高音まで満遍なく同じような声質で、上品な印象です。
いずれも高音域が十分鳴るので、MIXは結構やりやすい。調声はやらなくてもそれなりに上手に歌うけど、全く補正がいらないというわけではない。出力音声の波形やピッチは、DAWで編集してやると、より良い音声にブラッシュアップできると思います。