AIシンガーきりたん、NEUTRINO登場からの1年間を振り返る

その他歌声合成

AI歌声合成ソフト「NEUTRINO」とAIシンガーきりたんが登場して1年がたちました。その歌声を初めて聞いたときの感覚、皆さん覚えてますか? 私は覚えてません。

今日は1周年を記念して、ここまでの1年間を振り返ってみます。

NEUTRINO登場前夜

デモ音声公開

NEUTRINOは謎のエンジニアSHACHIさんが開発したAI歌声合成ソフトです。楽譜を入力すると人間っぽい歌声を出力するシンプルなシステムですね。

発端はこのツイート

SHACHIさんが、東北家の歌唱DBを使って作った合成音声をSoundcloudで公開しました。

びっくりしたねー。深層学習を使った合成音声自体はそれまでも出てたけど、これはクオリティも高いし、そもそもDB公開が11月なので1カ月もたってない。

私はこれを見て「欲しい」って思った。でもあんまり期待はしてなかった。それまでAI歌声合成ソフトはデモ音声が出ても一般人が使えるツールとしては出てきてくれてなかったから。

でも、出てきてくれたんだよね。

ほんとになんやて案件だった。

この知らせを受け取ってから、私はAIシンガーの予習を始めた。先手を打っていけ。

AIシンガーにも「調声テク」はある 考え方が違うだけ
今ある大体のソフトウェアシンガーは、そこそこ綺麗に歌わせるには「上手いこと歌わせるテクニック=調声」が必要になりますね? 対して、「楽譜を渡せば勝手に歌う=AIシンガー」はよく「調声しなくてもいい」といわれます。でも、実際に使ってみると「そ...
触らせてもらった

その後のツイートを頼りに、私はSHACHIさんに連絡を取り、なんやかんやいろいろあったあと(いうほどのことは特にないが)、テストプレイヤーのような形でNEUTRINOを触らせてもらえるようになりました。行動力バグってた。

NEUTRINOは、基本的にはバッチファイルが1個あるだけのごくごくシンプルなアプリケーションです。常日頃「どんな歌声合成ソフトも見た瞬間に使い方分かるもんね」とかイキり倒してたくろ州ですが、NEUTRINOは最初全然分からなかった。まともに使えるようになったのはさわり始めてから2日たった頃だった。説明書は読まないタイプ。

ここから22日のリリースまでは、ソフトの仕様と挙動を探るフェーズだった。手持ちのシーケンスを突っ込みまくっていろんな曲を歌わせ、きりたんの動作テストと癖を探っていました。

そうしてできたのがこれらの記事。

AIシンガーがとうとう我が手に……!! 新歌声合成ソフト「NEUTRINO」を使い倒した
来たぜ来たぜこのときが! ようやくAIシンガーが触れるようになったんだ! もうキャラチェンしちゃうくらいうれしい。 2020年2月22日、謎のエンジニア「SHACHI」さんがAI歌声合成ソフト「NEUTRINO」(ニュートリノ...
AIシンガー調声アイデア NEUTRINOで使えるテクニック
なんか料理本のタイトルみたいになりましたが。この記事では、AI歌声合成ソフトNEUTRINOの調声をやってみて、開発者さんに聞いてみて分かった調声テクニックを書き連ねていこうかと思います。 フツーにGUIのある今までの歌声合成...
AIシンガーは思ってたのと結構違った NEUTRINOを触って分かったこと
AIシンガーはこれまで「楽譜を渡せば調声しなくても勝手に人間らしく歌ってくれる」といわれてきた。これは確かに間違いではない。ただ、実際にAI歌声合成ソフト「NEUTRINO」を触ってみると「十分な説明ではない」と感じた。もっと丁寧に説明でき...

既存の素片接続系ソフトとは操作体系がそこそこ違うAI歌声合成の使い方記事をリリース当日のはやり始めの段階でちゃんと出せて良かった。Sinsy、CeVIOで培ったノウハウとAIシンガーの予習もちゃんと役に立った。

この頃には「フレーズの頭で無声化しやすいエラー」「3分34秒以上のシーケンスで後半が爆音になるエラー」も見つかりました。

選曲と調声

性能テストをしながら、特に頼まれてもないデモ動画の作成に取りかかりました(ソフトが出たら動画を出す習性があるから)。

「AIシンガーカバーの出来は選曲で7割決まる」という持論を展開している私ですが、キリトリセンは本当にそれで選びました。再生したらもう完成してた。「きり」たんの「キリ」トリセン要素は後付け。

無調声で出すべきか、調声して出すべきかしばらく悩んだ結果「きりたんを一番魅力的に見せたい」という方針で調声版を出しました。技術デモ動画としては、これまた再生した時点で完成してたブルーバードを採用。役割を二つに分けました。

キリトリセンは当時持ちうる技術を総動員して作っています。1曲作るのにメインボーカルだけで四つのシーケンスを作り、音素タイミングはWavesurfer、ピッチはWAVES TUNEなど外部ツールを駆使して調声しています。当時は本当に楽譜を入れたら音声が出てくるだけだったので、調声要素がなかったんですね。そんな些細なことはSinsyで鍛えられてるので何の問題もないんですけど。

動画はテキトー。

2月22日

NEUTRINOリリース

2月22日にNEUTRINOがリリースされました。ちょっとかもしれないけど、世界変わったね。

NEUTRINOは神前暁さんに見つかり、大石昌良さんにも届き、きりたんの中の人にも聞いてもらえ、メディアに取り上げられ、YouTuberに遊ばれ、有名ボカロPに使われ、あかりんご動画に使われまくった。大人気。もちろん批判的な意見もあったけどね。

非常に運が良かったのは、影響力のあるプロに見つかったこと、ネットミームと結び付いたことかもしれない。

神前さんのこの短い曲。今聞いてもマジの名曲。

この1年間でニコ動に投稿されたNEUTRINO動画は約6000本。1日当たり16本以上のペースですね。きりたんは5000本とかです。

再生数1位はカノんごのうた。キリトリセンは48.2万再生で3位です。あかりんご動画は500本くらいしかないのに、再生数のほとんどをかっさらって行きやがった。

SinsyやCeVIOをはじめ、自動でハイクオリティな音声が作れちゃう系のツールはネットミームと結び付きやすい(それで問題になったツールもある)ので、この現象はある程度予測できた。汚いミームと結び付かなくて良かった。

初期動画のお気に入りは、オリジナルだと「歌って見せますよ」「天国を食べた」「君の心臓だった」が好き。カバーだと「さくらんぼ」。

歌って見せますよ、はきりたんの素の力と魅力が発揮されている。天国を食べた、は霧島さんのカラーがちゃんと反映されていてクオリティが高い。君の心臓だったは、V5も使ったかなり自由で高度な調声技術が活用されているテクニカル曲。さくらんぼは選曲が正解過ぎる。

その後出てきたオリジナル曲も、再生数3桁でもやたらクオリティが高かったりして、曲探すのがなかなか大変です。

この頃の動画コメントでは「初音ミク登場以来の衝撃」みたいなコメントを散見した。私はミク登場のタイミングでは非オタショタだったので、当時の雰囲気は知らないんだけど、その感じを追体験できたんならそれはすごいことだと思う。

きりたんのデメリット

この頃のファインプレイは、きりたんの「音域が狭い」「早口が歌えない」「長いフレーズで出音が鈍る」というデメリットを、エモさに塗り替えられたことかなと思う。

当初のきりたんは、人間が歌える音域しか歌えないし、消失を歌わせるとカミカミになるし、長いフレーズは後半どんどんダメになっていく、結構扱いに困る子だった。

ただ、それが運良く「人間っぽかった」んですよね。得意音域を外れたり長いフレーズを歌わせたりすると、エラーになるとか音が出ないとかじゃなくて、苦しそうになってくれた。早口を歌わせると全然聞き取れないんじゃなくて、いかにも噛んでるようになってくれた。

このおかげで「ソフトなのに高すぎる音はいかにも苦しそう」「早口カミカミ」「息継ぎが必要な機械」というSFチックなエモさを演出できた。この辺が解消できると=人間っぽさが減ると、つまりは人間離れして行くんですね。便利さと人間っぽさのバランスが大事。

NEUTRINOの進化

デメリット解消

SHACHIさんのすごいところは開発力です。リリース予定を決めてそれに向けて開発できるし、スピードも速い。趣味の開発でそんなにする? ってレベル。

リリースから2週間で、無声化エラー、3:34爆音エラーを解消。音域は2倍になり、ロングトーンに若干強くなり、PCへの負荷が軽減し、LinuxとMacに対応した。なんて?

そうそう。当初のNEUTRINOは、デフォルトの設定が「CPUを100%使う」になってたので、使った人は「合成してる間は他の作業ができない」ってビビってたっけ。その後、仕様スレッド数のデフォが3になった。

NEUTRINO調声支援ツール

NEUTRINOが歌声合成ソフトとして一気に強くなったのは、3月の「NEUTRINO調声支援ツール」登場が最も大きいだろう。sigさんのおかげで、それまで楽譜を入れたら音声が戻ってくるだけのシンプル構成だったNEUTRINOが、タイミングもピッチも音量も操作できるツールに進化した。

このツール、ピッチの手描き、ビブラート、ケロケロ、スムージング、シフトもできる最強ソフトなんです。しかもデザインセンスがいい。

このツールの登場で、NEUTRINOはCeVIOに近い操作性を手に入れました。本格的に使えるソフトになったわけですね。

この他にも、いろんな人がNEUTRINO用GUIや周辺ツールを作ってくれるようになってNEUTRINOの愛され具合がよく分かる。

AIシンガーイタコ

その後も、より人間っぽい歌声を合成できるNSFへの対応、高速化、高音質化、機能追加をしてきた。

そんな中で始まったのが、東北イタコの歌唱DBを作るクラウドファンディングです。目標金額は600万円。約27時間であっさり達成しました。

DB制作にはSHACHIさんも参加していて、DBを使って作ったAIシンガーイタコは9月18日にリリースしました。私はまた性能テストをしつつカバー曲を作った。選曲はやっぱりベタ打ちで聞けることを重視。動画では一人はぶられたままのずん子が一番魅力的に見えるようにしてます。「ずんコーラス好き」「ご機嫌ずん子さんかわいい」みたいなコメントがあって良かった。

これは余談で、どうでもいいことなんですけど、私18日に出したあのAIシンガーイタコ動画3本で7万円くらいとかしてるんですよ。超力入れた。イラストとオケを外注したのだ。

イタコさんは、きりたんに比べて早口にもロングトーンにも強いおねぇさんになってます。

オリジナル音源制作へ

それまで、研究機関が出していたDBを使って音源を作っていたNEUTRINOですが、10月にはオリジナル音源を作ると宣言しました。SHACHIさんが自由に作るDBで自由に作った音源ができるわけです。

出来上がったのが「めろう」です。12月25日にリリースされました。

コンセプトはそこら辺にいそうな声とのことですが、早見沙織さんみたいな声の人、そこら辺にいるのかしら?

この選曲は、声を聞いた瞬間に決まったし、歌わせてみてもやっぱり合ってた。きりたんやイタコに比べると歌声に安定感がないんですが、まだアルファ版で学習データ量が少ないので、これからどんどん進化していきます。

こっちはアカペラやコーラスとの相性がいいので、そういう動画を巡ってみるのがおすすめ。すげぇよ。

NEUTRINOずん子制作CF

そして2021年1月、とうとうずん子もNEUTRINO化に向けたクラウドファンディングを始めました。良かったね。これもまたすぐに決まりました。良かったね。

これから制作が始まって、またそのうち出るんでしょう。楽しみ。

CeVIO AIとSynthV AI

NEUTRINO登場から1年間で、市販のAI歌声合成ソフトが一気に増えました。CeVIO AIは発表されたと思ったらもう音源10個くらい作ることになってるし、SynthV AIもクラウドファンディングで音源化キャラがずんずん増えている。まさにビッグウェーブ。

AI歌声合成ソフト自体は、AISingersやX Studioなど中国でも見られるし、個人制作ならNNSVSもある。今後もAI歌声合成はどんどん増えるんでしょう。

AIが最強って訳でも別にないので、VOCALOID含め素片接続系のソフトたちもどんどん攻めていってほしいですね。

NEUTRINOの2年目

NEUTRINOは今日から2年目になりました。今年は去年ほどの大きな動きはないかもしれないけど、取りあえずずん子は出るし、3月には初の男声音源も出ます。男声の方も触らせてもらってますが、超楽しいよ。グロウルさせてみたりして遊んでます。

願わくば、NEUTRINO単体で操作性・制御性を押し上げていただいてって感じですかね。実はまだバージョン0.422で、1.0には達していないNEUTRINO。まだ本気出してないかもしれないし、期待して過ぎることはないと思います。

今後も楽しいNEUTRINOライフを送りください。

タイトルとURLをコピーしました