AIシンガーはこれまで「楽譜を渡せば調声しなくても勝手に人間らしく歌ってくれる」といわれてきた。これは確かに間違いではない。ただ、実際にAI歌声合成ソフト「NEUTRINO」を触ってみると「十分な説明ではない」と感じた。もっと丁寧に説明できる。
調声が好きで歌声合成やっている人も、調声が苦手でAIシンガーに期待している人もちょっと聞いてほしい。
「AIシンガーは無調声で人間らしく歌う」
私の言う「AIシンガー」とは、「AI技術を使って“中の人”をエミュレートし、楽譜を渡せば勝手に歌ってくれる歌声合成システム」のことです。
例えば、日本マイクロソフトの「りんな」や、ヤマハの「VOCALOID:AI(AI美空ひばり)」、HOYAのVoiceTextの他、CeVIOの開発を担うテクノスピーチが発表した歌声合成システムや東北大のVoiceMaidProjectなど。結構たくさんある。
これらに共通するのは「高度に人間らしい」ということ。ボカロ耳じゃない人には人間じゃないとばれるけど、クオリティーはかなり高い。
そして、よく言われるのが「AIシンガーは無調声で人間らしく歌う」という話。これはある意味で間違っていなかった。
2月22日にリリースされたAI歌声合成ソフト「NEUTRINO」を触ってみて実感したが、AIシンガーは確かに楽譜を与えれば高度に人間らしい音声を出力してくれた。

ただ、これには2つの追加要素があった。
渡す楽譜が適切であること
AIシンガーは楽譜を渡せば人間らしく歌うが、楽譜の好き嫌いが激しい。「AIシンガーは(好みの)楽譜を渡せば人間らしく歌う」のだった。
どんな楽譜が好みで、どんな楽譜が嫌いなのかは合成してみないと分からない。上手くいけば成功で、上手くいかなければ不成功。
なので、上手くいかなかった場合には「好みの楽譜に作り替える作業」が必要になる。これが「AIシンガーのオペレーション」だ。
「発音がはっきりしないからキーを1つ上げてみよう」「ピッチが破綻しているから発音記号を変えてみよう」などなど、さまざまな対処をしてAI好みのシーケンスを作ってやれば、人間らしく歌ってくれる。
VOCALOIDやUTAUの場合、調声は基本「楽譜を渡した後」にやる。ベタうちの状態から初めて、ピッチや音量、声質をいじっていく。
対して、AIシンガーの調声(オペレーション)は「楽譜を渡す前」にやる。ノートや歌詞を打ち込む時点で、AIシンガーの特性を考慮して上手くいくようにシーケンスを組み立てていくのだ。
こうしてみるとかなり考え方が違うことが分かるだろう。
苦手な曲はマジで歌えない
これが2つ目のポイント。VOCALOIDやUTAUなどは「人間らしく歌わせるには調声が必要だが、どんな曲でも基本歌える」歌声合成ソフトだった。超高速歌唱も超高音歌唱も(聞きやすいかどうかはさておき)できた。
対してAIシンガーは「人間らしく歌わせるのに調声はいらないが、得意な曲以外は本当に歌えない」歌声合成ソフトだ。
どれくらい歌えないかというと、軽ければ「超音痴」、重ければ「人の声かどうかも怪しい」レベル。「AIは楽譜を渡せば人間らしく歌う」と聞いていたので、「歌えない場合」をすっかり見落としていた。
高速歌唱を試してみると、最初のうちはテンポやピッチは怪しいが人の声が出ている。後半になってくると、ピッチも歌詞もぐちゃぐちゃで何を言っているのか分からなくなる。
これは「学習データにないことをさせているから」起きることだと思う。人間にできない歌唱方法は人間から学習データを得ることができない。
そう考えると、AIシンガーが歌えるのは人間が歌える曲に大体限定される。ボカロ曲だと、40mPさんの曲は結構相性が良く上手に歌える。初音ミクの消失は厳しかった。
VOCALOIDが「広く浅く」でAIシンガーが「狭く深く」といったイメージ。こうして考えると、どっちがいいとはいえないことが分かる。戦い方が180度逆。
結果
「AIシンガーが普及すれば調声師はいらなくなる」という話もあるが、いろんな意味でそんなことはないと思う。
「AIシンガーが人間のように歌える」というのと「AIシンガーの歌がユーザーの好み通りだ」ということの間には大きな隔たりがあるし、AIを上手く歌わせられる調声師≒オペレーターは今後もしばらくは必要だろう。オペレーション次第でAIシンガーは歌い方を十分に変える。
NEUTRINOを触る前に漠然と描いていたAIシンガー像と現実はかなり違ったけど、私にとっては「これは極めがいのある世界だな」といった感じ。とても燃えてきた。
歌声合成ソフトの「調声」という概念は「変わる」というよりは「拡張していく」モノなのかとも思った。