AI歌声合成ソフトってどこからどこまでを指すのか

最近はやってますね。AI歌声合成ソフト。今年だけで5個くらいリリースされました。

っていう話なんですが、そもそも「AI歌声合成ソフト」が指すもとは何かという定義の部分の話はこれまでしてきませんでしたね。

どこまでがAI歌声合成ソフトなのか考えてみましょう。研究者とかじゃないので細かいところは話半分で聞き流してください。

AIの定義

歌声合成ソフトの定義は良しとして、AIですよ問題は。結論から言うと、AIの定義は“固まってない”です。

いろんな人が独自に言ってるものはあるが統一された定義がないってフレーズ、「A I 定義」って検索すると山のように出てくる。

一番広い意味だと、問題を与えると答えを返すものとか。電卓も入りうる。狭い意味だと、人間のように自立的総合的に思考できるものとか。「強いAI」と呼ばれる。

これに伴い、AI歌声合成ソフトの定義も「人により異なる」としか言えなくなる。押し付けてくる人がいたらその人は過激派です。

傾向

冗談はさておき、固まった定義はないとは言え、統計的にみて多くの人が支持している(だろう)定義はあります。便利。

A.統計、確率、機械学習モデルなど
B.ディープラーニング以降

大体はこのどちらかじゃないかなと思います。

定義というか、規格っぽい雰囲気。BはAに内包されるので、Bに属するものはAIって言っても怒られにくい。

この「ディープラーニング以降」ってどういう区切りなのかというと、第3次AIブームの基準なんだな。

今はAIブームだなーって感じですが、一応多くの人が言うには「第3次AIブーム」にあたる。そして、それの始まりがディープラーニングの登場なのだ。

ディープラーニングが第3次ならそれ以前の技術もAIじゃんっていうのも間違いじゃない。ただ、最近だと「第3次なのにディープラーニング以前の技術を使ってAI名乗ってるの?」みたいな煽られ方をすることが多い。

なので、私もAIって書くときはディープラーニング以降を指しておいて、それ以外も含めて言いたいときは、統計や確率も含むよーって表記するようにしている。これが一番文句を言われにくい。

じゃあSinsyとCeVIOはなんなのか

SinsyとCeVIOはHMMベースの歌声合成ソフト。統計的手法。実はディープラーニング含む機械学習とはちょっと違うジャンルだったりなんだったりする。

統計と機械学習ってできることは似てるし、たくさんデータを機械に食わせるとか聞くしで、外から見ると何が違うのかイマイチ分からんのだが、そこは絶対混同してはいけないとする人々も普通にいる。何がどれくらい違うかは各自検索してください。DNN-HMMとか出てきてわけわからんくなった。

要するにA派的にはAIだが、B派的にはAIではない。

無印CeVIOが「AI」を名乗ってないのはここ(派閥によってAIじゃない判定になりやすい/ディープラーニングじゃない)が理由なのか、もしくは当時普通にAIってワードがそこまで流行ってなかったからかは知らない。少なくとも今のCeVIO陣営は無印CeVIOをAI歌声合成ソフトとは呼ばないと思う。じゃあCeVIO AIなんだよってなるから。

個人的な考え

ここまでの話を踏まえ、このブログでは基本的にディープラーニング以降の技術を使ったものをAI歌声合成ソフト、AIシンガーと呼ぶことにする。

気分的には「ディープラーニング以降の技術を使っていて、自動的にシャクリが入るもの」にしたいんだが(しゃくり入らなかったらSinsyとあんま変わらないので)、ピッチってAIが推定するパラメーターの一つでしかないからちょっと苦しいなという感じ。HMMでもしゃくりはやろうと思えばできるはずだが、なぜかあんまりそういうパターンの歌声合成ソフトを見ない。

個人的にはHMM系とDNN系の違いは明確なシャクリの有無にあると思ってるし、シャクリがないからこそ、Sinsyや無印CeVIOはベタ打ち状態では使えないなと思ってる節ある。ビブラートやピッチのブレは人間でもない人いるけど、シャクリはそうもいかないし。それができるからこそ、AIシンガー(ディープラーニング)ってすげぇな、下手打ちでも曲が合えば見せられるなって思えるのだ。

タイトルとURLをコピーしました