AI話声合成ソフト「VOICEVOX」登場 機能紹介+調声アイデア

話声合成

2020年に、無料のAIシンガー「AIシンガーきりたん」が登場して爆流行しましたよね。今度は「AIトーカー四国めたん」と「AIトーカーずんだもん」が出ました。ソフトの名前は「VOICEVOX」。


声はこんな感じ。今日はこのVOICEVOXの機能と調声アイデアを紹介します。

公式サイトはこちら。

VOICEVOX | 無料のテキスト読み上げソフトウェア
無料で使える中品質なテキスト読み上げソフトウェア。商用・非商用問わず無料で、誰でも簡単にお使いいただけます。イントネーションを詳細に調整することも可能です。

VOICEVOX

「VOICEROIDの結月ゆかり」とか、「CeVIOのさとうささら」とかいますよね。そんな感じで「VOICEVOXの四国めたん(CV.田中小雪)」と「VOICEVOXのずんだもん(CV.伊藤ゆいな)」が登場しました。

セリフを入力すると、AIが人間っぽい話声を再現してくれます。

機能紹介

セリフ追加ボタン

ボタンを押すと、セリフ入力エリアを追加できます。選択中のエリアの直後に入る仕様です。

セリフの移動は不可。セリフを全部消せばエリアごとなくなります。

セリフの設定

画面右のバーで声の速さ、高さ、抑揚をコントロールできます。セリフごとに別々に適用されます。ボイスの一括設定機能は今のところありません。

話速
・話す速さ。0.5~2倍まで。速度を上げると発音が程よく雑になる。
音高
・声の高さ。±0.15まで。
抑揚
・ピッチの振れ幅。0~2まで。下げると棒読みに、上げると大げさに読み上げます。
アクセント

画面下の調声パネルでアクセントをコントロールできます。

「単語やフレーズの中で、最も声が高くなる文字」にスライダーを合わせましょう。

アクセントは基本的に単語単位で設定します。アクセント句はつなげたり話したりできます。

逆に文字と文字の間をクリックすると、アクセント句が離れます。

イントネーション

VOICEVOXにおける「イントネーション」は音の高さに近いです。

スライダーを上下して音の高さを変えましょう。

結構効きがいいので、細かくコントロールしたい場合は、調声パネルをD&Dで上に伸ばしたほうがやりやすいです。

保存

上部の書き出しボタンを押すと指定したフォルダにWAVEファイルをセリフごとに書き出せます。ファイル名は「001」「002」……。

調声アイデア

そんなにないです。

セリフの入力

セリフは短く

一つ一つのセリフは短くしましょう。長文を合成するのはかなり時間かかって、修正が面倒です。

発音コントロールはセリフで

漢字などの読みを指定する機能はないので、ひらがなで打ち直すなど工夫しましょう。文字通り入力する必要はない。

セリフを変える

どうしても苦手で言えないセリフは言えないので、そもそもセリフを変えましょう。

ダミー

VOICEVOXの四国めたんは、最初のアクセント句で音が抜けがちなので、セリフの冒頭に意味のない「ダミー」のセリフを入れるとうまくいくことがあります。

例えば「これは、ボイスボックスです」と読ませると、「これっぼいすぼっくすです」という風にちょっと音素が落ちます。

なので「あばば。これは、ボイスボックスです」と、意味のないセリフを冒頭に追加します。

これで「あば。これは、ぼいすぼっくすです」と、欲しいところはちゃんと発音してくれるようになります。

書き出してから「あば」の部分を消せばOK。

アクセントとイントネーション

発音がおかしかったら、単語のつながりや文法を完全に無視して、アクセント句をくっつけたり話したりしてうまくいくところを探しましょう。うまくいく傾向とかはありません。

イントネーションは1か所動かすと他の音素の高さがつられて想定外の動きをすることがあります。セリフから直したほうが解決が早いことも多いです。

セリフの設定

好みです。デフォルト値から外れると劣化しやすいので注意しましょう。ピッチや速度は音声を書き出してからDAW上で編集するのもいいでしょう。

タイトルとURLをコピーしました