昨日、人生で初めてカラオケの精密採点をやってみたんですよ。で、「そういえばAIシンガーきりたんやイタコさんは何点取れるのかな」って思ったんですね。
なので、採点してもらいました。DAMの精密採点で。
DAM精密採点でAIシンガーを採点
AI歌声合成ソフト「NEUTRINO」で合成した音声を、DAMの精密採点に流して点数をはじき出してもらいます。
挑戦するシンガーは、きりたんとイタコ。基本無調声での採点ですが、一個だけフルで調声した曲があったので、それだけ調声済みのものも採点しました。
採点システムは、家庭用カラオケサブスクサービス「カラオケ@DAM」です。月額千円で何回でもカラオケできるサービスで、採点機能もある。

今回は音声をうまいことルーティング(AUX IN)して、PCから出るきりたんやイタコの音声をシステムに流して採点してもらいました。
AIシンガーきりたん「キリトリセン」調声済み版を採点
では早速行ってみましょう。最初はこの音声。
AIシンガーきりたん最初の動画ですね。このボーカルをDAM採点に流すとこうなる。
AIシンガーきりたんの「キリトリセン」(調声済み)
記録を0.1点更新した pic.twitter.com/JSpKA2eMwX— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) October 2, 2020
97点。何回か採点したけど、一番低くて96点台だった。
音程や安定性が完璧なのはまぁそう。この曲ではしゃくりやビブラートもかなりたくさん入れたが、その辺はうまいこと認識されなかった。いずれも数回しか拾われていない。一方、特に入れてもないフォールがそこそこの数見つかっている。
音声を編集しないままこれ以上の加点させるのは難しそう。あからさまなビブラートや認識されやすいしゃくりを入れないといけない。
無調声版を採点
今度は無調声版の採点です。まずはキリトリセンの無調声版。
このボーカル。これを読み込ませると。
無調声版はこうじゃ! pic.twitter.com/nqZeSOmMe3
— くろ州(読み:くろす)=洲じゃないよ (@kM4osM_96s) October 2, 2020
95点。高い。私の作業は2点分だった。
点差があまり出ていないのは、上で見たように各種表現がうまく認識されなかったため、表現力の項目がほぼ全く変わらなかったところだろうか。レーダーチャート的にはロングトーンとビブラートが落ちているが、ノートの長さは完璧に一緒なのでビブラートの点数が落ちているのだろう。確かにビブラートの認識数は数個減っている。それが2点か。
なお、私の作業が2点分しかないわけでは一応ない。普通、調声するとピッチをいじるので音程の正確性が下がる。そこそこ点数に響くので、調声して点数が下がらないだけでも多分結構すごいのだ。
その他無調声版を採点
イタコねぇさんの白い雪のプリンセスは
→93点
イタコねぇさんの神のまにまに
→93点
イタコねぇさんのシュガーソングとビターステップ
→84点
イタコねぇさんの-ERROR
→94点
きりたんのフラジール
→93点
きりたんのブルーバード
→94.8点
なんとなくそのあたりかなーって感じですね。調声済みに比べると全体的に歌唱表現の認識がほぼ0件ですが、それでもだいたい93−94点くらい出してきますね。
なお、音声のタイミングをミスると10点くらい点数が下がったりします。1個ずれると全ノートずれることになるので。
ぼかうた無調声版を採点
AIシンガーすげーって思ったでしょ? でも、ここまでくると「ピッチがあってりゃいい説」が出てくるんですよね。人間っぽい表現とかどうでも良くて、NEUTRINOじゃなくてもベタ打ちで同じくらい点数出るんじゃないかって。
なので、VOCALOIDとUTAUのベタ打ちも採点してもらいました。
結果は平均「94点」。
ほんとにピッチさえあってりゃよかった。実際には92点か95点かしか出なかった。ピッチの配点高すぎでは?
NEUTRINOと比べると、音程の正確性がより高かった。当たり前だけど。NEUTRINOはだいたい正確性80%くらいだが、ぼかうたは90%を超えている。
NEUTRINOがピッチ確度を多少落としてもだいたい同じ点数取れるのは、表現力(主に謎フォール)やメリハリが若干加点されるので落ちた分が補完できているからじゃないかと。
余談
VOCALOIDの調声が上手なせんえい先生が、VOCALOID5のKenにフラミンゴ歌わせてカラオケ採点した動画をUPしていて、そちらでも97点くらい出しているので、ある程度人っぽい歌声合成音声なら多分97点は出るのだと思われる。