先日、東北イタコの話声データベースが公開されましたね。東北イタコはこの前も歌唱DBがリリースされるなど、研究用素材の提供に余念がありません。
前回の歌唱DBはその名の通り歌声WAVEを集めたものでしたが、今回のデータベースは「マルチモーダルDB」という名前がついています。単なる話声DBではないんですね。
おそらく多くの人は「マルチモーダル」という言葉を知らないと思いますので、今回はリリースされたDBの特徴や使い道について、DB構築に携わった九州工業大学の齊藤剛史先生に訊いてみました。
マルチモーダルDBの中身
DBを使わない人でもイメージできるよう、DBに含まれるデータについて説明しておきます。
DBに含まれるのは大まかに分けて以上の4種のデータです。
話声.wavは、声優さんの話声を収録した音声(約1GB)です。
音声ラベル.labは「X秒からY秒までが音素[k]、Y秒からZ秒までが音素[a]」といった発声タイミングを記録したデータです。
この2種類だけならシンプルな話声DBになります。マルチモーダルDBが特殊なのは残りの2つですね。
連番画像.pngは声優さんの口元を撮影した動画をばらして画像にしたデータです。話声.wavを収録するときに一緒に撮影したもの(約2.3GB~)ですね。
画像ラベル.csvは口の動きを記録したデータですね。唇の画像にマーカーをつけて「X秒の時の口の形はこう、Y秒の時の口の形はこう」というふうに、1フレームごとに記録したものです。
で、マルチモーダルとは?
「マルチモーダル」というのは「複数のデータを入力する」というニュアンスの言葉です。音声だけ、映像だけでなく、音声と映像というように複数の情報をまとめるとマルチモーダルです。
人間は「声を聴いて声を出す」という音声→音声の処理もちろんやりますが「ジェスチャーを見て声にする」のように視覚→音声という処理も普通にやります。マルチモーダルなデータを上手に使えば、こういった五感の垣根を超えたAI処理もできるようになるわけです。
例えば、声を出さなくても口を撮影すれば美少女ボイスを合成できる特殊なボイスチェンジャーを作ったり、音声を入力すると適切な口パクモーションを生成するシステムを作ったりと、いろんな可能性がありますね。
そんな研究の一つが齊藤先生の読唇術です。口元の映像(視覚情報)をインプットすると音声(聴覚情報)をアウトプットするシステムはまさにマルチモーダルな処理ですね。
読唇術の活用範囲
読唇術というのは、唇の動きを見て何をしゃべっているのか読み取るテクニックです。耳が聞こえない人や、声が出せない状況で使う技術ですね。逆に野球をはじめとするチームスポーツでは、作戦会議を盗み“見”られないよう、口元を隠して話すこともあるそうです。
福祉的な使い方のほかにも、実はいろいろ使いどころがあります。
電車内など騒音が激しく声も出しにくい場所でSiriを使うとき、読唇術ができれば映像だけで問題なく認識してもらえますよね。会議を文字起こししたいとき、音声認識だと声がかぶったところの認識ができなくなりますが、読唇術なら問題なく同時並行で処理できます。音声のない歴史資料から音声を再現するのも口が映っていれば可能ですね。活用範囲は結構広いです。
齊藤先生によると、日本人はあんまりSiriのような音声認識を使わないが、これは「音声認識すると周囲に聞こえてしまうから」ではないかと。読唇術なら周りに気づかれずに音声認識(サイレント音声認識という)できますね。
読唇技術の歴史
読唇術には目で見るだけでなく手で触って確認する手法もあります。有名なのはヘレン・ケラーですよね。ヘレン・ケラーは電話を発明したグラハム・ベル博士に紹介されたサリバン先生に読唇術を習いましたが、実は読唇術を体系化したのがベル博士の父親メルビル・ベルさんだそうです。昭和初期には日本にも読唇術が伝わりました。今ではろう学校で教えていたりします。
コンピュータを使った読唇技術は80年代に活発化。「口の形を画像認識すれば母音の判別はできそうだ」「80%の精度で母音を判別できた」など徐々にレベルを上げてきました。最近ではいわゆるAIを使った研究が主流になっています。
ただ、読唇術AIにも研究上のハードルがあります。データが少なすぎるんですね。
読唇術には、同音異義語の判別が難しい、口の形が同じで内容が違う単語の判別が難しい、ほとんど口が動かないような単語の判別が難しいなど、さまざまな難しさがあります。
十分なデータがあればAIも鍛えられます。欧米ではBBCアナウンサーやTED登壇者の映像が何百時間分もあるので、そこそこの精度のAIが作れるのですが、日本語マルチモーダルDBは3種類しかなく、それぞれのデータもあまり大きくはない。プライバシーの問題で映像を公開できない、そもそも撮影の手間が大きい、データ量も大きいなどさまざま問題があってなかなかDB公開にこぎつけなかったのです。
ITAマルチモーダルDBの価値
そこで今回現れたのが東北イタコ、ずんだもん、四国めたんのDBですね。齊藤先生曰く「まだ全然足りない。BBCくらいないと実用レベルにはできない」とのことですが増えたのは確かです。
また、著作権フリーのITAコーパスも一緒に公開され、DBの作り方も中身を見れば何となくわかる状況になったので、マルチモーダルDBを作る準備ができるようになったのも大きいですね。声優事務所と大学のつながりができたのも一つの価値だそうな。
今回のマルチモーダルDB開発と公開は、今後の研究の土台になる将来的な価値が大きいものといえるでしょう。