2022年4月18日月曜日

おためし!リアルタイム音声認識

9ヶ月の沈黙

技術書典12は結婚直後のごたごたもあり、本を出さないことは早々に決めていました。
しかし本を出さなかったのは、結婚だけが理由ではありませんでした。

そう!技術書典11で出した「おためし!リアルタイム音声認識」は、商業版として生まれ変わったのです。
表紙のイラストはジェームスさんに描いていただきました。

簡単にどんな本なのか紹介させてください。


4種類の音声認識

同人版ではAmazon Transcribeという音声認識をリアルタイムで試してみようという内容でした。
しかしこれは想定していた内容の一部で、本当は複数の音声認識を試せるようにしたかったのです。

そこで商業版では、本来試したかった音声認識をすべて試せるように加筆を行いました。
以下の音声認識を試せるようになっています。

  • Amazon Transcribe
  • Google ChromeのWeb Speech API
  • Microsoft Azureの音声サービス
  • AmiVoice Cloud Platform

まあGoogle Cloudを試せなかったのは心残りですが、あれはWebブラウザで動かすには制約が大きすぎるのでどうにもならなそうです。


音声認識の四重奏

そしてサンプルでは、これらすべての音声認識を同時に動かせるように実装しました。
実用面の意味はありませんが、音声認識の比較をするにはインパクト大です。

音声認識の比較って、同じ音声ファイルを使った比較はあっても、リアルタイムで比較をした例が地味に無いんですよね。
でもバッチ処理で音声認識させるのとリアルタイムに音声認識させるのでは許容される処理時間が全然違いますし、手軽に比較できるのは価値があるんじゃないでしょうか。


音声認識をもっと身近に

音声認識を手軽に動かせるようになれば、今まで無かった新しいサービスが生み出されるかもしれません。
もし音声認識に興味があれば、本書を買うまではいかずとも、ぜひいずれかの音声認識を試してみてください。

次世代の音声認識サービスを生み出すのは君だ!

0 件のコメント:

コメントを投稿