2021年7月5日月曜日

技術書典11で「おためし!リアルタイム音声認識」という同人誌を出します

前回の技術的典10は書くのが最終日になってしまいましたが、今回は開始前に告知を出せそうで良かったです。
はい、ということで技術書典11でも本を書かせていただきました。

今回のタイトルは「おためし!リアルタイム音声認識」というタイトルになります。
AWSのAmazon Transcribeを使ったリアルタイム音声認識をWebページ上に乗っける方法について書きました。

AWSを使うならタイトルに"AWS"を付けてないのは不自然かもしれません。
実際、仮タイトルは「AWSでつくるリアルタイム音声認識」とかそんなだったと記憶しています。
それが今のタイトルになった理由は、執筆開始時は他のクラウドサービスの音声認識も試せるような内容を考えていたからです。

Webページ置き場や認証についてはAWSを使うのですが、音声認識部分は他のクラウドサービスも使えるようにするというコンセプトでした。
他のクラウドサービスの認証については、AWS Lambdaにアクセスキーを埋め込み、そこから一時的なアクセスキーを発行してWebページからAPIを叩くような感じです。
これをGCPのSpeech To Text、AzureのSpeech To Text、ACPで同じことをして、4種の音声認識を全部試せるWebページの完成を目指す内容だったのです。

いや~どのクラウドサービスもちょっと調べれば実装できるだろうと思っていましたが、最初のAWSの時点で泣きを見る結果になってしまいました。
全然サンプルコードも無かったですし、あってもエラーで動かないというパターンが多発しました。
同時進行で主要なブラウザすべてコードが動くようにするための調査も必要でした。
どうもすべてのクラウドサービスの音声認識を問題なく動かせそうなのがFirefoxだけで、Chromeやその他のブラウザには音声のフォーマットに関してもう一捻りが要求されました。
…結局こちらも解決することはできませんでした。

どうやらこいつの完成形を構築するには、自分自身の技量を向上させないと難しそうです。
ただAWSだけなら目処がついたので、本として成立させることはできました。
そういう意味ではくやしい結果となった一冊ですが、どこかでリベンジして完成形を世に送りだしたいものです。

0 件のコメント:

コメントを投稿