TAROSITE.NET: REVIEW | iPhonestock

Dragon Dictation - クラウド音声認識で、歩きながらプライベートライティング


by TARO MATSUMURA @taromatsumura 2011.06.30 23:41

ニュアンスコミュニケーションズを訪問、同社のクラウド音声認識のSDKであるNMSP(Nuance Mobile Speech Platform)を活用した無料アプリ「Dragon Dictation」(iTunes)についてお話を伺ってきました。このアプリ、タイピングやフリック入力を介さずに、アイディアや頭にある言葉をテキストに起こすツールとして使えそうです。

 使い方は簡単。アプリを起動して、録音ボタンを押すだけ。あとは普通の口語で喋り、「、」(てん)や「。」(まる)、改行といったキーワードを織り交ぜながら話しかけると、1セッション60秒まで連続して認識させることができるが、続けて何度も1つの認識させながら文章を完成させることができる。文字列をタップすれば削除、もしくは他の候補を選択することができる他、キーボードを使った修正をすることもできる。

Dragon DictationDragon DictationDragon DictationDragon Dictation

 認識させたメモは、SMS、メール、Facebook、Twitter、コピーと選べて、他のアプリやサービスに直接流し込むことができます。ぜひこれはEvernoteにも対応して欲しいところ。

 さて。ここからはウォーキング中の音声認識セッションをそのままコピペしようと思います。

---

 最近思うのは、限りある時間をどうやって有効活用しようかということです。多分考える仕事をしている人も、アウトプットしなければいけないし、人に伝えるときには、直接喋るか、文字などにする必要があります。すると、情報を伝える時間というのはかなり限られた環境になってしまいます。

 僕は文章書くという仕事柄、パソコンのキータイプは全くストレスがありません。しかし、裏を返せばストレスなく文字を入力する環境というのは、パソコンの前でもあります。つまり、思考を気持ちよくアウトプットする場所というのは、パソコンの前に縛られているということでもあります。

 では、もしもこの文章は、パソコンのキーボードの前ではない場所から書けたらどうでしょう。

 まさにここまでは、恵比寿から神泉まで歩いている間に、声て入力した文章です。 ニュアンスコミュニケーションズのDragon Dictationというアプリを使っています。iPhoneにイヤホンマイクを接続して、ウォーキングのスピードで歩きながら、ぶつぶつやっています。旧山手通りはウォーキングのメッカなので、すれ違うときには恥ずかしいんてすけれども。

 このDragon Dictationというアプリは、ニュアンスが持っているクラウド音声認識技術を活用して作られています。音声をクラウドで認識させるため、非常に高い音声認識効率を発揮してくれます。そのため、ここまでの文章は直さず入力ができています。

 さらに、クラウドの中にプロファイルをつくってくれるため、使えば使うほど音声認識の効率が高まっていきます。また、クラウドには音声で言語モデルを持っているため、アメリカの地方によって英語の発音が違う場合でも、iPhoneのGPSで、地方ごとに最適な音声認識を実現してくれます。

---

 ここまで、Dragon Dictationで歩きながら認識させた文章でした。さすがにちょっと喋りながら歩いているのは奇妙なので、どちらかというとイヤホンマイクよりはiPhoneを耳に当てる電話スタイルの方が街中だと良さそうだ。

 あとは口調。どうしても音声認識が相手だと、「良く認識してもらおう」という気持ちが働くのか、改まったですます調になってしまいがちだ。しかし砕けた言葉遣いでもちゃんと認識してくれて、自分の口調の特徴も学習してくれる。

 思っていること、頭の中にある言葉、アイディアをとりあえず紙やキーボードに書き出してみる「プライベートライティング」のセッションをよく実践しているが、場合によってはDragon Dictationをプライベートライティングならぬ、プライベートトーキングのセッションに活用すれば、ライティングとは違ったセッションになることも考えられる。

 アナウンサーとしてご活躍されている梶原しげるさん(@shigerukajiwara)に以前聞いた話では、大体140文字をアナウンスのスピードで読むと30秒程度だそうだ。1回の認識は60秒までだが、聞き取りやすい速度で喋っても280文字。原稿を読むのでない限りは、相当頭の中がクリアにまとまっていないと、一続きに280文字喋ることもなかなか難しいのではないか、と思う。

 さて、ユーザーとしては無料で優秀なクラウド型音声認識アプリを活用できるが、開発者もこのエンジンを活用することができる。冒頭にも書いたNMSPの開発者プログラム「NMDP」を2011年1月にスタートさせた。この開発者プログラムを利用すれば、自分のアプリの中に音声認識と文字化、音声合成、声紋認証、音声検索といった音声の入出力にまつわるサービスを入れることが出来るようになる。

 Appleに買収された音声対話型のコンシェルジュサービス「Siri」で使われているエンジンもニュアンスのもの。タッチインターフェイスの次の音声入力のスタンダードとも目されている技術を、Dragon Dictationで体験してみてはいかがだろうか。

Dragon Dictation


Twitter Update
    Trackback
    • URL:
      http://upwest.org/mt/mt-tb.cgi/12497