HOME > Fairy I/O® > T-02 case study 02

Case study 02
<オムロン ソーシアルソリューションズ株式会社様>

多くの人の行きかう雑踏環境でも
ヒトの声だけを聞きとり、利用者との音声対話を実現。


【導入前の事業上の課題】

1.音声での自然な対話コミュニケーションを実現させたい
2.多くの人の行きかう雑踏環境でも、正確に音声を聞き取りたい


【フェアリーデバイセズが解決したこと】

1.音声処理の専門知識不要で開発可能な自由度の高い音声プラットフォーム(多言語対応、自動言語識別を含む)
2.駅構内のような騒音環境でも発話者の音声が高精度に聞き取れるマルチマイク



お話しいただいた方】
  社会ソリューション事業本部 開発センタ  元木 真也様

omron motoki.png

音声対話型AI搭載「駅案内ロボット」 

駅案内ロボットはどのような背景で生まれたのですか?

オムロンはこれまで券売機や改札機などの駅務機器を提供してきました。昨今の労働力人口の減少もあり、駅係員様の負荷を軽減できないかと検討している中で、駅係員様の主な業務である「旅客応対」に着目し、駅案内ロボットを開発することとなりました。

巷にロボットやサイネージは多くあるのですが、駅という公共空間で使うことから、「誰もが簡単に使える」ことと、いかに現状の駅係員様が行っている「旅客応対」をサービスレベルを落とさず提供し、真に駅係員様の支援を行うかが鍵でした。

「旅客応対」は駅利用者のお困りごとを助けることですので、駅係員様に聞くような気軽さで、操作方法に悩んだりせずに、ヒトの主要なコミュニケーションである「対話」ができるロボットで解決したいと考えていました。

「対話」といっても「文字でのコミュニケーション」も考えられますが、もともと人が対応していた業務ですので、やはり最も伝えやすいコミュニケーション方法である「音声」で実現したいと考えました。

 



mimi®を選ばれたのはなぜですか?

各種機能がAPIで提供されている為、様々なシステムとの連携がしやすい点もそうでしたが、フェアリーデバイセズ社のmimi®はインバウンド対応を想定した多言語での音声認識をはじめ、翻訳機能や自動言語識別機能(利用者がしゃべった言語を自動で識別してくれる)もあり、自然な対話のためには対話者の音声の収集からテキストデータへの変換までシームレスに実行可能なこともポイントです。

また音声認識は「クリアな音声」であればその認識率も高まることは分かっていましたが、我々がロボットを設置する場所は「多くの人が行きかう雑踏環境」です。そのような場所でも「正確に音声を集音できるマイク」が必要でした。

ロボットのデザインを邪魔しない。組み込み型マルチマイク Fairy I/O® T-02

開発当初から様々なマイクでもテストしていたのですが、なにより、Tumblerの性能に驚いたのがきっかけです。そしてTumblerと同等の性能を持ち、わたしたちが実現しようとしている駅案内ロボットに最適な形で組込むことが可能なマイクが「T-02」でした。

私たちは利用者との自然な対話ができるようロボットのデザインにもこだわっていました。マイクだけが飛び出ていたり、お客様が「ここに向かってしゃべらなきゃ」と意識させてしまうデザインにはしたくありませんでしたので、まさに理想的でした。

 

  • Tumblerと同じく高性能で、しかもロボットのデザインを邪魔しない。
  • 駅という多くのヒトが行きかうような雑踏環境での音声集音。

 

そのような厳しい条件がある中で、「T-02」を使用することで「高い音声認識精度」を実現する事が出来ました。

フェアリーデバイセズ社が提供する機能は、集音から音声認識までシームレスに連携しているため、ロボット自体の開発や、応対のブラッシュアップに専念する事ができました。





言語での音声認識。しかも自動で言語を識別してくれる。

2019年3月に京王井の頭線下北沢駅で稼働開始。その後もアップデートを続けています。

当初は日本語だけの対応だったのですが、日本語に加え、英語、中国語、韓国語と複数言語への対応を実現しました。

さらに利用者が発話するだけで、話している言語を識別する、mimi®の自動言語識別機能も追加しています。これまでであれば「利用者が画面を操作し、使用する言語を選択」する必要がありましたが、そういった操作を不要とすることで、我々の目指す「人と人のコミュニケーションと変わらない応対」に着実に近づいているのです。

これはフェアリーデバイセズ社が提供する機能を早期に使用することで、他社に先駆けて実現できたことです。他社の追随があれども、フェアリーデバイセズ社と一緒に進めることで、必ず一歩先を行くことができました。

 

※関連プレスリリースはこちら

駅の窓口業務を行う「駅案内ロボット」に音声処理技術とマルチマイクハードウェアを提供 

新人駅員「下北沢レイ」がマルチリンガルに! 駅案内ロボットに多言語音声翻訳エンジンを提供 

話しかけるだけで自動言語識別。音声対話型AI搭載「駅案内ロボット」の外国語対応機能を強化。



今後、フェアリーデバイセズに期待すること。

通常、複数社が一緒になって進めるプロジェクトでは、各社が遠慮しあって前に進まないことが容易に想像できます。その中で、フェアリーデバイセズ社から忌憚のない意見を言っていただいたことは、まさに「人と人との対話」だったと思います。結果として会社の垣根を超えた良いチームが出来ました。

 個人的にも、フェアリーデバイセズ社が目指している
「使う人の心を温かくする一助となる技術開発」「人間と機械の新しい境界を創造する会社」
という言葉に大変共感しています。

わたしたちが目指すものも同じで「人と機械の自然な対話」を目指して開発を進めています。

どこよりも早く「多言語」や「自動言語識別」に対応できたように、次はお客様の「態度変容」や「感情」といったものも読み取るような機能も期待されますので、フェアリーデバイセズの尖った技術力に注目しています。

 





オムロン ソーシアルソリューションズ株式会社

本社:東京都港区港南2-3-13 品川フロントビル7F

設立:2011年4月

URL:https://www.oss.omron.co.jp/


Tumbler T-01
音声入力 18ch(16ch MEMS マイク、外部入力、スピーカーフィードバック信号), サンプリングレート48kHz, ビット深度16bit
音声出力 同軸パッシブラジエータ・フルレンジスピーカー・ツイーターによる1ch 無指向性出力(サンプリングレート192kHz, ビット深度24bit. ただし 30kHz までの出力のみを測定)
計算資源 メインプロセッサ:ARM Cortex A-53 1.2GHz(物理4コア), Broadcom VidecoCore IV GPU 400MHz.  1GB LPDDR2 SDRAM, 4 GB eMMC Storage
コプロッサ:Atmega328-AU 8bit 20MHz, 2kbyte SRAM
インターフェース Wi-Fi, Bluetooth(BTO オプション), 赤外線 I/O(1x IRセンサー 8x IR LED), USBオーディオインターフェース(Bluetooth BTO オプションにバンドル), ドックコネクタ
表示・提示機能 LED リング(RGB LED x18),  インジケータ(白色 LED x1) 
搭載センサー 照度センサー, 環境センサー(温度・湿度・気圧;BTO オプション), CO2 センサー(BTO オプション)
備考