> 聴覚プラットホーム mimi®

mimi®

mimi® は,ディープラーニング技術に基づく,音声情報処理のためのクラウドプラットフォームです.それは,機械が,音の情報を,今よりも深く,幅広く認識するための仕組みです.

mimi® の最終的なゴールは,人間のプリミティブな聴覚と同等の機能を,クラウド上に再現し,様々な機器に,その聴覚機能を提供することです.

人間同士のコミュニケーションの多くは,音の情報に頼っています.コンピューターが, 音の情報を理解することは,人間と機械のコミュニケーションをより自然に,より優しくする一助となります.

mimi® ASR Automatic Speech Recognition

従来的な,声を文字に換える,いわゆる音声認識は,mimi® の基本機能の一つです.音声認識技術は,ディープラーニング技術の発明に伴って,その正確性が大きく改善された分野のひとつです.mimi® ASRにおいても,常に最新の研究動向を取り入れ,性能の改善を図り続けています.

mimi® ASR の特徴は,人間と機械とのコミュニケーションに最適化する上で,様々なエンジニアリング上の工夫によって,その認識速度を,普通の人間同士の会話と同等のレベルまで高めていることにあります.認識速度が十分高速であれば,認識性能の限界を補う,様々なユーザーインターフェース上の工夫を行う余地が大きくなり,ストレスの無いコミュニケーションを実現する一助となります.

スロットフィリング技術

頑健で自然な音声対話を実現するために,mimi® ASR では,カスタマイズされたスロットフィリング技術を用いることができます.

mimi® SRS Speaker Recognition System

発話者を特定するための仕組みです.入力された音声が,事前に学習されたどの発話者に最も近いか,もしくは,どの話者にも該当しないか,ということを判定することができます.
事前に短い音声で mimi® に登録することが必要ですが,学習用の音声は,どのような音声でも構わず,言語への依存性はありません.

mimi® SRS は,家庭用ロボットへの応用例では,ロボットへの命令が,誰からの命令だったのかを認識するために用いることができます.

年齢・性別推定

事前に音声を登録しなくても,入力された声の,性別と年齢を推定することができます.

mimi SRS

mimi® ESR Environmental Sound Recognition

人間の声以外の音を認識するための仕組みです.例えば,human non-verbal カテゴリでは,「拍手」「息」「くしゃみ」「笑い声」等を検出することができます.従来,このような非声は,ひとくくりに「雑音」として,捨てられてきました.

しかし,例えば,「笑い声」「拍手」を認識して,場の盛り上がりを判定する機械や,「クシャミ」を認識して,声を掛ける家庭用ロボットなど,声以外の音の情報にも様々なアプリケーションの可能性があります.

標準的に提供されるカテゴリに加えて,一般音の検出・認識についての様々なカスタマイズを行うことができます.

mimi ESR

mimi® AFE Advanced Frond End

高性能な音声ユーザーインターフェースを開発するためには,ソフトウェア的検討だけでなく,ユースケース・利用環境の検討から始まり,マイク数・位置・配置などハードウェア的な側面も含めた,トータルシステムとして設計を行わなければなりません.

mimi® AFE は,マイクで録音された音がmimi® に入力される前段階で,入力音を,mimi® が,より認識しやすい音に変換するための仕組みであり,所謂「フロントエンド処理」と呼ばれる一連の技術です.例えば,背景雑音抑制機能,残響抑制機能,エコーキャンセル機能などが含まれます.

マルチマイク対応

人間にも左右二つの耳があるように,機械の音声認識においても,マイクが複数あることで,音の到来方向が分かる,といった機能面だけではなく,より良く残響を抑制できる,より良く背景ノイズを抑制できる,といった性能面でのメリットが生まれます.

mimi® はモノラル音声(1ch)から,最大で8ch までのマルチマイク音声を直接入力として受けることができ,マルチマイク入力時は,音源定位機能を追加提供することに加えて,mimi® AFE による自動的な性能向上を見込むことができます.

WebSocket API

mimi® は,WebSocket(RFC 6455)による,双方向通信APIを提供しています.mimi® に入力された音声は,入力された順に逐次的に後段の認識処理に供され,音が発生している時間も,認識処理に用いています.これによって,高速なレスポンスを実現しています.

応答例

mimi® に対する認識リクエストは,mimi® に含まれる複数の認識器に同時並列に実行され,結果はまとめて,ひとつの JSON フォーマットで返されます.必要な認識結果同士の調停は mimi® が自動的に行います.典型的な応答例は例えば,以下のようになります.

認識の途中結果は,タイムスタンプ付きの細かい単位でクライアントに返されていくので,クライアントは途中結果を利用して何らかの応答を実施することも可能です.これによって,例えば,機械がユーザーの言葉を確かに聞いていることを示す,あいづちのようなインターフェースを工夫することができます.


{
  "type": "aggregation#asr",
  "session_id": "xxxx-xxxx-xxxx-xxxx",
  "status":"recog-in-progress",
  "response": [
  { 
   "result":[
     { "type": "asr#lvcsr", "status": "recog-in-progress", "result": "おはよう", "phone": "オハヨー" },
     { "type": "srs#g001", "status": "recog-in-progress", "result": "s001", "sex": "female", "age": "20" },
     { "type": "esr#human-non-verbal", "status": "recog-in-progress", "result":"声/人" },
     { "type": "afe#localization", "status": "recog-in-progress", "result": [0,0,0] }
   ],
   "time": [1000,1400]
  }, {
   "result": [
     { "type": "asr#lvcsr", "status": "recog-in-progress", "result": "ございます", "phone": "ございます" },
     { "type": "srs#g001", "status": "recog-in-progress", "result": "s001", "sex": "female", "age": "20" },
     { "type": "esr#human-non-verbal", "status": "recog-in-progress", "result":"声/人" },
     { "type": "afe#localization", "status": "recog-in-progress", "result": [0,0,0]}
    ],
    "time": [1400,2000]
  } ]
}