HOME > mimi®about

mimi®

音声技術のすべてがここにあります。

機械に耳を。

人間同士のコミュニケーションの多くは音の情報に頼っています。
コンピューターが音の情報を理解することで、人間と機械のコミュニケーションがより自然で人にやさしいものになります。

mimi®は、
機械が音の情報を今よりも深く幅広く認識するためのテクノロジーの総称です。
音声対話システムのためのクラウド API システムとしてサービス提供されています。

mimi® Cloud API Service

mimi API Console とAPIを使用して、クラウド上で、サービスを利用するためのアプリケーション、クライアントを操作することができます。
Google アカウントでログインし、1日50回までの無料評価試用が可能です。


詳しくはこちらをご覧ください。
https://console.mimi.fd.ai/
https://mimi.readme.io/

 







利用可能機能と価格一覧はこちら

話してる間にテキスト化。
mimi® ASR
(Automatic Speech Recognition) 音声認識 
     


DNN による音声認識の精度向上とともに、自然なコミュニケーション・音声対話向けに認識速度の高速性をできる限り高めるような工夫がされています。
認識速度を高速にすることにより、さまざまなユーザーインターフェースでの工夫(あいづち、突っ込みなど)ができ、ストレスの無い対話コミュニケーションを実現できます。



様々な言語への翻訳。
mimi® TRA
(TRAnslation)  機械翻訳




日本語とそのほか9言語(英語、中国語、韓国語、スペイン語、フランス語、ミャンマー語、インドネシア語、タイ語、ベトナム語)との相互翻訳が可能です。





まるで人の声のように。  
mimi® TTS
(Text To Speech)  音声合成

 


文字を音声に変換して発します。
エーアイの高品質音声合成クラウドサービス「AICloud®」にも連携可能です。



誰が話したかがポイントです。
mimi® SRS
(Speaker Recognition System)  話者識別




事前に発話者の音声を学習しておくことで、数秒程度の発話から、高精度に発話者を識別することができます。
識別に用いる発話は、どのような発話内容でもよく、発話者に意識をさせることがなく、自然に話者を識別できます。
誰としゃべっているのかは、対話コミュニケーションにおいては極めて重要な情報となります。




世界の音を聞き分ける。 
mimi® ESR
(Environmental Sound Recognition)  環境音認識

 


環境のさまざまな音の特徴を学習し、多様な音を識別することを実現します。
例えば、人間が発する声以外の音で「拍手」「咳、くしゃみ」「笑い声」「大きな息の音」の識別を実現しています。
「笑い声」「拍手」を認識して、場の盛り上がりを判定する機械や、「咳、くしゃみ」を認識して声を掛ける家庭用ロボットなど、幅広い対話コミュニケーションに利用可能です。

お客様のご要望に応じて、任意の音を識別する認識器を提供することが可能です。



態度はその声に表れます。 
mimi® AIR
(Attitude & Intention Recognition)  態度認識  *研究開発中


声には肯定、否定、疑問などの態度や感情などが含まれています。
このような情報を活用することで、人間と人間、人間と機械のコミュニケーションはより豊かなものになるでしょう。



音の下ごしらえ。 
mimi® XFE
(eXtended Front End module)  オンラインフロントエンド処理


    
発話区間抽出:Voice Activity Detection   雑音抑制:Noise Suppression                    エコーキャンセル:Echo cancellation/ Barge-in


実環境での認識精度向上ためには、多チャンネルマイクを用いることが有効であることが知られています。
mimi® XFE は、主に多チャンネルマイク用のオンラインフロントエンド処理ライブラリであり、ローカルライブラリ、クラウド API として提供されています。
発話区間抽出 雑音抑制 エコーキャンセル/バージインなどが含まれ、Fairy I/O® Tumblerにも搭載されています。

 mimi® XFE は mimi® に含まれる各種認識器と組み合わせて利用できるだけではなく、Google Speech API を始めとしたいくつかの他社認識器に対しても有効性を持つように調整済です(適用範囲はお問い合わせください)。



mimi® XFE に含まれるフロントエンド機能

・発話区間抽出(多チャンネル、1ch)
・3D 音源定位(多チャンネル)
・適応ビームフォーミング(多チャンネル)
・多チャンネルノイズサプレッサ(多チャンネル)
・残響抑制(多チャンネル、1ch)
・エコーキャンセル(多チャンネル、1ch)
・エコーサプレス(多チャンネル、1ch)
・ノイズサプレッサ(1ch)
・オートゲインコントローラー(多チャンネル、1ch)
・ラウドネスイコライザー(1ch)
・各種フィルタ(HPF, LPF, BPF…)