HOME > mimi®

mimi®

音声対話システムのためのテクノロジースタック

mimi®は、機械が音の情報を今よりも深く幅広く認識するためのテクノロジースタックです。音声対話システムのためのクラウド API システムとしてサービス提供されています。

人間同士のコミュニケーションの多くは音の情報に頼っています。コンピューターが音の情報を理解することで、人間と機械のコミュニケーションがより自然で人にやさしいものになります。

高速なオンライン音声認識を実現

DNN による音声認識の精度向上とともに、自然なコミュニケーション・音声対話向けに認識速度の高速性をできる限り高めるような工夫がされています。
認識速度を高速にすることにより、さまざまなユーザーインターフェースでの工夫(あいづち、突っ込みなど)ができ、ストレスの無い対話コミュニケーションを実現できます。

Google Cloud テクノロジーパートナーとして、mimi® XFE と組み合わせた形で、Google Speech API の機能を利用することも可能です。

多様な音の認識技術

環境のさまざまな音の特徴を学習し、多様な音を識別することを実現します。
例えば、人間が発する声以外の音で「拍手」「咳、くしゃみ」「笑い声」「大きな息の音」の識別を実現しています。「笑い声」「拍手」を認識して、場の盛り上がりを判定する機械や、「咳、くしゃみ」を認識して声を掛ける家庭用ロボットなど、幅広い対話コミュニケーションに利用可能です。

お客様のご要望に応じて、任意の音を識別する認識器を提供することが可能です。

発話内容非依存の話者識別技術

事前に発話者の音声を学習しておくことで、数秒程度の発話から、高精度に発話者を識別することができます。識別に用いる発話は、どのような発話内容でもよく、発話者に意識をさせることがなく、自然に話者を識別できます。誰としゃべっているのかは、対話コミュニケーションにおいては極めて重要な情報となります。

この技術を応用して、事前学習を必要としない性別推定が可能です。精度は不十分ながら年齢推定に応用することも可能です。

実環境での認識精度を高めるためのフロントエンド処理技術

実環境での認識精度向上ためには、多チャンネルマイクを用いることが有効であることが知られています。mimi® XFE は、主に多チャンネルマイク用のオンラインフロントエンド処理ライブラリであり、ローカルライブラリ、クラウド API として提供されています。

mimi® XFE は mimi® に含まれる各種認識器と組み合わせて利用できるだけではなく、Google Speech API を始めとしたいくつかの他社認識器に対しても有効性を持つように調整済です(適用範囲はお問い合わせください)。


mimi® XFE に含まれるフロントエンド機能

・発話区間抽出(多チャンネル、1ch)
・3D 音源定位(多チャンネル)
・適応ビームフォーミング(多チャンネル)
・多チャンネルノイズサプレッサ(多チャンネル)
・残響抑制(多チャンネル、1ch)
・エコーキャンセル(多チャンネル、1ch)
・エコーサプレス(多チャンネル、1ch)
・ノイズサプレッサ(1ch)
・オートゲインコントローラー(多チャンネル、1ch)
・ラウドネスイコライザー(1ch)
・各種フィルタ(HPF, LPF, BPF…)