HOME > Fairy I/O® > T-01 case study 01

Case study 01

たった一台で複数話者の音声を分離収録。
会議の文字起こしを実現するマルチマイクハードウェア



【導入前の事業上の課題】

1.会議の話者毎の発言記録を有効に活用したい
2.実用的な音声収音など音声を取り扱う技術・ノウハウを獲得したい
3.サービスインテグレーションにより音声・対話AIサービスを提供していきたい


【Fairy I/O Tumblerが解決したこと】

1.複数話者を高精度に聞き取れる
2.音声処理の専門知識不要で開発可能な自由度の高いプラットフォーム
3.高精度マルチマイクを搭載、「一台置くだけ」の簡単ソリューションが実現できる





取材に対応していただいた方】
  TIS株式会社 AI&ロボティクスビジネスユニット AI&ロボティクスサービス部
織田村明雄氏



COET Record Meeting  (※当社はFairy I/O® TumblerをODMでTIS株式会社に提供しています。)

音声対話AIサービス「COET」ついておしえてください

音声や対話という分野で、言葉から新たな価値を生み出すという、我々のサービスをブランディングしたものがCOET(コエット)という名前になります。今回こちらにあるのがCOET Record Meetingです。打ち合わせの発言を記録し、自動で「文字起こし」ができるというサービスになっています。





「文字起こし」と「議事録」は違うものでしょうか?

「議事録」となると「打合せの内容を要約してまとめたもの」となります。一方で我々はテキスト化したところから、どのように会議の改革、生産性向上に使っていくのかという視点でまずは取り組んでいます。我々の社内には、自然言語処理を活用したサービスを検討するチームもいますので、将来的には会議メモの重要なポイントをまとめていく「要約」にも取り組んでいこうと考えています。




オフィスの会議室以外にも展開していくのでしょうか?

お客様の社内会議が今のところターゲットで会議室への設置は当然ですが、最近はワークスタイルの変革の流れもあり、サテライトオフィスであったり、コワーキングスペースなど、社内以外の打合せ場所にも設置していきたいと考えています。

ボイスレコーダーが使われてるような業務に関しても、このCOET Record Meetingを使うことで、後から音声だけで内容を追ってテキスト化するよりも、音声とテキストがセットになった形で追いかけるほうが圧倒的に効率が良いです。発言ごとの音声もそのポイントから聞けるので、最初から聞いて、確認したい箇所を探すなどの手間が省けるのです。




フェアリーデバイセズの技術のどんな点に着目されましたか?

特に「mimi XFE」(音声を解析する機能)です。声のする方向を特定し、話者を切り分けることができる。様々な雑音の入った音声をクリアにすることで、音声認識の精度を高めてくれる。我々のサービスインのタイミングでは、品質も精度もかなりのものでした。

音声を取り扱うという点では、やはり技術的に難易度が非常に高く、かなりの知識も必要とする分野ですが、フェアリーデバイセズの技術とノウハウを使用することで、高度な音声認識技術を意識することなくサービスの開発に集中できました。

さらにこの一台の中に、16個ものマイクを搭載したハードウェアで、音声認識のソフトウェアであるmimi® cloud API serviceと高度に連携しているため、開発の自由度が高く、開発自体を加速してくれ、今回のソリューションの立ち上げに成功しました。

 

フェアリーデバイセズなくしては、我々の会議改革を目指すサービスは立ち上がらなかったといえます。



音声集音という点では、他社製品も比較検討されたのですか?

他社製品ではマイクが1つ2つというものもありましたが、16chマイクで確実に集音する仕組みというのは他にないものだなと思いました。

COET Record Meetingの「簡単セットアップ」というコンセプトにおいては、この1台を置くだけで、発話者の方向を切り分けて集音できるという点は選択の大きなポイントでした。

会議室システムで「ピンマイク」や「個別マイク」を付けるようなものは、ほとんどが役員会議になり、通常の会議室にピンマイク含めた高価な会議システムを導入するのはやはり現実的ではないです。安価に会議室に置いておいて、誰もが利用できる状態にするには、この「1台置くだけ」という形がやはりいいのではないかと思います。個別のマイクの「ボタンを押してしゃべる」となるとやはり自然な発言では無くなってしまう。この円筒型であれば、自然とその存在すら気にならなくなります。

メモをとる必要もなく、マイクを意識する事もない。会議の中身に集中できるようになります。




COET Record Meetingの今後の展望を教えてください。

当社としては、「参加者がどれくらいの割合で発言しているのか」であったり、

「会議の進行が正しく行われているか」「会議の内容の納得度」などファシリテーションでお客様に何かご支援できないかと考えています。

他にもわれわれは「AIブレストスパーク」というサービスも立ち上げていて、自然言語処理をベースにした「アイデア発想」を支援するサービスなのですが、ブレスト中の音声を拾いながら、その発想を支援する仕組みと連携しながら何かできないか今検討している最中です。そういった新たなサービスもフェアリーデバイセズのハードとソフト、またその知見をを使えば実現可能となります。




これからもフェアリーデバイセズさんには、我々のサービスがより良くなるように、培われた技術やノウハウを提供いただければと思っています。

 

 





TIS株式会社

本社:東京都新宿区西新宿8丁目17番1号

設立:2008年4月1日

資本金:連結:420,769 (百万円) 単体:181,070(百万円)

事業内容:ビジネスを支える基幹システムから、高い競争力を生むアプリケーション、さらにはシステムの基盤となるプラットフォームまで、幅広い業界・分野でITサービスを提供する総合ITサービス企業です。

URL:https://www.tis.co.jp


Tumbler T-01
音声入力 18ch(16ch MEMS マイク、外部入力、スピーカーフィードバック信号), サンプリングレート48kHz, ビット深度16bit
音声出力 同軸パッシブラジエータ・フルレンジスピーカー・ツイーターによる1ch 無指向性出力(サンプリングレート192kHz, ビット深度24bit. ただし 30kHz までの出力のみを測定)
計算資源 メインプロセッサ:ARM Cortex A-53 1.2GHz(物理4コア), Broadcom VidecoCore IV GPU 400MHz.  1GB LPDDR2 SDRAM, 4 GB eMMC Storage
コプロッサ:Atmega328-AU 8bit 20MHz, 2kbyte SRAM
インターフェース Wi-Fi, Bluetooth(BTO オプション), 赤外線 I/O(1x IRセンサー 8x IR LED), USBオーディオインターフェース(Bluetooth BTO オプションにバンドル), ドックコネクタ
表示・提示機能 LED リング(RGB LED x18),  インジケータ(白色 LED x1) 
搭載センサー 照度センサー, 環境センサー(温度・湿度・気圧;BTO オプション), CO2 センサー(BTO オプション)
備考