業界初!自作可能な組込みAI音声認識SDK「KAIBER voice」を発表

2021.8.31
プレスリリース

〜 音声操作デバイスの開発効率化で非接触エコノミーを促進 〜

ディープインサイト株式会社(本社:東京都品川区、代表取締役社長:久保田良則、以下、ディープインサイト)は、ユーザー自身が音声キーワード認識機能を自由に開発し、小型デバイスに搭載できる組込みAI音声認識ライブラリーやAI学習フレームワークなどの音声コマンド認識開発キット「KAIBER voice」(カイバーボイス)とコンサルティングサービスをリリースします。このソリューション導入効率で開発コストの50%削減(当社比)が見込め、大手ホームエレクトロニクス関連メーカー数社と技術評価を開始しています。また先進的音響設計ツールベンダーDSP Concepts社*(米国)との協業も実施します。

独自のエッジAI技術を応用し安価なマイコンでも動作可能な音声認識技術であり、使いやすい同社製エンベデッドディープラーニングフレームワーク「KAIBER」との組み合わせにより、AI未経験でもGUIベースのツールで開発作業を効率よく進められます。ユーザー自身で希望の音声コマンドを開発できる為、特別なキーワードや方言・アクセントなどに対応した音声認識機能の開発コストも、専門ベンダーへの委託開発に比べ大幅に削減できます。また先進的音響設計ツール開発企業のDSP Concepts社*(米国)と協業し、DSP Conceptsのオーディオフロントエンド技術TalkToとKAIBER voiceとの組み合わせによる雑音に強い音声認識が実現できるリファレンスデモを開発しました。この組込み音声認識ソリューションは、デバイス性能や開発コスト面で従来は機能の搭載が困難であった製品への展開が容易で、家電から医療、産業機器まで幅広く活用できます。

1. 背景

ウイルス感染予防対策や効率的な作業環境の実現を目的として、非接触テクノロジーの技術開発が盛んです。その一つが音声認識による機器操作であり、クラウドサービスから小型デバイス単体まで様々な環境に展開されつつあります。特にAIスピーカーが世の中で認知され始めた現在、他の電子機器への組込み音声認識による操作機能の実現も進んでいます。しかし、現在の組込み音声認識技術はユーザー企業が音声認識ベンダーに特定音声ワードによる認識機能の開発を依頼するケースがほとんどで、ユーザー企業が低コストで柔軟に音声認識機能の開発を行うことが困難でした。

ディープインサイトは、家電やIoT分野などの小型機器にディープラーニング技術を簡単に実装可能なエッジAIの技術開発を進めています。自作可能で小型デバイスにも組み込めるAI音声認識を効率的に開発できる「KAIBER voice」を提供することで、多様で柔軟な非接触テクノロジーの普及を目指します。

2、開発技術の概要

ディープインサイトが開発した「KAIBER voice」は、音声認識向け組込みAI推論ライブラリーと音声データの収集およびAI学習ツールの統合開発環境です。

特徴:

*自由なキーワードによる音声コマンド認識の開発

あらかじめ決められた音声コマンドではなく、ユーザー企業の製品名や特別なキーワードなどの音声認識機能を自作でき、試作開発の効率化や方言・アクセント対応など製品の付加価値向上に役立ちます。

*低レイテンシーと省リソース

独自開発のAI音声認識ライブラリーは1秒以内でフロントエンド処理(ノイズ低減)と音声推論を行う高速性があり、APIもシンプルで数十MHz程度のマイコンでのバッテリー動作も実現します。また、常時音声検出機能によるリアルタイム応答が可能です。

*雑音にも対応する高い音声認識精度

ディープラーニング学習による高い認識精度を実現できます。また、協業パートナーの米国DSP Concepts社のオーディオフロントエンド技術TalkToとの組み合わせにより、マイクから離れた雑音環境での音声認識精度も飛躍的に高めることが可能です。

*音声データの収集に特化したツールが付属

面倒な音声データ収集を迅速に行える専用ツールが付属しています。Webサーバーで動作し専用ページにスマホやPCからアクセスしキーワードを発話するだけで、社内外の不特定話者から音声データを簡単に集めることが可能です。国や言語に依存しない音声認識を実現できます。

*GUIベースのエッジAI開発フレームワーク「KAIBER」と前処理専用ツールによる簡単学習

収集した音声データは付属の前処理ツールによりデータ拡張され、すぐにエンベデッドディープラーニングフレームワーク「KAIBER」の学習形式に変換され作業を始められます。KAIBERのGUI操作によりAI知識が少ない技術者でも学習モデルの開発をすぐに進められます。

製品構成:

  • 音声学習データ録音・収集ツール(ウェブサービスのソースコード一式提供)

※その他の各種プラットフォームの音声録音、編集ツールも使用可

  • 学習データの前処理 自動化ツール(CUI)
  • エンベデッドディープラーニングフレームワーク「KAIBER」
  • AI音声認識 組込み推論ライブラリー

※別途、各種マイコン等への組込みカスタマイズや音声データ収集等のコンサルティングサービスも提供可能

価格:

  • 音声コマンド認識開発環境「KAIBER voice」キット一式(1年間ライセンス)40万円
  • 組込みロイヤリティ(量産ライセンス個別契約)

以上

*DSP Conceptsについて
DSP Concepts, Inc.,は、オーディオ製品の開発に使用するツールおよびソリューションを提供しています。Audio Weaverは、最適化された組込みオーディオ・ソフトウェア開発向けの革新的な設計環境です。Audio Weaverにより、アルゴリズムと製品の開発者が、製品と技術の開発をより迅速かつ効率的に行うことが可能になります。Audio Weaverは、基礎研究から、最適化と製品化、最終製品への搭載、レガシーの継続的なサポートまで、アルゴリズムの全ライフサイクルに適合します。サンタ・クララ(米国カリフォルニア州)を拠点とするDSP Conceptsは、Paul Beckmannによって設立されました。