音声認識は、既にロボット、スマートスピーカなどの多くの製品に搭載され、ヒューマン・インタフェースとして使用されています。
これら音声認識は、民生機器や産業機器においてコストをできるだけ抑えながら、より便利な機能を搭載したいというニーズから生まれたものです。
また、視覚障害者や高齢者も容易に操作が可能となるため、重要な付加機能の1つとして注目されています。
ルネサスでは、インターネット接続が不要な音声認識(エッジ音声認識)ソリューションを準備しており、従来製品との差別化や高機能化を実現できます。
「ノイズ低減技術」でノイズ環境下での高い認識率を実現
(例) 主なノイズ低減技術
- ビームフォーミング - 目的方向以外からのノイズを低減
- ノイズサプレッサ - 定常的なノイズを低減
- エコーキャンセラ - スピーカ出力音のマイクへの回り込みを除去
ソリューション
RX231, RX651, RA6M1 音声認識ソリューション
小型ボードで実現するエッジ音声認識ソリューション
RX671, RX72N 音声認識ソリューション
購入可能なボードで評価ができる音声認識ソリューション
RA4M2 ECM音声認識ソリューション
ECM(エレクトレットコンデンサマイク)を使用したコストパフォーマンスに優れたエッジ音声認識ソリューション
RA4W1 音声認識 + Bluetooth® Low Energyソリューション
エッジ音声認識、音声再生、Bluetooth Low Energy、環境センシングを「RA4W1」1chipで実現するソリュ―ション
RX671 音声認識・タッチ・クラウドデモ
エッジ音声認識、静電容量タッチ、LCD制御を「RX671」1chipで実現するソリュ―ション。また、Wi-Fi Pmod™ 拡張ボードを使用することでクラウドを使用した遠隔操作を実現可能。
RA6M3 HMIソリューション
エッジ音声認識、音声再生、タッチパネル、環境センシングを「RA6M3」1chipで実現するソリュ―ション
RX231, RX651, RA6M1 音声認識ソリューション
小型ボードで実現するエッジ音声認識ソリューション
特長
- MEMSマイクを実装した小型音声認識ソリューション
- 認識結果に応じてRGB LEDを点灯および赤外線通信(*)出力し赤外線対応機器を制御
- 評価ツールで音声波形を確認しながら音声認識のパラメータを簡単に変更可能
* RX231音声認識ソリューションのみ対応
RX231音声認識ソリューション | RX651音声認識ソリューション | RA6M1音声認識ソリューション | ||
---|---|---|---|---|
ハードウェア | 搭載MCU | RX231 (R5F52318ADFL) ROM/RAM:512KB/64KB パッケージ:48 ピンLQFP |
RX651 (R5F5651EDDFM) ROM/RAM:2MB/640KB パッケージ: 64 ピンLFQFP |
RA6M1 (R7FA6M1AD3CFM) ROM/RAM:512KB/256KB パッケージ: 64 ピンLQFP |
マイク | デジタルMEMSマイク x2個 | アナログMEMSマイク x2個 | アナログMEMSマイク x2個 | |
その他機能 | 赤外線通信、RGB LED、USB(Full Speed)、プッシュスイッチ | RGB LED、USB(Full Speed)、プッシュスイッチ | RGB LED、USB(Full Speed)、プッシュスイッチ | |
サイズ | 60mm x 40mm | 60mm x 40mm | 60mm x 40mm | |
ソフトウェア | OS | 未使用 | 未使用 | 未使用 |
ミドルウェア | アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス |
アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス |
アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス |
|
- | 東芝デジタルソリューションズ/RECAIUS™ ボイストリガー テクノマセマティカル /ズームボイス |
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー テクノマセマティカル /ズームボイス |
リファレンスデザイン
ハードウェア | ソフトウェア(ソースコード&アプリケーションノート)、 音声認識評価ツール |
|
---|---|---|
RX231音声認識ソリューション | RX231 グループ 音声認識デモボード Rev.1.01 (PDF | English, 日本語) | 弊社営業にお問合せください |
RX651音声認識ソリューション | RX651 グループ 音声認識デモボード (PDF | English, 日本語) | |
RA6M1音声認識ソリューション | RA6M1 グループ 音声認識デモボード (PDF | English, 日本語) |
RX671, RX72N 音声認識ソリューション
購入可能なボードで実現する音声認識ソリューション
特長
- MEMSマイクを実装した音声認識ソリューション
- デモソフトウェアをダウンロード可能
- 評価ツールで音声波形を確認しながら音声認識のパラメータを簡単に変更可能
RX671 音声認識ソリューション | RX72N 音声認識ソリューション | ||
---|---|---|---|
ハードウェア | Renesas Starter Kit+ for RX671 (型名:RTK55671EHS10000BE)
|
RX72N Envision Kit (型名:RTK5RX72N0C00000BJ)
|
|
ソフトウェア | OS | 未使用 | 未使用 |
ミドルウェア | アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス |
アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス |
|
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー テクノマセマティカル /ズームボイス |
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー テクノマセマティカル /ズームボイス |
ダウンロード
項目 | 備考 |
---|---|
RX671 グループ 音声認識デモンストレーション(AmiVoice Micro) Rev.1.00 - サンプルコード (ZIP | English, 日本語) | 対応言語:日本語、英語 サンプルソースおよび評価ツールの入手方法は、弊社営業にお問合せください |
RX671 グループ 音声認識デモンストレーション(ボイストリガーミドルウェア) | 準備中 |
RX72N グループ 音声認識デモンストレーション(AmiVoice Micro) Rev.1.00 - サンプルコード (ZIP | English, 日本語) | 対応言語:日本語、英語 サンプルソースおよび評価ツールの入手方法は、弊社営業にお問合せください |
RX72N グループ 音声認識デモンストレーション(ボイストリガーミドルウェア) | 準備中 |
RA4M2 ECM音声認識ソリューション
ECM(エレクトレットコンデンサマイク)を使用したコストパフォーマンスに優れたエッジ音声認識ソリューション
特長
- 低BOMコストを意識した小型音声認識ソリューション
- 市場要求が高まっているECM使用した音声入力
- 評価したいECMが接続でき、アンプのゲインは変更が可能
RA4M2 ECM音声認識ソリューション | ||
---|---|---|
ハードウェア | MCU | RA4M2 (R7FA4M2AD3CFL) ROM/RAM:512KB/128KB パッケージ: 48ピンLQFP |
オペアンプ | READ2303G | |
マイク | エレクトレットコンデンサマイク x1個 | |
その他機能 | RGB LED、USB(Full Speed)、プッシュスイッチ | |
サイズ | 60mm x 40mm | |
ソフトウェア | OS | 未使用 |
ミドルウェア | アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス |
|
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー テクノマセマティカル /ズームボイス |
リファレンスデザイン
項目 | 備考 |
---|---|
RA4M2 グループ 音声認識ECMデモボード (PDF | English, 日本語) | デモボードの入手方法は、弊社営業にお問合せください |
RA4M2 グループ 音声認識デモボードサンプルソフトウェア | 入手方法は、弊社営業にお問合せください |
ダウンロード
項目 | 備考 |
---|---|
RA4M2 グループ 音声認識デモンストレーション(AmiVoiceMicro) Rev.1.00 (PDF | English, 日本語) | 対応言語:日本語、英語、中国語(標準語) |
RA4M2 グループ 音声認識デモンストレーション(ボイストリガーミドルウェア) Rev.1.00 (PDF | English, 日本語) | 対応言語:日本語、英語(アメリカ英語)、中国語(標準語) |
RA4W1 音声認識 + Bluetooth® Low Energyソリューション
エッジ音声認識、音声再生、Bluetooth Low Energy、環境センシングを「RA4W1」1chipで実現するソリュ―ション
特長
- RA4W1 1chipでエッジ音声認識、音声再生、Bluetooth Low Energy通信、環境センサ制御を実現
- 音声認識の結果に応じて音声フィードバックを行い、さらにBluetooth Low Energy経由でスマートフォンに通知
- モバイルデバイスを使用したBluetooth Low Energy経由でのデモ機操作およびセンサ情報の確認が可能
RA4W1 音声認識 + Bluetooth Low Energy通信ソリューション | ||
---|---|---|
ハードウェア | EK-RA4W1 |
|
HMI Expansion Board | ||
ソフトウェア | OS | 未使用 |
ミドルウェア | アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス CRI・ミドルウェア/かるイイ音 |
|
東芝デジタルソリューションズ/ボイストリガー CRI・ミドルウェア/かるイイ音 ※ 音声再生ファイルは、東芝デジタルソリューションズ/RECAIUS 音声合成ミドルウェア ToSpeak™で作成 |
リファレンスデザイン
項目 | 備考 |
---|---|
RA4W1 音声認識 + Bluetooth Low Energyデモボード | 入手方法は、弊社営業にお問合せください |
RA4W1 音声認識 + Bluetooth Low Energyデモボードサンプルソフトウェア |
ダウンロード
提供物 | 備考 |
---|---|
RA4W1 グループ 音声認識デモンストレーション(AmiVoiceMicro) (PDF | English, 日本語) | 対応言語:日本語、英語 |
RA4W1 グループ 音声認識デモンストレーション(ボイストリガーミドルウェア) (PDF | English, 日本語) | 対応言語:日本語、英語(アメリカ英語)、中国語(標準語) |
RX671 音声認識・タッチ・クラウドデモ
エッジ音声認識、静電容量式タッチ、LCD制御を「RX671」1chipで実現するソリュ―ション。また、Wi-Fi Pmod™ 拡張ボードを使用することでクラウドを使用した遠隔操作を実現可能。
特長
- RX671 1chipで音声認識、静電容量式タッチ、LCD制御(LCDモジュール)を実現
- 音声認識および静電容量式タッチによる操作でアプリケーション設定を変更し、LCDに結果を表示
- Wi-Fiモジュールを経由してクラウド(AWS)に接続することで遠隔操作が可能
RX671 音声認識・タッチ・クラウドデモ | ||
---|---|---|
ハードウェア | Renesas Starter Kit+ for RX671 |
|
|
||
ソフトウェア | OS | Amazon FreeRTOS |
ミドルウェア | アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス |
|
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー(準備中) |
ダウンロード
RA6M3 HMIソリューション
エッジ音声認識、音声再生、タッチパネル、環境センシングを「RA6M3」1chipで実現するソリュ―ション
特長
- RA6M3 1chipで音声認識、音声再生、TFT液晶制御、環境センサ制御を実現
- 認識結果に応じてTFT液晶を変更および音声出力
- 評価ツールで音声波形を確認しながらM/Wのパラメータを簡単に変更
RA6M3 HMIソリューション | ||
---|---|---|
ハードウェア | EK-RA6M3G |
|
HMI Expansion Board | ||
ソフトウェア | OS | Amazon Free RTOS |
ミドルウェア | アドバンスト・メディア/AmiVoice Micro テクノマセマティカル /ズームボイス CRI・ミドルウェア/かるイイ音 |
|
東芝デジタルソリューションズ/ボイストリガー テクノマセマティカル /ズームボイス CRI・ミドルウェア/かるイイ音 ※ 音声再生ファイルは、東芝デジタルソリューションズ/RECAIUS 音声合成ミドルウェア ToSpeak™で作成 |
リファレンスデザイン
ハードウェア | ソフトウェア(ソースコード&アプリケーションノート)、 音声認識評価ツール |
|
---|---|---|
RA6M3 HMIソリューション | RA6M3 グループ RA6M3 HMI 拡張ボード (PDF | English, 日本語) | 弊社営業にお問合せください |
評価ツール
特長
PCに評価ボードと接続することで以下の機能を実現可能
- 視覚的に音入力を波形で確認
- 音声認識/ノイズ低減 M/Wのパラメータを変更
- 認識したIDを表示
- ノイズ処理前/処理後の音データを保存し再生することが可能
関連ミドルウェア
音声認識ミドルウェア:アドバンスト・メディア/AmiVoice Micro
従来製品にくらべ、低クロック、省メモリ環境での音声認識をインターネット接続なしで実現
対応MCU
ルネサスコア:
- RXv2 (RX231/RX230, RX65N, RX651, RX64Mグループ, etc.)
- RXv3 (RX671, RX66N, RX72M, RX72Nグループ, etc.)
ARMコア:
- Arm® Cortex®-M4 (RA6M1, RA6M2, RA6M3グループ, etc.)
- Arm® Cortex®-M33 (RA4M2, RA4M3, RA6M4, RA6M5グループ, etc.)
- Arm® Cortex®-A9 (RZ/Aシリーズ)
モデル | 必要なメモリサイズ | 対応言語 |
---|---|---|
通常版 | ROM: 33[KB]~, RAM: 23[KB]~ | 日本語、英語、中国語(標準語)、タイ語、韓国語 |
高認識版 | ROM: 482[KB]~, RAM: 23 [KB]~ | 日本語 |
認識単語数に対する必要なROM/RAM
語彙数 | 通常版 | 高認識版 | ||
---|---|---|---|---|
ROM [KB] | RAM [KB] | ROM [KB] | RAM [KB] | |
5 | 33 | 23 | 482 | 23 |
10 | 54 | 25 | 681 | 25 |
20 | 78 | 28 | 995 | 28 |
30 | 96 | 30 | 1,226 | 30 |
40 | 109 | 33 | 1,444 | 33 |
50 | 117 | 33 | 1,587 | 33 |
100 | 143 | 46 | 2,143 | 46 |
150 | 160 | 55 | 2,452 | 55 |
※ 本データは参考値です (言語や認識ワードの内容により増減します)
※ 高認識版は、通常版と比較してROM使用量、計算量が多くなりますが認識精度が向上します。
VAD(Voice activity detection、セグメンター)をサポート
音声から人の声のみの区間を検出するモジュールが含まれており、利用シーンやタスクに応じて検出感度調整が可能。
音声認識ミドルウェア:東芝デジタルソリューションズ/RECAIUS™ ボイストリガー
エッジ単独での音声操作を実現。音声収録なく検出する語彙(キーワード)を変更することができるので、比較的容易に独自の起動・操作コマンドを実装可能。
対応MCU
ルネサスコア:
- RXv2 (RX651, RX65N, RX64Mグループ, etc.)
- RXv3 (RX671, RX66N, RX72M, RX72Nグループ, etc.)
ARMコア:
- Arm® Cortex®-M4 (RA6M1, RA6M2, RA6M3グループ, etc.)
- Arm® Cortex®-M33 (RA4M2, RA4M3, RA6M4, RA6M5グループ, etc.)
- Arm® Cortex®-A9 (RZ/Aシリーズ)
対応言語:日本語、英語(アメリカ英語)、中国語(標準語)
製品化予定(評価利用可能): カナダフランス語、アメリカスペイン語、イギリス英語、フランス語、ドイツ語、スペイン語、イタリア語
必要なメモリサイズ
語彙数 | ROM [KB] | RAM [KB] |
---|---|---|
5 | 145 | 45 |
10 | 160 | 50 |
20 | 190 | 65 |
※ 上表の数値は参考値です。言語や語彙によって数値は変化します。
ノイズ低減ミドルウェア:テクノマセマティカル/ズームボイス
2種類のノイズ低減技術をサポート
ビームフォーミング
- 前方からの音を強調し、周囲のノイズを抑えることが可能
- 無指向性マイク2個で実現
- 強さを「1:弱 - 7:強」で設定可能
ノイズサプレッサ
- ノイズ低減量は最大30dB(約1/30)
- ノイズ低減量は周波数帯域別に設定可能
DSP命令に対応した高速処理版を準備
DSP命令対応版の処理速度は、通常版と比較して30%向上
対応MCU
DSP命令対応版:ルネサスコア:
- RXv2 (RX231/RX230, RX65N, RX651, RX64Mグループ, etc.)
- RXv3 (RX671, RX66N, RX72M, RX72Nグループ, etc.)
通常版:
- Arm® Cortex®-M4 (RA6M1, RA6M2, RA6M3グループ, etc.),
- Arm® Cortex®-M33 (RA4M2, RA4M3, RA6M4, RA6M5グループ, etc.)
- Arm® Cortex®-A9 (RZ/Aシリーズ)
ノイズ低減技術 | 必要なメモリサイズ |
---|---|
ビームフォーミング | ROM: 40KB, RAM: 10KB |
ノイズサプレッサ | ROM: 40KB, RAM: 10KB |
(使用例) ビームフォーミング+ノイズサプレッサ
ズームボイスを使用することによりノイズ環境下でも高い認識率を実現できます。
特にS/N比=5[dB]以下で非常に高い効果が期待できます。
ノイズ環境下でズームボイスを使用した際の認識率(音声認識は、AmiVoice Microを使用)
※1. ノイズ源は、掃除機、洗濯機の音を使用
※2. ルネサス調べ
パートナー
株式会社アドバンスト・メディア
音声認識ソフトウェア製品の開発および販売
Contact: https://www.advanced-media.co.jp/contact/total/
TEL:03-5958-1031(代表電話)
東芝デジタルソリューションズ株式会社
システムインテグレーション及びIoT/AIを活用したICTソリューションの開発・製造・販売
Contact: https://www.toshiba-sol.co.jp/pro/recaius/contact.html
Email: [email protected]
Lab on the Cloud
ルネサスのLab on the Cloud は、ルネサスの定評ある評価ボード、ウィニング・コンビネーション、ソフトウェアといったソリューションを、ユーザがオンラインでアクセスしてテストできるリモート開発環境です。
音声認識ソリューション
このリファレンスデザインは、音声コマンドを認識し、対応する操作を開始します。 高性能なArm® Cortex®-M4コア搭載のRA6M1 MCUを採用しています。