メインコンテンツに移動

音声認識ソリューション

音声認識は、既にロボット、スマートスピーカなどの多くの製品に搭載され、ヒューマン・インタフェースとして使用されています。

これら音声認識は、民生機器や産業機器においてコストをできるだけ抑えながら、より便利な機能を搭載したいというニーズから生まれたものです。

また、視覚障害者や高齢者も容易に操作が可能となるため、重要な付加機能の1つとして注目されています。

ルネサスでは、インターネット接続が不要な音声認識(エッジ音声認識)ソリューションを準備しており、従来製品との差別化や高機能化を実現できます。

画像
音声認識システム概要図

 


「ノイズ低減技術」でノイズ環境下での高い認識率を実現

 (例) 主なノイズ低減技術

  • ビームフォーミング - 目的方向以外からのノイズを低減
  • ノイズサプレッサ - 定常的なノイズを低減
  • エコーキャンセラ - スピーカ出力音のマイクへの回り込みを除去

ソリューション

RX231, RX651, RA6M1 音声認識ソリューション

小型ボードで実現するエッジ音声認識ソリューション

RX671, RX72N 音声認識ソリューション

購入可能なボードで評価ができる音声認識ソリューション

RA4M2 ECM音声認識ソリューション

ECM(エレクトレットコンデンサマイク)を使用したコストパフォーマンスに優れたエッジ音声認識ソリューション

RA4W1 音声認識 + Bluetooth® Low Energyソリューション

エッジ音声認識、音声再生、Bluetooth Low Energy、環境センシングを「RA4W1」1chipで実現するソリュ―ション

RX671 音声認識・タッチ・クラウドデモ

エッジ音声認識、静電容量タッチ、LCD制御を「RX671」1chipで実現するソリュ―ション。また、Wi-Fi Pmod™ 拡張ボードを使用することでクラウドを使用した遠隔操作を実現可能。

RA6M3 HMIソリューション

エッジ音声認識、音声再生、タッチパネル、環境センシングを「RA6M3」1chipで実現するソリュ―ション


RX231, RX651, RA6M1 音声認識ソリューション

小型ボードで実現するエッジ音声認識ソリューション

特長

  • MEMSマイクを実装した小型音声認識ソリューション
  • 認識結果に応じてRGB LEDを点灯および赤外線通信(*)出力し赤外線対応機器を制御
  • 評価ツールで音声波形を確認しながら音声認識のパラメータを簡単に変更可能

* RX231音声認識ソリューションのみ対応

画像
RX231 Voice Recognition Solution Board

RX231 音声認識ソリューション

画像
RA651 Voice Recognition Solution Board

RX651 音声認識ソリューション

画像
RA6M1 Voice Recognition Solution Board

RA6M1 音声認識ソリューション

  RX231音声認識ソリューション RX651音声認識ソリューション RA6M1音声認識ソリューション
ハードウェア 搭載MCU RX231 (R5F52318ADFL)
ROM/RAM:512KB/64KB
パッケージ:48 ピンLQFP
RX651 (R5F5651EDDFM)
ROM/RAM:2MB/640KB
パッケージ: 64 ピンLFQFP
RA6M1 (R7FA6M1AD3CFM)
ROM/RAM:512KB/256KB
パッケージ: 64 ピンLQFP 
マイク デジタルMEMSマイク x2個 アナログMEMSマイク x2個 アナログMEMSマイク x2個
その他機能 赤外線通信、RGB LED、USB(Full Speed)、プッシュスイッチ RGB LED、USB(Full Speed)、プッシュスイッチ RGB LED、USB(Full Speed)、プッシュスイッチ
サイズ 60mm x 40mm 60mm x 40mm 60mm x 40mm
ソフトウェア OS 未使用 未使用 未使用
ミドルウェア アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
- 東芝デジタルソリューションズ/RECAIUS™ ボイストリガー
テクノマセマティカル /ズームボイス
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー
テクノマセマティカル /ズームボイス

リファレンスデザイン

  ハードウェア ソフトウェア(ソースコード&アプリケーションノート)、
音声認識評価ツール
RX231音声認識ソリューション RX231 グループ 音声認識デモボード Rev.1.01 (PDF | English, 日本語) 弊社営業にお問合せください
RX651音声認識ソリューション RX651 グループ 音声認識デモボード (PDF | English, 日本語)
RA6M1音声認識ソリューション RA6M1 グループ 音声認識デモボード (PDF | English, 日本語)

RX671, RX72N 音声認識ソリューション

購入可能なボードで実現する音声認識ソリューション

特長

  • MEMSマイクを実装した音声認識ソリューション
  • デモソフトウェアをダウンロード可能
  • 評価ツールで音声波形を確認しながら音声認識のパラメータを簡単に変更可能
画像
RX671 Voice Recognition Solution

RX671 音声認識ソリューション

画像
RX72N Voice Recognition Solution

RX72N 音声認識ソリューション

  RX671 音声認識ソリューション RX72N 音声認識ソリューション
ハードウェア Renesas Starter Kit+ for RX671
(型名:RTK55671EHS10000BE)
  • 搭載MCU:RX671 (R5F5671EHDFB)
    • ROM/RAM:2MB/384KB
    • パッケージ:144ピンLFQFP
  • デジタルMEMSマイク x2個
RX72N Envision Kit
(型名:RTK5RX72N0C00000BJ)
  • 搭載MCU:RX72N (R5F572NDHDFB)
    • ROM/RAM:4MB+64KB/1MB
    • パッケージ:144ピンLFQFP
  • デジタルMEMSマイク x2個
ソフトウェア OS 未使用 未使用
ミドルウェア アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー
テクノマセマティカル /ズームボイス
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー
テクノマセマティカル /ズームボイス

ダウンロード

項目 備考
RX671 グループ 音声認識デモンストレーション(AmiVoice Micro) Rev.1.00 - サンプルコード (ZIP | English, 日本語) 対応言語:日本語、英語
サンプルソースおよび評価ツールの入手方法は、弊社営業にお問合せください
RX671 グループ 音声認識デモンストレーション(ボイストリガーミドルウェア) 準備中
RX72N グループ 音声認識デモンストレーション(AmiVoice Micro) Rev.1.00 - サンプルコード (ZIP | English, 日本語) 対応言語:日本語、英語
サンプルソースおよび評価ツールの入手方法は、弊社営業にお問合せください
RX72N グループ 音声認識デモンストレーション(ボイストリガーミドルウェア) 準備中

RA4M2 ECM音声認識ソリューション

ECM(エレクトレットコンデンサマイク)を使用したコストパフォーマンスに優れたエッジ音声認識ソリューション

特長

  • 低BOMコストを意識した小型音声認識ソリューション
  • 市場要求が高まっているECM使用した音声入力
  • 評価したいECMが接続でき、アンプのゲインは変更が可能
画像
RA4M2 ECM音声認識ソリューション
  RA4M2 ECM音声認識ソリューション
ハードウェア MCU RA4M2 (R7FA4M2AD3CFL)
ROM/RAM:512KB/128KB
パッケージ: 48ピンLQFP
オペアンプ READ2303G
マイク エレクトレットコンデンサマイク x1個
その他機能 RGB LED、USB(Full Speed)、プッシュスイッチ
サイズ 60mm x 40mm
ソフトウェア OS 未使用
ミドルウェア アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー
テクノマセマティカル /ズームボイス

リファレンスデザイン

項目 備考
RA4M2 グループ 音声認識ECMデモボード (PDF | English, 日本語) デモボードの入手方法は、弊社営業にお問合せください
RA4M2 グループ 音声認識デモボードサンプルソフトウェア 入手方法は、弊社営業にお問合せください

ダウンロード

項目 備考
RA4M2 グループ 音声認識デモンストレーション(AmiVoiceMicro) Rev.1.00 (PDF | English, 日本語) 対応言語:日本語、英語、中国語(標準語)
RA4M2 グループ 音声認識デモンストレーション(ボイストリガーミドルウェア) Rev.1.00 (PDF | English, 日本語) 対応言語:日本語、英語(アメリカ英語)、中国語(標準語)

RA4W1 音声認識 + Bluetooth® Low Energyソリューション

エッジ音声認識、音声再生、Bluetooth Low Energy、環境センシングを「RA4W1」1chipで実現するソリュ―ション

特長

  • RA4W1 1chipでエッジ音声認識、音声再生、Bluetooth Low Energy通信、環境センサ制御を実現
  • 音声認識の結果に応じて音声フィードバックを行い、さらにBluetooth Low Energy経由でスマートフォンに通知
  • モバイルデバイスを使用したBluetooth Low Energy経由でのデモ機操作およびセンサ情報の確認が可能
画像
RA4W1 音声認識 + Bluetooth Low Energy デモボード
  RA4W1 音声認識 + Bluetooth Low Energy通信ソリューション
ハードウェア EK-RA4W1
  • 搭載MCU:RA4W1 (R7FA4W1AD2CNG)
    • ROM/RAM:512KB/96KB
    • パッケージ:56ピン QFN
  • Bluetooth Low Energy 回路
  • USB Full Speed デバイス
  • Arduino™ UNO コネクタ
HMI Expansion Board
  • アナログMEMSマイク x2個
  • 外部拡張マイク用回路(MEMS 型(アナログ出力)、または、エレクトレットコンデンサ型)
  • スピーカー駆動回路およびスピーカ
  • 温湿度センサ(RENESAS/HS3001)
  • ガスセンサ(RENESAS/ZMOD4410)
  • Arduino Uno Connection
ソフトウェア OS 未使用
ミドルウェア アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
CRI・ミドルウェア/かるイイ音
東芝デジタルソリューションズ/ボイストリガー
CRI・ミドルウェア/かるイイ音
 ※ 音声再生ファイルは、東芝デジタルソリューションズ/RECAIUS 音声合成ミドルウェア ToSpeak™で作成

リファレンスデザイン

項目 備考
RA4W1 音声認識 + Bluetooth Low Energyデモボード 入手方法は、弊社営業にお問合せください
RA4W1 音声認識 + Bluetooth Low Energyデモボードサンプルソフトウェア

ダウンロード

提供物 備考
RA4W1 グループ 音声認識デモンストレーション(AmiVoiceMicro) (PDF | English, 日本語) 対応言語:日本語、英語
RA4W1 グループ 音声認識デモンストレーション(ボイストリガーミドルウェア) (PDF | English, 日本語) 対応言語:日本語、英語(アメリカ英語)、中国語(標準語)

RX671 音声認識・タッチ・クラウドデモ

エッジ音声認識、静電容量式タッチ、LCD制御を「RX671」1chipで実現するソリュ―ション。また、Wi-Fi Pmod™ 拡張ボードを使用することでクラウドを使用した遠隔操作を実現可能。

特長

  • RX671 1chipで音声認識、静電容量式タッチ、LCD制御(LCDモジュール)を実現
  • 音声認識および静電容量式タッチによる操作でアプリケーション設定を変更し、LCDに結果を表示
  • Wi-Fiモジュールを経由してクラウド(AWS)に接続することで遠隔操作が可能
画像
RX671 音声認識・タッチ・クラウドデモ
  RX671 音声認識・タッチ・クラウドデモ
ハードウェア Renesas Starter Kit+ for RX671
  • 搭載MCU:RX671 (R5F5671EHDFB:暗号機能あり)
    • ROM/RAM:2MB/384KB
    • パッケージ:144ピンLFQFP
  • オーディオ回路を搭載しており、SSIE(Serial Sound Interface)の評価が可能
  • タッチキー(自己容量方式)インタフェースを搭載しており、タッチ評価が可能
  • Trusted Secure IP内蔵RX671を搭載しており、暗号エンジンや鍵管理の評価が可能
  • SDメモリカードスロットを搭載しており、SDHI(SD Host Interface)の評価が可能
  • USBを1チャネル搭載しておりホスト、ファンクション評価が可能

Wi-Fi Pmod™ 拡張ボード

  • IEEE 802.11b/g/n準拠、2.4GHz、HT20、MCS0-7、最大13-ch
  • 1x1 シングルストリームシステム
  • シングルUART/HS-UARTのMCUホストインターフェース
  • ATコマンドをフルサポート
ソフトウェア OS Amazon FreeRTOS
ミドルウェア アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー(準備中)

ダウンロード

項目 備考
RX671 グループ Renesas Starter Kit+ for RX671 を用いた 音声認識・タッチ・クラウドデモ Rev.1.00 (PDF | English, 日本語)  
RX671 Group Voice recognition / Touch and Cloud solution using Renesas Starter Kit+ for RX671 Rev.1.00 - Sample Code (ZIP) ソースコードの入手方法は、弊社営業にお問合せください

RA6M3 HMIソリューション

エッジ音声認識、音声再生、タッチパネル、環境センシングを「RA6M3」1chipで実現するソリュ―ション

特長

  • RA6M3 1chipで音声認識、音声再生、TFT液晶制御、環境センサ制御を実現
  • 認識結果に応じてTFT液晶を変更および音声出力
  • 評価ツールで音声波形を確認しながらM/Wのパラメータを簡単に変更
画像
RA6M3 HMIソリューション
  RA6M3 HMIソリューション
ハードウェア EK-RA6M3G
  • 搭載MCU:RA6M3 (R7FA6M3AH3CFC)
    • ROM/RAM:2MB/640KB
    • パッケージ:176 ピンLQFP
  • USB (デバッグ、Full Speed、High Speed)
  • グラフィック拡張ボード
    • 4.3インチTFTカラー液晶パネル(静電容量式タッチパネル付)
    • 解像度480x272
    • バックライトコントローラ
HMI Expansion Board
  • アナログMEMSマイク x2個
  • 外部拡張マイク用回路(MEMS 型(アナログ出力)、または、エレクトレットコンデンサ型)
  • スピーカー駆動回路およびスピーカ
  • 温湿度センサ(RENESAS/HS3001)
  • ガスセンサ(RENESAS/ZMOD4410)
  • Arduino Uno Connection
ソフトウェア OS Amazon Free RTOS
ミドルウェア アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
CRI・ミドルウェア/かるイイ音
東芝デジタルソリューションズ/ボイストリガー
テクノマセマティカル /ズームボイス
CRI・ミドルウェア/かるイイ音
 ※ 音声再生ファイルは、東芝デジタルソリューションズ/RECAIUS 音声合成ミドルウェア ToSpeak™で作成

リファレンスデザイン

  ハードウェア ソフトウェア(ソースコード&アプリケーションノート)、
音声認識評価ツール
RA6M3 HMIソリューション RA6M3 グループ RA6M3 HMI 拡張ボード (PDF | English, 日本語) 弊社営業にお問合せください

 

評価ツール

特長

PCに評価ボードと接続することで以下の機能を実現可能

  • 視覚的に音入力を波形で確認
  • 音声認識/ノイズ低減 M/Wのパラメータを変更
  • 認識したIDを表示
  • ノイズ処理前/処理後の音データを保存し再生することが可能
画像
Voice Recognition Evaluation Tool

関連ミドルウェア


音声認識ミドルウェア:アドバンスト・メディア/AmiVoice Micro

従来製品にくらべ、低クロック、省メモリ環境での音声認識をインターネット接続なしで実現

対応MCU

ルネサスコア:

  • RXv2 (RX231/RX230, RX65N, RX651, RX64Mグループ, etc.)
  • RXv3 (RX671, RX66N, RX72M, RX72Nグループ, etc.)

ARMコア:

  • Arm® Cortex®-M4 (RA6M1, RA6M2, RA6M3グループ, etc.)
  • Arm® Cortex®-M33 (RA4M2, RA4M3, RA6M4, RA6M5グループ, etc.)
  • Arm® Cortex®-A9 (RZ/Aシリーズ)
モデル 必要なメモリサイズ 対応言語
通常版 ROM: 33[KB]~, RAM: 23[KB]~ 日本語、英語、中国語(標準語)、タイ語、韓国語
高認識版 ROM: 482[KB]~, RAM: 23 [KB]~ 日本語

認識単語数に対する必要なROM/RAM

語彙数 通常版 高認識版
ROM [KB] RAM [KB] ROM [KB] RAM [KB]
5 33 23 482 23
10 54 25 681 25
20 78 28 995 28
30 96 30 1,226 30
40 109 33 1,444 33
50 117 33 1,587 33
100 143 46 2,143 46
150 160 55 2,452 55

※ 本データは参考値です (言語や認識ワードの内容により増減します)

※ 高認識版は、通常版と比較してROM使用量、計算量が多くなりますが認識精度が向上します。

VAD(Voice activity detection、セグメンター)をサポート

音声から人の声のみの区間を検出するモジュールが含まれており、利用シーンやタスクに応じて検出感度調整が可能。


音声認識ミドルウェア:東芝デジタルソリューションズ/RECAIUS™ ボイストリガー

エッジ単独での音声操作を実現。音声収録なく検出する語彙(キーワード)を変更することができるので、比較的容易に独自の起動・操作コマンドを実装可能。

対応MCU

ルネサスコア:

  • RXv2 (RX651, RX65N, RX64Mグループ, etc.)
  • RXv3 (RX671, RX66N, RX72M, RX72Nグループ, etc.)

ARMコア:

  • Arm® Cortex®-M4 (RA6M1, RA6M2, RA6M3グループ, etc.) 
  • Arm® Cortex®-M33 (RA4M2, RA4M3, RA6M4, RA6M5グループ, etc.)
  • Arm® Cortex®-A9 (RZ/Aシリーズ)

対応言語:日本語、英語(アメリカ英語)、中国語(標準語)
製品化予定(評価利用可能): カナダフランス語、アメリカスペイン語、イギリス英語、フランス語、ドイツ語、スペイン語、イタリア語

必要なメモリサイズ

語彙数 ROM [KB] RAM [KB]
5 145 45
10 160 50
20 190 65

※ 上表の数値は参考値です。言語や語彙によって数値は変化します。


ノイズ低減ミドルウェア:テクノマセマティカル/ズームボイス

2種類のノイズ低減技術をサポート

ビームフォーミング

  • 前方からの音を強調し、周囲のノイズを抑えることが可能
  • 無指向性マイク2個で実現
  • 強さを「1:弱 - 7:強」で設定可能

ノイズサプレッサ

  • ノイズ低減量は最大30dB(約1/30)
  • ノイズ低減量は周波数帯域別に設定可能

DSP命令に対応した高速処理版を準備
DSP命令対応版の処理速度は、通常版と比較して30%向上

対応MCU

DSP命令対応版:ルネサスコア:

  • RXv2 (RX231/RX230, RX65N, RX651, RX64Mグループ, etc.)
  • RXv3 (RX671, RX66N, RX72M, RX72Nグループ, etc.)

通常版:

  • Arm® Cortex®-M4 (RA6M1, RA6M2, RA6M3グループ, etc.),
  • Arm® Cortex®-M33 (RA4M2, RA4M3, RA6M4, RA6M5グループ, etc.)
  • Arm® Cortex®-A9 (RZ/Aシリーズ)
ノイズ低減技術 必要なメモリサイズ
ビームフォーミング ROM: 40KB, RAM: 10KB
ノイズサプレッサ ROM: 40KB, RAM: 10KB

(使用例) ビームフォーミング+ノイズサプレッサ

画像
ビームフォーミング+ノイズサプレッサ

ズームボイスを使用することによりノイズ環境下でも高い認識率を実現できます。

特にS/N比=5[dB]以下で非常に高い効果が期待できます。

ノイズ環境下でズームボイスを使用した際の認識率(音声認識は、AmiVoice Microを使用)

画像
ズームボイス

※1. ノイズ源は、掃除機、洗濯機の音を使用

※2. ルネサス調べ


パートナー

画像
株式会社アドバンスト・メディア

株式会社アドバンスト・メディア

音声認識ソフトウェア製品の開発および販売

Contact: https://www.advanced-media.co.jp/contact/total/
TEL:03-5958-1031(代表電話)

画像
Toshiba Logo

東芝デジタルソリューションズ株式会社

システムインテグレーション及びIoT/AIを活用したICTソリューションの開発・製造・販売

Contact: https://www.toshiba-sol.co.jp/pro/recaius/contact.html
Email: [email protected]

画像
株式会社テクノマセマティカル

株式会社テクノマセマティカル

画像・音声/音響処理を行うソフト/ハードウェア製品の開発および販売

Email:[email protected]
TEL: 03-3492-3633


画像
Lab on the Cloud

Lab on the Cloud

ルネサスのLab on the Cloud は、ルネサスの定評ある評価ボード、ウィニング・コンビネーション、ソフトウェアといったソリューションを、ユーザがオンラインでアクセスしてテストできるリモート開発環境です。

音声認識ソリューション

このリファレンスデザインは、音声コマンドを認識し、対応する操作を開始します。 高性能なArm® Cortex®-M4コア搭載のRA6M1 MCUを採用しています。

Access the Lab

ドキュメント

ダウンロード

分類 タイトル 日時
サンプルコード ログインしてダウンロード ZIP 2.09 MB 英語
アプリケーション: キーテクノロジー
Compiler: CC-RX Function: Communication Interface IDE: e2 studio
サンプルコード ログインしてダウンロード ZIP 3.30 MB
アプリケーション: キーテクノロジー, 民生機器全般, 産業用機器
Compiler: CC-RX Function: Communication Interface, HMI IDE: e2 studio
サンプルコード ログインしてダウンロード ZIP 3.30 MB 英語
アプリケーション: キーテクノロジー
Compiler: CC-RX Function: Communication Interface IDE: e2 studio
3件

ビデオ

RX660音声認識

本ビデオは、RX660を搭載する音声認識ボードを紹介します。ボード情報、ツールや実際に使用される場所で評価結果等を提示します。

ニュース&ブログ

イベント&ウェビナー