Распознавание голоса Arduino

Можно ли использовать только Arduino для распознавания голоса? а может с esp32 нет интернета.

Я нашел чип распознавания речи, но это не то, что мне нужно У меня есть esp32 esp8266 и плата arduino. Я хотел бы знать, может ли кто-нибудь это сделать

, 👍0


3 ответа


3

Нет. Это так просто. Нет. Распознавание голоса — очень сложная задача. Чтобы сделать это быстро и хорошо «в обычном» режиме, требуется нейронная сеть или очень мощный ПК (примечание: все распространенные теперь используют онлайн-ресурсы для выполнения всей работы).

Чип распознавания голоса обычно запрограммирован на реакцию на определенные слова.

,

Исправление: на самом деле вам не нужен облачный сервис. Это может занять некоторое время, но Deepspeech от Mozilla (https://github.com/mozilla/DeepSpeech/) способен сделать это на устройстве. IIRC Raspberry Pi способны на это, но не более того., @starbeamrainbowlabs

И как это связано с выполнением этого на Arduino?, @Majenko

Истинный. Просто хотел отметить, что технически это возможно сделать на месте, при наличии подходящего оборудования :P, @starbeamrainbowlabs

Возможно, если бы мы были на сайте Pi SE, к вашему комментарию отнеслись бы более серьезно. Но это не так. *Все* можно сделать, если у вас есть подходящее оборудование., @Majenko

Ответ на вопрос «можно ли это сделать» по своей сути в какой-то момент будет «да», что делает этот ответ неправильным… вот и все, вот так просто., @user2305193

@ user2305193 Нет, это не так. Я призываю вас сделать это. Выполните распознавание голоса с помощью *просто* Arduino и *возможно* ESP32 без *подключения к Интернету*. Продолжать. Покажите нам, как это сделать. Никакого дополнительного оборудования. Нет модуля VR3. Нет Кендрита К210. Нет связи с ПК. Ничего. Просто Ардуино. В 9 случаях из 10, когда кто-то говорит «Arduino», он имеет в виду «UNO». Я буду хорошим. Вы можете использовать Mega2560., @Majenko


1

Можно выполнить простое распознавание речи (слова). Я сделал один в 1998 году. Чип был atmega16. Теперь есть готовые звуковые детекторы, и вы просто используете цифровой выход. https://s.click.aliexpress.com/e/cn6IwDhI Из этого цифрового сигнала вы получаете частоты, длительность и задержки. Сначала выведите результаты в серийный номер, а затем получите ключевые характеристики, диапазоны голосовой команды или слово. Положите эти границы на стол, и вот оно. Это работает как шарм с несколькими словами, но затем вам нужно создать индексированную базу данных или что-то еще, чтобы поддерживать ее в разумных пределах быстро. У меня было всего 8 команд и распознавание было около 85%. Было всего 2 раза, когда он "услышал" какое-то другое слово как слово из списка. Язык был финский. Я предполагаю, что это может снизить количество ложных срабатываний. Как видите, это ничто по сравнению с реальными системами, но может быть легко использовано в некритичных решениях. ESP32 может делать гораздо больше, и я думаю, что это может быть интересно. Вы также можете посмотреть -> https://github.com/MhageGH/esp32_CloudSpeech

,

Marmenmu, сформулируйте мое понимание. Только ты можешь говорить в микрофон, верно? Он использует вашу частоту или тон. или только вы можете заставить робота понять., @Aimless

И что мне нужно знать, чтобы распознавать частоты с помощью atmega16?, @Aimless

Этот метод не может справиться с высоким уровнем шума. Сначала используйте триммер, который активируется только тогда, когда команда произносится на близком расстоянии от микрофона. Затем создайте «программу захвата», которая передает на компьютер только параметры слова. Произнесите нужное слово несколько раз и вы получите ключевые значения частот, задержек и их порядка. Вам нужно просто посмотреть один контакт и найти минимальное значение, в течение которого тон псевдонима частоты должен быть одинаковым. Запишите эти пакеты в массив, а затем сравните предопределенные команды, которые определяют порядок, а также минимальную и максимальную длину частот и задержек. https://forum.arduino.cc/index.php?topic=105289.0, @Marmenmu


1

Да, это возможно — см. здесь пример ESP32:

https://github.com/espressif/esp-adf/tree/master /examples/speech_recognition/asr

,