SpeechPy
Библиотека на Python с отворен код за разпознаване на реч
API на Python, който поддържа обработка на реч, както и операции за разпознаване. Той също така поддържа MFCC и енергии на филтърни банки заедно с логаритмичната енергия на филтърни банки.
Библиотеката SpeechPy предостави набор от полезни техники за обработка на реч, както и разпознаване и важни операции за последваща обработка с помощта на команди на Python. Различни усъвършенствани речеви функции, като MFCC и филтърни банки енергии заедно с лог-енергията на филтърни банки се поддържат напълно от библиотеката SpeechPy.
Библиотеката също има за цел да предостави всички необходими функционалности за приложения за дълбоко обучение, като разпознаване на реч (AS) или автоматично разпознаване на реч (ASR). Осигурява няколко важни функции за изчисляване на основните речеви характеристики, като например изчисляване на MFCC характеристики от аудио сигнал, изчисляване на енергията на mel-filter-banks, изчисляване на log Mel-filter-bank енергийни характеристики от аудио сигнал, извличане на времеви производни характеристики, извличане mel честотен кепстрален коефициент и много други.
Първи стъпки с SpeechPy
Най-лесният начин да инсталирате библиотеката SpeechPy е да използвате Python Package Index (PyPI). Моля, използвайте следната команда за пълна инсталация.
Инсталирайте SpeechPy с помощта на PyPI
pip install speechpy
Разпознаване на реч чрез Python
Разпознаването на реч се занимава главно с разпознаването и превода на говорим език в текст от компютри. Библиотеката на Python с отворен код SpeechPy позволява на разработчиците на софтуер да създават приложения, поддържащи функции за разпознаване на реч. Помага на потребителите да спестят време, като говорят, вместо да пишат. По този начин помага на потребителите да комуникират с устройствата си с по-малко усилия и прави технологичните устройства по-достъпни и по-лесни за използване.
Изчислете MFCC от аудио сигнал
Библиотеката на Python SpeechPy е предоставила пълна поддръжка за изчисляване на MFCC функции от аудио сигнал в техните собствени приложения. Библиотеката е предоставила поддръжка за няколко важни функции на MFCC, като например честота на семплиране на сигнала, дължина на всеки кадър в секунди, стъпка между последователни кадри в секунди, прилагане на филтри от филтърна банка, брой FFT точки, най-долния ръб на лентата на мел филтрите , край на най-високата лента на мел филтри, брой на кепстралните коефициенти и др.
Извличане на аудио с помощта на Autoencoders
Библиотеката на Python с отворен код SpeechPy позволява на компютърните програмисти да извличат аудио данни с помощта на код на Python. Autoencoder е много ефективна техника за обучение за невронни мрежи, която научава ефективни представяния на данни. Мрежите за автоматично кодиране се учат една от друга как да компресират данни от входния слой в по-кратък код и след това да декомпресират този код във всеки формат, който най-добре съответства на оригиналния вход.