1. Produse
  2.   Audio
  3.   Python
  4.   SpeechPy

SpeechPy

 
 

Biblioteca Python cu sursă deschisă pentru recunoașterea vorbirii

API-ul Python care acceptă procesarea vorbirii, precum și operațiunile de recunoaștere. De asemenea, acceptă MFCC și energiile bancilor de filtre alături de energia log a băncilor de filtre. 

Biblioteca SpeechPy a oferit un set de tehnici utile pentru procesarea vorbirii, precum și recunoașterea și operațiunile importante de post-procesare folosind comenzi Python. Diverse funcții avansate de vorbire, cum ar fi MFCC și energiile bancilor de filtre, alături de energia log a băncilor de filtre, sunt pe deplin acceptate de biblioteca SpeechPy.

Biblioteca își propune, de asemenea, să ofere toate funcționalitățile necesare pentru aplicațiile de învățare profundă, cum ar fi recunoașterea vorbirii (AS) sau recunoașterea automată a vorbirii (ASR). Acesta a oferit câteva funcții importante pentru calcularea caracteristicilor principale de vorbire, cum ar fi calcularea caracteristicilor MFCC dintr-un semnal audio, calcularea energiei mel-filter-banks, calculul jurnalului Mel-filter-bank caracteristici de energie dintr-un semnal audio, extragerea caracteristicilor derivate temporale, extragerea coeficientul cepstral al frecvenței mel și multe altele.

Previous Next

Noțiuni introductive cu SpeechPy

Cel mai simplu mod de a instala biblioteca SpeechPy este utilizarea Python Package Index (PyPI). Vă rugăm să utilizați următoarea comandă pentru o instalare completă.

Instalați SpeechPy folosind PyPI

 pip install speechpy 

Recunoașterea vorbirii prin Python

Recunoașterea vorbirii se ocupă în principal de recunoașterea și traducerea limbajului vorbit în text de către computere. Biblioteca Python open source SpeechPy le permite dezvoltatorilor de software să creeze aplicații care acceptă funcțiile de recunoaștere a vorbirii. Ajută utilizatorii să economisească timp vorbind în loc să tasteze. Ajutând astfel utilizatorii să comunice cu dispozitivele lor cu mai puțin efort și făcând dispozitivele tehnologice mai accesibile și mai ușor de utilizat.

Calculați MFCC din semnal audio

Biblioteca Python SpeechPy a oferit suport complet pentru calcularea funcțiilor MFCC dintr-un semnal audio în propriile aplicații. Biblioteca a oferit suport pentru mai multe caracteristici importante MFCC, cum ar fi frecvența de eșantionare a semnalului, lungimea fiecărui cadru în secunde, pasul între cadre succesive în secunde, aplicarea filtrelor din bancul de filtre, numărul de puncte FFT, cea mai joasă margine a benzii a filtrelor Mel. , cea mai înaltă margine a benzii a filtrelor mel, numărul de coeficienți cepstrali și multe altele.

Extrageți audio folosind codificatoare automate

Biblioteca Python open source SpeechPy le permite programatorilor de calculatoare să extragă date audio folosind codul Python. Autoencoder este o tehnică de învățare foarte eficientă pentru rețelele neuronale care învață reprezentări eficiente de date. Rețelele de codificare automată învață unele de la altele cum să comprima datele din stratul de intrare într-un cod mai scurt și apoi să decomprimați acel cod în orice format care se potrivește cel mai bine cu intrarea inițială.

 Română