1. Produkti
  2.   Audio
  3.   Python
  4.   SpeechPy

SpeechPy

 
 

Atvērtā pirmkoda Python bibliotēka runas atpazīšanai

Python API, kas atbalsta runas apstrādi, kā arī atpazīšanas darbības. Tas atbalsta arī MFCC un filtru banku enerģijas līdzās filtru banku logenerģijai. 

Bibliotēka SpeechPy ir nodrošinājusi noderīgu paņēmienu kopumu runas apstrādei, kā arī atpazīšanai un svarīgām pēcapstrādes darbībām, izmantojot Python komandas. Bibliotēka SpeechPy pilnībā atbalsta dažādas uzlabotas runas funkcijas, piemēram, MFCC un filtru banku enerģijas, kā arī filtru banku logenerģiju.

Bibliotēkas mērķis ir arī nodrošināt visas nepieciešamās funkcijas dziļās mācīšanās lietojumprogrammām, piemēram, runas atpazīšanai (AS) vai automātiskai runas atpazīšanai (ASR). Tas ir nodrošinājis vairākas svarīgas funkcijas galveno runas pazīmju aprēķināšanai, piemēram, MFCC pazīmju aprēķināšanai no audio signāla, mel-filtra banku enerģijas aprēķināšanai, žurnāla Mel-filtra banku enerģijas pazīmju aprēķināšanai no audio signāla, laika atvasinājuma pazīmju iegūšanai, izvilkšanai. mel frekvences cepstral koeficients, un daudzi citi.

Previous Next

Darba sākšana ar SpeechPy

Vienkāršākais veids, kā instalēt SpeechPy bibliotēku, ir izmantot Python pakotnes indeksu (PyPI). Lūdzu, izmantojiet šo komandu, lai pabeigtu instalēšanu.

Instalējiet SpeechPy, izmantojot PyPI

 pip install speechpy 

Runas atpazīšana, izmantojot Python

Runas atpazīšana galvenokārt ir saistīta ar runātās valodas atpazīšanu un tulkošanu tekstā ar datoru palīdzību. Atvērtā koda Python bibliotēka SpeechPy ļauj programmatūras izstrādātājiem izveidot lietojumprogrammas, kas atbalsta runas atpazīšanas funkcijas. Tas palīdz lietotājiem ietaupīt laiku, runājot, nevis rakstot. Tādējādi palīdzot lietotājiem sazināties ar savām ierīcēm ar mazāku piepūli un padarot tehnoloģiskās ierīces pieejamākas un vieglāk lietojamas.

Aprēķiniet MFCC no audio signāla

Python bibliotēka SpeechPy ir nodrošinājusi pilnīgu atbalstu MFCC līdzekļu aprēķināšanai no audio signāla savās lietojumprogrammās. Bibliotēka ir nodrošinājusi atbalstu vairākām svarīgām MFCC funkcijām, piemēram, signāla paraugu ņemšanas biežumam, katra kadra garumam sekundēs, solim starp secīgiem kadriem sekundēs, filtru lietošanā no filtru bankas, FFT punktu skaita, mel filtru zemākās joslas malas. , melfiltru augstākās joslas mala, cepstrālo koeficientu skaits un vairāk.

Izņemiet audio, izmantojot automātiskos kodētājus

Atvērtā koda Python bibliotēka SpeechPy ļauj datorprogrammētājiem iegūt audio datus, izmantojot Python kodu. Autoencoder ir ļoti efektīva mācīšanās metode neironu tīkliem, kas apgūst efektīvus datu attēlojumus. Autoencoder tīkli viens no otra mācās, kā saspiest datus no ievades slāņa īsākā kodā un pēc tam atspiest šo kodu jebkurā formātā, kas vislabāk atbilst sākotnējai ievadei.

 Latviski