SpeechPy

Avoimen lähdekoodin Python-kirjasto puheentunnistusta varten

Python-sovellusliittymä, joka tukee puheenkäsittelyä ja tunnistustoimintoja. Se tukee myös MFCC:itä ja suodatinpankkien energioita suodatinpankkien log-energian rinnalla.

SpeechPy-kirjasto on tarjonnut joukon hyödyllisiä tekniikoita puheenkäsittelyyn sekä tunnistamiseen ja tärkeisiin Python-komentoja käyttäviin jälkikäsittelytoimintoihin. SpeechPy-kirjasto tukee täysin erilaisia edistyneitä puheominaisuuksia, kuten MFCC:t ja suodatinpankkien energiat sekä suodatinpankkien log-energia.

Kirjasto pyrkii myös tarjoamaan kaikki tarvittavat toiminnot syväoppimisen sovelluksiin, kuten puheentunnistukseen (AS) tai automaattiseen puheentunnistukseen (ASR). Se on tarjonnut useita tärkeitä toimintoja tärkeimpien puheominaisuuksien laskemiseen, kuten MFCC-ominaisuuksien laskemiseen äänisignaalista, mel-filter-pankkien energian laskemisesta, lokin Mel-suodatinpankin energiaominaisuuksien laskemisesta äänisignaalista, ajallisten johdannaisominaisuuksien poimiminen, poimiminen. mel-taajuuden cepstral-kerroin ja paljon muuta.

Yhdellä silmäyksellä

Yleiskatsaus SpeechPy-ominaisuuksista.

Ominaisuuksien yleiskatsaus

Puheenkäsittely
Puheentunnistus
Laske MFCC:t
Suodatinpankin energiat
MP3-tuki
Jälkikäsittelyä
Käytä automaattikoodeja
Pura ääni
Äänestä tekstiksi

SpeechPy

SpeechPy tukee alla lueteltuja äänitiedostomuotoja.

Lukija

MP3, WAV, WMA, WEBM

Kirjailija

MP3, WAV, WMA, WEBM

SpeechPy

Alustan riippumattomuus

SpeechPy vaatii vain Python-ajonaikaa.

Python 2.6 ja uudemmat.

SpeechPy

SpeechPyn käytön aloittaminen

Helpoin tapa asentaa SpeechPy-kirjasto on käyttää Python Package Indexiä (PyPI). Käytä seuraavaa komentoa täydelliseen asennukseen.

Asenna SpeechPy käyttämällä PyPI:tä

 pip install speechpy

Puheentunnistus Pythonin kautta

Puheentunnistus liittyy pääasiassa puhutun kielen tunnistamiseen ja kääntämiseen tekstiksi tietokoneilla. Avoimen lähdekoodin Python-kirjasto SpeechPy antaa ohjelmistokehittäjille mahdollisuuden luoda puheentunnistusominaisuuksia tukevia sovelluksia. Se auttaa käyttäjiä säästämään aikaa puhumalla kirjoittamisen sijaan. Näin käyttäjät voivat kommunikoida laitteidensa kanssa pienemmällä vaivalla ja tehdä teknisistä laitteista helpommin saavutettavia ja helpompia käyttää.

Laske MFCC äänisignaalista

Python-kirjasto SpeechPy on tarjonnut täydellisen tuen MFCC-ominaisuuksien laskemiseen äänisignaalista omissa sovelluksissaan. Kirjasto on tarjonnut tukea useille tärkeille MFCC-ominaisuuksille, kuten signaalin näytteenottotaajuus, kunkin kehyksen pituus sekunneissa, peräkkäisten kehysten välinen askel sekunneissa, suodattimien käyttäminen suodinpankista, FFT-pisteiden määrä, mel-suodattimien alin kaistan reuna , mel-suodattimien korkein kaistan reuna, cepstral-kertoimien lukumäärä ja paljon muuta.

Pura ääni automaattisilla koodereilla

Avoimen lähdekoodin Python-kirjasto SpeechPy antaa ohjelmoijille mahdollisuuden poimia äänidataa Python-koodin avulla. Autoencoder on erittäin tehokas oppimistekniikka hermoverkkoille, joka oppii tehokkaat dataesitykset. Autoencoder-verkot oppivat toisiltaan kuinka pakata tiedot syöttökerroksesta lyhyemmäksi koodiksi ja purkaa sitten koodi mihin tahansa muotoon, joka parhaiten vastaa alkuperäistä syöttöä.