SpeechPy
Avoimen lähdekoodin Python-kirjasto puheentunnistusta varten
Python-sovellusliittymä, joka tukee puheenkäsittelyä ja tunnistustoimintoja. Se tukee myös MFCC:itä ja suodatinpankkien energioita suodatinpankkien log-energian rinnalla.
SpeechPy-kirjasto on tarjonnut joukon hyödyllisiä tekniikoita puheenkäsittelyyn sekä tunnistamiseen ja tärkeisiin Python-komentoja käyttäviin jälkikäsittelytoimintoihin. SpeechPy-kirjasto tukee täysin erilaisia edistyneitä puheominaisuuksia, kuten MFCC:t ja suodatinpankkien energiat sekä suodatinpankkien log-energia.
Kirjasto pyrkii myös tarjoamaan kaikki tarvittavat toiminnot syväoppimisen sovelluksiin, kuten puheentunnistukseen (AS) tai automaattiseen puheentunnistukseen (ASR). Se on tarjonnut useita tärkeitä toimintoja tärkeimpien puheominaisuuksien laskemiseen, kuten MFCC-ominaisuuksien laskemiseen äänisignaalista, mel-filter-pankkien energian laskemisesta, lokin Mel-suodatinpankin energiaominaisuuksien laskemisesta äänisignaalista, ajallisten johdannaisominaisuuksien poimiminen, poimiminen. mel-taajuuden cepstral-kerroin ja paljon muuta.
SpeechPyn käytön aloittaminen
Helpoin tapa asentaa SpeechPy-kirjasto on käyttää Python Package Indexiä (PyPI). Käytä seuraavaa komentoa täydelliseen asennukseen.
Asenna SpeechPy käyttämällä PyPI:tä
pip install speechpy
Puheentunnistus Pythonin kautta
Puheentunnistus liittyy pääasiassa puhutun kielen tunnistamiseen ja kääntämiseen tekstiksi tietokoneilla. Avoimen lähdekoodin Python-kirjasto SpeechPy antaa ohjelmistokehittäjille mahdollisuuden luoda puheentunnistusominaisuuksia tukevia sovelluksia. Se auttaa käyttäjiä säästämään aikaa puhumalla kirjoittamisen sijaan. Näin käyttäjät voivat kommunikoida laitteidensa kanssa pienemmällä vaivalla ja tehdä teknisistä laitteista helpommin saavutettavia ja helpompia käyttää.
Laske MFCC äänisignaalista
Python-kirjasto SpeechPy on tarjonnut täydellisen tuen MFCC-ominaisuuksien laskemiseen äänisignaalista omissa sovelluksissaan. Kirjasto on tarjonnut tukea useille tärkeille MFCC-ominaisuuksille, kuten signaalin näytteenottotaajuus, kunkin kehyksen pituus sekunneissa, peräkkäisten kehysten välinen askel sekunneissa, suodattimien käyttäminen suodinpankista, FFT-pisteiden määrä, mel-suodattimien alin kaistan reuna , mel-suodattimien korkein kaistan reuna, cepstral-kertoimien lukumäärä ja paljon muuta.
Pura ääni automaattisilla koodereilla
Avoimen lähdekoodin Python-kirjasto SpeechPy antaa ohjelmoijille mahdollisuuden poimia äänidataa Python-koodin avulla. Autoencoder on erittäin tehokas oppimistekniikka hermoverkkoille, joka oppii tehokkaat dataesitykset. Autoencoder-verkot oppivat toisiltaan kuinka pakata tiedot syöttökerroksesta lyhyemmäksi koodiksi ja purkaa sitten koodi mihin tahansa muotoon, joka parhaiten vastaa alkuperäistä syöttöä.