SpeechPy

Open Source Python-bibliotek til talegenkendelser

Python API, der understøtter talebehandling samt genkendelsesoperationer. Det understøtter også MFCC'er og filterbankenergier sammen med log-energien fra filterbanker.

SpeechPy-biblioteket har leveret et sæt nyttige teknikker til talebehandling samt genkendelse og vigtige efterbehandlingsoperationer ved hjælp af Python-kommandoer. Forskellige avancerede talefunktioner såsom MFCC'er og filterbankenergier sideløbende med log-energien fra filterbanker understøttes fuldt ud af SpeechPy-biblioteket.

Biblioteket sigter også mod at levere alle de nødvendige funktionaliteter til deep learning-applikationer såsom talegenkendelse (AS) eller automatisk talegenkendelse (ASR). Det har givet flere vigtige funktioner til beregning af de vigtigste talefunktioner, såsom beregning af MFCC-funktioner fra et lydsignal, beregning af mel-filter-banks energi, beregning af log Mel-filter-bank energifunktioner fra et lydsignal, udtrækning af tidsmæssige afledte funktioner, udtrækning mel frekvens cepstral koefficient, og mange flere.

Ved første øjekast

En oversigt over SpeechPy-funktioner.

Oversigt over funktioner

Talebehandling
Tale genkendelse
Beregn MFCC'er
Filterbank energier
MP3-understøttelse
Efterbehandling
Brug Autoencoders
Uddrag lyd
Lyd til tekst

SpeechPy

SpeechPy understøtter lydfilformater som angivet nedenfor.

Læser

MP3, WAV, WMA, WEBM

Forfatter

MP3, WAV, WMA, WEBM

SpeechPy

Platformuafhængighed

SpeechPy kræver kun Python-runtime.

Python 2.6 og nyere.

SpeechPy

Kom godt i gang med SpeechPy

Den nemmeste måde at installere SpeechPy-biblioteket på er at bruge Python Package Index (PyPI). Brug venligst følgende kommando til en komplet installation.

Installer SpeechPy ved hjælp af PyPI

 pip install speechpy

Talegenkendelse via Python

Talegenkendelse beskæftiger sig hovedsageligt med genkendelse og oversættelse af talt sprog til tekst ved hjælp af computere. Open source Python-biblioteket SpeechPy gør det muligt for softwareudviklere at skabe applikationer, der understøtter talegenkendelsesfunktioner. Det hjælper brugere med at spare tid ved at tale i stedet for at skrive. På den måde hjælper brugere med at kommunikere med deres enheder med mindre indsats og gør teknologiske enheder mere tilgængelige og nemmere at bruge.

Beregn MFCC fra Audio Signal

Python-biblioteket SpeechPy har ydet komplet support til beregning af MFCC-funktioner fra et lydsignal i deres egne applikationer. Biblioteket har ydet understøttelse af flere vigtige MFCC-funktioner, såsom samplingsfrekvens af signalet, længden af hver frame i sekunder, trin mellem successive frames i sekunder, anvende filtre fra filterbank, antal FFT-punkter, laveste båndkant af mel-filtre , højeste båndkant af mel-filtre, Antal cepstrale koefficienter og mere.

Udpak lyd ved hjælp af Autoencoders

Open source Python-biblioteket SpeechPy gør det muligt for computerprogrammører at udtrække lyddata ved hjælp af Python-kode. Autoencoder er en meget effektiv indlæringsteknik til neurale netværk, der lærer effektive datarepræsentationer. Autoencoder-netværk lærer af hinanden, hvordan man komprimerer data fra inputlaget til en kortere kode og derefter udkomprimerer den kode til det format, der bedst matcher det originale input.