SpeechPy
Open Source Python-bibliotek til talegenkendelser
Python API, der understøtter talebehandling samt genkendelsesoperationer. Det understøtter også MFCC'er og filterbankenergier sammen med log-energien fra filterbanker.
SpeechPy-biblioteket har leveret et sæt nyttige teknikker til talebehandling samt genkendelse og vigtige efterbehandlingsoperationer ved hjælp af Python-kommandoer. Forskellige avancerede talefunktioner såsom MFCC'er og filterbankenergier sideløbende med log-energien fra filterbanker understøttes fuldt ud af SpeechPy-biblioteket.
Biblioteket sigter også mod at levere alle de nødvendige funktionaliteter til deep learning-applikationer såsom talegenkendelse (AS) eller automatisk talegenkendelse (ASR). Det har givet flere vigtige funktioner til beregning af de vigtigste talefunktioner, såsom beregning af MFCC-funktioner fra et lydsignal, beregning af mel-filter-banks energi, beregning af log Mel-filter-bank energifunktioner fra et lydsignal, udtrækning af tidsmæssige afledte funktioner, udtrækning mel frekvens cepstral koefficient, og mange flere.
Kom godt i gang med SpeechPy
Den nemmeste måde at installere SpeechPy-biblioteket på er at bruge Python Package Index (PyPI). Brug venligst følgende kommando til en komplet installation.
Installer SpeechPy ved hjælp af PyPI
pip install speechpy
Talegenkendelse via Python
Talegenkendelse beskæftiger sig hovedsageligt med genkendelse og oversættelse af talt sprog til tekst ved hjælp af computere. Open source Python-biblioteket SpeechPy gør det muligt for softwareudviklere at skabe applikationer, der understøtter talegenkendelsesfunktioner. Det hjælper brugere med at spare tid ved at tale i stedet for at skrive. På den måde hjælper brugere med at kommunikere med deres enheder med mindre indsats og gør teknologiske enheder mere tilgængelige og nemmere at bruge.
Beregn MFCC fra Audio Signal
Python-biblioteket SpeechPy har ydet komplet support til beregning af MFCC-funktioner fra et lydsignal i deres egne applikationer. Biblioteket har ydet understøttelse af flere vigtige MFCC-funktioner, såsom samplingsfrekvens af signalet, længden af hver frame i sekunder, trin mellem successive frames i sekunder, anvende filtre fra filterbank, antal FFT-punkter, laveste båndkant af mel-filtre , højeste båndkant af mel-filtre, Antal cepstrale koefficienter og mere.
Udpak lyd ved hjælp af Autoencoders
Open source Python-biblioteket SpeechPy gør det muligt for computerprogrammører at udtrække lyddata ved hjælp af Python-kode. Autoencoder er en meget effektiv indlæringsteknik til neurale netværk, der lærer effektive datarepræsentationer. Autoencoder-netværk lærer af hinanden, hvordan man komprimerer data fra inputlaget til en kortere kode og derefter udkomprimerer den kode til det format, der bedst matcher det originale input.