SpeechPy
Perpustakaan Python Sumber Terbuka untuk Pengecaman Pertuturan
API Python yang menyokong pemprosesan pertuturan serta operasi pengecaman. Ia juga menyokong MFCC dan tenaga bank penapis di samping tenaga log bank penapis.
Pustaka SpeechPy telah menyediakan satu set teknik berguna untuk pemprosesan pertuturan serta pengiktirafan dan operasi pasca pemprosesan yang penting menggunakan arahan Python. Pelbagai ciri pertuturan lanjutan seperti MFCC dan tenaga bank penapis di samping tenaga log bank penapis disokong sepenuhnya oleh pustaka SpeechPy.
Perpustakaan ini juga bertujuan untuk menyediakan semua fungsi yang diperlukan untuk aplikasi pembelajaran mendalam seperti pengecaman pertuturan (AS) atau pengecaman pertuturan automatik (ASR). Ia telah menyediakan beberapa fungsi penting untuk mengira ciri pertuturan utama seperti mengira ciri MFCC daripada isyarat audio, mengira tenaga bank penapis mel, log pengkomputeran ciri tenaga Mel-penapis-bank daripada isyarat audio, mengekstrak ciri terbitan temporal, mengekstrak. pekali cepstral frekuensi mel, dan banyak lagi.
Bermula dengan SpeechPy
Cara paling mudah untuk memasang pustaka SpeechPy ialah menggunakan Indeks Pakej Python (PyPI). Sila gunakan arahan berikut untuk pemasangan yang lengkap.
Pasang SpeechPy menggunakan PyPI
pip install speechpy
Pengecaman Pertuturan melalui Python
Pengecaman Pertuturan terutamanya berkaitan dengan pengiktirafan dan terjemahan bahasa pertuturan ke dalam teks oleh komputer. Pustaka Python sumber terbuka SpeechPy membolehkan pembangun perisian mencipta aplikasi yang menyokong ciri pengecaman pertuturan. Ia membantu pengguna menjimatkan masa dengan bercakap dan bukannya menaip. Dengan itu membantu pengguna untuk berkomunikasi dengan peranti mereka dengan sedikit usaha dan menjadikan peranti teknologi lebih mudah diakses dan lebih mudah untuk digunakan.
Kira MFCC daripada Isyarat Audio
Pustaka Python SpeechPy telah menyediakan sokongan lengkap untuk mengira ciri MFCC daripada isyarat audio di dalam aplikasi mereka sendiri. Perpustakaan telah menyediakan sokongan untuk beberapa ciri MFCC penting seperti kekerapan pensampelan isyarat, panjang setiap bingkai dalam saat, langkah antara bingkai berturut-turut dalam saat, gunakan penapis daripada bank penapis, bilangan titik FFT, pinggir jalur terendah penapis mel , pinggir jalur tertinggi penapis mel, Bilangan pekali cepstral dan banyak lagi.
Ekstrak Audio menggunakan Autoencoders
Pustaka Python sumber terbuka SpeechPy membolehkan pengaturcara komputer mengekstrak data audio menggunakan kod Python. Autoencoder ialah teknik pembelajaran yang sangat berkesan untuk rangkaian saraf yang mempelajari perwakilan data yang cekap. Rangkaian pengekod auto belajar daripada satu sama lain cara memampatkan data daripada lapisan input kepada kod yang lebih pendek, dan kemudian nyahmampatkan kod itu ke dalam apa jua format yang paling sesuai dengan input asal.