SpeechPy

Open Source Python Library for Speech Recognitions

Python API που υποστηρίζει επεξεργασία ομιλίας καθώς και λειτουργίες αναγνώρισης. Υποστηρίζει επίσης MFCC και ενέργειες φίλτρων τραπεζών παράλληλα με την ενέργεια καταγραφής των τραπεζών φίλτρων.

Η βιβλιοθήκη SpeechPy έχει παράσχει ένα σύνολο χρήσιμων τεχνικών για την επεξεργασία ομιλίας καθώς και για την αναγνώριση και σημαντικές λειτουργίες μετά την επεξεργασία χρησιμοποιώντας εντολές Python. Διάφορες προηγμένες λειτουργίες ομιλίας, όπως MFCC και ενέργειες τράπεζας φίλτρων, παράλληλα με την ενέργεια καταγραφής των τραπεζών φίλτρων, υποστηρίζονται πλήρως από τη βιβλιοθήκη SpeechPy.

Η βιβλιοθήκη στοχεύει επίσης να παρέχει όλες τις απαραίτητες λειτουργίες για εφαρμογές βαθιάς μάθησης όπως η αναγνώριση ομιλίας (AS) ή η αυτόματη αναγνώριση ομιλίας (ASR). Παρέχει πολλές σημαντικές λειτουργίες για τον υπολογισμό των κύριων χαρακτηριστικών ομιλίας, όπως υπολογισμός χαρακτηριστικών MFCC από ηχητικό σήμα, υπολογισμός ενέργειας mel-filter-banks, υπολογισμός ενεργειακών χαρακτηριστικών καταγραφής Mel-filter-bank από ένα ηχητικό σήμα, εξαγωγή χρονικών παραγώγων χαρακτηριστικών, εξαγωγή εγκεφαλικός συντελεστής συχνότητας mel, και πολλά άλλα.

Με μια ματιά

Μια επισκόπηση των δυνατοτήτων SpeechPy.

Επισκόπηση χαρακτηριστικών

Επεξεργασία Λόγου
Αναγνώρισης ομιλίας
Υπολογίστε MFCC
Ενέργειες τράπεζας φίλτρου
Υποστήριξη MP3
Μετα-επεξεργασία
Χρησιμοποιήστε Autoencoders
Εξαγωγή ήχου
Ήχος σε κείμενο

SpeechPy

Το SpeechPy υποστηρίζει μορφές αρχείων ήχου όπως αναφέρονται παρακάτω.

Αναγνώστης

MP3, WAV, WMA, WEBM

Συγγραφέας

MP3, WAV, WMA, WEBM

SpeechPy

Πλατφόρμα Ανεξαρτησίας

Το SpeechPy απαιτεί μόνο χρόνο εκτέλεσης Python.

Python 2.6 και παραπάνω.

SpeechPy

Ξεκινώντας με το SpeechPy

Ο ευκολότερος τρόπος εγκατάστασης της βιβλιοθήκης SpeechPy είναι η χρήση του Ευρετηρίου Πακέτων Python (PyPI). Χρησιμοποιήστε την ακόλουθη εντολή για πλήρη εγκατάσταση.

Εγκαταστήστε το SpeechPy χρησιμοποιώντας το PyPI

 pip install speechpy

Αναγνώριση ομιλίας μέσω Python

Η Αναγνώριση ομιλίας ασχολείται κυρίως με την αναγνώριση και τη μετάφραση της προφορικής γλώσσας σε κείμενο από υπολογιστές. Η ανοιχτού κώδικα βιβλιοθήκη Python SpeechPy επιτρέπει στους προγραμματιστές λογισμικού να δημιουργούν εφαρμογές που υποστηρίζουν λειτουργίες αναγνώρισης ομιλίας. Βοηθά τους χρήστες να εξοικονομήσουν χρόνο μιλώντας αντί να πληκτρολογούν. Βοηθώντας έτσι τους χρήστες να επικοινωνούν με τις συσκευές τους με λιγότερη προσπάθεια και καθιστούν τις τεχνολογικές συσκευές πιο προσιτές και ευκολότερες στη χρήση.

Υπολογίστε το MFCC από το σήμα ήχου

Η βιβλιοθήκη Python SpeechPy έχει παράσχει πλήρη υποστήριξη για τον υπολογισμό των λειτουργιών MFCC από ένα ηχητικό σήμα μέσα στις δικές τους εφαρμογές. Η βιβλιοθήκη έχει παράσχει υποστήριξη για πολλά σημαντικά χαρακτηριστικά MFCC, όπως συχνότητα δειγματοληψίας του σήματος, μήκος κάθε καρέ σε δευτερόλεπτα, βήμα μεταξύ διαδοχικών καρέ σε δευτερόλεπτα, εφαρμογή φίλτρων από την τράπεζα φίλτρων, αριθμός σημείων FFT, άκρο της χαμηλότερης ζώνης φίλτρων mel , άκρο υψηλότερης ζώνης φίλτρων mel, Αριθμός εγκεφαλικών συντελεστών και πολλά άλλα.

Εξαγωγή ήχου χρησιμοποιώντας Autoencoders

Η ανοιχτού κώδικα βιβλιοθήκη Python SpeechPy επιτρέπει στους προγραμματιστές υπολογιστών να εξάγουν δεδομένα ήχου χρησιμοποιώντας κώδικα Python. Ο αυτόματος κωδικοποιητής είναι μια πολύ αποτελεσματική τεχνική εκμάθησης για νευρωνικά δίκτυα που μαθαίνει αποτελεσματικές αναπαραστάσεις δεδομένων. Τα δίκτυα αυτόματου κωδικοποιητή μαθαίνουν το ένα από το άλλο πώς να συμπιέζουν δεδομένα από το επίπεδο εισόδου σε έναν συντομότερο κώδικα και, στη συνέχεια, να αποσυμπιέζουν αυτόν τον κώδικα σε οποιαδήποτε μορφή ταιριάζει καλύτερα με την αρχική είσοδο.