SpeechPy
Konuşma Tanıma için Açık Kaynak Python Kitaplığı
Tanıma işlemlerinin yanı sıra konuşma işlemeyi de destekleyen Python API. Ayrıca, filtre bankalarının günlük enerjisinin yanı sıra MFCC'leri ve filtre bankası enerjilerini de destekler.
SpeechPy kitaplığı, Python komutlarını kullanan tanıma ve önemli işlem sonrası işlemlerin yanı sıra konuşma işleme için bir dizi yararlı teknik sağlamıştır. Filtre bankalarının günlük enerjisinin yanı sıra MFCC'ler ve filtre bankası enerjileri gibi çeşitli gelişmiş konuşma özellikleri, SpeechPy kitaplığı tarafından tam olarak desteklenir.
Kütüphane ayrıca konuşma tanıma (AS) veya otomatik konuşma tanıma (ASR) gibi derin öğrenme uygulamaları için gerekli tüm işlevleri sağlamayı da hedefliyor. Bir ses sinyalinden MFCC özelliklerinin hesaplanması, mel-filtre-bankları enerjisinin hesaplanması, bir ses sinyalinden mel-filtre-bankası enerji özelliklerinin hesaplanması, zamansal türev özelliklerinin çıkarılması, mel frekansı kepstral katsayısı ve çok daha fazlası.
SpeechPy'e Başlarken
SpeechPy kitaplığını kurmanın en kolay yolu Python Paket Dizini'ni (PyPI) kullanmaktır. Tam bir kurulum için lütfen aşağıdaki komutu kullanın.
PyPI kullanarak SpeechPy'yi yükleyin
pip install speechpy
Python ile Konuşma Tanıma
Konuşma Tanıma, temel olarak konuşulan dilin bilgisayarlar tarafından tanınması ve metne çevrilmesi ile ilgilidir. Açık kaynaklı Python kitaplığı SpeechPy, yazılım geliştiricilerin konuşma tanıma özelliklerini destekleyen uygulamalar oluşturmasını sağlar. Kullanıcıların yazmak yerine konuşarak zaman kazanmalarına yardımcı olur. Böylece kullanıcıların cihazlarıyla daha az çabayla iletişim kurmasına yardımcı olmak ve teknolojik cihazları daha erişilebilir ve kullanımı kolay hale getirmek.
MFCC'yi Ses Sinyalinden Hesaplayın
Python kitaplığı SpeechPy, kendi uygulamalarının içindeki bir ses sinyalinden MFCC özelliklerini hesaplamak için tam destek sağlamıştır. Kitaplık, sinyalin örnekleme frekansı, saniye cinsinden her karenin uzunluğu, saniye cinsinden ardışık kareler arasındaki adım, filtre bankasından filtreler uygulama, FFT noktalarının sayısı, mel filtrelerinin en düşük bant kenarı gibi birkaç önemli MFCC özelliği için destek sağlamıştır. , mel filtrelerinin en yüksek bant kenarı, cepstral katsayı sayısı ve daha fazlası.
Otomatik Kodlayıcıları Kullanarak Sesi Çıkarın
Açık kaynaklı Python kitaplığı SpeechPy, bilgisayar programcılarının Python kodunu kullanarak ses verilerini çıkarmasını sağlar. Otomatik kodlayıcı, verimli veri temsillerini öğrenen sinir ağları için çok etkili bir öğrenme tekniğidir. Otomatik kodlayıcı ağları, giriş katmanındaki verilerin nasıl daha kısa bir koda sıkıştırılacağını birbirlerinden öğrenir ve ardından bu kodu, orijinal girdiyle en iyi eşleşen biçime nasıl açarsa açın.