SpeechPy

Konuşma Tanıma için Açık Kaynak Python Kitaplığı

Tanıma işlemlerinin yanı sıra konuşma işlemeyi de destekleyen Python API. Ayrıca, filtre bankalarının günlük enerjisinin yanı sıra MFCC'leri ve filtre bankası enerjilerini de destekler.

SpeechPy kitaplığı, Python komutlarını kullanan tanıma ve önemli işlem sonrası işlemlerin yanı sıra konuşma işleme için bir dizi yararlı teknik sağlamıştır. Filtre bankalarının günlük enerjisinin yanı sıra MFCC'ler ve filtre bankası enerjileri gibi çeşitli gelişmiş konuşma özellikleri, SpeechPy kitaplığı tarafından tam olarak desteklenir.

Kütüphane ayrıca konuşma tanıma (AS) veya otomatik konuşma tanıma (ASR) gibi derin öğrenme uygulamaları için gerekli tüm işlevleri sağlamayı da hedefliyor. Bir ses sinyalinden MFCC özelliklerinin hesaplanması, mel-filtre-bankları enerjisinin hesaplanması, bir ses sinyalinden mel-filtre-bankası enerji özelliklerinin hesaplanması, zamansal türev özelliklerinin çıkarılması, mel frekansı kepstral katsayısı ve çok daha fazlası.

Bir Bakışta

SpeechPy özelliklerine genel bakış.

Özelliklere genel bakış

Konuşma İşleme
Konuşma tanıma
Hesaplama MFCC'leri
Filtre bankası enerjileri
MP3 desteği
Rötuş
Otomatik Kodlayıcıları Kullan
Sesi Çıkar
Sesten Metne

KonuşmaPy

SpeechPy, aşağıda listelenen Ses dosyası biçimlerini destekler.

Okuyucu

MP3, WAV, WMA, WEBM

yazar

MP3, WAV, WMA, WEBM

KonuşmaPy

Platform Bağımsızlığı

SpeechPy yalnızca Python çalışma zamanını gerektirir.

Python 2.6 ve Üstü.

KonuşmaPy

SpeechPy'e Başlarken

SpeechPy kitaplığını kurmanın en kolay yolu Python Paket Dizini'ni (PyPI) kullanmaktır. Tam bir kurulum için lütfen aşağıdaki komutu kullanın.

PyPI kullanarak SpeechPy'yi yükleyin

 pip install speechpy

Python ile Konuşma Tanıma

Konuşma Tanıma, temel olarak konuşulan dilin bilgisayarlar tarafından tanınması ve metne çevrilmesi ile ilgilidir. Açık kaynaklı Python kitaplığı SpeechPy, yazılım geliştiricilerin konuşma tanıma özelliklerini destekleyen uygulamalar oluşturmasını sağlar. Kullanıcıların yazmak yerine konuşarak zaman kazanmalarına yardımcı olur. Böylece kullanıcıların cihazlarıyla daha az çabayla iletişim kurmasına yardımcı olmak ve teknolojik cihazları daha erişilebilir ve kullanımı kolay hale getirmek.

MFCC'yi Ses Sinyalinden Hesaplayın

Python kitaplığı SpeechPy, kendi uygulamalarının içindeki bir ses sinyalinden MFCC özelliklerini hesaplamak için tam destek sağlamıştır. Kitaplık, sinyalin örnekleme frekansı, saniye cinsinden her karenin uzunluğu, saniye cinsinden ardışık kareler arasındaki adım, filtre bankasından filtreler uygulama, FFT noktalarının sayısı, mel filtrelerinin en düşük bant kenarı gibi birkaç önemli MFCC özelliği için destek sağlamıştır. , mel filtrelerinin en yüksek bant kenarı, cepstral katsayı sayısı ve daha fazlası.

Otomatik Kodlayıcıları Kullanarak Sesi Çıkarın

Açık kaynaklı Python kitaplığı SpeechPy, bilgisayar programcılarının Python kodunu kullanarak ses verilerini çıkarmasını sağlar. Otomatik kodlayıcı, verimli veri temsillerini öğrenen sinir ağları için çok etkili bir öğrenme tekniğidir. Otomatik kodlayıcı ağları, giriş katmanındaki verilerin nasıl daha kısa bir koda sıkıştırılacağını birbirlerinden öğrenir ve ardından bu kodu, orijinal girdiyle en iyi eşleşen biçime nasıl açarsa açın.