SpeechPy

 
 

ไลบรารี Python แบบโอเพ่นซอร์สสำหรับการรู้จำเสียง

Python API ที่รองรับการประมวลผลคำพูดและการดำเนินการรู้จำ นอกจากนี้ยังรองรับ MFCC และพลังงานจากตัวกรองควบคู่ไปกับพลังงานบันทึกของถังกรอง 

ไลบรารี SpeechPy ได้จัดเตรียมชุดเทคนิคที่เป็นประโยชน์สำหรับการประมวลผลคำพูด รวมถึงการจดจำและการดำเนินการหลังการประมวลผลที่สำคัญโดยใช้คำสั่ง Python ไลบรารี SpeechPy รองรับฟีเจอร์เสียงพูดขั้นสูงต่างๆ เช่น MFCC และพลังงานคลังตัวกรองควบคู่ไปกับล็อกพลังงานของคลังตัวกรอง

ห้องสมุดยังมีจุดมุ่งหมายเพื่อให้ฟังก์ชันที่จำเป็นทั้งหมดสำหรับแอปพลิเคชันการเรียนรู้เชิงลึก เช่น การรู้จำเสียงพูด (AS) หรือการรู้จำคำพูดอัตโนมัติ (ASR) มีฟังก์ชันสำคัญหลายประการสำหรับการคำนวณคุณลักษณะของเสียงพูดหลัก เช่น การคำนวณคุณลักษณะ MFCC จากสัญญาณเสียง การคำนวณพลังงานธนาคารเมลกรอง บันทึกการคำนวณ คุณลักษณะพลังงานธนาคารกรองเมลจากสัญญาณเสียง การแยกคุณลักษณะอนุพันธ์ชั่วคราว การแยก ค่าสัมประสิทธิ์ของความถี่ mel และอื่น ๆ อีกมากมาย

Previous Next

เริ่มต้นใช้งาน SpeechPy

วิธีที่ง่ายที่สุดในการติดตั้งไลบรารี SpeechPy คือการใช้ Python Package Index (PyPI) โปรดใช้คำสั่งต่อไปนี้สำหรับการติดตั้งที่สมบูรณ์

ติดตั้ง SpeechPy โดยใช้ PyPI

 pip install speechpy 

การรู้จำเสียงด้วย Python

การรู้จำเสียงส่วนใหญ่เกี่ยวข้องกับการรู้จำและการแปลภาษาพูดเป็นข้อความโดยคอมพิวเตอร์ ไลบรารี Python แบบโอเพนซอร์ส SpeechPy ช่วยให้นักพัฒนาซอฟต์แวร์สร้างแอปพลิเคชันที่สนับสนุนคุณลักษณะการรู้จำเสียงพูด ช่วยให้ผู้ใช้ประหยัดเวลาด้วยการพูดแทนการพิมพ์ ซึ่งช่วยให้ผู้ใช้สามารถสื่อสารกับอุปกรณ์ของตนได้โดยใช้ความพยายามน้อยลงและทำให้อุปกรณ์เทคโนโลยีเข้าถึงได้ง่ายขึ้นและใช้งานง่ายขึ้น

คำนวณ MFCC จากสัญญาณเสียง

ไลบรารี Python SpeechPy ได้ให้การสนับสนุนอย่างเต็มที่สำหรับการประมวลผลคุณลักษณะ MFCC จากสัญญาณเสียงภายในแอปพลิเคชันของตนเอง ไลบรารีได้ให้การสนับสนุนคุณลักษณะ MFCC ที่สำคัญหลายประการ เช่น ความถี่ในการสุ่มตัวอย่างของสัญญาณ ความยาวของแต่ละเฟรมในหน่วยวินาที  ขั้นตอนระหว่างเฟรมที่ต่อเนื่องกันในหน่วยวินาที, ใช้ตัวกรองจากช่องตัวกรอง, จำนวนจุด FFT, ขอบแบนด์ต่ำสุดของตัวกรองเมล , ขอบแบนด์สูงสุดของฟิลเตอร์ mel, จำนวนสัมประสิทธิ์เซพสตรอล และอื่นๆ

แยกเสียงโดยใช้ตัวเข้ารหัสอัตโนมัติ

ไลบรารี Python โอเพ่นซอร์ส SpeechPy ช่วยให้โปรแกรมเมอร์คอมพิวเตอร์ดึงข้อมูลเสียงโดยใช้โค้ด Python Autoencoder เป็นเทคนิคการเรียนรู้ที่มีประสิทธิภาพมากสำหรับโครงข่ายประสาทเทียมที่เรียนรู้การแสดงข้อมูลอย่างมีประสิทธิภาพ เครือข่าย Autoencoder เรียนรู้จากกันและกันถึงวิธีบีบอัดข้อมูลจากเลเยอร์อินพุตให้เป็นโค้ดที่สั้นกว่า จากนั้นคลายการบีบอัดโค้ดนั้นให้อยู่ในรูปแบบใดก็ตามที่ตรงกับอินพุตดั้งเดิมมากที่สุด

 ไทย