SpeechPy

 
 

کتابخانه منبع باز پایتون برای تشخیص گفتار

Python API که از پردازش گفتار و همچنین عملیات تشخیص پشتیبانی می‌کند. همچنین از MFCCها و انرژی‌های بانک فیلتر در کنار انرژی گزارش بانک‌های فیلتر پشتیبانی می‌کند. 

کتابخانه SpeechPy مجموعه ای از تکنیک های مفید برای پردازش گفتار و همچنین شناسایی و عملیات مهم پس از پردازش با استفاده از دستورات پایتون ارائه کرده است. ویژگی‌های گفتاری پیشرفته مختلف مانند MFCCها و انرژی‌های بانک فیلتر در کنار انرژی گزارش بانک‌های فیلتر به طور کامل توسط کتابخانه SpeechPy پشتیبانی می‌شوند.

همچنین هدف این کتابخانه ارائه تمامی قابلیت های لازم برای کاربردهای یادگیری عمیق مانند تشخیص گفتار (AS) یا تشخیص خودکار گفتار (ASR) است. چندین عملکرد مهم برای محاسبه ویژگی‌های گفتار اصلی مانند محاسبه ویژگی‌های MFCC از سیگنال صوتی، محاسبه انرژی بانک‌های فیلتر ذوب، محاسبه ویژگی‌های انرژی Mel-filter-bank از سیگنال صوتی، استخراج ویژگی‌های مشتق زمانی، استخراج ارائه کرده است. ضریب مغزی فرکانس mel، و بسیاری دیگر.

Previous Next

شروع به کار با SpeechPy

ساده ترین راه برای نصب کتابخانه SpeechPy استفاده از Python Package Index (PyPI) است. لطفا از دستور زیر برای نصب کامل استفاده کنید.

SpeechPy را با استفاده از PyPI نصب کنید

 pip install speechpy 

تشخیص گفتار از طریق پایتون

تشخیص گفتار عمدتاً مربوط به تشخیص و ترجمه زبان گفتاری به متن توسط رایانه است. کتابخانه منبع باز Python SpeechPy توسعه دهندگان نرم افزار را قادر می سازد تا برنامه هایی را ایجاد کنند که از ویژگی های تشخیص گفتار پشتیبانی می کنند. به کاربران کمک می کند تا با صحبت کردن به جای تایپ در زمان خود صرفه جویی کنند. بنابراین به کاربران کمک می‌کند تا با تلاش کمتری با دستگاه‌های خود ارتباط برقرار کنند و دستگاه‌های فناوری را در دسترس‌تر و استفاده آسان‌تر کنند.

MFCC را از سیگنال صوتی محاسبه کنید

کتابخانه Python SpeechPy پشتیبانی کاملی را برای محاسبه ویژگی‌های MFCC از سیگنال صوتی در داخل برنامه‌های خود ارائه کرده است. این کتابخانه از چندین ویژگی مهم MFCC مانند فرکانس نمونه‌برداری سیگنال، طول هر فریم در ثانیه،  گام بین فریم‌های متوالی در ثانیه، اعمال فیلترها از بانک فیلتر، تعداد نقاط FFT، پایین‌ترین لبه باند فیلترهای mel پشتیبانی کرده است. ، بالاترین لبه باند فیلترهای mel، تعداد ضرایب سر و بیشتر.

استخراج صدا با استفاده از رمزگذارهای خودکار

کتابخانه منبع باز Python SpeechPy به برنامه نویسان رایانه امکان می دهد تا داده های صوتی را با استفاده از کد پایتون استخراج کنند. Autoencoder یک تکنیک یادگیری بسیار موثر برای شبکه های عصبی است که نمایش داده های کارآمد را یاد می گیرد. شبکه‌های رمزگذار خودکار از یکدیگر یاد می‌گیرند که چگونه داده‌ها را از لایه ورودی به یک کد کوتاه‌تر فشرده کنند و سپس آن کد را به هر فرمتی که به بهترین شکل با ورودی اصلی مطابقت دارد، از حالت فشرده خارج کنند.

 فارسی