SpeechPy
کتابخانه منبع باز پایتون برای تشخیص گفتار
Python API که از پردازش گفتار و همچنین عملیات تشخیص پشتیبانی میکند. همچنین از MFCCها و انرژیهای بانک فیلتر در کنار انرژی گزارش بانکهای فیلتر پشتیبانی میکند.
کتابخانه SpeechPy مجموعه ای از تکنیک های مفید برای پردازش گفتار و همچنین شناسایی و عملیات مهم پس از پردازش با استفاده از دستورات پایتون ارائه کرده است. ویژگیهای گفتاری پیشرفته مختلف مانند MFCCها و انرژیهای بانک فیلتر در کنار انرژی گزارش بانکهای فیلتر به طور کامل توسط کتابخانه SpeechPy پشتیبانی میشوند.
همچنین هدف این کتابخانه ارائه تمامی قابلیت های لازم برای کاربردهای یادگیری عمیق مانند تشخیص گفتار (AS) یا تشخیص خودکار گفتار (ASR) است. چندین عملکرد مهم برای محاسبه ویژگیهای گفتار اصلی مانند محاسبه ویژگیهای MFCC از سیگنال صوتی، محاسبه انرژی بانکهای فیلتر ذوب، محاسبه ویژگیهای انرژی Mel-filter-bank از سیگنال صوتی، استخراج ویژگیهای مشتق زمانی، استخراج ارائه کرده است. ضریب مغزی فرکانس mel، و بسیاری دیگر.
شروع به کار با SpeechPy
ساده ترین راه برای نصب کتابخانه SpeechPy استفاده از Python Package Index (PyPI) است. لطفا از دستور زیر برای نصب کامل استفاده کنید.
SpeechPy را با استفاده از PyPI نصب کنید
pip install speechpy
تشخیص گفتار از طریق پایتون
تشخیص گفتار عمدتاً مربوط به تشخیص و ترجمه زبان گفتاری به متن توسط رایانه است. کتابخانه منبع باز Python SpeechPy توسعه دهندگان نرم افزار را قادر می سازد تا برنامه هایی را ایجاد کنند که از ویژگی های تشخیص گفتار پشتیبانی می کنند. به کاربران کمک می کند تا با صحبت کردن به جای تایپ در زمان خود صرفه جویی کنند. بنابراین به کاربران کمک میکند تا با تلاش کمتری با دستگاههای خود ارتباط برقرار کنند و دستگاههای فناوری را در دسترستر و استفاده آسانتر کنند.
MFCC را از سیگنال صوتی محاسبه کنید
کتابخانه Python SpeechPy پشتیبانی کاملی را برای محاسبه ویژگیهای MFCC از سیگنال صوتی در داخل برنامههای خود ارائه کرده است. این کتابخانه از چندین ویژگی مهم MFCC مانند فرکانس نمونهبرداری سیگنال، طول هر فریم در ثانیه، گام بین فریمهای متوالی در ثانیه، اعمال فیلترها از بانک فیلتر، تعداد نقاط FFT، پایینترین لبه باند فیلترهای mel پشتیبانی کرده است. ، بالاترین لبه باند فیلترهای mel، تعداد ضرایب سر و بیشتر.
استخراج صدا با استفاده از رمزگذارهای خودکار
کتابخانه منبع باز Python SpeechPy به برنامه نویسان رایانه امکان می دهد تا داده های صوتی را با استفاده از کد پایتون استخراج کنند. Autoencoder یک تکنیک یادگیری بسیار موثر برای شبکه های عصبی است که نمایش داده های کارآمد را یاد می گیرد. شبکههای رمزگذار خودکار از یکدیگر یاد میگیرند که چگونه دادهها را از لایه ورودی به یک کد کوتاهتر فشرده کنند و سپس آن کد را به هر فرمتی که به بهترین شکل با ورودی اصلی مطابقت دارد، از حالت فشرده خارج کنند.