پردازش گفتار، فناوری تشخیص گفتار نرمافزاری است که قادر است صوت را به متن تبدیل کند. فناوری تشخیص گفتار به رایانهای که توانایی دریافت صدا را دارد برای مثال به یک میکروفن مجهز است این قابلیت را میدهد که صحبت کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن یا به عنوان جایگزین برای ارتباط با رایانه کاربرد دارد. بازشناسی گفتار برای تبدیل گفتار به متن یا ارتباط گفتاری با رایانهها به جای استفاده از کیبرد یا موس برای تایپ کردن بکار میرود.
برای انتقال گفتار توسط ماشین، نیاز است پردازشهای مختلفی بر روی سیگنال گفتار انجام شود.
انواع پردازش های گفتار
-
بازشناسی خودکار گفتار (Automatic Speech Recognition(ASR))
برای تبدیل یک مکالمه گفتاری به اطلاعات قابل فهم برای کامپیوتر نیاز است آن را به متن تبدیل کنیم که به آن بازشناسی خودکار گفتار میگویند.
ساختار گفتار پیوسته است مانند زمانی که جملات ناقص بین دو انسان انتقال پیدا میکند مثلا ۳۰ در صد آن انتقال پیدا میکند ولی شنونده قادر خواهد بود کلیه پیام را بدون از دست رفتن هیچ قسمتی از آن تمام پیام را متوجه شود. متوجه شدن تمام پیام به علت وجود پیوستگی در هجاها، حروف، جملات، کلمات و بخشهای دیگر گفتار است. انسانها بدون تفکر از قابلیت پیوستگی استفاده میکنند.
نمونه های سادهای از کاربردهای مختلف بازشناسی گفتار شامل:
- دستورات کنترلی برای یک سیستم مانند شروع یا توقف
- در ارسال اسمس تبدیل گفتار به نوشتار
- ابزاری برای افراد ناتوان حرکتی
-
تبدیل متن به گفتار (Text to Speech)
پردازش گفتار برای تبدیل نوشتار به گفتار دقیقا نقطه مقابل بازشناسی خودکار گفتار است. در این نوع پردازش، به جای ارتباط از طرف انسان با کامپیوتر، هدف برقراری ارتباط از طرف ماشین با انسان به وسیله گفتار است. به عنوان مثال پردازش متن به گفتار در نرم افزارهای کتاب خوان استفاده میشوند.
-
بهسازی گفتار Speech Enhacement(SE)
سیگنال گفتار توسط نویز تخریب می شوند. به طور کلی نویزهای سیگنال گفتار به دو دسته، نویزهای جمعی (Aditional Noise) و دسته دیگر نویزهای کانولوشنی (Convolutional Noise) تقسیم میشود. برای بهبود کیفیت سیگنال تخریب شده توسط نویز، روش های متفاوتی ارائه شده است که با توجه به هدف مورد نظر، هر کدام کاربردهای مختلفی دارند.
بهسازی گفتار خود به عنوان یک روش پیش پردازش برای بسیاری از سیستمهای پردازش گفتار مورد استفاده قرار میگیرد. عمدتا روشهای بهسازی گفتار بر کاهش اثر نویز جمعی تمرکز دارند. نویز جمعی میتواند انواع مختلفی داشته باشد به طور مثال صدای ضبط شده در داخل استادیوم فوتبال، آلوده به نویز جمعی است.
-
کدینگ گفتار (Speech Coding)
به طور کلی کدینگ گفتار دو تا کاربرد اصلی دارد اولی فشرده سازی دادههای سیگنال صوتی دیجیتال که حاوی گفتار است یا کاهش منابع مورد استفاده و دیگری رمز گذاری صوتی با هدف افزایش امنیت است.
کدینگ گفتار فرآیند تبدیل سیگنال گفتار به شکل فشردهتر است، که میتوان پس از فشرده سازی با تعداد کمی از رقمهای باینری منتقل شود. امکان ارسال هر بار سیگنال، با پهنای باند نامحدود وجود ندارد. بنابراین فشرده سازی داده سیگنال گفتار یا کدینگ گفتار بسیار کاربردی است. فشرده سازی سیگنال گفتار در ارتباطات از راه دور، ذخیره سازی گفتار در کلاس بالا و رمز گذاری پیام استفاده میشود.
از دیگر اهداف کدینگ گفتار میتوان به رمزنگاری برای انجام مکالمات رمزگذاری شده اشاره کرد. کاربرد آن بیشتر در موارد نظامی و امنیتی است.
-
شناسایی گوینده (speaker Identification)
این نوع از پردازش گفتار برای تشخیص هویت هر فرد کاربرد دارد. در این روش صدای هر فرد، هویت آن را مشخص میکند.
- شناسایی احساسات (Emotion Detection)
صحبتهای هر انسان نشان دهنده حالات روحی وی میباشد.
احساسات به دو صورت در صحبتهای هر فرد نشان داده میشود.
نوع اول نحوه استفاده از کلمات در جمله میتواند بیانگر احساسات فرد نیز باشد.
نوع دوم نحوه بیان کلمات هر فرد نشان دهنده احساسات وی میباشد. در این دسته از پردازش ها تنها نوع دوم مد نظر قرار میگیرند. در صورت لازم برای بدست آوردن حالات روحی هر فرد از روی نحوه بیان کلمات باید از سیستم بازشناسی گفتار استفاده کرد.
این نوع از پردازش گفتار در هوشمندسازی رباتهای خودکار بسیار حائز اهمیت است. همچنین، میتواند در کاربردهای روان پزشکی مورد استفاده قرار گیرد.
-
آنالیز گفتار (Speech Analysis)
در این نوع از پردازش، محتوای گفتار بیشتر مورد بحث است. به طور مثال در این نوع پردازش، سیستم تشخیص میدهد که صحبتهای انجام شده موضوع سیاسی یا ورزشی بوده است.
-
جداسازی منابع (Source Seperation)
همانطور که در قسمت بهسازی گفتار(Speech Enhancement(SE)) ذکر شد نویزهای سیگنال گفتار به دو دسته جمعی (Additional Noise) و کانولوشنی (Conventional Noise) تقسیم میشوند. نویزهای جمعی در واقع همان صداییهای ناخواسته که در کنار سیگنال گفتار در محیط قرار میگیرند گفته میشود. اگر منبع این نویز صدای یک فرد دیگر در همان محیط باشد که به صورت همان زمان صحبت میکند میتوان از روشهای مختلفی که در بحث جداسازی گویندهها مطرح است استفاده کرد.
برای این نوع جداسازی، دو دسته وجود دارد. اولی هدف بازسازی و تفکیک تمامی منابع گفتار از یکدیگر است و دیگری بدون در نظر گرفتن تعداد گویندگان فقط هدف آن، استخراج صدای یکی از گویندگان است و با بقیه صدای گویندگان همانند نویز برخورد میشود.
-
شناسایی زبان (Language Idenfication)
هدف از شناسایی زبان گویندگان، دسته بندی دادگان یا گویندگان میباشد. از این سیستم برای سیستم بازشناسی چند زبان هم میتوان استفاده کرد. در دستگاههایی که تعداد وسیعی از کاربران با زبانهای مختلف صحبت میکنند؛ برای خدمت رسانی به طیف بزرگی از افراد نیاز است که بتوانند چند زبان را پشتیبانی کنند. برای افزودن این قابلیت به دستگاهها نیاز است که یک سیستم تشخیص زبان در آنها مشهود باشد.
-
آشکار سازی فعالیت گفتاری (Voice Activity Detection(VAD))
در این نوع از پردازش هدف مشخص کردن بخشهایی از یک سیگنال گفتار است که حاوی گفتار میباشد. این سیستم در کنار سیستم بهسازی گفتار، دو سیستم بسیار مهم برای پیش پردازش گفتار هستند. تقریبا در هر سیستم بازشناسی گفتار این دو نوع کاربرد دارند.