آیا سیستمهای تشخیص صدا به صورت اولیه را به خاطر دارید؟ سالها پیش، اگر با تلفنتان شمارهای را میگرفتید از شما خواسته میشد که با صدایتان گزینهای انتخاب کنید و این فرایند اغلب برای همه تجربهای ناخوشایند به جا میگذاشت. برنامههای تشخیص صدا به اندازه کافی پیشرفته نبودند که بتوانند صدای همگی را تشخیص دهند. هرچند از آن زمان به بعد الگوریتم تشخیص صدا پیشرفتهای چشمگیری داشتهاند. امروزه اگر با داروخانه تماس بگیرید تا نسخهتان را تجدید کنید و یا اگر با خط مستقیم کسبوکاری تماس بگیرید، به احتمال زیاد با استفاده از سیستم تشخیص صدا پشتیبانی مشتری میتوانید با موفقیت کارتان را انجام دهید.
به نظر میرسد که این پیشرفتها دلیل خوبی است تا به بررسی کاربرد سیستم تشخیص صدا بپردازیم.
سیستمهای تشخیص صدا چیست؟
در حال حاضر استفاده از صفحه کلید، ماوس یا صفحه نمایش تجربه ما را از فناوری به طرز چشمگیری تغییر میدهد. ما شاهد ظهور فناوری تشخیص صدا در تلفنهای خود بودیم. با توجه به کاربردهای پردازش صوت که زندگی ما را آسان میکند، تنها در چند سال، آن را به خانههای خود آوردیم. امروزه، مشاغل در طیف وسیعی از بخشها برای بهبود زندگی ما از آن استفاده میکنند.
اکنون میتوانیم از نرمافزارهای مبتنی بر الگوریتم تشخیص صدا برای خرید، بررسی آب و هوا، ارسال ایمیل، جستجوی اطلاعات در اینترنت و تعیین روشهای جدید تعامل با ماشینها استفاده کنیم.
نرمافزار تشخیص صدا چگونه کار میکند؟
برنامههای تشخیص صدا با استفاده از کاربردهای پردازش صوت، تجزیه و تحلیل صداها و تبدیل آنها به متن کار میکنند. این نرمافزار از واژگان وسیع و دانش نحوه صحبت استفاده میکند تا آنچه گوینده به احتمال زیاد گفته است، به صورت مکتوب نوشته شود. در برخی از برنامهها، واژگان تخصصی یا کلمات مکرر مانند نامها را میتوان از طریق ارائه اسناد، لیست کلمات یا استفاده از افزونههای شخص ثالث اضافه کرد.
نرمافزار تشخیص صدا از طریق میکروفون صدا را ضبط و تبدیل میکند. برخی از رایانهها دارای میکروفون داخلی هستند، اما اکثر برنامههای تشخیص صدا شامل هدست میکروفون نیز میشوند که میتوان آن را از طریق ورودی کارت صدا یا از طریق اتصال USB به کامپیوتر متصل کرد.
همچنین میتوان از ضبط دیجیتال دستی مناسب برای تبدیل گفتار به نوشتار استفاده کرد، چیزی که ممکن است به ویژه برای کار با تلفن همراه مفید باشد و برخی از برنامههای تشخیص صدا میتوانند ضبطها را از چندین فرمت (از جمله wav، mp3 و wma) رونویسی کنند.
از آنجا که صدا و عبارت هر کس کمی متفاوت است، بنابراین بهتر است در یک برنامه مؤثر، یکبار برای همیشه تست صدا انجام شود که این فرآیند فقط یک دقیقه طول میکشد و شامل خواندن چند خط از یک متن کوتاه است. با این حال، اکثر نرمافزارهای تشخیص از این فرآیند استفاده نمیکنند، اما ممکن است از کاربر خواسته شود تا اگر لهجه خاصی دارد، آن را انتخاب کنند.
کاربردهای سیستم تشخیص صدا
کاربردهای پردازش صوت مزایای قابل توجهی را برای طیف گستردهای از کاربران بالقوه ارائه میدهد. بدیهی است، برای افرادی که دارای ناتوانی جسمی هستند و تایپ کردن برای آنها دشوار، دردناک یا غیرممکن است؛ بسیار مفید است. علاوه بر این، میتواند به کاهش خطر ابتلا به آسیب فشار مکرر (RSI) یا مدیریت مؤثرتر چنین اختلالاتی در اندام فوقانی کمک کند.
الگوریتم تشخیص صدا همچنین میتواند برای افراد مبتلا به نارساخوانی که با مشکل املا و یا ساختار درست جملات دست و پنجه نرم میکنند، بسیار مفید باشد. به طور کلی، تشخیص صدا میتواند به سهولت کار با تلفن همراه کمک کند و همچنین مزایای بالقوه بهرهوری را برای افرادی که در تایپ کردن مهارت چندانی ندارند، ارائه دهد. در حقیقت، اکثر مردم میتوانند بسیار سریعتر از تایپ دقیق خود صحبت کنند.
علاوه بر این کاربرد سیستم تشخیص صدا دیگر به خطوط مستقیم پشتیبانی مشتری محدود نمیشود و از سیستمهای تشخیص صدا در تلفنهای هوشمند و رایانهها و همچنین صنایع گوناگون استفاده میشود. موارد استفاده از سیستمهای تشخیص صدا بینهایت است.

در ادامه برترین روندها و موارد کاربرد فنآوریهای تشخیص صدا را با یکدیگر بررسی میکنیم:
- پرداخت موبایلی با استفاده از سیستمهای تشخیص صدا
آیا تا به حال به این فکر کردهاید که در آینده چگونه هزینهها را پرداخت خواهید کرد؟ آیا تا به حال به این فکر کردهاید که در آینده ممکن است به جای پرداخت پول نقد و یا استفاده از کارتهای اعتباری، از صدایتان برای پرداخت هزینهها استفاده کنید؟ فرا رسیدن چنین روزی چندان دیر نیست. هماکنون برخی شرکتها در حال ساخت و ارتقای سیستمهای تشخیص صدا برای انجام تراکنشها هستند. استفاده از سیستمهای تشخیص صدا برای انجام تراکنشها آسان است و زمانیکه با استفاده از تلفنهای هوشمند و یا رایانهتان خریدهایتان را انجام میدهید، نیازی به استفاده از کیف پول نیست.
در ادامه شیوه انجام تراکنشها با استفاده از سیستم تشخیص صدا را توضیح میدهیم: در حالت عادی پیش از انجام خریدهای اینترنتی باید رمز و یا شماره شناسایی شخصی خود را تایپ کنید، اما فناوری تشخیص صدا این امکان را برای شما فراهم میکند تا رمزی یک بار مصرف را بگویید و خریدتان را انجام دهید. عملکرد سیستمهای تشخیص صدا همچون کپچاها و سایر رمزهای یک بار مصرف است که استفاده از آنها در انجام تراکنشهای اینترنتی مطمئنتر است، با این تفاوت که در سیستمهای تشخیص صدا رمز را باید با صدای بلند گفت. از آنجایی که سیستمهای تشخیص صدا ماهیتی تصادفی دارند و به همین دلیل شما مطمئن هستید کسی نمیتواند رمز شما را بشنود و در نتیجه به اسم شما خریدی انجام دهد، بنابراین استفاده از این سیستمها بسیار بهتر از یک رمز همیشگی است. به زودی استفاده از سیستمهای تشخیص صدا در پرداختهای موبایلی به امری رایج و متداول تبدیل میشود.
- دستیاران مجازی با قابلیت تشخیص صدای افراد
اکثر ما با سیری، اَلکسا و سایر دستیاران مجازی هوش مصنوعی که در محیط کاری و یا در محیط خانه به ما در انجام کارهای روزانه کمک میکنند، آشنایی داریم. برای مثال کاربران در هنگام رانندگی با استفاده از دستیاران هوش مصنوعی مسیریابی کنند، چیزی را در اینترنت جستوجو کنند و یا آهنگی پخش کنند بدون آنکه مجبور باشند دستگاه (موبایل و غیره) خود را در دست بگیرند و یا چراغهای خانهشان را روشن کنند. به طور کلی دستیاران مجازی به صدایی که آنها را فعال کرده است، پاسخ میدهند و شیوه پاسخدهی آنها به کاربران مختلف یکسان است.
با وجود این امروزه فناوریهایی پردازش گفتار وجود دارد که این امکان را برای سیستمهای هوش مصنوعی فراهم میکند تا هویت کاربر را تشخیص دهند. برای مثال با بهرهگیری از کاربردهای پردازش صوت میتوان سیستمهای هوش مصنوعی را برای صدای فرد خاصی فعال کرد. طی سالهای اخیر این فناوری در گوشیهای اَپل بهکار رفته است. شما میتوانید گوشی اَپل خود را به گونهای تنظیم کنید تا فقط کارهایی را انجام دهد یا به سؤالاتی پاسخ دهد که با صدای شما گفته میشوند. در صورتیکه دستیار هوش مصنوعی شما فقط با صدای شما فعال شود، احتمال اینکه کاربر غیرمجازی از دستگاه، اطلاعات و متعلقات شما سوءاستفاده کند، کمتر است. دستیاران هوش مصنوعی به سادگی برای هر کاربر غیرمجازی فعال نمیشوند. به طور قطع در آیندهای نزدیک از این فناوری در حوزههای دیگر استفاده میشود.
- تشخیص صدا برای تأمین امنیت
بیشتر مردم چندین حساب کاربری اینترنتی دارند و امنیت آنها باید تأمین شود و برخی از این حسابهای اینترنتی همچون حسابهای بانکی به لحاظ امنیتی ریسک بالایی دارند. در دورانی که بانکداری اینترنتی به شهرت بالایی دست پیدا کرده، ضروری است سیستمهای تشخیص هویتی مطمئن شوند که فقط صاحب حساب میتواند به اطلاعات حساس دسترسی پیدا کند و این را میتوان بهترین کاربرد سیستم تشخیص صدا دانست. یکی از جدیدترین شیوههای احراز هویت کاربر، احراز هویت از طرق تشخیص صدا است. همچون دستیاران هوش مصنوعی که صدای شما را تشخیص میدهند، عامل تشخیص گفتار نیز به مثابه یک «رمز» منحصر به فرد از صدای شما برای باز کردن حسابهای رمزدار استفاده میکند. از آنجاییکه صدای صاحب حساب با صدای سایر افراد تفاوت دارد امکان دسترسی به حساب برای سایرین وجود ندارد.
استفاده از تشخیص صدا برای باز کردن حسابهای کاربری امنیت بیشتری دارد، چرا که میتوان از سیستمهای چند عاملی استفاده کرد و بسیاری از ویژگیهای امنیتی مختلف را با یکدیگر ترکیب کرد. برای مثال فرض کنید برای دسترسی به نرمافزاری کاربردی بانکداریتان باید اثرانگشت خود را اسکن کنید و رمزی را به صدای بلند بگویید. استفاده از صدای برای دسترسی به حسابهای اینترنتی ایمنتر از رمزهای قدیمی است. علاوه بر این، سیستمهایی وجود دارند که در کنار فناوری تشخیص صدا از فناوری تشخیص چهره نیز استفاده میکنند.
- تشخیص صدا در جرمشناسی و شناسایی مجرمین
یکی دیگر از موارد کاربرد تشخیص صدا استفاده از این فنآوری در شناسایی مجرمین است. در اختیار داشتن یک فایل صوتی از مظنونین یک جرم میتواند مدرک مهمی باشد. در حال حاضر محققانی با یکدیگر همکاری دارند و از فناوری احراز هویت از طریق صدا در صنعت جرمشناسی استفاده میکنند. به لطف وجود چنین محصولی، فناوری احراز هویت از طریق صدا (در کنار اثرانگشت و سایر روشها) میتواند در سراسر دنیا در جهت شناسایی و بررسی سوءپیشینه افراد مورد استفاده قرار بگیرد.
این فناوری میتواند در مدت زمان کوتاهی صداهای زنده و یا ضبط شده را تطبیق دهد و نرخ دقت این فناوری در تشخیص صداها بسیار بالا و برابر با ۹۹ درصد است. علاوه بر این فناوری تشخیص صدا میان لهجهها یا زبانهای مختلف تمایز قائل نمیشود. سیستم تشخیص صدا تُن صدای افراد را محاسبه میکند و اینکه فرد چه کلماتی به کار میبرد و یا به چه زبانی صحبت میکند در تشخیص آن تغییری ایجاد نمیکند. از این روی، فناوری تشخیص صدا میتواند در سراسر دنیا در محل جرائم کاربرد داشته باشد.
- تشخیص صدا در نرمافزارهای کاربردی ترجمه
فرض کنید به یک کشور خارجی سفر کردهاید و میخواهید اتاقی در یک هتل رزرو کنید. کارمند پذیرش زبان انگلیسی را به سختی متوجه میشود و شما هم به سختی میتوانید به زبان آنها صحبت کنید و اطراف شما کسی نیست که بتواند صحبتهای شما را برای یکدیگر ترجمه کند اما شانس با شما است چرا که هتل یک سیستم ترجمه دارد که با استفاده از فناوری تشخیص صدا جملات را به صورت لحظهای ترجمه میکند. شما میتوانید جملههایتان را برای سیستم بگویید و سپس سیستم زبان شما را پردازش میکند و آن را به صورت صوتی و یا بصری ترجمه میکند، در نتیجه کارمند پذیرش متوجه صحبتهای شما میشود.
علاوه بر کمک به مسافرانی که به کشورهای خارجی سفر میکنند، از این فناوری میتوان در تجارتها، مدارس و سایر سازمانهای بینالملل بهره گرفت. با استفاده از این فناوری به سادگی میتوان با کسی که به زبان شما صحبت نمیکند گفتوگو کنید و میتواند تأثیر شگرفی در رفع موانع زبانی داشته باشد.
برنامههای قدرتمند تشخیص صدا در حال حاضر در رایانهها، تبلتها و تلفنهای هوشمند جدید ساخته شده است. اما برای دستیابی به سطح بالایی از کنترل و عملکرد، ممکن است بسته به سیستم یا دستگاه، هزینه نرمافزارهای تخصصی پرداخت شود.
منابع:
https://abilitynet.org.uk/factsheets/voice-recognition-overview