شاید اولین سیستم مقایسه صدا که به خاطر دارید، اجرای فرمان صوتی توسط گوشی تلفن همراهتان بود که در ابتدا سرویس مقایسه صدا در آنها به خوبی کار نمیکرد و مشکلات زیادی را به همراه داشت اما اکنون با پیشرفت تکنولوژی و گسترش فناوری تشخیص صدا، استفاده از صدا به یکی از ابزارهای اصلی در احراز هویت و حتی جستجو در فضای مجازی تبدیل شده است. همین مطالب کافی است که بخواهیم در این مقاله به بررسی کاربرد سیستمهای مقایسه صدا بپردازیم.
سیستم تشخیص چیست؟
سرویس تشخیص صدا الگوریتمهایی را ارائه میدهد که با استفاده از بیومتریک صدا، گویندهها را با ویژگیهای صوتی منحصر به فرد خود تأیید کرده و به شناسایی هویت کمک میکند. شما دادههای آموزشی صوتی را برای یک بلندگو ارائه میدهید که بر اساس ویژگیهای منحصر به فرد صدای گوینده، نمایه ثبت نام ایجاد میکند. سپس میتوانید نمونههای صوتی را در این نمایه بررسی کنید تا مطمئن شوید که گوینده یک شخص است و یا نمونههای صوتی را با گروهی از پروفایلهای ثبت شده بررسی کنید، تا ببینید آیا با نمایهای در گروه (شناسایی گوینده) مطابقت دارد یا خیر. در واقع تشخیص صدا، توانایی یک دستگاه یا برنامه برای دریافت و تفسیر دیکته یا درک و اجرای دستورات گفتاری است.
سرویس speaker verification و تائید هویت
سرویس speaker verification روند تأیید هویت گوینده ثبت شده را با عبارات عبور یا ورودی صوتی با فرم آزاد، ساده میکند و میتوان از آن برای تأیید افراد برای مشارکتهای ایمن و بدون اصطکاک مشتریان در تأیید هویت مشتری در مراکز تماس گرفته تا دسترسی به امکانات بدون تماس استفاده کرد.
تأیید گوینده میتواند وابسته به متن یا مستقل از متن باشد. راستی آزمایی وابسته به متن بدین معناست که سخنرانان باید همان رمز عبور را برای استفاده در هر دو مرحله ثبت نام و تأیید انتخاب کنند. تأیید مستقل از متن به این معنی است که سخنرانان میتوانند در عبارات ثبت نام و تأیید صحت به زبان روزمره صحبت کنند.
برای تأیید وابسته به متن، صدای گوینده با گفتن عبارت عبور از مجموعهای از عبارات از پیش تعریف شده ثبت میشود. در سرویس speaker verification، ویژگیهای صوتی از ضبط صدا استخراج میشود تا یک امضای صوتی منحصر به فرد ایجاد کند، در حالی که عبارت عبور انتخاب شده نیز شناخته میشود. در کنار هم، از امضای صوتی و عبارت عبور برای تأیید گوینده استفاده میشود. تأیید مستقل از متن هیچ محدودیتی در مورد صحبتهای گوینده در هنگام ثبت نام یا نمونه صوتی مورد تأیید ندارد، زیرا فقط ویژگیهای صدا را برای نمره شباهت استخراج میکند.
سرویس مقایسه صدا چگونه کار میکند
نرمافزار تشخیص صدا در رایانهها مستلزم تبدیل صدای آنالوگ به سیگنالهای دیجیتالی است که به تبدیل آنالوگ به دیجیتال معروف است. برای اینکه یک کامپیوتر سیگنال را رمزگشایی کند، باید دارای پایگاه داده دیجیتال یا واژگان کلمات یا هجا و همچنین وسیلهای سریع برای مقایسه این دادهها با سیگنالها باشد. الگوهای گفتار در هارد دیسک ذخیره میشوند و هنگام اجرای برنامه در حافظه بارگذاری میشوند. یک مقایسه کننده این الگوهای ذخیره شده را با خروجی مبدل A/D بررسی میکند که این کار به عنوان تشخیص الگو شناخته میشود.
در حالی که سرویس مقایسه صدا از رایانههای شخصی سرچشمه میگیرد، در دستگاههای تلفن همراه و محصولات دستیار خانگی به صورت تجاری مورد استقبال قرار گرفته است. محبوبیت تلفنهای هوشمند فرصتی را برای افزودن فناوری تشخیص صدا به جیب مصرفکنندگان باز کرد، در حالی که دستگاههای خانگی مانند Google Home و Amazon Echo فناوری تشخیص صدا را در اتاق نشیمن و آشپزخانه به ارمغان آوردند. تشخیص صدا، همراه با رشد روزافزون سنسورها، لایهای فناوری را به بسیاری از محصولات مصرفی اضافه کرده است که قبلاً فاقد هرگونه قابلیت هوشمند بودند.
با افزایش استفاده از فناوری تشخیص صدا و تعامل بیشتر کاربران با آن، شرکتهایی که نرمافزار تشخیص صدا را اجرا میکنند، دادهها و اطلاعات بیشتری برای تغذیه در شبکههای عصبی که سیستمهای تشخیص صدا را تغذیه میکنند، خواهند داشت و در نتیجه قابلیتها و دقت محصولات تشخیص صدا را بهبود میبخشند و کمک شایانی به مدیریت فایلهای صوتی میکند.

کاربردهای فناوری تشخیص گفتار
با تشخیص هوش مصنوعی، یادگیری ماشینی و پذیرش مصرفکننده، کاربردهای سرویس مقایسه صدا به سرعت افزایش یافته است. دستیارهای دیجیتالی داخلی از گوگل تا آمازون تا اپل همه نرمافزارهای تشخیص صدا را برای تعامل با کاربران پیاده کردهاند. نحوه استفاده مصرفکنندگان از فناوری تشخیص صدا بسته به محصول متفاوت است، اما میتواند شامل رونویسی صدا به متن، تنظیم یادآوری، جستجو در اینترنت و پاسخ به سؤالات و درخواستهای ساده مانند پخش موسیقی یا اشتراکگذاری اطلاعات آب و هوا یا ترافیک باشد. دولتها همچنین به دنبال راههایی برای استفاده از فناوری تشخیص صدا برای اهداف امنیتی و شناسایی هویت هستند.
فناوری تشخیص گفتار و استفاده از دستیاران دیجیتال به سرعت از تلفنهای همراه ما به خانه ما منتقل شده است و کاربرد سرویس مقایسه صدا در صنایعی مانند تجارت، بانکداری، بازاریابی و مراقبتهای بهداشتی به سرعت آشکار میشود که در ادامه به صورت جزئیتری آن را بررسی میکنیم:
1.در محل کار
فناوری تشخیص گفتار در محل کار به منظور ترکیب کارهایی ساده برای افزایش کارایی و همچنین فراتر از وظایفی که به طور سنتی به انسان نیاز دارند، تبدیل شده است.
نمونههایی از وظایف اداری که دستیاران دیجیتال انجام میدهند یا خواهند داشت:
- گزارشها یا اسناد را در رایانه خود جستجو کنید و مدیریت فایلهای صوتی را به عهده بگیرید.
- با استفاده از دادهها نمودار یا جداول ایجاد کنید.
- اطلاعاتی را که میخواهید در یک سند گنجانده شود دیکته کنید.
- در صورت درخواست اسناد را چاپ کنید.
- شروع کنفرانسهای ویدئویی
- جلسات را برنامهریزی کنید.
- ثبت زمان رخدادها و مدیریت آن
- هماهنگیهای سفر را انجام دهید.
2.در بانکداری
هدف صنعت بانکداری و مالی این است که تشخیص گفتار باعث کاهش اصطکاک برای مشتری شود. یک دستیار شخصی بانکداری میتواند رضایت و وفاداری مشتریان را افزایش دهد و در شناسایی هویت کمک مؤثری میکند.
چگونه تشخیص گفتار میتواند بانکداری را بهبود بخشد:
- بدون نیاز به باز کردن تلفن همراه، اطلاعات مربوط به موجودی، معاملات و عادات هزینه خود را درخواست کنید.
- پرداختها را انجام دهید.
- اطلاعات مربوط به سابقه معاملات خود را دریافت کنید.
3.در بازاریابی
- جستجوی صوتی این پتانسیل را دارد که به شیوهای که بازاریابان به مصرفکنندگان خود میرسانند، بعد جدیدی ببخشد. با تغییر نحوه تعامل مردم با دستگاههای خود، بازاریابان باید به دنبال روندهای توسعه دادهها و رفتار کاربران باشند.
- دادهها – با تشخیص گفتار، نوع جدیدی از دادهها برای تجزیه و تحلیل در دسترس بازاریابان قرار میگیرد. از لهجهها، الگوهای گفتاری و واژگان مردم میتوان برای تفسیر مکان مصرفکننده، سن و سایر اطلاعات مربوط به مشخصات جمعیتی آنها، مانند وابستگی فرهنگی آنها استفاده کرد.
جستجوی صوتی سرعت بیشتری دارد و میتواند کاربران را بیحوصلهتر و وابسته به انتخاب استفاده از اینترنت به عنوان منبع اصلی اطلاعات خود کند. بازاریابان باید در نظر بگیرند که این موضوع برای محتوای عمدتاً بصری به چه معناست، زیرا ممکن است تمرکز بر محتوای شنیداری و اطلاعات بیشتر باشد.
4.در بهداشت و درمان
در محیطی که ثانیهها بسیار مهم هستند و شرایط عملیاتی استریل در اولویت قرار دارد، دسترسی سریع و بدون دسترسی به اطلاعات میتواند تأثیر مثبت قابل توجهی بر ایمنی و کارایی پزشکی بیماران داشته باشد.
مزایا عبارتاند از:
- یافتن سریع اطلاعات از سوابق پزشکی
- پرستاران را میتوان فرایندها را یادآوری کرد یا دستورالعملهای خاصی به آنها داد
- پرستاران میتوانند اطلاعات اداری مانند تعداد بیماران در یک طبقه و تعداد واحدهای موجود را درخواست کنند
- در خانه، والدین میتوانند علائم رایج بیماریها، زمان مراجعه به پزشک و نحوه مراقبت از کودک بیمار را درخواست کنند.
- کاغذبازی کمتر
- زمان کمتری برای وارد کردن دادهها
- گردش کار بهبود یافته
مهمترین نگرانی استفاده از سرویس مقایسه صدا در مراقبتهای بهداشتی، محتوایی است که دستیار دیجیتالی به آن دسترسی دارد.
5. با اینترنت اشیاء
توانایی Siri برای اتصال به چراغهای هوشمند و ترموستاتهای هوشمند باعث میشود که به نظر برسد که دستورالعمل دستیار دیجیتالی شما برای روشن کردن کتری دور از دسترس نیست. اینترنت اشیاء (IoT) این امکان آیندهنگرانه سابق نیست، بلکه یک توسعه مرتبط است که در اطراف ما اتفاق خواهد افتاد.
در حال حاضر، یکی از برجستهترین کاربردهای سرویس مقایسه صدا در اینترنت اشیاء در خودروها است. پیشبینی میشود که از هر پنج خودرو یکی تا سال 2020 به هم متصل میشود. مزایای این امر میتواند نحوه رانندگی و تعامل با وسایل نقلیه خود را با هدف کلی محدود کردن حواسپرتی راننده تغییر دهد.
کاربرد دستیاران دیجیتال در خودروها:
- به پیامها بدون دست گوش دهید.
- رادیو خود را کنترل کنید.
- با راهنمایی و ناوبری کمک کنید.
- به دستورات صوتی پاسخ دهید.
6. در یادگیری زبان
یکی از دگرگونکنندهترین کاربردهای فناوری تشخیص گفتار از دیدگاه انسان، توانایی آن در رفع موانع زبانی و مرزهای فرهنگی در جنبههای زندگی اجتماعی و محل کار است.
دنیایی بدون موانع زبانی امکانات زیادی را برای همکاری بین کشورها و فرهنگهای مختلف باز میکند که ممکن است در نتیجه افزایش تنوع به سرعت بیشتری از نوآوری کمک کند.
مزایا و معایب سرویس مقایسه صدا
تشخیص صدا مصرفکنندگان را قادر میسازد تا با صحبت مستقیم با Google Home، Amazon Alexa یا سایر فناوریهای تشخیص صدا چند کار را انجام دهند. با استفاده از یادگیری ماشین و الگوریتمهای پیچیده، فناوری تشخیص صدا میتواند به سرعت کار گفتاری شما را به متن نوشتاری تبدیل کند.
در حالی که میزان دقت در حال بهبود است، همه سیستمها و برنامههای تشخیص صدا خطا دارند. سر و صدای پس زمینه میتواند ورودی کاذب ایجاد کند که میتوان با استفاده از سیستم در یک اتاق آرام از آن جلوگیری کرد. همچنین مشکلاتی در کلمات مشابه وجود دارد اما متفاوت تلفظ میشوند و معانی متفاوتی دارند؛ برای مثال، کلمات شنیدن (hear) و اینجا (here). این مشکل ممکن است روزی با استفاده از اطلاعات زمینهای ذخیره شده تا حد زیادی برطرف شود. با این حال، این امر به RAM و پردازندههای سریعتری نسبت به رایانههای شخصی فعلی نیاز دارد.
تشخیص صدا با ظهور هوش مصنوعی و دستیاران هوشمند مانند الکسای آمازون، سیری اپل و کورتانای مایکروسافت اهمیت و اعتبار یافته است. سرویس مقایسه صدا، مصرفکنندگان را قادر میسازد تا به سادگی با فناوری ارتباط برقرار کرده و درخواستهای بدون واسطه دست را یادآوری و سایر کارهای ساده را فعال کنند.