تشخیص گفتار و سرویس جستجوی صدا از سال 1952 تاکنون پیشرفتهای زیادی داشته است و به قدری فراگیر شده که مطابق گزارشها، 74 درصد از مصرفکنندگان دستگاههای دیجیتالی میگویند که از دستیاران مکالمه برای تحقیق و خرید کالا و خدمات، ایجاد لیست خرید و بررسی وضعیت سفارش استفاده میکنند.
همه ما با دستیارهای دیجیتالی مانند Google Assistant، Cortana، Siri و Alexa آشنا هستیم. Google Assistant و Siri توسط بیش از 1 میلیارد نفر در سراسر جهان استفاده میشود و Siri بیش از 40 میلیون کاربر تنها در ایالات متحده دارد. اما، آیا تا به حال فکر کردهاید که چگونه این ابزارها آنچه را که میگویید درک میکنند؟ خوب، همه پیشرفتها و افزایش استفاده از این سرویسها در سایه تبدیل گفتار به نوشتار از طریق هوش مصنوعی مهیا شده است.
بنابراین سؤالی که در این مقاله سعی داریم به آن پاسخ بدهیم، این است که:
- سرویس جستجوی صوتی چیست؟
- هوش مصنوعی چیست؟
- کاربرد هوش مصنوعی در جستجوی صوتی چیست؟
سرویس جستجوی صوتی چیست؟
جستجوی صوتی با استفاده از فناوری تشخیص گفتار به کاربران اجازه میدهد از طریق دستورات صوتی در اینترنت جستجو کنند. در بسیاری از موارد، جستجوی صوتی با استفاده از یک دستگاه هوشمند مانند Alexa آمازون یا Google Home یا یک دستیار مجازی مانند Siri انجام میشود. پاسخها از قطعههای برجسته که انتخابهای کوتاهی از متن هستند و در بالای صفحه نتایج موتورهای جستجوی ظاهر میشوند، گرفته میشود. بنابراین، برای استفاده از محتوای کسب و کار شما به عنوان یک نتیجه جستجوی صوتی، هدف اصلی شما باید نوشتن و بهینهسازی محتوا باشد و این کار را میتوان از طریق بهینهسازی استراتژیک جستجوی صوتی انجام داد.
یک فرآیند voice search چهار مرحله را پشت سر میگذارد:
- صدا را فیلتر میکند: صدای اختصاصی کاربر را از سایر صداهای اطراف تخصیص میدهد.
- دیجیتالی شدن: موج صوتی به دادههای دیجیتالی تبدیل میشود.
- تحلیل صدا: تاریخ در حال پردازش است.
- تشخیص الگو: پرس و جو با نمونههای موجود در پایگاههای داده مقایسه میشود.
هوش مصنوعی که تشخیص گفتار بر اساس آن است، دادههای کاربران را جمعآوری میکند و میلیونها نمونه را برای ایجاد یک مدل جمعآوری میکند. سپس همه پرس و جوهای جدید صدا با آن مدل صدا مقایسه میشود.
مردم به طور کلی از دو نوع دستگاه برای انجام جستجوی صوتی استفاده میکنند:
- تلفنهای همراه: از تلفنهای همراه دستیار صوتی مانند OK Google، Siri، Alexa، Cortana و غیره استفاده میشود.
- اولین ابزارهای صدا: برخی از دستگاهها که فقط با صداهایی مانند Google Home، Amazon echo، Apple HomePod و غیره کار میکنند.
نگاهی به کارکرد هوش مصنوعی در جستجوی صدا
اصطلاح “هوش مصنوعی” اولین بار توسط جان مک کارتی (کالج دارتموث)، کلود شانون (آزمایشگاههای تلفن بل)، ناتانیل روچستر (IBM) و ماروین مینسکی (دانشگاه هاروارد) در سال 1955 به بنیاد راکفلر پیشنهاد شد که میتواند به عنوان هوش انسانی نشان داده شده توسط ماشین توصیف شود.
هوش مصنوعی توانایی ماشین برای نشان دادن مهارتهای انسانی مانند تفکر، درک، برنامهریزی و نوآوری است. این نوآوریها در صنایع برای سرعت بخشیدن به عملیات، افزایش بهرهوری و رفع نیازهای مقیاس وسیع به کار گرفته شده است. صدا یکی از این بخشهاست که از اتوماسیون و هوش مصنوعی بهره برده است.
در ابتدا برای تجزیه و تحلیل و محاسبه سریع دادهها استفاده میشد، اما اکنون برای انجام وظایفی که قبلاً فقط توسط انسان انجام میشد، استفاده میشود.
هوش مصنوعی اغلب با یادگیری ماشین اشتباه گرفته میشود. یادگیری ماشین مشتق شده از هوش مصنوعی است و به فرایند آموزش ماشین برای تشخیص و یادگیری الگوها به جای آموزش قوانین آن اشاره دارد.
کامپیوترها با تغذیه حجم زیادی از دادهها به یک الگوریتم و سپس اجازه دادن به آن الگوها را انتخاب کرده و یاد میگیرند. در روزهای نوپای یادگیری ماشینی، برنامه نویسان مجبور بودند برای هر شیء که میخواهند کامپیوتر آنها را تشخیص دهد، کد بنویسند – به عنوان مثال، گربه در مقابل انسان. این روزها، کامپیوترها نمونههای متعددی از هر شیء نشان میدهند و با گذشت زمان، آنها بدون هیچگونه کمک انسانی یاد میگیرند.
کاربرد هوش مصنوعی در جستجوی صوتی این است که از نظر صدا، هوش مصنوعی به کاربران اجازه میدهد پرس و جو را درک کنند و مجموعهای از دادهها (حافظه) خود را برای آدرسدهی دقیق آغاز میکند. این برنامه برای جستجوی روندها، یادگیری از تجربه و ارائه پاسخها ساخته شده است. این فناوری به ما اجازه میدهد تا کارهای تکراری را با کنترلهای ساده به سرعت انجام دهیم. هر فناوری جدید تعاملی صوتی است که به زندگی خود اضافه میکنیم و وابستگی ما به هوش مصنوعی (AI) و یادگیری ماشینی را از طریق تلفن، رایانه، ساعت و حتی یخچال ما بیشتر میکند.
امروزه برخی از کاربردهای رایج هوش مصنوعی عبارتاند از تشخیص اشیا، ترجمه، تشخیص گفتار و پردازش زبانهای طبیعی و حتی در سرویس جستجوی صدا از هوش مصنوعی استفاده میشود.
بسیاری از برنامههای تشخیص گفتار با تشخیص خودکار گفتار (ASR) و پردازش زبان طبیعی (NLP) کار میکنند. تشخیص خودکار گفتار، صدا را به متن تبدیل میکند، در حالی که پردازش زبان طبیعی، متن را برای استخراج معنای آن است. از آنجا که مردم اغلب با محاوره محاورهای، اختصارات و کلمات اختصاری صحبت میکنند، تجزیه و تحلیل کامل رایانهای برای تولید رونویسی صحیح از زبان طبیعی ضروری است.
مشکلات مختلف اما محدود در زمینه سرویس جستجوی صدا وجود دارد. این مشکلات شامل بهبود تجهیزات ضبط نامناسب، سر و صدای پسزمینه، لهجههای سخت و گویشها، همراه با صدای متعدد مردم است. در فرآیند voice search، گوش دادن و درک صحبتهای گوینده بسیار مهمتر از شنیدن کلماتی که شخص استفاده میکند و این دلیلی است که هنوز ماشینها برای خواندن یک زبان گفتاری تسلط لازم را همچون انسانها پیدا نکردهاند اما فناوری کنترل صدا در حال محبوب شدن است و مزایای زیادی دارد، مانند صرفهجویی در وقت زیاد، استفاده آسان، راحت و چند کاره. مردم در حال حاضر با واکنش به افراد منطقی یا افراد با فناوریهای صوتی پاسخ میدهند. با پیشرفت هیجانانگیز در این مکان، افراد بیشتری در خانههای هوشمند از تلفنهای همراه گذشته استفاده میکنند.

دستیاران صوتی دیجیتال الکسا، آمازون و اپل چند نمونه هستند که بسیار بیشتر از یک ابزار مفید هستند. آنها پیادهسازیهای بسیار واقعی از هوش مصنوعی هستند که به طور فزایندهای در زندگی روزمره ما نقش بازی میکنند و هر دو بر تولید و پردازش زبانهای طبیعی و یادگیری ماشینی، انواع هوش مصنوعی، تکیه میکنند تا عملکرد مؤثری داشته باشند و در طول زمان به خوبی عمل کنند.
با دید واقعبینانه میتوان گفت که استفاده از برنامههای هوش مصنوعی رو به افزایش است. پیشرفت در بخشهای مختلف به افزایش پیچیدگی و استفاده از دستیارهای صوتی خودکار برای استفاده منظم کمک میکند. با پیشرفتهای چشمگیر در میزان طبیعی زبان و میزان صحت گفتار، پیشرفت سرویس جستجوی صدا منجر به فشار فزایندهای برای شرکتها برای ایجاد تجربههایی با قابلیت صدا شده است که فراتر از انتظارات کاربران است. پیشرفتهای همزمان در هوش مصنوعی، رایانش ابری و علم داده، فناوری مانند فرمان صوتی را قادر ساخته است تا با سرعت بیسابقهای پیشرفت کند و شیوه استراتژی شرکتها در تاکتیکهای خدمات به مشتریان را تغییر دهد.
پیشرفتهای عمده در یادگیری ماشین (یکی از زیرمجموعههای هوش مصنوعی) به سیستمهای مکالمه این امکان را میدهد که خود گفتار را بهتر تشخیص داده و متن را به گفتار واقعی تبدیل کنند. عوامل مکالمه، مانند دستیاران شخصی، میتوانند با سرعت شبیه به انسان یا از طریق صدا و متن پاسخ دهند. این امر باعث میشود صنعت از سطح سه به سمت هوش مصنوعی و مکالمه سطح پنج حرکت کند.
هوش مصنوعی سالهاست که بر فرآیند voice search تأثیر میگذارد، اما دانش عمومی هوش مصنوعی همراه با رقابت برای تحول دیجیتالی در بین مشاغل، ادغام هوش مصنوعی را در سیستمعاملها، برنامهها و شکلگیری فناوریهای کاملاً ساخته شده از هوش مصنوعی تسریع کرده است. برنامههایی مانند «نقشه گوگل» از فرمان صوتی برای تعامل روزانه با رانندگان استفاده میکنند. بر اساس تحقیقات جدید ارائه شده، آمازون الکسا برای بسیاری از آمریکاییها به یک شیوه زندگی تبدیل شده است، به ویژه اکنون که تقریباً از هر پنج بزرگسال آمریکایی یک نفر به گوینده هوشمند دسترسی دارد و انتظار نمیرود که این تعداد کم شود.
برای شرکتها، هوش مصنوعی حفاظتی به طور گستردهای مورد استفاده قرار میگیرد تا هزینههای کسب و کار را کاهش دهد، خدمات مشتری را بهبود بخشد و به مشاغل کمک کند تا از طریق سرویس جستجوی صدا در یک چشمانداز بیثبات رقابت کنند. کارمندان میتوانند با استفاده از هوش مصنوعی مکالمه، زمان خود را برای وارد کردن دادهها، تهیه گزارشها یا انجام سایر کارهای پیش پا افتاده در محل کار صرفهجویی کنند.
با داغ شدن بازار هوش مصنوعی مکالمه، شرکتها شروع به توسعه فناوریهای مبتنی بر صدای خود میکنند تا در پیشبرد استراتژیهای تجربه مشتری کمک کنند. بانک آمریکا Erica و Capital One’s Eno نمونههایی از بانکهای پیشرو هستند که تیمهای بزرگی را برای توسعه هوش مصنوعی ایجاد کردهاند، در حالی که سایر بانکها برای تأمین فناوری OEM برای ایجاد چتباتها با همین هدف به Google و Amazon متکی هستند.
چالشهای گفتار به متن هوش مصنوعی
با وجود جهش عظیمی که در دهه گذشته، گفتار به وسیله هوش مصنوعی در متن انجام داده است، هنوز چندین چالش وجود دارد که مانع از همهگیر شدن واقعی میشود.
اولین مورد دقت است. بهترین برنامههای کاربردی در حال حاضر دارای 95٪ دقت هستند که این رقم اولین بار توسط Google Cloud Speech در سال 2017 به دست آمد. از آن زمان، بسیاری از رقبا پیشرفتهای بزرگی کردهاند و به همان میزان دقت دست یافتهاند.
در حالی که این پیشرفت خوبی است، به این معنی است که همیشه 5٪ درصد خطا وجود خواهد داشت. این ممکن است یک شکل کوچک به نظر برسد و میتواند به سرعت توسط انسان ویرایش شود تا خطاها را تصحیح کند اما، این یک معامله بزرگ است که در آن از صدا به وسیله فرآیند voice search برای فرمان دادن به رایانه استفاده میشود. تصور کنید که از ناوبر اتومبیل خود بخواهید نقشه را برای مکان خاصی جستجو کند، و آن چیز متفاوتی را جستجو میکند و شما را در مسیر اشتباه میفرستد، زیرا آنچه را که گفتید کاملاً متوجه نشد. یا، تصور کنید از دستیار مکالمه خانه هوشمند خود بخواهید چراغها را خاموش کند، اما در عوض فرمان دیگری را میشنود و گرمایش را در زمستان خاموش میکند.
چنین خطاهایی ناشی از سر و صدای پسزمینه، لهجههای سنگین، گویشهای ناشناخته و صدای متنوع در بلندگوهای مختلف است. نسل بعدی تشخیص گفتار در هوش مصنوعی برای غلبه بر این چالشها و دستیابی به دقت 100٪ است.
چالش دیگر سرویس جستجوی صدا این است که انسانها فقط به صدای یکدیگر گوش نمیدهند تا بفهمند چه چیزی گفته میشود. آنها همچنین ارتباطات غیرکلامی را مشاهده میکنند تا بفهمند آنچه در حال انتقال است اما گفته نمیشود. این شامل حالات صورت، حرکات و زبان بدن است. بنابراین، در حالی که رایانهها میتوانند محتوا را بشنوند و بفهمند، ما تا رسیدن به جایی که بتوانند نشانههای غیرکلامی را دریافت کنند فاصله زیادی داریم اما با توجه به پیشرفت تکنولوژی، اتفاق افتادن این مسئله چندان دور از ذهن نیست.
کاربرد هوش مصنوعی در جستجوی صدا این روزها به قدری ظهور و بروز داشته که پیرو و جوان از این فناوری غافل نمانده و بسیاری از فعالیتها با استفاده از این فرآیند تشریع شده است. شاید در روزهای نخست پیدایش سیستم تشخیص گفتار نقصهای زیادی وجود داشت اما اکنون با پیوندی که بین تشخیص گفتار و هوش مصنوعی برقرار شده، شاهد تحولات چشمگیری هستیم که روز به روز نیز بیشتر خواهد شد.