کاربرد هوش مصنوعی در جستجوی صدا چیست

جستجوی صدا و هوش مصنوعی

تشخیص گفتار و سرویس جستجوی صدا از سال 1952 تاکنون پیشرفت‌های زیادی داشته است و به قدری فراگیر شده که مطابق گزارش‌ها، 74 درصد از مصرف‌کنندگان دستگاه‌های دیجیتالی می‌گویند که از دستیاران مکالمه برای تحقیق و خرید کالا و خدمات، ایجاد لیست خرید و بررسی وضعیت سفارش استفاده می‌کنند.

همه ما با دستیارهای دیجیتالی مانند Google Assistant، Cortana، Siri و Alexa آشنا هستیم. Google Assistant و Siri توسط بیش از 1 میلیارد نفر در سراسر جهان استفاده می‌شود و Siri بیش از 40 میلیون کاربر تنها در ایالات متحده دارد. اما، آیا تا به حال فکر کرده‌اید که چگونه این ابزارها آنچه را که می‌گویید درک می‌کنند؟ خوب، همه پیشرفت‌ها و افزایش استفاده از این سرویس‌ها در سایه تبدیل گفتار به نوشتار از طریق هوش مصنوعی مهیا شده است.

بنابراین سؤالی که در این مقاله سعی داریم به آن پاسخ بدهیم، این است که:

  • سرویس جستجوی صوتی چیست؟
  • هوش مصنوعی چیست؟
  • کاربرد هوش مصنوعی در جستجوی صوتی چیست؟

سرویس جستجوی صوتی چیست؟

جستجوی صوتی با استفاده از فناوری تشخیص گفتار به کاربران اجازه می‌دهد از طریق دستورات صوتی در اینترنت جستجو کنند. در بسیاری از موارد، جستجوی صوتی با استفاده از یک دستگاه هوشمند مانند Alexa آمازون یا Google Home یا یک دستیار مجازی مانند Siri انجام می‌شود. پاسخ‌ها از قطعه‌های برجسته که انتخاب‌های کوتاهی از متن هستند و در بالای صفحه نتایج موتورهای جستجوی ظاهر می‌شوند، گرفته می‌شود. بنابراین، برای استفاده از محتوای کسب و کار شما به عنوان یک نتیجه جستجوی صوتی، هدف اصلی شما باید نوشتن و بهینه‌سازی محتوا باشد و این کار را می‌توان از طریق بهینه‌سازی استراتژیک جستجوی صوتی انجام داد.

یک فرآیند voice search چهار مرحله را پشت سر می‌گذارد:

  • صدا را فیلتر می‌کند: صدای اختصاصی کاربر را از سایر صداهای اطراف تخصیص می‌دهد.
  • دیجیتالی شدن: موج صوتی به داده‌های دیجیتالی تبدیل می‌شود.
  • تحلیل صدا: تاریخ در حال پردازش است.
  • تشخیص الگو: پرس و جو با نمونه‌های موجود در پایگاه‌های داده مقایسه می‌شود.

هوش مصنوعی که تشخیص گفتار بر اساس آن است، داده‌های کاربران را جمع‌آوری می‌کند و میلیون‌ها نمونه را برای ایجاد یک مدل جمع‌آوری می‌کند. سپس همه پرس و جوهای جدید صدا با آن مدل صدا مقایسه می‌شود.

مردم به طور کلی از دو نوع دستگاه برای انجام جستجوی صوتی استفاده می‌کنند:

  1. تلفن‌های همراه: از تلفن‌های همراه دستیار صوتی مانند OK Google، Siri، Alexa، Cortana و غیره استفاده می‌شود.
  2. اولین ابزارهای صدا: برخی از دستگاه‌ها که فقط با صداهایی مانند Google Home، Amazon echo، Apple HomePod و غیره کار می‌کنند.

نگاهی به کارکرد هوش مصنوعی در جستجوی صدا

اصطلاح “هوش مصنوعی” اولین بار توسط جان مک کارتی (کالج دارتموث)، کلود شانون (آزمایشگاه‌های تلفن بل)، ناتانیل روچستر (IBM) و ماروین مینسکی (دانشگاه هاروارد) در سال 1955 به بنیاد راکفلر پیشنهاد شد که می‌تواند به عنوان هوش انسانی نشان داده شده توسط ماشین توصیف شود.

هوش مصنوعی توانایی ماشین برای نشان دادن مهارت‌های انسانی مانند تفکر، درک، برنامه‌ریزی و نوآوری است. این نوآوری‌ها در صنایع برای سرعت بخشیدن به عملیات، افزایش بهره‌وری و رفع نیازهای مقیاس وسیع به کار گرفته شده است. صدا یکی از این بخش‌هاست که از اتوماسیون و هوش مصنوعی بهره برده است.

در ابتدا برای تجزیه و تحلیل و محاسبه سریع داده‌ها استفاده می‌شد، اما اکنون برای انجام وظایفی که قبلاً فقط توسط انسان انجام می‌شد، استفاده می‌شود.

هوش مصنوعی اغلب با یادگیری ماشین اشتباه گرفته می‌شود. یادگیری ماشین مشتق شده از هوش مصنوعی است و به فرایند آموزش ماشین برای تشخیص و یادگیری الگوها به جای آموزش قوانین آن اشاره دارد.

کامپیوترها با تغذیه حجم زیادی از داده‌ها به یک الگوریتم و سپس اجازه دادن به آن الگوها را انتخاب کرده و یاد می‌گیرند. در روزهای نوپای یادگیری ماشینی، برنامه نویسان مجبور بودند برای هر شیء که می‌خواهند کامپیوتر آن‌ها را تشخیص دهد، کد بنویسند – به عنوان مثال، گربه در مقابل انسان. این روزها، کامپیوترها نمونه‌های متعددی از هر شیء نشان می‌دهند و با گذشت زمان، آن‌ها بدون هیچ‌گونه کمک انسانی یاد می‌گیرند.

کاربرد هوش مصنوعی در جستجوی صوتی این است که از نظر صدا، هوش مصنوعی به کاربران اجازه می‌دهد پرس و جو را درک کنند و مجموعه‌ای از داده‌ها (حافظه) خود را برای آدرس‌دهی دقیق آغاز می‌کند. این برنامه برای جستجوی روندها، یادگیری از تجربه و ارائه پاسخ‌ها ساخته شده است. این فناوری به ما اجازه می‌دهد تا کارهای تکراری را با کنترل‌های ساده به سرعت انجام دهیم. هر فناوری جدید تعاملی صوتی است که به زندگی خود اضافه می‌کنیم و وابستگی ما به هوش مصنوعی (AI) و یادگیری ماشینی را از طریق تلفن، رایانه، ساعت و حتی یخچال ما بیشتر می‌کند.

امروزه برخی از کاربردهای رایج هوش مصنوعی عبارت‌اند از تشخیص اشیا، ترجمه، تشخیص گفتار و پردازش زبان‌های طبیعی و حتی در سرویس جستجوی صدا از هوش مصنوعی استفاده می‌شود.

بسیاری از برنامه‌های تشخیص گفتار با تشخیص خودکار گفتار (ASR) و پردازش زبان طبیعی (NLP) کار می‌کنند. تشخیص خودکار گفتار، صدا را به متن تبدیل می‌کند، در حالی که پردازش زبان طبیعی، متن را برای استخراج معنای آن است. از آنجا که مردم اغلب با محاوره محاوره‌ای، اختصارات و کلمات اختصاری صحبت می‌کنند، تجزیه و تحلیل کامل رایانه‌ای برای تولید رونویسی صحیح از زبان طبیعی ضروری است.

مشکلات مختلف اما محدود در زمینه سرویس جستجوی صدا وجود دارد. این مشکلات شامل بهبود تجهیزات ضبط نامناسب، سر و صدای پس‌زمینه، لهجه‌های سخت و گویش‌ها، همراه با صدای متعدد مردم است. در فرآیند voice search، گوش دادن و درک صحبت‌های گوینده بسیار مهم‌تر از شنیدن کلماتی که شخص استفاده می‌کند و این دلیلی است که هنوز ماشین‌ها برای خواندن یک زبان گفتاری تسلط لازم را همچون انسان‌ها پیدا نکرده‌اند اما فناوری کنترل صدا در حال محبوب شدن است و مزایای زیادی دارد، مانند صرفه‌جویی در وقت زیاد، استفاده آسان، راحت و چند کاره. مردم در حال حاضر با واکنش به افراد منطقی یا افراد با فناوری‌های صوتی پاسخ می‌دهند. با پیشرفت هیجان‌انگیز در این مکان، افراد بیشتری در خانه‌های هوشمند از تلفن‌های همراه گذشته استفاده می‌کنند.

هوش مصنوعی در فرآیند جستجوی صدا
هوش مصنوعی توانایی ماشین برای نشان دادن مهارت‌های انسانی مانند تفکر، درک، برنامه‌ریزی و نوآوری است. این نوآوری‌ها در صنایع برای سرعت بخشیدن به عملیات، افزایش بهره‌وری و رفع نیازهای مقیاس وسیع به کار گرفته شده است. صدا یکی از این بخش‌هاست که از اتوماسیون و هوش مصنوعی بهره برده است. در ابتدا برای تجزیه و تحلیل و محاسبه سریع داده‌ها استفاده می‌شد، اما اکنون برای انجام وظایفی که قبلاً فقط توسط انسان انجام می‌شد، استفاده می‌شود.

دستیاران صوتی دیجیتال الکسا، آمازون و اپل چند نمونه هستند که بسیار بیشتر از یک ابزار مفید هستند. آن‌ها پیاده‌سازی‌های بسیار واقعی از هوش مصنوعی هستند که به طور فزاینده‌ای در زندگی روزمره ما نقش بازی می‌کنند و هر دو بر تولید و پردازش زبان‌های طبیعی و یادگیری ماشینی، انواع هوش مصنوعی، تکیه می‌کنند تا عملکرد مؤثری داشته باشند و در طول زمان به خوبی عمل کنند.

با دید واقع‌بینانه می‌توان گفت که استفاده از برنامه‌های هوش مصنوعی رو به افزایش است. پیشرفت در بخش‌های مختلف به افزایش پیچیدگی و استفاده از دستیارهای صوتی خودکار برای استفاده منظم کمک می‌کند. با پیشرفت‌های چشمگیر در میزان طبیعی زبان و میزان صحت گفتار، پیشرفت سرویس جستجوی صدا منجر به فشار فزاینده‌ای برای شرکت‌ها برای ایجاد تجربه‌هایی با قابلیت صدا شده است که فراتر از انتظارات کاربران است. پیشرفت‌های همزمان در هوش مصنوعی، رایانش ابری و علم داده، فناوری مانند فرمان صوتی را قادر ساخته است تا با سرعت بی‌سابقه‌ای پیشرفت کند و شیوه استراتژی شرکت‌ها در تاکتیک‌های خدمات به مشتریان را تغییر دهد.

پیشرفت‌های عمده در یادگیری ماشین (یکی از زیرمجموعه‌های هوش مصنوعی) به سیستم‌های مکالمه این امکان را می‌دهد که خود گفتار را بهتر تشخیص داده و متن را به گفتار واقعی تبدیل کنند. عوامل مکالمه، مانند دستیاران شخصی، می‌توانند با سرعت شبیه به انسان یا از طریق صدا و متن پاسخ دهند. این امر باعث می‌شود صنعت از سطح سه به سمت هوش مصنوعی و مکالمه سطح پنج حرکت کند.

هوش مصنوعی سال‌هاست که بر فرآیند voice search تأثیر می‌گذارد، اما دانش عمومی هوش مصنوعی همراه با رقابت برای تحول دیجیتالی در بین مشاغل، ادغام هوش مصنوعی را در سیستم‌عامل‌ها، برنامه‌ها و شکل‌گیری فناوری‌های کاملاً ساخته شده از هوش مصنوعی تسریع کرده است. برنامه‌هایی مانند «نقشه گوگل» از فرمان صوتی برای تعامل روزانه با رانندگان استفاده می‌کنند. بر اساس تحقیقات جدید ارائه شده، آمازون الکسا برای بسیاری از آمریکایی‌ها به یک شیوه زندگی تبدیل شده است، به ویژه اکنون که تقریباً از هر پنج بزرگسال آمریکایی یک نفر به گوینده هوشمند دسترسی دارد و انتظار نمی‌رود که این تعداد کم شود.

برای شرکت‌ها، هوش مصنوعی حفاظتی به طور گسترده‌ای مورد استفاده قرار می‌گیرد تا هزینه‌های کسب و کار را کاهش دهد، خدمات مشتری را بهبود بخشد و به مشاغل کمک کند تا از طریق سرویس جستجوی صدا در یک چشم‌انداز بی‌ثبات رقابت کنند. کارمندان می‌توانند با استفاده از هوش مصنوعی مکالمه، زمان خود را برای وارد کردن داده‌ها، تهیه گزارش‌ها یا انجام سایر کارهای پیش پا افتاده در محل کار صرفه‌جویی کنند.

با داغ شدن بازار هوش مصنوعی مکالمه، شرکت‌ها شروع به توسعه فناوری‌های مبتنی بر صدای خود می‌کنند تا در پیشبرد استراتژی‌های تجربه مشتری کمک کنند. بانک آمریکا Erica و Capital One’s Eno نمونه‌هایی از بانک‌های پیشرو هستند که تیم‌های بزرگی را برای توسعه هوش مصنوعی ایجاد کرده‌اند، در حالی که سایر بانک‌ها برای تأمین فناوری OEM برای ایجاد چت‌بات‌ها با همین هدف به Google و Amazon متکی هستند.

چالش‌های گفتار به متن هوش مصنوعی

با وجود جهش عظیمی که در دهه گذشته، گفتار به وسیله هوش مصنوعی در متن انجام داده است، هنوز چندین چالش وجود دارد که مانع از همه‌گیر شدن واقعی می‌شود.

اولین مورد دقت است. بهترین برنامه‌های کاربردی در حال حاضر دارای 95٪ دقت هستند که این رقم اولین بار توسط Google Cloud Speech در سال 2017 به دست آمد. از آن زمان، بسیاری از رقبا پیشرفت‌های بزرگی کرده‌اند و به همان میزان دقت دست یافته‌اند.

در حالی که این پیشرفت خوبی است، به این معنی است که همیشه 5٪ درصد خطا وجود خواهد داشت. این ممکن است یک شکل کوچک به نظر برسد و می‌تواند به سرعت توسط انسان ویرایش شود تا خطاها را تصحیح کند اما، این یک معامله بزرگ است که در آن از صدا به وسیله فرآیند voice search برای فرمان دادن به رایانه استفاده می‌شود. تصور کنید که از ناوبر اتومبیل خود بخواهید نقشه را برای مکان خاصی جستجو کند، و آن چیز متفاوتی را جستجو می‌کند و شما را در مسیر اشتباه می‌فرستد، زیرا آنچه را که گفتید کاملاً متوجه نشد. یا، تصور کنید از دستیار مکالمه خانه هوشمند خود بخواهید چراغ‌ها را خاموش کند، اما در عوض فرمان دیگری را می‌شنود و گرمایش را در زمستان خاموش می‌کند.

چنین خطاهایی ناشی از سر و صدای پس‌زمینه، لهجه‌های سنگین، گویش‌های ناشناخته و صدای متنوع در بلندگوهای مختلف است. نسل بعدی تشخیص گفتار در هوش مصنوعی برای غلبه بر این چالش‌ها و دستیابی به دقت 100٪ است.

چالش دیگر سرویس جستجوی صدا این است که انسان‌ها فقط به صدای یکدیگر گوش نمی‌دهند تا بفهمند چه چیزی گفته می‌شود. آن‌ها همچنین ارتباطات غیرکلامی را مشاهده می‌کنند تا بفهمند آنچه در حال انتقال است اما گفته نمی‌شود. این شامل حالات صورت، حرکات و زبان بدن است. بنابراین، در حالی که رایانه‌ها می‌توانند محتوا را بشنوند و بفهمند، ما تا رسیدن به جایی که بتوانند نشانه‌های غیرکلامی را دریافت کنند فاصله زیادی داریم اما با توجه به پیشرفت تکنولوژی، اتفاق افتادن این مسئله چندان دور از ذهن نیست.

کاربرد هوش مصنوعی در جستجوی صدا این روزها به قدری ظهور و بروز داشته که پیرو و جوان از این فناوری غافل نمانده و بسیاری از فعالیت‌ها با استفاده از این فرآیند تشریع شده است. شاید در روزهای نخست پیدایش سیستم تشخیص گفتار نقص‌های زیادی وجود داشت اما اکنون با پیوندی که بین تشخیص گفتار و هوش مصنوعی برقرار شده، شاهد تحولات چشمگیری هستیم که روز به روز نیز بیشتر خواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *