خبر و ترفند روز

خبر و ترفند های روز را اینجا بخوانید!

دستیارهای صوتی چگونه کار می کنند و چرا آنها همیشه دقیق نیستند

تشخیص عبارات تنها بخشی از فرآیند است.

فریاد زدن «Ok Google» از سراسر اتاق برای تغییر موسیقی یا خاموش کردن چراغ‌های اتاق، مطمئناً باورنکردنی به نظر می‌رسد، اما این فرآیند به ظاهر ساده توسط شبکه پیچیده‌ای از فناوری‌هایی که در پشت صحنه کار می‌کنند قدرت می‌گیرد.

تقریباً هر دستیار مجازی اصلی در بازار یک عبارت فراخوانی دارد که شما برای بیدار کردن دستیار و مکالمه استفاده می کنید. اما چگونه دستیارهای صوتی متوجه می شوند که شما با آنها صحبت می کنید؟

تشخیص عبارت چگونه کار می کند؟

همانطور که در بالا ذکر شد، هر دستیار صوتی یک “عبارت ماشه” یا کلمه بیدار دارد که شما از آن برای بیدار کردن دستیار و دادن دستورات بیشتر استفاده می کنید. روند تشخیص این عبارت با هر دستیار کم و بیش یکسان است، به جز تفاوت های ظریف. با این حال، این تفاوت‌های ظریف می‌تواند به معنای تفاوت بین گفتن ناگهانی دستور wake و فریاد زدن چندباره آن فقط برای خوابیدن دستیار باشد، چیزی که گاهی اوقات می‌تواند واقعا آزاردهنده باشد، به خصوص اگر از دستیار صوتی خود برای کمک به آرامش استفاده می‌کنید. .

ربات کوچک نارنجی و نقره ای که روی زمین فرش شده نشسته و یک لپ تاپ در جلوی آن قرار دارد.

به طور کلی، اکثر بلندگوهای “هوشمند” مدار کوچکی دارند که تنها وظیفه آن تشخیص دستور wake و سپس وارد کردن بقیه سخت افزارها در عمل است. بیشتر پردازش ها در فضای ابری انجام می شود، اما به دلایل آشکار حریم خصوصی، تشخیص عبارت روی دستگاه است. تشخیص عبارات در تلفن ها کم و بیش به همین صورت عمل می کند.

جزئیات بیشتر پنهان هستند، اما این سیستم‌های تشخیص از یادگیری ماشین و شبکه‌های عصبی عمیق (DNN) برای آموزش مدل‌های هوش مصنوعی برای تشخیص صدای شما و تشکیل یک کلید استفاده می‌کنند. سپس از این کلید برای تأیید اینکه یک عبارت خاص گفته اید استفاده می شود، و بقیه موارد برای پردازش بیشتر به ابر ارسال می شود.

دستیار گوگل

تلفن‌هایی که از تشخیص «OK Google» پشتیبانی می‌کنند معمولاً دارای یک سیستم تشخیص کلمه کلیدی (KWS) هستند که عبارت را شناسایی می‌کند و سپس بقیه درخواست شما را در فضای ابری وصله می‌کند. از آنجایی که دستگاه‌های تلفن همراه قدرت محاسباتی و محدودیت‌های عمر باتری محدودی دارند، این سیستم‌ها معمولاً به خوبی آن‌هایی نیستند که در بلندگوهای Google Nest پیدا می‌کنید.

مطلب مرتبط:   Snapchat My AI در مقابل Bing Chat AI در اسکایپ: 8 تفاوت کلیدی

این سیستم KWS روی دستگاه به طور مداوم صدا را از میکروفون دستگاه دریافت می کند و هنگامی که عبارت ماشه ای را تشخیص می دهد، اتصال به سرور را آغاز می کند. گوگل همچنین از تشخیص خودکار متنی (ASR) سمت سرور برای بهبود دقت کلی سیستم KWS خود استفاده می کند. می توانید در مقاله تحقیقاتی گوگل [PDF] در مورد آن بیشتر بخوانید.

سیری

سیری در مورد تشخیص «Hey Siri» مانند دستیار Google عمل می کند. اپل به طرز شگفت‌آوری در مورد نحوه عملکرد این سیستم که شامل یک تشخیص‌دهنده گفتار «بسیار کوچک» است که در پس‌زمینه اجرا می‌شود و فقط به آن دو کلمه گوش می‌دهد، صحبت کرده است. این آشکارساز از یک DNN برای تبدیل الگوی صوتی صدای ضبط شده در هر نمونه به توزیع احتمال بر روی صداهای گفتاری استفاده می کند که اساساً یک امتیاز اطمینان ایجاد می کند.

آیفون یا اپل واچ شما این کار را با تغییر صدای شما به جریانی از نمونه های شکل موج با نرخ 16000 در ثانیه انجام می دهد. سپس این به دنباله ای از فریم ها کاهش می یابد که طیف صوتی حدود 0.01 ثانیه را پوشش می دهد. سپس در مجموع 20 عدد از این فریم ها به مدل تشخیص داده می شود که این الگوها را به احتمال تبدیل می کند.

نمودار تشخیص کلمه ماشه سیری

اگر سیستم با اطمینان کافی تشخیص دهد که شما “Hey Siri” را گفته اید، سیری بیدار می شود و بقیه پرس و جو را به ابر ارسال می کند، جایی که تجزیه و تحلیل بیشتر انجام می شود و هر اقدامی که درخواست می کنید انجام می شود.

البته اقدامات دیگری برای اطمینان از کارایی حافظه و باتری اضافه شده است. پردازنده همیشه روشن (AOP) آیفون شما دقیقاً به همین دلیل به میکروفون های دستگاه (در آیفون 6 اس و جدیدتر) دسترسی دارد و بخش کوچکی از قدرت پردازش آن برای اجرای DNN محفوظ است. اپل در وب سایت یادگیری ماشینی خود، machinelearning.apple، کل سیستم را عمیقاً بررسی می کند.

مطلب مرتبط:   7 ویژگی الکسا برای استفاده در هنگام کار از خانه

الکسا

درست مانند دستیار گوگل و سیری، الکسا نیز بیشتر قدرت پردازشی خود را روی هیچ یک از بلندگوهای اکو که می توانید بخرید قرار نمی دهد. در عوض، گویندگان از چیزی که آمازون آن را تشخیص خودکار گفتار (ASR) می‌نامد استفاده می‌کنند که اساساً کلمات گفتاری را به متن تبدیل می‌کند و به سیستم زیربنایی اجازه می‌دهد آنها را تفسیر کند و مطابق با آن عمل کند.

ASR اساس کار الکسا را ​​تشکیل می دهد. یک بار دیگر، یک سیستم آنبورد وجود دارد که به کلمات بیدار گوش می دهد، در این مورد، «الکسا»، «آمازون»، «اکو» یا «کامپیوتر»، و وقتی کلمه بیدار توسط کاربر از پیش تعیین شده باشد، بقیه سیستم را فعال می کند. تشخیص داده می شود. حتی اگر بخواهید می توانید دستگاه الکسا خود را با استفاده از “Hey Disney” بیدار کنید.

بلندگوی سفید آمازون الکسا روی میز

مانند Google Assistant، می‌توانید مدل هوش مصنوعی الکسا را ​​آموزش دهید تا صدای شما را بهتر تشخیص دهد. این فرآیند شامل ایجاد یک “کلید” پایه است که کلمه بیدار گفتاری با آن مقایسه می شود، و هنگامی که مطابقت یافت می شود، دستگاه مطابق با آن پاسخ می دهد.

آیا دستیارهای صوتی همیشه گوش می دهند؟

همانطور که احتمالاً می توانید حدس بزنید، بله، آنها هستند. در غیر این صورت هیچ راهی وجود ندارد که آنها بتوانند کلمات بیداری را تشخیص دهند. با این حال، به دلیل نگرانی های مربوط به حفظ حریم خصوصی، هنوز نیازی به حذف همه بلندگوهای هوشمند خود ندارید.

گوش دادن به هر چیزی که کاربران می گویند، ارسال آن به یک سرور راه دور، و تجزیه و تحلیل (یا ذخیره) آن نیازمند سخت افزار و منابع مالی عظیم است تا جایی که از منظر عملی منطقی نباشد. به این موارد نگرانی های گسترده ای را در خصوص حفظ حریم خصوصی که شرکت هایی مانند گوگل، اپل و آمازون در حال حاضر با آن ها سر و کار دارند، اضافه کنید، و این ایده منطقی نیست.

این همچنین بر عملکرد و عمر باتری تلفن‌ها با ویژگی‌های شناسایی wake word تأثیر می‌گذارد، به ویژه Google Pixels و iPhones. اگر تلفن شما به طور مداوم به آنچه می گویید گوش دهد و آن صدا را به یک سرور راه دور ارسال کند، باتری شما را ذخیره می کند و عملکرد دستگاه را کاهش می دهد.

مطلب مرتبط:   USB4 در مقابل USB 3: 7 تفاوت های کلیدی توضیح داده شده است

چه کسی کارآمدترین تشخیص عبارات را دارد و چرا؟

مقایسه عینی این که کدام دستیار مجازی بهترین تشخیص عبارات را دارد آسان نیست زیرا همه آنها از پیاده سازی های کمی متفاوت از یک مفهوم کلی استفاده می کنند. با این حال، به نظر می رسد که گوگل به دلیل شروع اولیه دستیار گوگل در مقایسه با سیری و الکسا، تشخیص عبارات سازگارتری دارد.

تلفنی که دستیار Google را در کنار Google Nest Mini نشان می‌دهد

علیرغم اینکه برنامه‌هایی که از مدل‌های زبان بزرگ (LLM) مانند ChatGPT و Bing Chat تبدیل شده‌اند، دستیار Google جایگاه خود را به عنوان یکی از محبوب‌ترین دستیارهای مجازی حفظ می‌کند، فقط به این دلیل که در همه دستگاه‌های اندرویدی، از تلویزیون‌های هوشمند گرفته تا سیستم‌های استریو خودرو و… البته گوشی های هوشمند

سیری و الکسا کارهایی برای انجام دادن در آن بخش دارند، اما تا آنجا که به تشخیص عبارات مربوط می شود، چندان دور نیستند. با این حال، شانس بیشتری برای بیدار کردن دستیار Google در پیکسل خود از سراسر اتاق نسبت به سیری در آیفون خود خواهید داشت، اگرچه می‌توانید قابلیت‌های سیری را با حالت Super Siri تقویت کنید. از آنجایی که الکسا بیشتر در خط اسپیکرهای اکو آمازون استفاده می شود، در اینجا یک مزیت جزئی دارد، با توجه به اینکه این بلندگوها به گونه ای طراحی شده اند که بتوانند صدای کاربر را دریافت کنند.

هوش مصنوعی به همان اندازه که راحت است ترسناک است

احضار دستیار هوش مصنوعی فقط با صدای خود می تواند بسیار مفید باشد. برای یک ویژگی که به طور یکپارچه در زندگی ما ادغام می شود، چیزهای زیادی در پشت صحنه اتفاق می افتد که اغلب ما اغلب به آنها فکر نمی کنیم.

گفته می‌شود، این راحتی باعث می‌شود دستگاه شما همیشه به آنچه می‌گویید گوش کند، ناراحتی ایجاد کند. تاکنون، تشخیص‌دهنده‌های گفتار روی دستگاه و کلمات بیدار بین آنچه دستیار مجازی شما می‌شنود و آنچه شما می‌گویید قرار دارند.

Please turn AdBlock off