آیا مولدهای صدای هوش مصنوعی تهدید امنیتی بزرگ بعدی هستند؟

هوش مصنوعی می تواند شبیه رئیس جمهور باشد. یا می تواند شبیه من یا شما باشد. بنابراین، نرم افزار شبیه سازی صوتی هوش مصنوعی چه خطری برای امنیت سایبری دارد؟

هوش مصنوعی (AI) یک فناوری قدرتمند است که نوید تغییر زندگی ما را می دهد. هرگز به اندازه امروز که ابزارهای قدرتمند در دسترس هر کسی که به اینترنت متصل است، واضح نبوده است.

این شامل مولدهای صوتی هوش مصنوعی، نرم افزار پیشرفته ای است که قادر به تقلید گفتار انسان به قدری شایسته است که تشخیص این دو غیرممکن است. این برای امنیت سایبری چه معنایی دارد؟

مولدهای صوتی هوش مصنوعی چگونه کار می کنند؟

سنتز گفتار، فرآیند تولید مصنوعی گفتار انسان، دهه‌هاست که وجود داشته است. و مانند تمام فناوری ها، در طول سال ها دستخوش تغییرات عمیقی شده است.

کسانی که از ویندوز 2000 و XP استفاده کرده‌اند، ممکن است مایکروسافت سام، صدای پیش‌فرض متن به گفتار مردانه سیستم عامل را به خاطر بیاورند. مایکروسافت سام کار را انجام داد، اما صداهایی که تولید می‌کرد روباتیک، سفت و غیرطبیعی بود. ابزارهایی که امروزه در اختیار ماست، عمدتاً به لطف یادگیری عمیق، بسیار پیشرفته‌تر هستند.

یادگیری عمیق یک روش یادگیری ماشینی است که مبتنی بر شبکه های عصبی مصنوعی است. به دلیل این شبکه‌های عصبی، هوش مصنوعی مدرن تقریباً مانند نورون‌هایی که در مغز انسان اطلاعات را تفسیر می‌کنند، قادر به پردازش داده‌ها است. به این معنا که هر چه هوش مصنوعی بیشتر شبیه انسان شود، در تقلید از رفتار انسان بهتر است.

به طور خلاصه، مولدهای صوتی مدرن هوش مصنوعی چگونه کار می کنند. هرچه بیشتر در معرض داده های گفتاری قرار گیرند، در تقلید گفتار انسان مهارت بیشتری پیدا می کنند. با توجه به پیشرفت‌های نسبتاً اخیر در این فناوری، نرم‌افزار پیشرفته تبدیل متن به گفتار می‌تواند اساساً صداهایی را که تغذیه می‌شود تکرار کند.

چگونه بازیگران تهدید از مولدهای صوتی هوش مصنوعی استفاده می کنند

جای تعجب نیست که این فناوری توسط عوامل تهدید مورد سوء استفاده قرار می گیرد. و نه فقط مجرمان سایبری به معنای معمولی کلمه، بلکه توسط عوامل اطلاعات نادرست، کلاهبرداران، بازاریاب های کلاه سیاه و ترول ها.

مطلب مرتبط: 6 کلاهبرداری تمو که باید از آنها آگاه باشید

لحظه ای که ElevenLabs نسخه بتا نرم افزار تبدیل متن به گفتار خود را در ژانویه 2023 منتشر کرد، ترول های راست افراطی در صفحه پیام 4chan شروع به سوء استفاده از آن کردند. آنها با استفاده از هوش مصنوعی پیشرفته، صدای افرادی مانند دیوید آتنبرو و اما واتسون را بازتولید کردند، و به نظر می رسید که افراد مشهور در حال انجام کارهای بد و نفرت انگیز هستند.

همانطور که Vice در آن زمان گزارش داد، ElevenLabs اعتراف کرد که مردم از نرم افزار آن، به ویژه شبیه سازی صدا، سوء استفاده می کنند. این ویژگی به هر کسی اجازه می دهد تا صدای شخص دیگری را “کلون” کند. تنها کاری که باید انجام دهید این است که یک ضبط یک دقیقه ای را آپلود کنید و اجازه دهید هوش مصنوعی بقیه کار را انجام دهد. احتمالاً، هر چه مدت زمان ضبط طولانی تر باشد، خروجی بهتری خواهد داشت.

در مارس 2023، یک ویدیوی ویروسی TikTok توجه نیویورک تایمز را به خود جلب کرد. در این ویدئو، پادکست معروف جو روگان و دکتر اندرو هوبرمن، مهمان مکرر The Joe Rogan Experience، شنیده می‌شود که در مورد یک نوشیدنی کافئینی «افزایش‌دهنده میل جنسی» صحبت می‌کنند. این ویدئو طوری به نظر می رسید که گویی روگان و هوبرمن هر دو به صراحت این محصول را تایید می کنند. در واقعیت، صدای آنها با استفاده از هوش مصنوعی شبیه سازی شد.

تقریباً در همان زمان، بانک سیلیکون ولی مستقر در سانتا کلارا در کالیفرنیا به دلیل اشتباهات مدیریت ریسک و سایر مسائل سقوط کرد و توسط دولت ایالتی تصرف شد. این بزرگترین ورشکستگی بانک در ایالات متحده از زمان بحران مالی 2008 بود، بنابراین موج شوکی را در سراسر بازارهای جهانی ایجاد کرد.

مطلب مرتبط: اکسپلویت های روز صفر توضیح داده شد: آنها چه هستند و چگونه با آنها مقابله می کنید؟

چیزی که باعث وحشت شد، یک ضبط صوتی جعلی از جو بایدن، رئیس جمهور آمریکا بود. در این ضبط، ظاهراً شنیده شد که بایدن درباره یک “فروپاشی” قریب الوقوع هشدار داد و به دولت خود دستور داد “از تمام نیروی رسانه ها برای آرام کردن مردم استفاده کند.” بررسی‌کنندگان حقایق مانند PolitiFact به سرعت این کلیپ را رد کردند، اما احتمالاً میلیون‌ها نفر آن را تا آن لحظه شنیده‌اند.

اگر می توان از مولدهای صدای هوش مصنوعی برای جعل هویت افراد مشهور استفاده کرد، می توان از آنها برای جعل هویت افراد عادی نیز استفاده کرد و این دقیقاً همان کاری است که مجرمان سایبری انجام داده اند. به گفته ZDNet، هزاران آمریکایی هر ساله در معرض کلاهبرداری هایی قرار می گیرند که به عنوان vishing یا فیشینگ صوتی شناخته می شوند. یکی از زوج های سالخورده در سال 2023 با تماس تلفنی از سوی “نوه” خود که ادعا می کرد در زندان است و درخواست پول کرده بود، تیتر خبرهای ملی شد.

اگر تا به حال یک ویدیوی YouTube آپلود کرده‌اید (یا در یکی ظاهر شده‌اید)، در یک تماس گروهی بزرگ با افرادی که نمی‌شناسید شرکت کرده‌اید، یا صدای خود را تا حدی در اینترنت آپلود کرده‌اید، شما یا عزیزانتان از نظر تئوری می‌توانید در آن باشید. خطر چه چیزی یک کلاهبردار را از آپلود صدای شما در یک ژنراتور هوش مصنوعی، شبیه سازی آن و تماس با خانواده شما باز می دارد؟

تولیدکنندگان صدای هوش مصنوعی چشم انداز امنیت سایبری را مختل می کنند

نیازی به یک متخصص امنیت سایبری نیست که تشخیص دهد هوش مصنوعی در دستان اشتباه چقدر می تواند خطرناک باشد. و در حالی که درست است که می توان همین را برای تمام فناوری ها گفت، هوش مصنوعی به دلایل مختلفی یک تهدید منحصر به فرد است.

مطلب مرتبط: نحوه راه اندازی و استفاده از هوش مصنوعی در Opera

برای یک، نسبتا جدید است، به این معنی که ما واقعا نمی دانیم چه انتظاری از آن داشته باشیم. ابزارهای هوش مصنوعی مدرن به مجرمان سایبری اجازه می‌دهند تا عملیات خود را به شیوه‌ای بی‌سابقه مقیاس‌بندی و خودکار کنند، در حالی که از ناآگاهی نسبی مردم در مورد این موضوع استفاده می‌کنند. همچنین، هوش مصنوعی مولد، عوامل تهدید را با دانش و مهارت کمی قادر می‌سازد تا کدهای مخرب ایجاد کنند، سایت‌های کلاهبرداری بسازند، هرزنامه‌ها را پخش کنند، ایمیل‌های فیشینگ بنویسند، تصاویر واقعی تولید کنند و ساعت‌های بی‌پایان محتوای صوتی و تصویری جعلی تولید کنند.

مهم‌تر از همه، این کار به هر دو صورت انجام می‌شود: هوش مصنوعی همچنین برای محافظت از سیستم‌ها استفاده می‌شود و احتمالاً برای دهه‌های آینده نیز چنین خواهد بود. غیر منطقی نیست که فرض کنیم آنچه در انتظار ما است نوعی مسابقه تسلیحاتی هوش مصنوعی بین مجرمان سایبری و صنعت امنیت سایبری است، زیرا ظرفیت‌های دفاعی و تهاجمی این ابزارها ذاتاً برابر است.

برای یک فرد معمولی، ظهور هوش مصنوعی مولد گسترده نیاز به بازنگری اساسی در شیوه‌های امنیتی دارد. همانطور که هوش مصنوعی ممکن است هیجان انگیز و مفید باشد، حداقل می تواند مرز بین واقعی و غیر واقعی را محو کند و در بدترین حالت مسائل امنیتی موجود را تشدید کند و فضای جدیدی را برای عوامل تهدید ایجاد کند.

تولیدکنندگان صدا پتانسیل مخرب هوش مصنوعی را نشان می دهند

به محض اینکه ChatGPT وارد بازار شد، مذاکرات در مورد تنظیم مقررات هوش مصنوعی افزایش یافت. هر تلاشی برای محدود کردن این فناوری احتمالاً نیازمند همکاری بین‌المللی به درجه‌ای است که در دهه‌های گذشته شاهد آن نبوده‌ایم، که آن را بعید می‌سازد.

جن از بطری خارج شده است و بهترین کاری که می توانیم انجام دهیم این است که به آن عادت کنیم. این، و امیدواریم بخش امنیت سایبری مطابق با آن تنظیم شود.