همه فکر میکنند میتوانند یک ویدیوی دیپفیک را شناسایی کنند، اما پیشرفت سریع فناوری، از جمله ابزارهای هوش مصنوعی، تشخیص یک ویدیوی جعلی را سختتر از همیشه میکند.
نکات کلیدی
- دیپ فیک تهدیدهای مهمی برای جامعه است، از جمله انتشار اطلاعات نادرست، آسیب رساندن به شهرت از طریق جعل هویت، و ایجاد درگیری برای امنیت ملی.
- در حالی که فناوری هوش مصنوعی ابزارهایی را برای تشخیص دیپفیک ارائه میکند، اما آنها کامل نیستند و صلاحدید انسان در شناسایی دیپفیکها بسیار مهم است.
- انسان ها و ابزارهای تشخیص هوش مصنوعی نقاط قوت و ضعف متفاوتی در شناسایی دیپ فیک دارند و ترکیب توانایی های آنها می تواند میزان موفقیت در تشخیص و کاهش خطرات فناوری دیپ فیک را بهبود بخشد.
دیپ فیک هر جنبه ای از جامعه را تهدید می کند. توانایی ما برای شناسایی محتوای جعلی برای باطل کردن اطلاعات نادرست بسیار مهم است، اما با پیشرفت فناوری هوش مصنوعی، به چه کسی میتوانیم برای شناسایی عمیقتکم اعتماد کنیم: انسان یا ماشین؟
خطرات دیپ فیکس
با پیشرفت فناوری هوش مصنوعی، خطرات دیپ فیک تهدیدی فزاینده برای همه ما ایجاد می کند. در اینجا خلاصه ای سریع از برخی از مبرم ترین مسائلی که دیپ فیک ها مطرح می کنند آورده شده است:
- اطلاعات نادرست: ویدیوها و صداهای ضبط شده با جعل عمیق می توانند اطلاعات نادرست مانند اخبار جعلی را منتشر کنند.
- جعل هویت: با جعل هویت افراد، دیپفیکها میتوانند به شهرت افراد آسیب بزنند یا هر کسی را که با آنها میشناسند فریب دهند.
- امنیت ملی: سناریوی آشکار روز قیامت با دیپ فیک ها، فیلم یا صدای ساختگی یک رهبر جهانی است که درگیری را تحریک می کند.
- ناآرامی های مدنی: فیلم ها و صداهای فریبنده نیز ممکن است توسط احزاب برای برانگیختن خشم و ناآرامی های مدنی در میان گروه های خاص استفاده شود.
- امنیت سایبری: مجرمان سایبری در حال حاضر از ابزار شبیه سازی صوتی هوش مصنوعی برای هدف قرار دادن افراد با پیام های قانع کننده از افرادی که می شناسند استفاده می کنند.
- حفظ حریم خصوصی و رضایت: استفاده بدخواهانه از دیپ فیک ها شبیه افراد بدون رضایت آنهاست.
- اعتماد و اطمینان: اگر نتوانید بین حقیقت و فریب تمایز قائل شوید، اطلاعات دقیق به همان اندازه غیرقابل اعتماد می شود.
Deepfakes فقط قانع کننده تر می شود، بنابراین ما به ابزارها و فرآیندهای قوی برای شناسایی آنها نیاز داریم. هوش مصنوعی یکی از این ابزارها را در قالب مدلهای تشخیص عمقی ارائه میکند. با این حال، مانند الگوریتمهایی که برای شناسایی نوشتارهای تولید شده با هوش مصنوعی طراحی شدهاند، ابزارهای تشخیص عمقی کامل نیستند.
در این زمان، اختیار انسان تنها ابزار دیگری است که می توانیم به آن تکیه کنیم. بنابراین، آیا ما در شناسایی دیپ فیک ها بهتر از الگوریتم ها هستیم؟
آیا الگوریتم ها می توانند دیپ فیک ها را بهتر از انسان ها تشخیص دهند؟
دیپ فیک ها به اندازه کافی تهدید جدی هستند که غول های فناوری و گروه های تحقیقاتی منابع گسترده ای را به تحقیق و توسعه اختصاص می دهند. در سال 2019، شرکتهایی مانند متا، مایکروسافت و آمازون جایزه 1،000،000 دلاری را در طول چالش تشخیص Deepfake برای دقیقترین مدل تشخیص ارائه کردند.
مدل با عملکرد برتر 82.56٪ در برابر مجموعه داده های ویدیوهای در دسترس عموم دقت داشت. با این حال، زمانی که همان مدلها در برابر مجموعه دادههای جعبه سیاه شامل 10000 ویدیوی دیده نشده آزمایش شدند، مدل با عملکرد برتر تنها 65.18 درصد دقت داشت.
ما همچنین مطالعات زیادی در مورد تجزیه و تحلیل عملکرد ابزارهای تشخیص عمق تقلبی هوش مصنوعی در برابر انسان ها داریم. البته، نتایج از یک مطالعه به مطالعه دیگر متفاوت است، اما به طور کلی، انسانها یا برابر هستند یا از میزان موفقیت ابزارهای تشخیص دیپ فیک بهتر عمل میکنند.
یک مطالعه در سال 2021 که در PNAS منتشر شد، نشان داد که “ناظران انسانی معمولی” به میزان دقت کمی بالاتر از ابزارهای تشخیص عمیق عمیق دست یافتند. با این حال، این مطالعه همچنین نشان داد که شرکتکنندگان انسانی و مدلهای هوش مصنوعی در معرض انواع مختلفی از اشتباهات هستند.
جالب توجه است، تحقیقات انجام شده توسط دانشگاه سیدنی نشان داده است که مغز انسان، به طور ناخودآگاه، موثرتر از تلاشهای آگاهانه ما در تشخیص دروغهای عمیق است.
تشخیص سرنخ های بصری در Deepfakes
علم تشخیص دیپ فیک پیچیده است و تحلیل های مورد نیاز بسته به ماهیت فیلم متفاوت است. به عنوان مثال، ویدیوی بدنام دیپ فیک کیم جونگ اون رهبر کره شمالی در سال 2020 اساساً یک ویدیوی سر صحبت است. در این مورد، موثرترین روش تشخیص دیپ فیک ممکن است تجزیه و تحلیل ورقهها (حرکات دهان) و واجها (صداهای آوایی) برای ناهماهنگیها باشد.
متخصصان انسانی، بینندگان معمولی و الگوریتمها همگی میتوانند این نوع تحلیل را انجام دهند، حتی اگر نتایج متفاوت باشد. MIT هشت سوال برای کمک به شناسایی ویدیوهای دیپ فیک تعریف می کند:
- به صورت توجه کنید. دستکاری های پیشرفته DeepFake تقریباً همیشه تغییرات چهره هستند.
- به گونه ها و پیشانی توجه کنید. آیا پوست خیلی صاف یا خیلی چروکیده به نظر می رسد؟ آیا پیری پوست شبیه پیری مو و چشم است؟ DeepFakes ممکن است در برخی ابعاد ناسازگار باشد.
- به چشم ها و ابروها توجه کنید. آیا سایه ها در مکان هایی ظاهر می شوند که انتظار دارید؟ DeepFakes ممکن است نتواند فیزیک طبیعی یک صحنه را به طور کامل نشان دهد.
- به عینک توجه کنید. آیا تابش خیره کننده ای وجود دارد؟ آیا تابش نور زیاد است؟ آیا زاویه تابش نور هنگام حرکت فرد تغییر می کند؟ یک بار دیگر، DeepFakes ممکن است نتواند به طور کامل فیزیک طبیعی نور را نشان دهد.
- به موهای صورت یا کمبود آنها توجه کنید. آیا این موهای صورت واقعی به نظر می رسد؟ DeepFakes ممکن است سبیل، ساقه پهلو یا ریش را اضافه یا حذف کند. با این حال، DeepFakes ممکن است نتواند تغییرات موهای صورت را کاملا طبیعی کند.
- به خال های صورت توجه کنید. آیا خال واقعی به نظر می رسد؟
- به پلک زدن توجه کنید. آیا فرد به اندازه کافی پلک می زند یا زیاد؟
- به حرکات لب توجه کنید. برخی از دیپ فیک ها مبتنی بر همگام سازی لب هستند. آیا حرکات لب طبیعی به نظر می رسد؟
جدیدترین ابزارهای تشخیص عمیق هوش مصنوعی می توانند همان عوامل را با درجات مختلف موفقیت تجزیه و تحلیل کنند. دانشمندان داده به طور مداوم در حال توسعه روش های جدید نیز هستند، مانند تشخیص جریان خون طبیعی در چهره بلندگوهای روی صفحه. رویکردهای جدید و بهبود روشهای موجود میتواند منجر به عملکرد بهتر ابزارهای تشخیص عمق تقلبی هوش مصنوعی در آینده شود.
تشخیص سرنخ های صوتی در Deepfakes
تشخیص صدای دیپ فیک یک چالش کاملا متفاوت است. بدون نشانههای بصری ویدیو و فرصت شناسایی ناسازگاریهای سمعی و بصری، تشخیص عمیق جعلی به شدت به تجزیه و تحلیل صوتی متکی است (روشهای دیگری مانند تأیید فراداده نیز میتوانند در برخی موارد کمک کنند).
مطالعهای که در سال 2023 توسط دانشگاه کالج لندن منتشر شد، نشان داد که انسانها در 73 درصد مواقع میتوانند گفتار دروغین را تشخیص دهند (انگلیسی و ماندارین). همانند ویدیوهای دیپ فیک، شنوندگان انسانی اغلب به طور شهودی الگوهای گفتار غیرطبیعی را در گفتار تولید شده توسط هوش مصنوعی تشخیص می دهند، حتی اگر نتوانند مشخص کنند چه چیزی به نظر می رسد.
علائم رایج عبارتند از:
- لجن زنی
- عدم بیان
- صدای پس زمینه یا تداخل
- ناهماهنگی صدا یا گفتار
- عدم وجود «پری» در صداها
- تحویل بیش از حد برنامه ریزی شده
- عدم وجود نقص (شروع اشتباه، اصلاحات، پاکسازی گلو و غیره)
یک بار دیگر، الگوریتمها میتوانند گفتار را برای همان سیگنالهای دیپ فیک تحلیل کنند، اما روشهای جدید ابزارها را مؤثرتر میکنند. تحقیقات USENIX الگوهایی را در بازسازی دستگاه صوتی هوش مصنوعی شناسایی کرد که قادر به تقلید گفتار طبیعی نیستند. این خلاصه میکند که تولیدکنندههای صدای هوش مصنوعی، دستگاههای صوتی باریک (تقریباً به اندازه یک نی نوشیدنی) را بدون حرکات طبیعی گفتار انسان تولید میکنند.
تحقیقات قبلی مؤسسه هورست گورتز، صدای واقعی و عمیق جعلی را به زبانهای انگلیسی و ژاپنی تجزیه و تحلیل کرد و تفاوتهای ظریف را در فرکانسهای بالاتر گفتار واقعی و دروغهای عمیق آشکار کرد.
هم دستگاه صوتی و هم ناهماهنگی های فرکانس بالا برای شنوندگان انسانی و مدل های تشخیص هوش مصنوعی قابل درک است. در مورد تفاوتهای فرکانس بالا، مدلهای هوش مصنوعی از نظر تئوری میتوانند به طور فزایندهای دقیق شوند – اگرچه همین امر را میتوان برای دیپفیکهای هوش مصنوعی نیز گفت.
انسان ها و الگوریتم ها هر دو فریب دیپ فیک ها را می خورند، اما به روش های مختلف
مطالعات نشان می دهد که انسان ها و جدیدترین ابزارهای تشخیص هوش مصنوعی به طور مشابه قادر به شناسایی دیپ فیک هستند. نرخ موفقیت بسته به پارامترهای آزمون می تواند بین 50٪ و 90+٪ متفاوت باشد.
با گسترش، انسانها و ماشینها نیز تا حدودی مشابه فریب دیپفیکها را میخورند. با این حال، بسیار مهم است که ما به طرق مختلف مستعد ابتلا هستیم و این می تواند بزرگترین دارایی ما در مقابله با خطرات فناوری دیپ فیک باشد. ترکیب نقاط قوت انسان و ابزارهای تشخیص دیپ فیک، نقاط ضعف هر یک را کاهش می دهد و میزان موفقیت را بهبود می بخشد.
برای مثال، تحقیقات MIT نشان میدهد که انسانها بهتر از مدلهای هوش مصنوعی میتوانند دروغهای عمیق رهبران جهان و افراد مشهور را شناسایی کنند. همچنین نشان داد که مدلهای هوش مصنوعی با فیلمبرداری با افراد متعدد دست و پنجه نرم میکنند، اگرچه نشان میدهد که این میتواند ناشی از آموزش الگوریتمها بر روی فیلمهایی باشد که دارای بلندگوهای تکی هستند.
برعکس، همان مطالعه نشان داد که مدلهای هوش مصنوعی با فیلمهای با کیفیت پایین (مایل، دانهدار، تیره و غیره) که میتوانستند عمداً برای فریب بینندگان انسانی استفاده شوند، بهتر از انسانها عمل میکنند. به همین ترتیب، روشهای اخیر تشخیص هوش مصنوعی مانند نظارت بر جریان خون در نواحی خاص صورت که انسانها قادر به انجام آن نیستند، میباشد.
با توسعه روشهای بیشتر، توانایی هوش مصنوعی برای تشخیص نشانههایی که نمیتوانیم آنها را تشخیص دهیم، تنها بهبود مییابد، بلکه توانایی آن در فریب دادن نیز بهبود مییابد. سوال بزرگ این است که آیا فناوری تشخیص دیپ فیک همچنان از خود دیپ فیک پیشی خواهد گرفت؟
دیدن چیزها متفاوت در عصر دیپ فیک
ابزارهای تشخیص دیپ فیک هوش مصنوعی و همچنین کیفیت خود محتوای دیپ فیک به بهبود ادامه خواهند داد. اگر توانایی هوش مصنوعی در فریب دادن از توانایی تشخیص آن پیشی بگیرد (مانند متون تولید شده توسط هوش مصنوعی)، ممکن است صلاحدید انسانی تنها ابزاری باشد که برای مبارزه با دیپ فیک ها باقی مانده است.
هرکسی موظف است علائم دیپ فیک و نحوه تشخیص آنها را بیاموزد. جدای از محافظت از خود در برابر کلاهبرداری ها و تهدیدهای امنیتی، در صورت از دست دادن درک واقعیت، هر چیزی که به صورت آنلاین بحث و به اشتراک می گذاریم، در برابر اطلاعات نادرست آسیب پذیر است.