حملات خصمانه علیه مدل های هوش مصنوعی چیست و چگونه می توانید آنها را متوقف کنید؟

مدل‌های هوش مصنوعی فقط به اندازه داده‌هایی هستند که به آنها داده می‌شود. که این داده ها را به یک هدف بالقوه برای حملات تبدیل می کند.

پیشرفت های هوش مصنوعی در زمینه های مختلف تاثیر بسزایی داشته است. این موضوع باعث نگرانی تعداد زیادی از علاقه مندان به فناوری شده است. همانطور که این فناوری ها به برنامه های مختلف گسترش می یابند، می توانند منجر به افزایش حملات دشمن شوند.

حملات خصمانه در هوش مصنوعی چیست؟

حملات خصمانه از مشخصات و آسیب پذیری های موجود در مدل های هوش مصنوعی سوء استفاده می کنند. آنها داده هایی را که مدل های هوش مصنوعی از آنها آموخته اند خراب می کنند و باعث می شوند این مدل ها خروجی های نادرست تولید کنند.

تصور کنید که یک شوخی، کاشی‌های خراشیده‌ای را که به صورت آناناسی چیده شده‌اند را تغییر می‌دهد تا به «applepine» تبدیل شود. این مشابه چیزی است که در حملات خصمانه رخ می دهد.

چند سال پیش، دریافت چند پاسخ یا خروجی نادرست از یک مدل هوش مصنوعی معمول بود. اکنون برعکس است، زیرا عدم دقت به استثناء تبدیل شده است و کاربران هوش مصنوعی انتظار نتایج تقریباً کامل را دارند.

وقتی این مدل‌های هوش مصنوعی برای سناریوهای دنیای واقعی اعمال می‌شوند، نادرستی‌ها می‌توانند کشنده باشند و حملات متخاصم را بسیار خطرناک کنند. به عنوان مثال، برچسب‌های روی علائم راهنمایی و رانندگی می‌توانند یک خودروی خودران خودران را گیج کنند و باعث شوند که در ترافیک یا مستقیماً به یک مانع حرکت کند.

انواع حملات خصمانه

انواع مختلفی از حملات خصمانه وجود دارد. با افزایش ادغام هوش مصنوعی در برنامه های روزمره، این حملات احتمالا بدتر و پیچیده تر خواهند شد.

با این وجود، ما تقریباً می‌توانیم حملات خصمانه را بر اساس میزان اطلاعاتی که عامل تهدید در مورد مدل هوش مصنوعی می‌داند به دو نوع طبقه‌بندی کنیم.

1. حملات جعبه سفید

در حملات جعبه سفید، عوامل تهدید اطلاعات کاملی از عملکرد درونی مدل هوش مصنوعی دارند. آنها مشخصات، داده های آموزشی، تکنیک های پردازش و پارامترهای آن را می دانند. این دانش آنها را قادر می سازد تا یک حمله خصمانه به طور خاص برای مدل ایجاد کنند.

مطلب مرتبط: ISO 27001 در مقابل 27002: دو استاندارد امنیت سایبری توضیح داده شده است

اولین گام در حمله جعبه سفید، تغییر داده های آموزشی اصلی است، و آن را به کوچکترین شکل ممکن خراب می کند. داده‌های اصلاح‌شده همچنان بسیار شبیه به اصلی هستند، اما به اندازه‌ای قابل توجه هستند که مدل هوش مصنوعی نتایج نادرستی ارائه دهد.

این همه چیز نیست. پس از حمله، عامل تهدید، اثربخشی مدل را با ارائه نمونه‌های متضاد به آن ارزیابی می‌کند – ورودی‌های تحریف‌شده طراحی شده برای ایجاد اشتباه در مدل – و خروجی را تجزیه و تحلیل می‌کند. هر چه نتیجه نادرست تر باشد، حمله موفق تر است.

2. حملات جعبه سیاه

برخلاف حملات جعبه سفید، که عامل تهدید از عملکرد درونی مدل هوش مصنوعی آگاه است، عاملان حملات جعبه سیاه هیچ ایده ای از نحوه عملکرد مدل ندارند. آنها به سادگی مدل را از یک نقطه کور مشاهده می کنند و مقادیر ورودی و خروجی آن را زیر نظر دارند.

اولین قدم در حمله جعبه سیاه، انتخاب هدف ورودی است که مدل هوش مصنوعی می‌خواهد طبقه‌بندی کند. عامل تهدید سپس یک نسخه مخرب از ورودی را با اضافه کردن نویز به دقت ساخته شده ایجاد می کند، آشفتگی هایی به داده ها که برای چشم انسان نامرئی هستند اما می توانند باعث ایجاد نقص در مدل هوش مصنوعی شوند.

نسخه مخرب به مدل داده می شود و خروجی مشاهده می شود. نتایج ارائه شده توسط این مدل به عامل تهدید کمک می کند تا به اصلاح نسخه ادامه دهد تا زمانی که به اندازه کافی مطمئن شود که هر گونه داده وارد شده به آن را به اشتباه طبقه بندی می کند.

تکنیک های مورد استفاده در حملات خصمانه

موجودیت های مخرب می توانند از تکنیک های مختلفی برای انجام حملات خصمانه استفاده کنند. در اینجا به برخی از این تکنیک ها اشاره می کنیم.

1. مسمومیت

مهاجمان می‌توانند بخش کوچکی از داده‌های ورودی یک مدل هوش مصنوعی را دستکاری (مسموم) کنند تا مجموعه داده‌های آموزشی و دقت آن را به خطر بیندازند.

مطلب مرتبط: Project Volterra چیست و چرا مایکروسافت آن را می سازد؟

انواع مختلفی از مسمومیت وجود دارد. یکی از موارد رایج مسمومیت درب پشتی نام دارد که داده های آموزشی بسیار کمی تحت تاثیر قرار می گیرد. مدل هوش مصنوعی همچنان نتایج بسیار دقیقی را ارائه می‌دهد تا زمانی که در تماس با محرک‌های خاص «فعال» شود تا دچار نقص شود.

2. طفره رفتن

این تکنیک بسیار کشنده است، زیرا با دنبال کردن سیستم امنیتی هوش مصنوعی از شناسایی جلوگیری می کند.

اکثر مدل های هوش مصنوعی مجهز به سیستم های تشخیص ناهنجاری هستند. تکنیک‌های فرار از نمونه‌های متخاصم استفاده می‌کنند که مستقیماً این سیستم‌ها را دنبال می‌کنند.

این تکنیک می تواند به ویژه در برابر سیستم های بالینی مانند خودروهای خودران یا مدل های تشخیص پزشکی خطرناک باشد. اینها زمینه هایی هستند که عدم دقت می تواند عواقب شدیدی داشته باشد.

3. قابلیت انتقال

عوامل تهدید که از این تکنیک استفاده می کنند نیازی به دانش قبلی از پارامترهای مدل هوش مصنوعی ندارند. آنها از حملات خصمانه ای استفاده می کنند که در گذشته در مقابل سایر نسخه های مدل موفق بوده اند.

به عنوان مثال، اگر یک حمله خصمانه باعث شود مدل طبقه‌بندی‌کننده تصویر، لاک‌پشت را با تفنگ اشتباه بگیرد، حمله دقیق می‌تواند باعث شود مدل‌های طبقه‌بندی‌کننده تصویر نیز همین خطا را مرتکب شوند. مدل‌های دیگر می‌توانستند روی مجموعه داده‌های متفاوتی آموزش ببینند و حتی معماری متفاوتی داشته باشند، اما همچنان می‌توانستند قربانی این حمله شوند.

4. رحم اجاره ای

عامل تهدید به جای دنبال کردن سیستم های امنیتی مدل با استفاده از تکنیک های فرار یا حملات موفق قبلی، می تواند از یک مدل جایگزین استفاده کند.

با این تکنیک، عامل تهدید یک نسخه مشابه از مدل هدف ایجاد می کند، یک مدل جایگزین. نتایج، پارامترها و رفتارهای یک جانشین باید با مدل اصلی کپی شده یکسان باشد.

جانشین اکنون در معرض حملات خصمانه مختلف قرار خواهد گرفت تا زمانی که یکی از آنها منجر به ایجاد یک نتیجه نادرست یا انجام یک طبقه بندی اشتباه شود. سپس، این حمله بر روی هوش مصنوعی هدف اصلی استفاده خواهد شد.

مطلب مرتبط: نحوه استفاده از Paint Cocreator برای ایجاد تصاویر هوش مصنوعی در ویندوز 11

چگونه حملات دشمن را متوقف کنیم

دفاع در برابر حملات متخاصم می تواند پیچیده و زمان بر باشد زیرا عوامل تهدید از اشکال و تکنیک های مختلفی استفاده می کنند. با این حال، مراحل زیر می تواند از حملات دشمن جلوگیری کرده و آن را متوقف کند.

1. آموزش خصمانه

موثرترین گامی که می تواند از حملات خصمانه جلوگیری کند، آموزش خصمانه، آموزش مدل ها و ماشین های هوش مصنوعی با استفاده از نمونه های متخاصم است. این استحکام مدل را بهبود می بخشد و به آن اجازه می دهد در برابر کوچکترین اختلالات ورودی انعطاف پذیر باشد.

2. حسابرسی منظم

لازم است به طور منظم نقاط ضعف سیستم تشخیص ناهنجاری مدل هوش مصنوعی بررسی شود. این شامل تغذیه عمدی مدل با نمونه های متضاد و نظارت بر رفتار مدل به ورودی مخرب است.

3. پاکسازی داده ها

این روش شامل بررسی ورودی های مخرب وارد شده به مدل است. پس از شناسایی آنها باید فورا حذف شوند.

این داده ها را می توان با استفاده از اعتبار سنجی ورودی شناسایی کرد، که شامل بررسی داده ها برای الگوها یا امضاهای نمونه های متخاصم شناخته شده قبلی است.

4. به روز رسانی های امنیتی

اشتباه کردن با به‌روزرسانی‌ها و وصله‌های امنیتی دشوار است. امنیت چند لایه مانند فایروال ها، برنامه های ضد بدافزار و سیستم های تشخیص نفوذ و پیشگیری می تواند به جلوگیری از تداخل خارجی از سوی عوامل تهدید که می خواهند مدل هوش مصنوعی را مسموم کنند، کمک کند.

حملات خصمانه می تواند یک دشمن شایسته باشد

مفهوم حملات خصمانه مشکلی را برای یادگیری پیشرفته و یادگیری ماشین ایجاد می کند.

در نتیجه، مدل‌های هوش مصنوعی باید به دفاع‌هایی مانند آموزش خصمانه، ممیزی منظم، پاک‌سازی داده‌ها و به‌روزرسانی‌های امنیتی مرتبط مجهز شوند.

Tags: امنیت سایبری هوش مصنوعی