مدلهای هوش مصنوعی فقط به اندازه دادههایی هستند که به آنها داده میشود. که این داده ها را به یک هدف بالقوه برای حملات تبدیل می کند.
پیشرفت های هوش مصنوعی در زمینه های مختلف تاثیر بسزایی داشته است. این موضوع باعث نگرانی تعداد زیادی از علاقه مندان به فناوری شده است. همانطور که این فناوری ها به برنامه های مختلف گسترش می یابند، می توانند منجر به افزایش حملات دشمن شوند.
حملات خصمانه در هوش مصنوعی چیست؟
حملات خصمانه از مشخصات و آسیب پذیری های موجود در مدل های هوش مصنوعی سوء استفاده می کنند. آنها داده هایی را که مدل های هوش مصنوعی از آنها آموخته اند خراب می کنند و باعث می شوند این مدل ها خروجی های نادرست تولید کنند.
تصور کنید که یک شوخی، کاشیهای خراشیدهای را که به صورت آناناسی چیده شدهاند را تغییر میدهد تا به «applepine» تبدیل شود. این مشابه چیزی است که در حملات خصمانه رخ می دهد.
چند سال پیش، دریافت چند پاسخ یا خروجی نادرست از یک مدل هوش مصنوعی معمول بود. اکنون برعکس است، زیرا عدم دقت به استثناء تبدیل شده است و کاربران هوش مصنوعی انتظار نتایج تقریباً کامل را دارند.
وقتی این مدلهای هوش مصنوعی برای سناریوهای دنیای واقعی اعمال میشوند، نادرستیها میتوانند کشنده باشند و حملات متخاصم را بسیار خطرناک کنند. به عنوان مثال، برچسبهای روی علائم راهنمایی و رانندگی میتوانند یک خودروی خودران خودران را گیج کنند و باعث شوند که در ترافیک یا مستقیماً به یک مانع حرکت کند.
انواع حملات خصمانه
انواع مختلفی از حملات خصمانه وجود دارد. با افزایش ادغام هوش مصنوعی در برنامه های روزمره، این حملات احتمالا بدتر و پیچیده تر خواهند شد.
با این وجود، ما تقریباً میتوانیم حملات خصمانه را بر اساس میزان اطلاعاتی که عامل تهدید در مورد مدل هوش مصنوعی میداند به دو نوع طبقهبندی کنیم.
1. حملات جعبه سفید
در حملات جعبه سفید، عوامل تهدید اطلاعات کاملی از عملکرد درونی مدل هوش مصنوعی دارند. آنها مشخصات، داده های آموزشی، تکنیک های پردازش و پارامترهای آن را می دانند. این دانش آنها را قادر می سازد تا یک حمله خصمانه به طور خاص برای مدل ایجاد کنند.
اولین گام در حمله جعبه سفید، تغییر داده های آموزشی اصلی است، و آن را به کوچکترین شکل ممکن خراب می کند. دادههای اصلاحشده همچنان بسیار شبیه به اصلی هستند، اما به اندازهای قابل توجه هستند که مدل هوش مصنوعی نتایج نادرستی ارائه دهد.
این همه چیز نیست. پس از حمله، عامل تهدید، اثربخشی مدل را با ارائه نمونههای متضاد به آن ارزیابی میکند – ورودیهای تحریفشده طراحی شده برای ایجاد اشتباه در مدل – و خروجی را تجزیه و تحلیل میکند. هر چه نتیجه نادرست تر باشد، حمله موفق تر است.
2. حملات جعبه سیاه
برخلاف حملات جعبه سفید، که عامل تهدید از عملکرد درونی مدل هوش مصنوعی آگاه است، عاملان حملات جعبه سیاه هیچ ایده ای از نحوه عملکرد مدل ندارند. آنها به سادگی مدل را از یک نقطه کور مشاهده می کنند و مقادیر ورودی و خروجی آن را زیر نظر دارند.
اولین قدم در حمله جعبه سیاه، انتخاب هدف ورودی است که مدل هوش مصنوعی میخواهد طبقهبندی کند. عامل تهدید سپس یک نسخه مخرب از ورودی را با اضافه کردن نویز به دقت ساخته شده ایجاد می کند، آشفتگی هایی به داده ها که برای چشم انسان نامرئی هستند اما می توانند باعث ایجاد نقص در مدل هوش مصنوعی شوند.
نسخه مخرب به مدل داده می شود و خروجی مشاهده می شود. نتایج ارائه شده توسط این مدل به عامل تهدید کمک می کند تا به اصلاح نسخه ادامه دهد تا زمانی که به اندازه کافی مطمئن شود که هر گونه داده وارد شده به آن را به اشتباه طبقه بندی می کند.
تکنیک های مورد استفاده در حملات خصمانه
موجودیت های مخرب می توانند از تکنیک های مختلفی برای انجام حملات خصمانه استفاده کنند. در اینجا به برخی از این تکنیک ها اشاره می کنیم.
1. مسمومیت
مهاجمان میتوانند بخش کوچکی از دادههای ورودی یک مدل هوش مصنوعی را دستکاری (مسموم) کنند تا مجموعه دادههای آموزشی و دقت آن را به خطر بیندازند.
انواع مختلفی از مسمومیت وجود دارد. یکی از موارد رایج مسمومیت درب پشتی نام دارد که داده های آموزشی بسیار کمی تحت تاثیر قرار می گیرد. مدل هوش مصنوعی همچنان نتایج بسیار دقیقی را ارائه میدهد تا زمانی که در تماس با محرکهای خاص «فعال» شود تا دچار نقص شود.
2. طفره رفتن
این تکنیک بسیار کشنده است، زیرا با دنبال کردن سیستم امنیتی هوش مصنوعی از شناسایی جلوگیری می کند.
اکثر مدل های هوش مصنوعی مجهز به سیستم های تشخیص ناهنجاری هستند. تکنیکهای فرار از نمونههای متخاصم استفاده میکنند که مستقیماً این سیستمها را دنبال میکنند.
این تکنیک می تواند به ویژه در برابر سیستم های بالینی مانند خودروهای خودران یا مدل های تشخیص پزشکی خطرناک باشد. اینها زمینه هایی هستند که عدم دقت می تواند عواقب شدیدی داشته باشد.
3. قابلیت انتقال
عوامل تهدید که از این تکنیک استفاده می کنند نیازی به دانش قبلی از پارامترهای مدل هوش مصنوعی ندارند. آنها از حملات خصمانه ای استفاده می کنند که در گذشته در مقابل سایر نسخه های مدل موفق بوده اند.
به عنوان مثال، اگر یک حمله خصمانه باعث شود مدل طبقهبندیکننده تصویر، لاکپشت را با تفنگ اشتباه بگیرد، حمله دقیق میتواند باعث شود مدلهای طبقهبندیکننده تصویر نیز همین خطا را مرتکب شوند. مدلهای دیگر میتوانستند روی مجموعه دادههای متفاوتی آموزش ببینند و حتی معماری متفاوتی داشته باشند، اما همچنان میتوانستند قربانی این حمله شوند.
4. رحم اجاره ای
عامل تهدید به جای دنبال کردن سیستم های امنیتی مدل با استفاده از تکنیک های فرار یا حملات موفق قبلی، می تواند از یک مدل جایگزین استفاده کند.
با این تکنیک، عامل تهدید یک نسخه مشابه از مدل هدف ایجاد می کند، یک مدل جایگزین. نتایج، پارامترها و رفتارهای یک جانشین باید با مدل اصلی کپی شده یکسان باشد.
جانشین اکنون در معرض حملات خصمانه مختلف قرار خواهد گرفت تا زمانی که یکی از آنها منجر به ایجاد یک نتیجه نادرست یا انجام یک طبقه بندی اشتباه شود. سپس، این حمله بر روی هوش مصنوعی هدف اصلی استفاده خواهد شد.
چگونه حملات دشمن را متوقف کنیم
دفاع در برابر حملات متخاصم می تواند پیچیده و زمان بر باشد زیرا عوامل تهدید از اشکال و تکنیک های مختلفی استفاده می کنند. با این حال، مراحل زیر می تواند از حملات دشمن جلوگیری کرده و آن را متوقف کند.
1. آموزش خصمانه
موثرترین گامی که می تواند از حملات خصمانه جلوگیری کند، آموزش خصمانه، آموزش مدل ها و ماشین های هوش مصنوعی با استفاده از نمونه های متخاصم است. این استحکام مدل را بهبود می بخشد و به آن اجازه می دهد در برابر کوچکترین اختلالات ورودی انعطاف پذیر باشد.
2. حسابرسی منظم
لازم است به طور منظم نقاط ضعف سیستم تشخیص ناهنجاری مدل هوش مصنوعی بررسی شود. این شامل تغذیه عمدی مدل با نمونه های متضاد و نظارت بر رفتار مدل به ورودی مخرب است.
3. پاکسازی داده ها
این روش شامل بررسی ورودی های مخرب وارد شده به مدل است. پس از شناسایی آنها باید فورا حذف شوند.
این داده ها را می توان با استفاده از اعتبار سنجی ورودی شناسایی کرد، که شامل بررسی داده ها برای الگوها یا امضاهای نمونه های متخاصم شناخته شده قبلی است.
4. به روز رسانی های امنیتی
اشتباه کردن با بهروزرسانیها و وصلههای امنیتی دشوار است. امنیت چند لایه مانند فایروال ها، برنامه های ضد بدافزار و سیستم های تشخیص نفوذ و پیشگیری می تواند به جلوگیری از تداخل خارجی از سوی عوامل تهدید که می خواهند مدل هوش مصنوعی را مسموم کنند، کمک کند.
حملات خصمانه می تواند یک دشمن شایسته باشد
مفهوم حملات خصمانه مشکلی را برای یادگیری پیشرفته و یادگیری ماشین ایجاد می کند.
در نتیجه، مدلهای هوش مصنوعی باید به دفاعهایی مانند آموزش خصمانه، ممیزی منظم، پاکسازی دادهها و بهروزرسانیهای امنیتی مرتبط مجهز شوند.