این مدل زبان بزرگ در وب تاریک برای ارزیابی تهدیدات امنیت سایبری آموزش داده شده است. در اینجا چیزی است که شما باید بدانید.
محبوبیت مدل های زبان بزرگ (LLM) در حال افزایش است و مدل های جدید به طور مداوم وارد صحنه می شوند. این مدلها، مانند ChatGPT، معمولاً در منابع مختلف اینترنتی، از جمله مقالات، وبسایتها، کتابها و رسانههای اجتماعی آموزش داده میشوند.
در اقدامی بی سابقه، تیمی از محققان کره جنوبی DarkBERT را توسعه دادند، یک LLM که بر روی مجموعه داده هایی که منحصراً از وب تاریک گرفته شده است، آموزش دیده است. هدف آنها ایجاد یک ابزار هوش مصنوعی بود که از مدلهای زبان موجود بهتر عمل کند و به محققان تهدید، مجریان قانون و متخصصان امنیت سایبری در مبارزه با تهدیدات سایبری کمک کند.
DarkBERT چیست؟
DarkBERT یک مدل رمزگذار مبتنی بر ترانسفورماتور بر اساس معماری RoBERTa است. LLM بر روی میلیون ها صفحه وب تاریک، از جمله داده های انجمن های هک، وب سایت های کلاهبرداری و سایر منابع آنلاین مرتبط با فعالیت های غیرقانونی آموزش دیده است.
اصطلاح «وب تاریک» به یک بخش اینترنتی مخفی اشاره دارد که از طریق مرورگرهای وب استاندارد قابل دسترسی نیست. این بخش به دلیل پناه دادن به وبسایتهای ناشناس و بازارهایی که به دلیل فعالیتهای غیرقانونی بدنام هستند، مانند تجارت دادههای سرقت شده، مواد مخدر و اسلحه مشهور است.
برای آموزش DarkBERT، محققان از طریق شبکه Tor به تاریک وب دسترسی پیدا کردند و داده های خام را جمع آوری کردند. آنها با دقت این دادهها را با استفاده از تکنیکهایی مانند deduplication، متعادلسازی دستهها و پیشپردازش فیلتر کردند تا یک پایگاه داده وب تاریک تصفیهشده ایجاد کنند، که سپس در طول تقریباً 15 روز برای ایجاد DarkBERT به RoBERTa داده شد.
کاربردهای احتمالی DarkBERT در امنیت سایبری
DarkBERT درک قابل توجهی از زبان مجرمان سایبری دارد و در تشخیص تهدیدهای بالقوه خاص عالی است. میتواند وب تاریک را بررسی کند و تهدیدات امنیت سایبری مانند نشت دادهها و باجافزار را با موفقیت شناسایی و پرچمگذاری کند، که آن را به ابزاری بالقوه مفید برای مبارزه با تهدیدات سایبری تبدیل میکند.
این تحقیق در arxiv.org نشان میدهد که برای ارزیابی اثربخشی DarkBERT، محققان آن را با دو مدل معروف NLP، BERT و RoBERTa مقایسه کردند و عملکرد آنها را در سه مورد استفاده مهم مرتبط با امنیت سایبری ارزیابی کردند.
1. انجمن های وب تاریک را برای موضوعات بالقوه مضر نظارت کنید
نظارت بر انجمنهای وب تاریک، که معمولاً برای تبادل اطلاعات غیرقانونی استفاده میشوند، برای شناسایی موضوعات بالقوه خطرناک بسیار مهم است. با این حال، بررسی دستی این موارد میتواند زمانبر باشد و اتوماسیون فرآیند را برای کارشناسان امنیتی مفید کند.
محققان بر روی فعالیتهای بالقوه آسیبرسان در انجمنهای هک، ابداع دستورالعملهای حاشیهنویسی برای موضوعات قابل توجه، از جمله اشتراکگذاری دادههای محرمانه و توزیع بدافزارها یا آسیبپذیریهای حیاتی، تمرکز کردند.
DarkBERT از نظر دقت، یادآوری و امتیاز F1 از سایر مدلهای زبان بهتر عمل کرد و به عنوان انتخاب برتر برای شناسایی موضوعات قابل توجه در تاریک وب ظاهر شد.
2. شناسایی سایت هایی که میزبان اطلاعات محرمانه هستند
هکرها و گروههای باجافزار از وب تاریک برای ایجاد سایتهای درز استفاده میکنند، جایی که اطلاعات محرمانه دزدیده شده از سازمانهایی را منتشر میکنند که از پیروی از درخواستهای باج امتناع میکنند. سایر مجرمان سایبری فقط دادههای حساس لو رفته، مانند گذرواژهها و اطلاعات مالی را به قصد فروش در تاریک وب آپلود میکنند.
در مطالعه خود، محققان دادههایی را از گروههای باجافزار بدنام جمعآوری کردند و سایتهای نشت باجافزار را که اطلاعات خصوصی سازمانها را منتشر میکنند، تجزیه و تحلیل کردند. DarkBERT در شناسایی و طبقه بندی چنین سایت هایی از سایر مدل های زبانی بهتر عمل کرد و درک خود را از زبان مورد استفاده در انجمن های هک زیرزمینی در تاریک وب نشان داد.
3. کلمات کلیدی مرتبط با تهدیدات در وب تاریک را شناسایی کنید
DarkBERT از عملکرد پرکننده ماسک، یک ویژگی ذاتی مدلهای زبان خانواده BERT، برای شناسایی دقیق کلمات کلیدی مرتبط با فعالیتهای غیرقانونی، از جمله فروش مواد مخدر در وب تاریک، استفاده میکند.
زمانی که کلمه “MDMA” در صفحه فروش مواد مخدر پوشانده شد، DarkBERT کلمات مرتبط با مواد مخدر را تولید کرد، در حالی که مدل های دیگر کلمات و اصطلاحات کلی غیرمرتبط با مواد مخدر، مانند حرفه های مختلف را پیشنهاد کردند.
توانایی DarkBERT در شناسایی کلمات کلیدی مرتبط با فعالیت های غیرقانونی می تواند در ردیابی و رسیدگی به تهدیدات سایبری نوظهور ارزشمند باشد.
آیا DarkBERT برای عموم قابل دسترسی است؟
DarkBERT در حال حاضر برای عموم در دسترس نیست، اما محققان برای استفاده از آن برای اهداف آکادمیک آماده هستند.
از قدرت هوش مصنوعی برای تشخیص و پیشگیری از تهدید استفاده کنید
DarkBERT از قبل در مورد دادههای وب تاریک آموزش دیده است و از مدلهای زبان موجود در چندین مورد استفاده از امنیت سایبری بهتر عمل میکند و خود را به عنوان ابزاری حیاتی برای پیشبرد تحقیقات وب تاریک قرار میدهد.
هوش مصنوعی آموزشدیده تحت وب تاریک این پتانسیل را دارد که برای وظایف مختلف امنیت سایبری، از جمله شناسایی وبسایتهای فروش دادههای محرمانه لو رفته، نظارت بر انجمنهای وب تاریک برای شناسایی اشتراکگذاری اطلاعات غیرقانونی، و شناسایی کلمات کلیدی مرتبط با تهدیدات سایبری، استفاده شود.
اما همیشه باید به یاد داشته باشید که DarkBERT مانند سایر LLM ها یک کار در حال پیشرفت است و عملکرد آن را می توان با آموزش مداوم و تنظیم دقیق بهبود بخشید.