شرکت ها از داده های رسانه های اجتماعی برای آموزش مدل های هوش مصنوعی استفاده می کنند و می فروشند. کاربر معمولی شبکه های اجتماعی چه کاری می تواند در مورد آن انجام دهد؟
تعاریف کلیدی
- پلتفرمهای رسانههای اجتماعی، علیرغم نگرانیهای مربوط به حفظ حریم خصوصی، دادههای کاربران را برای آموزش مدلهای هوش مصنوعی مولد به شرکتهای هوش مصنوعی میفروشند.
- پلتفرم هایی مانند Meta، Reddit، Tumblr و WordPress.com به طور فعال در این معاملات مجوز داده برای آموزش هوش مصنوعی درگیر هستند.
- کاربران میتوانند برای محافظت از دادههای خود اقدامات کوچکی انجام دهند، مانند تنظیم تنظیمات حریم خصوصی، انصراف از اشتراکگذاری، و محتاط بودن در مورد آنچه که به صورت آنلاین پست میکنند.
یکی از جدیدترین روشهایی که شرکتهای رسانههای اجتماعی از دادههای کاربران کسب درآمد میکنند، معامله با شرکتهای هوش مصنوعی است. اما آیا کاربران عادی می توانند برای محافظت از داده ها و محتوای خود کاری انجام دهند؟
پلتفرم های رسانه های اجتماعی با شرکت های هوش مصنوعی معامله می کنند
استفاده از دادههای رسانههای اجتماعی برای آموزش مدلهای هوش مصنوعی مولد یک حرکت بحثبرانگیز بوده است – اما به نظر نمیرسد که این مانع از توزیع دادههای کاربران توسط شرکتهای رسانههای اجتماعی نمیشود.
Meta در حال حاضر از دادههای رسانههای اجتماعی برای آموزش ویژگیهای هوش مصنوعی مولد اعلامشده در Meta Connect در سال ۲۰۲۳ استفاده میکند. این شامل هوش مصنوعی متا و ویژگیهایی مانند ایجاد برچسبهای تولید شده توسط هوش مصنوعی در واتساپ است.
همانطور که مایک کلارک، مدیر مدیریت محصول در متا در پست اتاق خبر متا اظهار داشت:
پستهای اشتراکگذاری شده عمومی از اینستاگرام و فیسبوک – از جمله عکسها و متنها – بخشی از دادههای مورد استفاده برای آموزش مدلهای هوش مصنوعی مولد زیربنای ویژگیهایی بود که ما در Connect اعلام کردیم.
به نظر نمی رسد این روند در سال 2024 کاهش یابد. به گزارش رویترز، Reddit با گوگل به توافقی دست یافت تا محتوای پلت فرم رسانه های اجتماعی را برای آموزش مدل های هوش مصنوعی در دسترس قرار دهد.
پرونده S-1 Reddit برای IPO خود، که در 22 فوریه 2024 ثبت شد، تأیید می کند که این شرکت در حال بررسی معاملات مجوز است. در پرونده آمده است:
“داده های ردیت یک قطعه اساسی برای ساخت فناوری هوش مصنوعی فعلی و بسیاری از LLM ها است. ما معتقدیم که مجموعه عظیم داده های مکالمه و دانش ردیت همچنان در آموزش و بهبود LLM ها نقش خواهد داشت.”
مشخص می کند که Reddit “در مراحل اولیه اجازه دادن به اشخاص ثالث برای دسترسی به جستجو، تجزیه و تحلیل و نمایش داده های تاریخی و بلادرنگ از پلت فرم ما” به منظور آموزش LLM است.
و در حالی که Meta و Reddit برخی از بزرگترین نامها در رسانههای اجتماعی هستند، آنها تنها پلتفرمهایی نیستند که از دادههای رسانههای اجتماعی برای آموزش هوش مصنوعی استفاده میکنند. طبق گزارش 404 Media، Tumblr و WordPress.com در حال آماده شدن برای فروش داده های کاربران به Midjourney و OpenAI هستند.
آیا می توانید پلتفرم ها را از فروش داده های رسانه های اجتماعی خود برای آموزش هوش مصنوعی منع کنید؟
این احتمال وجود دارد که اگر از Facebook، Instagram، Reddit، Tumblr یا WordPress.com استفاده میکنید، از محتوای عمومی شما قبلاً در آموزش LLM استفاده شده است.
به عنوان مثال، اگر از ابزار جستجوی واشنگتن پست استفاده کنید تا ببینید چه سایت هایی در مجموعه داده های C4 گوگل که به عنوان بخشی از آموزش بارد استفاده می شد، گنجانده شده است، خواهید دید که Reddit.com 7.9 میلیون توکن دارد.
Tumblr.com دارای 1.6 میلیون توکن است. وبسایت کوچک من که از WordPress.com استفاده میکند، 14000 توکن دارد—بنابراین وبلاگهای شخصی کوچک ممکن است در مجموعه داده گنجانده شده باشند.
با معاملات مداوم بین شرکتهای هوش مصنوعی و شرکتهای رسانههای اجتماعی، معاملات مجوز به این معنی است که این دادهها بهجای حذف شدن از وب، فعالانه فروخته میشوند.
اما وقتی نوبت به پردازش آینده می رسد، چه کاری می توانید انجام دهید؟ متا فرمی را برای حقوق موضوع داده های هوش مصنوعی مولد معرفی کرده است که به شما امکان می دهد برای آموزش مدل های هوش مصنوعی متا به پردازش داده های شخصی خود از اشخاص ثالث اعتراض یا محدود کنید.
قابل ذکر است، این گزینه به شما اجازه نمی دهد که به پردازش شخص اول متا از داده های شما برای آموزش هوش مصنوعی مولد اعتراض کنید. علاوه بر این، هنگامی که من یک بلیط برای اعتراض به استفاده از داده های شخصی خود با استفاده از فرم ارسال کردم، بلیط پشتیبانی از من می خواست ثابت کنم که اطلاعات شخصی من قبلاً در نتایج هوش مصنوعی متا ظاهر شده است.
Tumblr همچنین گزینه ای را برای انصراف از اشتراک گذاری محتوای وبلاگ های عمومی شما با اشخاص ثالث با استفاده از تنظیمات وبلاگ شما معرفی کرده است. با کلیک بر روی وبلاگ خود و پایین رفتن به تنظیمات Visibility می توانید آن را در تنظیمات خود پیدا کنید. سپس گزینه جلوگیری از اشتراک گذاری شخص ثالث برای وبلاگ خود را انتخاب کنید.
وقتی صحبت از پلتفرمی مانند اینستاگرام می شود، می توانید سعی کنید حساب اینستاگرام خود را به خصوصی تغییر دهید تا از استفاده از داده های خود جلوگیری کنید. این تضمین نمیکند که از دادههای شما استفاده نمیشود، اما از آنجایی که به نظر میرسد حذف دادهها برای LLM بر روی دادههای عمومی تمرکز دارد، میتواند یک حفاظت بالقوه باشد.
همچنین میتوانید حساب X (توئیتر) خود را خصوصی کنید، اما بار دیگر این فقط یک حفاظت بالقوه است و تضمین نمیکند که دادههای شما خصوصی باقی بماند.
بیانیه مشترک کمیسیونرها و کارشناسان اطلاعات ملی مختلف در سراسر جهان همچنین اقداماتی را برای افرادی که به دنبال به حداقل رساندن خطر حفظ حریم خصوصی ناشی از حذف داده ها توسط شرکت های هوش مصنوعی هستند، پیشنهاد کرده است. مشاوره شامل:
- شرایط و سیاست حفظ حریم خصوصی یک وب سایت را بخوانید تا ببینید چگونه اطلاعات شخصی شما را به اشتراک می گذارد.
- اطلاعاتی را که به صورت آنلاین پست می کنید، به خصوص اطلاعات حساس را محدود کنید.
- تنظیمات حریم خصوصی خود را مدیریت کنید.
- در مورد اطلاعاتی که به صورت آنلاین به اشتراک می گذارید درازمدت فکر کنید.
- اگر فکر می کنید اطلاعات شما به درستی خراشیده شده است، با شرکت رسانه اجتماعی یا وب سایت تماس بگیرید. اگر از پاسخ آنها ناراضی هستید، با مرجع حفاظت از داده مربوطه خود شکایت کنید.
همچنین اگر دسترسی اشخاص ثالث به آن راحت نیستید، میتوانید اطلاعات خاصی را به صورت آنلاین حذف کنید، اگرچه ممکن است اطلاعات عمومی موجود در نمایههای شما قبلاً حذف شده باشد.
متأسفانه، ما به عنوان کاربران معمولی می توانیم کارهای زیادی برای محافظت از داده های خود در برابر شرکت های هوش مصنوعی انجام دهیم. کنترل واقعی بر این اطلاعات احتمالاً تنها با کمک تنظیمکنندهها خواهد بود.