احتمالاً GPTBot آن چیزی نیست که شما فکر می کنید.
تعاریف کلیدی
- OpenAI’s GPTBot یک خزنده وب است که برای جمعآوری دادهها از وبسایتهای عمومی طراحی شده است و سپس برای آموزش و بهبود مدلهای هوش مصنوعی مانند GPT-4 و ChatGPT استفاده میشود.
- برخی از بزرگترین وبسایتهای اینترنت GPTBot را مسدود میکنند زیرا بدون اجازه یا جبران خسارت به سازندگان به محتوای دارای حق چاپ دسترسی پیدا میکند و از آن استفاده میکند.
- در حالی که وب سایت ها می توانند از ابزارهایی مانند robots.txt برای مسدود کردن GPTBot استفاده کنند، هیچ تضمینی وجود ندارد که OpenAI مطابقت داشته باشد و به آنها کنترل دسترسی به داده های دارای حق چاپ را بدهد.
در آگوست 2023، OpenAI، نیروگاه هوش مصنوعی که با توسعه ChatGPT اعتبار دارد، GPTBot را معرفی کرد، یک خزنده وب که برای عبور از وب و جمعآوری دادهها طراحی شده است.
اندکی پس از آن اعلامیه، برخی از بزرگترین وب سایت های اینترنتی دسترسی ربات را به وب سایت خود مسدود کردند. اما چرا؟ GPTBot OpenAI چیست؟ چرا وب سایت های بزرگ از آن می ترسند و چرا سعی می کنند آن را مسدود کنند؟
GPTBot OpenAI چیست؟
GPTBot یک خزنده وب است که توسط OpenAI برای جستجوی اینترنت و جمع آوری اطلاعات برای اهداف توسعه هوش مصنوعی OpenAI ایجاد شده است. این برنامه برای خزیدن وب سایت های عمومی و ارسال داده ها به سرورهای OpenAI برنامه ریزی شده است. OpenAI سپس از این دادهها برای آموزش و بهبود مدلهای هوش مصنوعی خود با هدف ساختن سیستمهای هوش مصنوعی پیشرفتهتر استفاده میکند. برای ساخت مدلهای پیشرفته هوش مصنوعی مانند GPT-4 یا محصولات فرزند آن مانند ChatGPT، خزندههای وب تقریباً ضروری هستند.
آموزش یک مدل هوش مصنوعی به حجم عظیمی از داده ها نیاز دارد و یکی از موثرترین راه ها برای جمع آوری این داده ها استفاده از ابزارهایی مانند خزنده های وب است. خزنده ها می توانند به طور سیستماتیک وب را مرور کنند، پیوندها را برای فهرست بندی حجم زیادی از صفحات وب دنبال کنند و داده های کلیدی مانند متن، تصاویر و ابرداده را استخراج کنند که با یک الگوی از پیش تعریف شده مطابقت دارد.
سپس این دادهها را میتوان ساختار داد و به مدلهای هوش مصنوعی داد تا تواناییهای پردازش زبان طبیعی یا تواناییهای تولید تصویر یا آموزش آنها برای سایر وظایف هوش مصنوعی را آموزش دهند. بهطور مرتب، خزندههای وب دادههایی را جمعآوری میکنند که این امکان را برای ابزارهایی مانند ChatGPT یا DALL-E فراهم میکند تا کاری را که انجام میدهند انجام دهند.
خزنده های وب مفهوم جدیدی نیستند. احتمالاً میلیون ها نفر از آنها در حال خزیدن بین میلیاردها وب سایت موجود در اینترنت هستند. و آنها حداقل از اوایل دهه 90 وجود داشته اند. GPTBot تنها یکی از این خزندهها است که متعلق به OpenAI است. بنابراین، چه چیزی باعث بحث در مورد این خزنده وب خاص می شود؟
چرا سایت های فناوری بزرگ GPTBot را مسدود می کنند؟
به گفته Business Insider، برخی از بزرگترین وب سایت های اینترنت به طور فعال خزنده OpenAI را در وب سایت خود مسدود می کنند. بنابراین، اگر هدف نهایی GPTBot پیشرفت توسعه هوش مصنوعی است، چرا برخی از بزرگترین سایت های اینترنت که برخی از آنها به نوعی از هوش مصنوعی بهره برده اند، مخالف آن هستند؟
خوب، موضوع اینجاست. از زمان ظهور مجدد فناوریهای هوش مصنوعی در سال 2022، بحثهای متعددی در مورد حق شرکتهای هوش مصنوعی برای استفاده تقریباً بدون محدودیت از دادههای منبعشده از اینترنت وجود داشته است، که بخش قابل توجهی از آن از نظر قانونی توسط حق چاپ محافظت میشود. هیچ قانون روشنی بر نحوه جمع آوری و استفاده از داده ها برای منافع خود توسط این شرکت ها حاکم نیست.
بنابراین، اساساً خزندههایی مانند GPTBot در وب میخزند، کارهای خلاقانه افراد را در قالب متن، تصویر یا سایر اشکال رسانهای میگیرند و بدون دریافت هیچ گونه مجوز، مجوز یا ارائه غرامت به سازندگان اصلی، از آن برای مقاصد تجاری استفاده میکنند.
اینجا یک غرب وحشی است و شرکتهای هوش مصنوعی هر چه به دستشان میرسد را به دست میآورند. وبسایتهای بزرگی مانند Quora، CNN، نیویورک تایمز، بیزینس اینسایدر و آمازون از اینکه محتوای دارای حق نسخهبرداری توسط این خزندهها جمعآوری میشود، چندان خشنود نیستند، بنابراین OpenAI میتواند با هزینههای خود از آن سود مالی دریافت کند.
به همین دلیل است که این سایتها از «robots.txt» استفاده میکنند، روشی که چندین دهه قدمت دارد برای مسدود کردن خزندههای وب. طبق گفته OpenAI، GPTBot از دستورالعملهای خزیدن یا اجتناب از خزیدن در وبسایتها بر اساس قوانین تعبیهشده در robots.txt، یک فایل متنی کوچک که به خزندههای وب میگوید چگونه در یک سایت رفتار کنند، اطاعت میکند. اگر سایت خود را دارید و دوست دارید GPTBot از گرفتن داده های شما جلوگیری کنید، در اینجا نحوه مسدود کردن خزنده های OpenAI از حذف وب سایت شما آورده شده است.
آیا وب سایت ها واقعا می توانند GPTBot را متوقف کنند؟
در حالی که خزندههایی مانند GPTBot برای جمعآوری حجم عظیمی از دادههای مورد نیاز برای آموزش سیستمهای هوش مصنوعی پیشرفته ضروری هستند، نگرانیهای معتبری در مورد حق چاپ و استفاده منصفانه وجود دارد که نمیتوان آنها را نادیده گرفت.
مطمئناً، ابزارهای سادهای مانند robots.txt وجود دارد که میتوان از آنها برای محافظت در برابر این موضوع استفاده کرد، اما اینکه آیا GPTBot از دستورالعملهای موجود در این فایل پیروی میکند، کاملاً در اختیار OpenAI است. هیچ تضمینی وجود ندارد که آنها این کار را انجام دهند، و هیچ راه بی خطری فوری برای تشخیص اینکه آیا آنها این کار را انجام داده اند وجود ندارد. در مبارزه برای دور نگه داشتن GPTBot از داده های دارای حق چاپ، OpenAI حداقل فعلاً در دست دارد.