GPTBot چیست و چرا وب سایت ها آن را مسدود می کنند؟

احتمالاً GPTBot آن چیزی نیست که شما فکر می کنید.

تعاریف کلیدی

OpenAI’s GPTBot یک خزنده وب است که برای جمع‌آوری داده‌ها از وب‌سایت‌های عمومی طراحی شده است و سپس برای آموزش و بهبود مدل‌های هوش مصنوعی مانند GPT-4 و ChatGPT استفاده می‌شود.
برخی از بزرگ‌ترین وب‌سایت‌های اینترنت GPTBot را مسدود می‌کنند زیرا بدون اجازه یا جبران خسارت به سازندگان به محتوای دارای حق چاپ دسترسی پیدا می‌کند و از آن استفاده می‌کند.
در حالی که وب سایت ها می توانند از ابزارهایی مانند robots.txt برای مسدود کردن GPTBot استفاده کنند، هیچ تضمینی وجود ندارد که OpenAI مطابقت داشته باشد و به آنها کنترل دسترسی به داده های دارای حق چاپ را بدهد.

در آگوست 2023، OpenAI، نیروگاه هوش مصنوعی که با توسعه ChatGPT اعتبار دارد، GPTBot را معرفی کرد، یک خزنده وب که برای عبور از وب و جمع‌آوری داده‌ها طراحی شده است.

اندکی پس از آن اعلامیه، برخی از بزرگترین وب سایت های اینترنتی دسترسی ربات را به وب سایت خود مسدود کردند. اما چرا؟ GPTBot OpenAI چیست؟ چرا وب سایت های بزرگ از آن می ترسند و چرا سعی می کنند آن را مسدود کنند؟

GPTBot OpenAI چیست؟

GPTBot یک خزنده وب است که توسط OpenAI برای جستجوی اینترنت و جمع آوری اطلاعات برای اهداف توسعه هوش مصنوعی OpenAI ایجاد شده است. این برنامه برای خزیدن وب سایت های عمومی و ارسال داده ها به سرورهای OpenAI برنامه ریزی شده است. OpenAI سپس از این داده‌ها برای آموزش و بهبود مدل‌های هوش مصنوعی خود با هدف ساختن سیستم‌های هوش مصنوعی پیشرفته‌تر استفاده می‌کند. برای ساخت مدل‌های پیشرفته هوش مصنوعی مانند GPT-4 یا محصولات فرزند آن مانند ChatGPT، خزنده‌های وب تقریباً ضروری هستند.

مطلب مرتبط: چگونه تراکنش‌های اتریوم را برای کارمزد ارزان‌تر گاز دسته‌بندی کنیم

آموزش یک مدل هوش مصنوعی به حجم عظیمی از داده ها نیاز دارد و یکی از موثرترین راه ها برای جمع آوری این داده ها استفاده از ابزارهایی مانند خزنده های وب است. خزنده ها می توانند به طور سیستماتیک وب را مرور کنند، پیوندها را برای فهرست بندی حجم زیادی از صفحات وب دنبال کنند و داده های کلیدی مانند متن، تصاویر و ابرداده را استخراج کنند که با یک الگوی از پیش تعریف شده مطابقت دارد.

سپس این داده‌ها را می‌توان ساختار داد و به مدل‌های هوش مصنوعی داد تا توانایی‌های پردازش زبان طبیعی یا توانایی‌های تولید تصویر یا آموزش آن‌ها برای سایر وظایف هوش مصنوعی را آموزش دهند. به‌طور مرتب، خزنده‌های وب داده‌هایی را جمع‌آوری می‌کنند که این امکان را برای ابزارهایی مانند ChatGPT یا DALL-E فراهم می‌کند تا کاری را که انجام می‌دهند انجام دهند.

خزنده های وب مفهوم جدیدی نیستند. احتمالاً میلیون ها نفر از آنها در حال خزیدن بین میلیاردها وب سایت موجود در اینترنت هستند. و آنها حداقل از اوایل دهه 90 وجود داشته اند. GPTBot تنها یکی از این خزنده‌ها است که متعلق به OpenAI است. بنابراین، چه چیزی باعث بحث در مورد این خزنده وب خاص می شود؟

چرا سایت های فناوری بزرگ GPTBot را مسدود می کنند؟

به گفته Business Insider، برخی از بزرگترین وب سایت های اینترنت به طور فعال خزنده OpenAI را در وب سایت خود مسدود می کنند. بنابراین، اگر هدف نهایی GPTBot پیشرفت توسعه هوش مصنوعی است، چرا برخی از بزرگترین سایت های اینترنت که برخی از آنها به نوعی از هوش مصنوعی بهره برده اند، مخالف آن هستند؟

مطلب مرتبط: 8 روشی که چت ربات‌های هوش مصنوعی بر تولید محتوا تأثیر می‌گذارند

خوب، موضوع اینجاست. از زمان ظهور مجدد فناوری‌های هوش مصنوعی در سال 2022، بحث‌های متعددی در مورد حق شرکت‌های هوش مصنوعی برای استفاده تقریباً بدون محدودیت از داده‌های منبع‌شده از اینترنت وجود داشته است، که بخش قابل توجهی از آن از نظر قانونی توسط حق چاپ محافظت می‌شود. هیچ قانون روشنی بر نحوه جمع آوری و استفاده از داده ها برای منافع خود توسط این شرکت ها حاکم نیست.

بنابراین، اساساً خزنده‌هایی مانند GPTBot در وب می‌خزند، کارهای خلاقانه افراد را در قالب متن، تصویر یا سایر اشکال رسانه‌ای می‌گیرند و بدون دریافت هیچ گونه مجوز، مجوز یا ارائه غرامت به سازندگان اصلی، از آن برای مقاصد تجاری استفاده می‌کنند.

اینجا یک غرب وحشی است و شرکت‌های هوش مصنوعی هر چه به دستشان می‌رسد را به دست می‌آورند. وب‌سایت‌های بزرگی مانند Quora، CNN، نیویورک تایمز، بیزینس اینسایدر و آمازون از اینکه محتوای دارای حق نسخه‌برداری توسط این خزنده‌ها جمع‌آوری می‌شود، چندان خشنود نیستند، بنابراین OpenAI می‌تواند با هزینه‌های خود از آن سود مالی دریافت کند.

به همین دلیل است که این سایت‌ها از «robots.txt» استفاده می‌کنند، روشی که چندین دهه قدمت دارد برای مسدود کردن خزنده‌های وب. طبق گفته OpenAI، GPTBot از دستورالعمل‌های خزیدن یا اجتناب از خزیدن در وب‌سایت‌ها بر اساس قوانین تعبیه‌شده در robots.txt، یک فایل متنی کوچک که به خزنده‌های وب می‌گوید چگونه در یک سایت رفتار کنند، اطاعت می‌کند. اگر سایت خود را دارید و دوست دارید GPTBot از گرفتن داده های شما جلوگیری کنید، در اینجا نحوه مسدود کردن خزنده های OpenAI از حذف وب سایت شما آورده شده است.

مطلب مرتبط: آیا استیکر رم مادربرد AM5 ASRock شما را خراب کرده است؟ در اینجا نحوه برگرداندن آن آورده شده است

آیا وب سایت ها واقعا می توانند GPTBot را متوقف کنند؟

در حالی که خزنده‌هایی مانند GPTBot برای جمع‌آوری حجم عظیمی از داده‌های مورد نیاز برای آموزش سیستم‌های هوش مصنوعی پیشرفته ضروری هستند، نگرانی‌های معتبری در مورد حق چاپ و استفاده منصفانه وجود دارد که نمی‌توان آنها را نادیده گرفت.

مطمئناً، ابزارهای ساده‌ای مانند robots.txt وجود دارد که می‌توان از آن‌ها برای محافظت در برابر این موضوع استفاده کرد، اما اینکه آیا GPTBot از دستورالعمل‌های موجود در این فایل پیروی می‌کند، کاملاً در اختیار OpenAI است. هیچ تضمینی وجود ندارد که آنها این کار را انجام دهند، و هیچ راه بی خطری فوری برای تشخیص اینکه آیا آنها این کار را انجام داده اند وجود ندارد. در مبارزه برای دور نگه داشتن GPTBot از داده های دارای حق چاپ، OpenAI حداقل فعلاً در دست دارد.

Tags: چت بات چت جی پی تی