داده های آموزشی ابزارهای هوش مصنوعی تمام می شود، اما 6 راه حل وجود دارد

هوش مصنوعی به داده های آموزشی نیاز دارد، اما این داده ها محدود است. بنابراین، چگونه می توانیم هوش مصنوعی را طوری آموزش دهیم که به رشد خود ادامه دهد و برای ما مفید باشد؟

خلاصه عناوین

همیشه داده های بیشتری به صورت آنلاین اضافه می شود

هوش مصنوعی می تواند داده های با کیفیت پایین را فراموش کند

تشخیص گفتار داده های ویدیو و پادکست را باز می کند

هوش مصنوعی تا حد زیادی به زبان انگلیسی چسبیده است

خانه های انتشاراتی می توانند به توسعه هوش مصنوعی کمک کنند

داده های مصنوعی آینده است

تعاریف کلیدی

ممکن است تا سال 2026 داده های باکیفیت هوش مصنوعی تمام شود، اما افزایش حجم داده هایی که سالانه به اینترنت اضافه می شود راه حل های بالقوه ای را ارائه می دهد.
ممکن است از هوش مصنوعی خواسته شود که داده‌های با کیفیت پایین را فراموش کند و توسعه روش‌هایی را برای «لغو یادگیری» انتخابی داده‌ها انجام دهد.
فناوری تشخیص گفتار داده‌های ویدیویی و پادکست را برای آموزش هوش مصنوعی باز می‌کند، در حالی که داده‌های مصنوعی راه‌حلی برای رشد هوش مصنوعی ارائه می‌دهند.

ممکن است فکر کنید اینترنت و داده های آن منابع پایان ناپذیری هستند، اما ابزارهای هوش مصنوعی در حال تمام شدن داده ها برای استخراج هستند. اکنون، قبل از اینکه نگران باشید، توسعه هوش مصنوعی متوقف نخواهد شد – هنوز اطلاعات زیادی برای آموزش سیستم‌های هوش مصنوعی آماده است.

1 همیشه داده های بیشتری به صورت آنلاین اضافه می شود

به طور خلاصه، موسسه تحقیقاتی AI Epoch می‌گوید داده‌های باکیفیتی که هوش مصنوعی در آن آموزش داده می‌شود ممکن است تا سال 2026 تمام شود.

کلمه کلیدی در آنجا «می تواند» است. مقدار داده‌های اضافه شده به اینترنت هر سال افزایش می‌یابد، بنابراین ممکن است قبل از سال 2026 چیزی به شدت تغییر کند.

با این حال، باید به خاطر داشته باشیم که هر سال حدود 147 زتابایت داده به صورت آنلاین اضافه می شود (طبق موضوعات انفجار). فقط یک زتابایت برابر با 1,000,000,000,000,000,000,000 بیت داده است. در شرایط واقعی (خوب، تا حدودی واقعی)، این بیش از 30 میلیارد فیلم 4K است (واقعی، اما غیرقابل درک). این حجم شگفت انگیزی از اطلاعات است که هوش مصنوعی باید از طریق آن بررسی کند.

با این وجود، هوش مصنوعی داده‌ها را سریع‌تر از آنچه بشر می‌تواند ایجاد کند مصرف می‌کند.

2 هوش مصنوعی می تواند داده های با کیفیت پایین را فراموش کند

البته تمام آن 147 زتابایت داده، داده خوبی نیست. خیلی بیشتر از چیزی که به نظر می رسد در آن وجود دارد. اما تخمین زده می شود که هوش مصنوعی تا سال 2050 نیز از داده های زبانی با کیفیت پایین استفاده کند.

مطلب مرتبط: 9 کاربرد عملی ChatGPT در برنامه نویسی

رویترز گزارش داد که Photobucket که زمانی یکی از بزرگترین مخازن عکس جهان بود، در حال مذاکره برای مجوز کتابخانه گسترده خود به شرکت های آموزشی هوش مصنوعی است. داده های تصویر دارای سیستم های آموزش دیده ای مانند DALL-E و Midjourney هستند، اما حتی ممکن است تا سال 2060 تمام شود. یک مشکل بزرگتر نیز در اینجا وجود دارد: Photobucket تصاویر پلتفرم های رسانه های اجتماعی دهه 2000 مانند Myspace را در خود جای داده است، به این معنی که آنها به اندازه استاندارد بالایی نیستند. عکاسی فعلی این منجر به داده های با کیفیت پایین می شود.

Photobucket تنها نیست. در فوریه 2024، گوگل با Reddit قراردادی منعقد کرد و به غول جستجو اجازه داد تا از داده های کاربران پلت فرم رسانه اجتماعی در آموزش هوش مصنوعی خود استفاده کند. سایر پلتفرم های رسانه های اجتماعی نیز داده های کاربران را برای اهداف آموزش هوش مصنوعی ارائه می دهند. برخی از آن برای آموزش مدل‌های هوش مصنوعی داخلی مانند Llama متا استفاده می‌کنند.

با این حال، در حالی که برخی از اطلاعات را می توان از داده های با کیفیت پایین به دست آورد، طبق گزارش ها، مایکروسافت در حال توسعه راهی برای هوش مصنوعی است تا به طور انتخابی داده ها را “لغو” کند. در درجه اول، این می تواند برای مسائل IP استفاده شود، اما می تواند به این معنی باشد که ابزارها می توانند آنچه را که از مجموعه داده های با کیفیت پایین آموخته اند را فراموش کنند.

ما می‌توانیم داده‌های بیشتری را بدون گزینش بودن به هوش مصنوعی تغذیه کنیم. سپس آن سیستم‌های هوش مصنوعی می‌توانند آنچه را که برای یادگیری مفیدتر است انتخاب و انتخاب کنند.

3 تشخیص گفتار داده های ویدیو و پادکست را باز می کند

داده‌های داده‌شده به ابزارهای هوش مصنوعی تاکنون عمدتاً از متن و تا حدودی تصاویر تشکیل شده است. این بدون شک تغییر خواهد کرد و احتمالاً قبلاً تغییر کرده است، زیرا نرم افزار تشخیص گفتار به این معنی است که انبوهی از ویدیوها و پادکست های موجود نیز می توانند هوش مصنوعی را آموزش دهند.

قابل ذکر است که OpenAI شبکه عصبی متن باز و تشخیص خودکار گفتار (ASR) Whisper را با استفاده از 680000 ساعت داده چندزبانه و چند وظیفه ای توسعه داده است. OpenAI سپس بیش از یک میلیون ساعت اطلاعات از ویدئوهای یوتیوب را به مدل زبان بزرگ خود، GPT-4 وارد کرد.

مطلب مرتبط: در اینجا آمده است که چگونه ISP شما می تواند فایل هایی را که تورنت می کنید، ببیند

این یک الگوی ایده‌آل برای سیستم‌های هوش مصنوعی دیگر است که از تشخیص گفتار برای رونویسی ویدیوها و صداها از منابع متعدد و اجرای آن داده‌ها از طریق مدل‌های هوش مصنوعی خود استفاده می‌کنند.

طبق آمار Statista، بیش از 500 ساعت ویدیو در هر دقیقه در یوتیوب آپلود می شود، این تعداد از سال 2019 تا کنون ثابت مانده است. این بدون اشاره به پلتفرم های ویدیویی و صوتی دیگر مانند Dailymotion و Podbean است. اگر هوش مصنوعی بتواند توجه خود را به مجموعه داده های جدیدی مانند این معطوف کند، هنوز حجم عظیمی از اطلاعات باید استخراج شود.

4 هوش مصنوعی تا حد زیادی به زبان انگلیسی چسبیده اند

این تمام چیزی نیست که می توانیم از Whisper یاد بگیریم. OpenAI این مدل را با استفاده از 117000 ساعت داده صوتی غیر انگلیسی آموزش داد. این به ویژه جالب است زیرا بسیاری از سیستم های هوش مصنوعی عمدتاً با استفاده از زبان انگلیسی یا مشاهده فرهنگ های دیگر از طریق لنز غربی آموزش دیده اند.

در اصل، بیشتر ابزارها توسط فرهنگ سازندگان آنها محدود شده است.

ChatGPT را به عنوان مثال در نظر بگیرید. اندکی پس از انتشار در سال 2022، جیل واکر رتبرگ، استاد فرهنگ دیجیتال در دانشگاه برگن، نروژ، ChatGPT را امتحان کرد و به این نتیجه رسید:

«ChatGPT چیز زیادی درباره فرهنگ نروژی نمی‌داند. یا بهتر است بگوییم، هر آنچه در مورد فرهنگ نروژی می‌داند احتمالاً عمدتاً از منابع انگلیسی زبان آموخته شده است… ChatGPT به صراحت با ارزش‌ها و قوانین ایالات متحده همسو است. در بسیاری از موارد اینها به ارزشهای نروژی و اروپایی نزدیک است، اما احتمالاً همیشه اینطور نخواهد بود.

بنابراین، هوش مصنوعی می‌تواند هرچه افراد چند ملیتی بیشتر با آن‌ها تعامل داشته باشند، توسعه دهند یا از زبان‌ها و فرهنگ‌های متنوع‌تری برای آموزش چنین سیستم‌هایی استفاده شود. در حال حاضر، بسیاری از هوش مصنوعی به یک کتابخانه محدود شده اند. اگر کلید کتابخانه‌های سراسر جهان به آنها داده شود، می‌توانند رشد کنند.

5 موسسه انتشاراتی می توانند به توسعه هوش مصنوعی کمک کنند

بدیهی است که IP یک مسئله بزرگ است، اما برخی از ناشران می توانند با بستن قراردادهای مجوز به توسعه هوش مصنوعی کمک کنند. این به معنای ارائه داده‌های با کیفیت بالا، یعنی قابل اعتماد، از کتاب‌ها به جای اطلاعات با کیفیت پایین که از منابع آنلاین جمع‌آوری شده است، است.

در واقع، متا، صاحبان فیس‌بوک، اینستاگرام و واتس‌اپ، بنا به گزارش‌ها به فکر خرید Simon & Schuster، یکی از انتشارات «بیگ پنج» بودند. ایده این بود که از ادبیات منتشر شده توسط شرکت برای آموزش هوش مصنوعی متا استفاده شود. این معامله در نهایت شکست خورد، شاید به دلیل منطقه خاکستری اخلاقی شرکت پردازش IP بدون رضایت قبلی از نویسندگان.

مطلب مرتبط: کارت گرافیک چیست و چگونه کار می کند؟

گزینه دیگری که ظاهراً در نظر گرفته شده، خرید حقوق مجوز فردی در عناوین جدید بود. این باید نگرانی های زیادی را برای خلاقان ایجاد کند، اما اگر داده های قابل استفاده تمام شود، همچنان راه جالبی برای توسعه ابزارهای هوش مصنوعی خواهد بود.

6 داده مصنوعی آینده است

هر راه حل دیگری هنوز محدود است، اما یک گزینه می تواند باعث پیشرفت هوش مصنوعی در آینده شود: داده های مصنوعی. و در حال حاضر به عنوان یک احتمال بسیار واقعی در حال بررسی است.

بنابراین، داده های مصنوعی چیست؟ از این نظر، داده های ایجاد شده توسط هوش مصنوعی است. همانطور که انسان ها داده ها را ایجاد می کنند، در این روش نیز هوش مصنوعی داده هایی را برای اهداف آموزشی تولید می کند.

در واقع، یک هوش مصنوعی می تواند یک ویدیوی عمیق جعلی قانع کننده ایجاد کند. این ویدیوی دیپ فیک می تواند به یک هوش مصنوعی بازگردانده شود تا بتواند از آنچه اساساً یک سناریوی خیالی است درس بگیرد. به هر حال، یکی از راه های اصلی یادگیری انسان است: ما چیزی را می خوانیم یا تماشا می کنیم تا دنیای اطراف خود را درک کنیم.

هوش مصنوعی احتمالا قبلاً اطلاعات مصنوعی مصرف کرده است. دیپ‌فیک‌هایی که به صورت آنلاین پخش می‌شوند، اطلاعات نادرست و اطلاعات نادرست را پخش می‌کنند، بنابراین وقتی سیستم‌های هوش مصنوعی اینترنت را اسکن می‌کنند، منطقی است که برخی در معرض محتوای جعلی قرار گرفته باشند.

بله، این یک جنبه موذیانه هم دارد. همچنین می‌تواند به هوش مصنوعی آسیب برساند یا آن را محدود کند و اشتباهات این ابزارها را تقویت و گسترش دهد. شرکت ها در تلاش هستند تا مشکل دوم را ریشه کن کنند. با این حال، “هوش مصنوعی از یکدیگر یاد می گیرد و اشتباه می کند” نقطه طرح بسیاری از سناریوهای کابوس علمی تخیلی است.

7

هوش مصنوعی بحث برانگیز است. جنبه های منفی زیادی برای آن وجود دارد، اما مخالفان مزایای آن را نادیده می گیرند. به عنوان مثال، شبکه حسابرسی و مشاوره PwC [PDF] نشان می دهد که هوش مصنوعی می تواند تا سال 2030 تا 15.7 تریلیون دلار به اقتصاد جهان کمک کند.

علاوه بر این، هوش مصنوعی در حال حاضر در سراسر جهان استفاده می شود. شما احتمالاً امروز به شکلی از آن استفاده کرده اید، شاید حتی بدون اینکه متوجه شوید. اکنون جن از بطری خارج شده است، مطمئناً کلید آموزش آن بر روی داده های قابل اعتماد و با کیفیت است تا بتوانیم از آن به درستی استفاده کنیم.

هوش مصنوعی نکات مثبت و منفی خود را دارد. باید تعادل پیدا کرد

Tags: اطلاعات بزرگ هوش مصنوعی