جای تعجب نیست که هوش مصنوعی همیشه همه چیز را درست نمی کند. گاهی حتی توهم هم ایجاد می کند. با این حال، مطالعهای که اخیراً توسط محققان اپل انجام شد، نقصهای مهمتری را در مدلهای ریاضی مورد استفاده هوش مصنوعی برای استدلال رسمی نشان داد.
جای تعجب نیست که هوش مصنوعی همیشه همه چیز را درست نمی کند. گاهی حتی توهم هم ایجاد می کند. با این حال، مطالعهای که اخیراً توسط محققان اپل انجام شد، نقصهای مهمتری را در مدلهای ریاضی مورد استفاده هوش مصنوعی برای استدلال رسمی نشان داد.
به عنوان بخشی از این مطالعه، دانشمندان اپل از یک مدل زبان بزرگ هوش مصنوعی (LLM) چندین بار به روشهای متفاوت سؤال کردند و وقتی دریافتند LLM تغییرات غیرمنتظرهای در پاسخها ارائه میدهد، شگفتزده شدند. این تغییرات زمانی که اعداد درگیر بودند برجستهتر بودند.
مطالعه اپل مشکلات بزرگی را در مورد قابلیت اطمینان هوش مصنوعی نشان می دهد
این تحقیق که توسط arxiv.org منتشر شد، به این نتیجه رسید که «تغییرات عملکردی قابل توجهی در نمونههای مختلف یک سؤال وجود دارد، که قابلیت اطمینان نتایج GSM8K فعلی را که بر معیارهای دقت یک نقطه تکیه میکنند، به چالش میکشد». GSM8K مجموعه داده ای است که شامل بیش از 8000 سوال و پاسخ ریاضی در کلاس های مختلف است.
محققان اپل تشخیص دادند که واریانس در این عملکرد می تواند تا 10٪ باشد. و حتی تغییرات جزئی در اعلانها میتواند مشکلات عظیمی در قابلیت اطمینان پاسخهای LLM ایجاد کند.
به عبارت دیگر، ممکن است بخواهید هر زمان که از چیزی مانند ChatGPT استفاده می کنید، پاسخ های خود را بررسی کنید. این به این دلیل است که اگرچه گاهی اوقات به نظر می رسد که هوش مصنوعی از منطق برای پاسخ دادن به سؤالات شما استفاده می کند، اما منطق چیزی نیست که استفاده می شود.
در عوض، هوش مصنوعی به تشخیص الگو برای ارائه پاسخ به درخواستها متکی است. با این حال، مطالعه اپل نشان می دهد که چگونه تغییر حتی چند کلمه بی اهمیت می تواند تشخیص الگو را تغییر دهد.
یک نمونه از واریانس بحرانی ارائه شده از طریق مشکلی در مورد جمع آوری کیوی طی چند روز به وجود آمد. محققان اپل یک آزمایش کنترلی انجام دادند، سپس اطلاعات بی اهمیتی در مورد اندازه کیوی اضافه کردند.
هر دو مدل متا و OpenAI مشکلاتی را نشان دادند
Llama متا و o1 OpenAI، با وجود اینکه دادههای اندازه کیوی تأثیر محسوسی بر نتیجه مشکل نداشتند، پاسخهای خود را به مشکل از کنترل تغییر دادند. GPT-4o OpenAI در هنگام معرفی تغییرات کوچک در داده های داده شده به LLM نیز مشکلاتی با عملکرد خود داشت.
از آنجایی که LLM ها در فرهنگ ما برجسته تر می شوند، این خبر نگرانی فوق العاده ای را در مورد اینکه آیا می توانیم به هوش مصنوعی برای ارائه پاسخ های دقیق به سوالات خود اعتماد کنیم، ایجاد می کند. به خصوص برای مسائلی مانند مشاوره مالی. همچنین نیاز به تأیید دقیق اطلاعاتی را که هنگام استفاده از مدل های زبان بزرگ دریافت می کنید، تقویت می کند.
این بدان معناست که شما می خواهید به جای تکیه کورکورانه به هوش مصنوعی، کمی تفکر انتقادی و دقت لازم را انجام دهید. سپس، اگر فردی هستید که به طور منظم از هوش مصنوعی استفاده می کنید، احتمالاً قبلاً این را می دانستید.