یک مطالعه جدید اپل نشان می دهد که استدلال هوش مصنوعی دارای نقص های مهم است

جای تعجب نیست که هوش مصنوعی همیشه همه چیز را درست نمی کند. گاهی حتی توهم هم ایجاد می کند. با این حال، مطالعه‌ای که اخیراً توسط محققان اپل انجام شد، نقص‌های مهم‌تری را در مدل‌های ریاضی مورد استفاده هوش مصنوعی برای استدلال رسمی نشان داد.

به عنوان بخشی از این مطالعه، دانشمندان اپل از یک مدل زبان بزرگ هوش مصنوعی (LLM) چندین بار به روش‌های متفاوت سؤال کردند و وقتی دریافتند LLM تغییرات غیرمنتظره‌ای در پاسخ‌ها ارائه می‌دهد، شگفت‌زده شدند. این تغییرات زمانی که اعداد درگیر بودند برجسته‌تر بودند.

مطالعه اپل مشکلات بزرگی را در مورد قابلیت اطمینان هوش مصنوعی نشان می دهد

این تحقیق که توسط arxiv.org منتشر شد، به این نتیجه رسید که «تغییرات عملکردی قابل توجهی در نمونه‌های مختلف یک سؤال وجود دارد، که قابلیت اطمینان نتایج GSM8K فعلی را که بر معیارهای دقت یک نقطه تکیه می‌کنند، به چالش می‌کشد». GSM8K مجموعه داده ای است که شامل بیش از 8000 سوال و پاسخ ریاضی در کلاس های مختلف است.

محققان اپل تشخیص دادند که واریانس در این عملکرد می تواند تا 10٪ باشد. و حتی تغییرات جزئی در اعلان‌ها می‌تواند مشکلات عظیمی در قابلیت اطمینان پاسخ‌های LLM ایجاد کند.

به عبارت دیگر، ممکن است بخواهید هر زمان که از چیزی مانند ChatGPT استفاده می کنید، پاسخ های خود را بررسی کنید. این به این دلیل است که اگرچه گاهی اوقات به نظر می رسد که هوش مصنوعی از منطق برای پاسخ دادن به سؤالات شما استفاده می کند، اما منطق چیزی نیست که استفاده می شود.

مطلب مرتبط: 9 وب سایت برتر سلامت روان برای سالمندان

در عوض، هوش مصنوعی به تشخیص الگو برای ارائه پاسخ به درخواست‌ها متکی است. با این حال، مطالعه اپل نشان می دهد که چگونه تغییر حتی چند کلمه بی اهمیت می تواند تشخیص الگو را تغییر دهد.

یک نمونه از واریانس بحرانی ارائه شده از طریق مشکلی در مورد جمع آوری کیوی طی چند روز به وجود آمد. محققان اپل یک آزمایش کنترلی انجام دادند، سپس اطلاعات بی اهمیتی در مورد اندازه کیوی اضافه کردند.

هر دو مدل متا و OpenAI مشکلاتی را نشان دادند

Llama متا و o1 OpenAI، با وجود اینکه داده‌های اندازه کیوی تأثیر محسوسی بر نتیجه مشکل نداشتند، پاسخ‌های خود را به مشکل از کنترل تغییر دادند. GPT-4o OpenAI در هنگام معرفی تغییرات کوچک در داده های داده شده به LLM نیز مشکلاتی با عملکرد خود داشت.

از آنجایی که LLM ها در فرهنگ ما برجسته تر می شوند، این خبر نگرانی فوق العاده ای را در مورد اینکه آیا می توانیم به هوش مصنوعی برای ارائه پاسخ های دقیق به سوالات خود اعتماد کنیم، ایجاد می کند. به خصوص برای مسائلی مانند مشاوره مالی. همچنین نیاز به تأیید دقیق اطلاعاتی را که هنگام استفاده از مدل های زبان بزرگ دریافت می کنید، تقویت می کند.

این بدان معناست که شما می خواهید به جای تکیه کورکورانه به هوش مصنوعی، کمی تفکر انتقادی و دقت لازم را انجام دهید. سپس، اگر فردی هستید که به طور منظم از هوش مصنوعی استفاده می کنید، احتمالاً قبلاً این را می دانستید.

Tags: چت جی پی تی هوش مصنوعی