با گزینه های بسیار زیادی که اکنون در دسترس است، کدام LLM بهترین پاسخ ها را ارائه می دهد؟
مدلهای زبان بزرگ (LLM) در اشکال و اندازههای مختلف وجود دارند و به هر نحوی که مناسب میدانید به شما کمک میکنند. اما کدام بهترین است؟ ما هوش مصنوعی غالب از Alphabet، OpenAI و Meta را مورد آزمایش قرار دادیم.
آنچه باید درباره چت ربات های هوش مصنوعی بدانید
هوش مصنوعی برای دههها هدف دانشمندان کامپیوتر بوده است و هوش مصنوعی حتی برای مدت طولانیتری به عنوان پایه اصلی نویسندگان و فیلمسازان علمی تخیلی بوده است.
AGI هوشی مشابه تواناییهای شناختی انسان از خود نشان میدهد، و آزمون تورینگ – آزمونی برای نشان دادن توانایی ماشین برای نشان دادن رفتار هوشمندانه غیرقابل تشخیص از انسان – تقریباً در هفت دهه از اولین باری که ارائه شد، بدون چالش باقی ماند.
همگرایی اخیر محاسبات در مقیاس بسیار بزرگ، مقادیر هنگفت پول، و حجم حیرتانگیز اطلاعاتی که آزادانه در اینترنت آزاد در دسترس است، به غولهای فناوری این امکان را داد که مدلهایی را آموزش دهند که میتوانند بخش کلمه یا نشانه بعدی را در دنبالهای از نشانهها پیشبینی کنند.
در زمان نگارش، هم Bard Google و هم ChatGPT OpenAI برای استفاده و آزمایش از طریق رابط های وب آنها در دسترس شما هستند.
مدل زبان متا، LLaMa، در وب در دسترس نیست، اما شما به راحتی می توانید LLaMa را بر روی سخت افزار خود دانلود و اجرا کنید و از طریق خط فرمان از آن استفاده کنید یا Dalai را روی دستگاه خود اجرا کنید – یکی از چندین برنامه با رابط کاربر پسند. .
برای اهداف آزمایش، ما مدل Alpaca 7B دانشگاه استنفورد – اقتباسی از LLaMa – را اجرا خواهیم کرد و آن را در برابر Bard و ChatGPT قرار خواهیم داد.
مقایسات و تستهای زیر به معنای جامع بودن نیستند، بلکه نکات و قابلیتهای کلیدی را به شما نشان میدهند.
ساده ترین مدل زبان بزرگ برای استفاده کدام است؟
هر دو Bard و ChatGPT برای استفاده از این سرویس نیاز به یک حساب کاربری دارند. ایجاد هر دو حساب Google و OpenAI آسان و رایگان است و می توانید بلافاصله شروع به پرسیدن سؤال کنید.
با این حال، برای اجرای LLaMa به صورت محلی، باید دانش تخصصی یا توانایی دنبال کردن یک آموزش را داشته باشید. همچنین به مقدار قابل توجهی فضای ذخیره سازی نیاز خواهید داشت.
خصوصی ترین مدل زبان بزرگ کدام است؟
هر دو Bard و ChatGPT دارای خط مشی های حریم خصوصی گسترده ای هستند و Google بارها در اسناد خود تاکید می کند که شما نباید “اطلاعاتی را که می تواند برای شناسایی شما یا دیگران استفاده شود در مکالمات Bard خود وارد کنید.”
بهطور پیشفرض، Google مکالمات و مکان عمومی شما را بر اساس آدرس IP، بازخورد و اطلاعات استفاده شما جمعآوری میکند. این اطلاعات تا 18 ماه در حساب Google شما ذخیره می شود. اگرچه می توانید ذخیره فعالیت Bard خود را متوقف کنید، اما باید بدانید که “برای کمک به کیفیت و بهبود محصولات ما، بازبین های انسانی مکالمات Bard شما را می خوانند، حاشیه نویسی می کنند و پردازش می کنند.”
استفاده از Bard نیز مشمول خط مشی رازداری استاندارد Google است.
سیاست حفظ حریم خصوصی OpenAI به طور کلی مشابه است و آدرس IP و داده های استفاده را جمع آوری می کند. برخلاف حفظ زمانی محدود Google، OpenAI «اطلاعات شخصی شما را تنها تا زمانی که به منظور ارائه خدمات خود به شما نیاز داریم، یا برای سایر اهداف تجاری مشروع مانند حل و فصل اختلافات، دلایل ایمنی و امنیتی، یا رعایت کردن، حفظ خواهد کرد. با تعهدات قانونی ما.»
در مقابل، یک مدل محلی در دستگاه شما نیازی به حساب کاربری یا اشتراک گذاری داده های کاربر با کسی ندارد.
کدام LLM بهترین دانش عمومی را دارد؟
برای اینکه بفهمیم کدام LLM بهترین دانش عمومی را دارد، سه سوال پرسیدیم.
سوال اول “کدام پرچم ملی پنج ضلع دارد؟” فقط بارد به درستی پاسخ داد که پرچم ملی نپال را دارای پنج ضلع معرفی کرد.
ChatGPT با اطمینان ادعا کرد که “هیچ پرچم ملی وجود ندارد که دارای پنج ضلع باشد. پرچم های ملی معمولاً مستطیل یا مربع شکل هستند که با رنگ ها، الگوها و نمادهای متمایز مشخص می شوند.”
مدل محلی ما نزدیک شد و بیان کرد که “پرچم ملی هند دارای پنج ضلع است و در سال 1916 برای نشان دادن جنبش استقلال هند طراحی شده است.” در حالی که این پرچم وجود داشت و دارای پنج ضلع بود، پرچم جنبش حکومت خانه هند بود – نه یک پرچم ملی.
هیچ یک از مدلهای ما نمیتوانند پاسخ دهند که عبارت صحیح برای یک شی نخودی شکل “pisiform” است، و ChatGPT تا آنجا پیش میرود که نشان میدهد نخودفرنگی یک “شکل هندسی سه بعدی کاملاً گرد و متقارن” دارد.
هر سه چت ربات به درستی فرانکو مالربا را به عنوان یک فضانورد ایتالیایی و عضو پارلمان اروپا شناسایی کردند و بارد پاسخی مشابه به بخشی از مدخل ویکی پدیا مالربا داد.
کدام LLM برای دستورالعمل های فنی خوب است؟
وقتی مشکلات فنی دارید، ممکن است وسوسه شوید که برای کمک به یک ربات چت مراجعه کنید. در حالی که تکنولوژی پیشرفت می کند، برخی چیزها ثابت می مانند. دوشاخه برق BS 1363 از سال 1947 در بریتانیا، ایرلند و بسیاری از کشورهای دیگر مورد استفاده قرار گرفته است. ما از مدل های زبان پرسیدیم که چگونه آن را به درستی سیم کشی کنیم.
کابل های متصل به دوشاخه دارای یک سیم برق (قهوه ای)، یک سیم زمین (زرد/سبز) و یک سیم خنثی (آبی) هستند. اینها باید به پایانه های صحیح داخل محفظه دوشاخه متصل شوند.
اجرای Dalai ما به درستی دوشاخه را بهعنوان «سبک انگلیسی» شناسایی کرد، سپس از مسیر خارج شد و در عوض دستورالعملهایی را برای دوشاخه پین گرد قدیمیتر BS 546 همراه با رنگهای سیمکشی قدیمیتر ارائه کرد.
ChatGPT کمی مفیدتر بود. رنگ های سیم کشی را به درستی برچسب گذاری کرد و فهرستی از مواد و مجموعه ای از هشت دستورالعمل ارائه کرد. ChatGPT همچنین پیشنهاد کرد که سیم قهوه ای را در ترمینال با برچسب “L”، سیم آبی را در ترمینال “N” و سیم زرد را در “E” قرار دهید. اگر پایانههای BS1363 برچسبگذاری شوند، درست است، اما اینطور نیست.
بارد رنگ های صحیح سیم ها را شناسایی کرد و به ما دستور داد تا آنها را به پایانه های Live، Neutral و Earth متصل کنیم. هیچ دستورالعملی در مورد چگونگی شناسایی این موارد ارائه نکرد.
به نظر ما. هیچ یک از رباتهای گفتگو دستورالعملهای کافی برای کمک به شخصی برای سیمکشی صحیح دوشاخه برق BS 1363 ارائه نکردند. یک پاسخ مختصر و صحیح این خواهد بود: “آبی در سمت چپ، قهوه ای در سمت راست”.
کدام LLM برای نوشتن کد خوب است؟
پایتون یک زبان برنامه نویسی مفید است که بر روی اکثر پلتفرم های مدرن اجرا می شود. ما به مدلهای خود دستور دادیم که از پایتون استفاده کنند و “یک برنامه محاسبهگر اساسی بسازید که میتواند عملیات حسابی مانند جمع، تفریق، ضرب و تقسیم را انجام دهد. باید ورودی کاربر را بگیرد و نتیجه را نمایش دهد.” این یکی از بهترین پروژه های برنامه نویسی برای مبتدیان است.
در حالی که هر دو Bard و ChatGPT بلافاصله کد قابل استفاده و کاملاً نظر داده شده را برگرداندند، که ما قادر به آزمایش و تأیید آن بودیم، هیچ یک از کدهای مدل محلی ما اجرا نمی شد.
کدام LLM بهترین جوک ها را بیان می کند؟
شوخ طبعی یکی از پایه های انسان بودن و مطمئناً یکی از بهترین راه های تشخیص انسان و ماشین است. به هر یک از مدل هایمان، این دستور ساده را دادیم: “یک جوک اصلی و خنده دار بسازید.”
خوشبختانه برای کمدین ها در همه جا و نژاد بشر در کل، هیچ یک از مدل ها قادر به ایجاد یک شوخی اصلی نبودند.
بارد کلاسیک را منتشر کرد، “چرا مترسک جایزه گرفت؟ او در رشته خود برجسته بود”.
هم پیادهسازی محلی ما و هم ChatGPT این جمله را ارائه کردند که «چرا دانشمندان به اتمها اعتماد ندارند؟ زیرا آنها همه چیز را تشکیل میدهند!»
یک شوخی مشتق شده اما اصلی می تواند این باشد: “مدل های زبان بزرگ چگونه اتم هستند؟ هر دو چیزها را می سازند!”
شما ابتدا اینجا را بخوانید، مردم.
هیچ چت بات عالی نیست
ما متوجه شدیم که در حالی که هر سه مدل زبان بزرگ مزایا و معایب خود را دارند، هیچ یک از آنها نمی توانند تخصص واقعی یک انسان را با دانش تخصصی جایگزین کنند.
در حالی که Bard و ChatGPT هر دو پاسخ بهتری به سوال کدنویسی ما دادند و استفاده از آنها بسیار آسان است، اجرای یک مدل زبان بزرگ به صورت محلی به این معنی است که شما نیازی به نگرانی در مورد حریم خصوصی یا سانسور ندارید.
اگر میخواهید بدون نگرانی از اینکه کسی از بالای شانه شما نگاه میکند، یک هنر هوش مصنوعی عالی خلق کنید، اجرای یک مدل هوش مصنوعی هنری روی دستگاه محلی خود نیز آسان است.