مدل های تولید تصویر با قدرت هوش مصنوعی با سرعت سریع پیشرفت می کنند ، اما هنوز هم برای آنها معمول است که تصاویر مشکوک را فریب دهند. از آنجا که به راحتی می توان فرض کرد که مشکلات انسانی مشکل است ، من تصمیم گرفتم که آیا AI زمان ساده تر کار خود را منحصراً با اعلان های تولید شده AI انجام می دهد.
مدل های تولید تصویر با قدرت هوش مصنوعی با سرعت سریع پیشرفت می کنند ، اما هنوز هم برای آنها معمول است که تصاویر مشکوک را فریب دهند. از آنجا که به راحتی می توان فرض کرد که مشکلات انسانی مشکل است ، من تصمیم گرفتم که آیا AI زمان ساده تر کار خود را منحصراً با اعلان های تولید شده AI انجام می دهد.
قوانین آزمایش
هنگامی که مدل های تولید تصویر AI چند سال پیش به صحنه آمدند ، همه ما فکر می کردیم که این زنگ را برای همه افرادی که با رسانه های تصویری کار می کنند ، می گذارد. این به این نتیجه نرسید. علیرغم اینکه قادر به ایجاد عکس های بیش از حد واقع گرایانه هستید ، تصاویر هوش مصنوعی اغلب در دسته غیرقابل پیش بینی قرار می گیرند ، به خصوص اگر به چیزی پیچیده تر نیاز دارید (مثلاً هوش مصنوعی تمایل به مبارزه با دست ها دارد).
شما یا می توانید مدل های هوش مصنوعی خود را به خاطر این مسئله یا مغالطه انسان و مهارت های متناقض و متناقض ما سرزنش کنید. روش طبیعی برای آزمایش اینکه چه کسی مقصر است این است که ببینیم مدل های تولید تصویر در صورت ورود به شما نتایج بهتری ارائه می دهند.
آیا هوش مصنوعی می تواند دیدگاه های جدیدی را در مورد لحظات تاریخی به ما ارائه دهد؟
برای آزمایش این فرضیه ، من از Gemini برای ایجاد یک سری اعلان ها استفاده می کنم که از استفاده از نام شیء یا عکسی که سعی در تهیه آن دارم ، خودداری می کنم. این به بررسی چگونگی خواندن دستورالعمل های “AI” کمک می کند. اعطا می شود ، هنوز هم این احتمال وجود دارد که این مدل به شدت الهام بخش از داده هایی که در آن آموزش داده شده است (به ویژه هنگام بازآفرینی عکس های موجود) ، اما همانطور که بچه ها می گویند ، این همان چیزی است که این همان چیزی است که هست.
ابزار انتخاب من برای تولید تصاویر BING (بله ، بینگ هنوز هم وجود دارد) خالق تصویر ، که براساس دال-E 3 است. برای قرار دادن مدل از طریق سرعت آن ، من با شکل های ساده شروع می کنم و با پیشرفت آزمایش به سمت تصاویر پیچیده تر حرکت می کنم.
اگر از Chatgpt و امثال استفاده کرده اید ، از قبل می دانید که چگونه برخی از پاسخ های آن می تواند بیش از حد باشد ، و هیچ تفاوتی با مطالب مربوط به مدل در هنگام اجرای “محاکمه” من ندارد. بنابراین ، من تصمیم گرفتم که خودم را به 500 کاراکتر محدود کنم تا بتوانم تداوم ها را حفظ کنم.
چگونه AI با اشکال ساده انجام می دهد
بیایید با یک مربع ساده شروع کنیم. من از جمینی خواستم که یک مربع را بدون مراجعه به آن به نام خود توصیف کند و این به این نتیجه رسید:
“یک شکل چهار طرفه با همه طرف های مساوی. هر زاویه داخلی دقیقاً 90 درجه اندازه گیری می کند. این یک چهار ضلعی منظم با طرف های متضاد موازی است.”
پس از وصل کردن توضیحات به دال ، این نتایج را دریافت کردم:
این یک مربع است ، خوب ، اگرچه فکر می کنم با هندسه از آنجا عبور کرد. وقت آن است که مشکل را برطرف کنم ، بنابراین من از AI خواستم که یک مکعب را به تفصیل شرح دهد.
“یک شکل سه بعدی با شش چهره یک چهارم با چهار طرف مساوی و چهار زاویه راست است.
نتایج تعجب آور است:
به یاد داشته باشید که ما در مورد مدل های هوش مصنوعی غیرقابل پیش بینی است؟ خوب ، در اینجا ، دال یک مکعب تولید کرد ، اما کمی گیج شد و آن را به یک مکعب روبیک تبدیل کرد. علی رغم اجتناب از کلمه دقیق مانند طاعون ، هوش مصنوعی آن را تا حدی اشتباه کرد – آن را به محبوبیت اسباب بازی های نرمی مجارستانی تبدیل کرد.
هوش مصنوعی با موضوعات انسانی عکاسی می کند
وضعیت مکعب نشان می دهد که حتی با شرح مفصلی “بی طرف” ، هوش مصنوعی هنوز هم می تواند دستورالعمل های نسبتاً مستقیم را تفسیر کند. بنابراین ، بیایید ببینیم که با توضیحات AI تولید شده از تصاویر کلاسیک ، مانند “مادر مهاجر” دوروته لانژ چقدر خوب است. در اینجا اصلی است:
“چهره اش با نگرانی ، خارج از دوربین است.
این تعبیر دال از عکس معروف است:
به اندازه کافی نزدیک! نکته جالب توجه نیست ، همانطور که دال به وضوح نادیده گرفته شده از “احاطه شده توسط فرزندانش ، چهره های آنها پنهان یا دور شده” و به جای “مادر” که دست خود را در نزدیکی صورت خود استراحت می دهد ، یکی از کودکان این نقش را به عهده گرفته است.
بیایید چیزی پیچیده تر را امتحان کنیم. احتمالاً نماد “ناهار را در بالای آسمان خراش” دیده اید:
“یازده مرد روی یک پرتوی فولادی ، پر از هوا نشسته اند. آنها ناهار می خورند ، پاها آویزان هستند. پرتو در بالای یک شهر پراکنده به حالت تعلیق در می آید. آقایان با وجود ارتفاع شدید ، آرامش پیدا می کنند.
این سریع استاد نتایج استادانه به دست آورد:
هنگامی که به علائم کلاسیک یک تصویر هوش مصنوعی (کاسه های یکسان و “کپی و چسباندن”) توجه کنید ، از نظر ترکیب و کلی وسیع تقریباً غیرقانونی است. جای تعجب آور نیست ، اما نه تنها این تصویر بسیار محبوب است ، بلکه در حوزه عمومی نیز وجود دارد ، بنابراین من یک ظن دلهره آور دارم که دال-E قبلاً مطالب خود را در طول آموزش دوباره تنظیم کرده است.
آیا AI می تواند عکس های پیچیده ای را اداره کند؟
از آنجا که این آخرین “آزمایش” در آزمایش است ، دستکش خاموش است! در حالی که هوش مصنوعی با افراد انسانی خوب است ، اما به طور کلی وقتی با صحنه های پیچیده و “رمزنگاری” روبرو می شود ، از هم جدا می شود. بنابراین در مورد نماد “Earthrise” گرفته شده از مدار قمری در آپولو 8 چگونه است؟
“یک کره تا حدی روشن شده در یک خلأ تیره آویزان است. یک کره کوچکتر و خاکستری از بالای افق آن بلند می شود. کره بزرگتر بلوزها و سفیدهای متلاشی را نشان می دهد ، آب و ابرها را نشان می دهد. تضاد واضح بین دو کره و سیاهی تأکید می کند که شکنندگی و ایزوله کردن کوچکتر ، کره را افزایش می دهد.”
جمینی با این توضیحات واقعاً توپ را رها کرد (یا باید بگویم Sphere). با توجه به اینکه این خیلی انتزاعی است ، من عبارت “گرفته شده از مدار قمری نزدیک” را به سریع اضافه کردم ، اما خیلی کمکی نکرد:
این یک جلد آلبوم پیشرفته راک است ، اما هیچ ارتباطی با “Earthrise” ندارد. برای پایان دادن به آزمایش ، من مبهم ترین عکس تاکنون ، شاهکار صنعتی “Armco Steel” توسط ادوارد وستون را انتخاب کردم:
“مجموعه ای از مخازن صنعتی گرد و گرد و فلزی فریم را پر می کند. اشکال آنها صاف و پیاز است و یک الگوی تکراری ایجاد می کند. نور بازتاب سطوح ، برجسته کردن شکل های خمیده آنها و ایجاد یک احساس حجم است. این ترکیب بر ویژگی های انتزاعی اشیاء صنعتی تأکید می کند ، با تمرکز بر روی فرم و بافت ، و نه با توجه به عملکرد آنها” و با استفاده از آن ، یک استارک است.
به نظر می رسد سریعاً خوب است ، بگذارید ببینیم آیا دال موافق است:
در حالی که من از لرزش های علمی تخیلی قدردانی می کنم ، به نظر نمی رسد چیزی شبیه به اصلی باشد. من نمی خواهم آزمایش را با یک شکست عظیم به پایان برسانم ، بنابراین تصمیم گرفتم با اضافه کردن اصطلاح “عکس 1920s” در پایان سریع به دستگاه کمک کنم.
فکر من این بود که اصطلاح خاص ممکن است به روشن شدن تصویری که من به آن اشاره می کنم کمک کند. متأسفانه ، یک بار دیگر من را رها کرد و یک جلد دیگر آلبوم Prog Rock را ایجاد کرد:
نتایج این آزمایش جالب بود ، و نتیجه گیری ما می توانیم این باشد که تولید تصویر هوش مصنوعی بسیار غیرقابل پیش بینی است ، به خصوص با مفاهیم انتزاعی تر. فرقی نمی کند که سریع AI تولید شده و دقیق باشد یا انسانی و ناقص باشد-نتایج به نظر می رسد تصادفی است.
بنابراین ، دفعه بعد که سعی می کنید خود و بازی فوری خود را سرزنش کنید ، به یاد داشته باشید که نتایج احتمالاً تقریباً یکسان خواهد بود حتی اگر این دو ماشین با یکدیگر ارتباط برقرار کنند.