چگونه از هوش مصنوعی برای ایجاد تصاویر از هر چیزی که می توانید تصور کنید استفاده کنید

DALL-E Mini که اکنون با نام Craiyon شناخته می شود، می تواند رویاهای شما را به واقعیت تبدیل کند. یا همانطور که متوجه شدیم یک سگ را روی یک اسکیت بورد قرار دهید.

همین ماه‌ها پیش، اگر می‌خواستید از چیزی تصویری بسازید، باید می‌توانستید از یکی از ابزارهای فتوشاپی که دیگران مدام در مورد آن صحبت می‌کنند، طرح، نقاشی یا استفاده کنید. با این حال، پس از سال 2022، همه چیز به لطف هوش مصنوعی تغییر کرد – بله، مانند “هوش مصنوعی”.

به جای تلاش برای تسلط بر جهان، ابزارهای هوش مصنوعی متمایل به هنری می توانند هر چیزی را که برای آنها توصیف می کنید به تصویر تبدیل کنند.

در حالی که وارد دنیای تجسم متن مبتنی بر هوش مصنوعی می شویم، با ما همراه باشید و ببینید چگونه می توانید از چنین ابزارهایی برای تبدیل افکار خود به تصاویر واقعی صرفاً با تایپ کردن آنچه در ذهن دارید استفاده کنید.

Dall-E: جنبه هنری GPT-3 OpenAI

اولین ابزارهای مبتنی بر هوش مصنوعی که محبوب شدند بر اساس GPT-3 OpenAI بودند. یکی از دلایل باز بودن پروژه برای دسترسی خارجی بود که منجر به برخی پیشنهادها شد که GPT-3 آینده کار خلاقانه است.

امروز می توانید از ابزارهای رسمی که می توانید در سایت بتا OpenAI بیابید یا راه حل های شخص ثالثی که از ابرقدرت های زبانی آن بهره می برند استفاده کنید. برای مثال، می‌توانید از GPT-3 بخواهید که پیش‌نویسی برای یک پست ارائه کند، به سؤالات ساده پاسخ دهد یا حتی متنی را اصلاح یا ترجمه کند.

در سال 2022 OpenAI فاش کرد که GPT-3 در ساخت تصاویر به همان اندازه خوب است. پروژه DALL-E، بازی بر روی فیلم WALL-E پیکسار و نام دالی، از GPT-3 نه برای کار با متن بلکه به عنوان یک موتور تصویرسازی استفاده می‌کند.

درست مانند GPT-3 و متن، DALL-E واقعاً یک نابغه خلاق نیست که تصاویر را از هوای رقیق به تصویر می‌کشد. درعوض، روی میلیون‌ها تصویری که قبلاً به صورت آنلاین وجود دارند، آموزش داده شده است. قدرت هوش مصنوعی آن در تجزیه و تحلیل آن تصاویر، گرفتن عناصر از آنها، اصلاح، شکل‌گیری، تنظیم و در نهایت ترکیب آن‌ها در تصاویر جدید نهفته است.

حداقل، این یک نسخه ساده شده از آنچه در پس زمینه اتفاق می افتد است. اکثر مردم فقط به آنچه در مقابل خود می بینند اهمیت می دهند، و این یک کادر متنی است که در آن می توانید چیزی را تایپ کنید و بعد از چند دقیقه آن را به یک تصویر ببینید.

پاسخ Imagen گوگل

گوگل یکی از سه “بازیگر” برتر در تحقیقات هوش مصنوعی است. با این حال، پیشرفت آنها به راحتی قابل درک نیست، و همچنین پیاده سازی آن در محصولات به اندازه پیشنهادات OpenAI قابل دسترسی نیست.

مطلب مرتبط: 10 روشی که سازندگان محتوا می توانند از خدمات چاپ Canva استفاده کنند

یکی از اولین پیاده‌سازی‌های Google AI به‌طور گسترده در Google Docs و Gmail، به شکل تکمیل خودکار و پیشنهادات هوشمندتر، معروف به Smart Compose بود. از آنجایی که قبلاً Smart Compose (و نحوه استفاده از آن) را پوشش داده ایم، وارد جزئیات نمی شویم.

وقتی این ویژگی‌ها فعال هستند، برنامه‌های وب Google آنچه را که کاربر تایپ می‌کند با آنچه که میلیون‌ها نفر دیگر در گذشته نوشته‌اند مقایسه می‌کنند. سپس، آنچه را که بعداً تایپ کرده‌اند نشان می‌دهد.

این اثباتی است که علیرغم آنچه دوست داریم باور کنیم، آنقدرها هم متفاوت نیستیم. اگر از هر 100 نفر 99 نفر بعد از «ببینمت» تایپ کنند، احتمالاً همین چیزی است که ما نیز به تایپ کردن ادامه خواهیم داد.

همه ما از نوعی تکمیل خودکار استفاده کرده‌ایم، حتی در سیستم متن پیش‌بینی T9 در عصر «دبل‌فون». به همین دلیل است که ابزارهای هوش مصنوعی گوگل به اندازه GPT-3 OpenAI هوشمند به نظر نمی رسند. آنها به اندازه یک سیستم بهتر T9 که در قرن بیست و یکم بهبود یافته بود، احساس استفاده بیشتری نمی کردند. و همچنین به همین دلیل است که افشای ایمیجن کمی شوکه کننده بود.

مانند DALL-E در استروئیدها، Imagen یک ابزار تجسم متن است. بر اساس آنچه امروز در دسترس است، Imagen می‌تواند تصاویر «پاک‌تر» و واضح‌تری تولید کند، در حالی که می‌داند چگونه با ویژگی‌های پیشرفته‌ای مانند انتشار و شفافیت مقابله کند.

متأسفانه، در زمان نگارش مقاله، دسترسی به Imagen همچنان محدود است، بنابراین ما نتوانستیم آن را امتحان کنیم.

DALL-E Mini and Friends: Open for Business

هنوز نمی توانید آزادانه به DALL-E و Imagen دسترسی داشته باشید. با این حال، اگر می‌خواهید با تولید تصویر متنی مبتنی بر هوش مصنوعی فریب دهید، گزینه‌های بسیاری در دسترس هستند.

در نظر داشته باشید که این روزهای اولیه هستند و نتایج یا تجربه کاربری که ارائه می دهند ممکن است دور از حد مطلوب باشد، هنوز ارزش بررسی برخی از موارد زیر را دارد.

ساختن میم با Dall-E Mini

به لطف ترکیبی از نتایج بیش از اندازه کافی و یک رابط کاربر پسند، اما مهمتر از آن، در دسترس بودن گسترده آن، DALL-E mini به یکی از محبوب ترین بصری سازهای متن هوش مصنوعی تبدیل شد.

نتایج دور از ایده آل بودن، گاهی اوقات نتایج DALL-E mini می تواند انتزاعی تر از آنچه در نظر گرفته شده باشد.

مواقع دیگر ممکن است نتواند آنچه را که در ذهن داشتید ایجاد کند، اما می تواند بسیار نزدیک شود.

مطلب مرتبط: PhotoPrism چیست؟ نحوه استفاده از برنامه عکس با هوش مصنوعی

پس از انفجار در محبوبیت، سازندگان DALL-E mini آن را با نام تجاری جدید به خانه جدیدی منتقل کردند. اکنون می توانید آخرین نسخه DALL-E mini را به عنوان Craiyon در سایت خودش پیدا کنید.

امروزه استفاده از Craiyon به آسانی جستجوی آنلاین برای یک تصویر موجود است. می توانید به سایت آن مراجعه کنید، توضیحی از عکس خود را در قسمت متن آن تایپ کنید و Enter را بزنید. پس از مدتی، نتایج را روی صفحه نمایش خود خواهید دید.

آنچه قابل توجه است این است که Craiyon و ابزارهای مشابه چقدر در تقلید از سبک های بصری خوب هستند. به عنوان مثال، ما از آن خواسته ایم که تصاویری از یک توله سگ روی یک اسکیت بورد را تداعی کند:

سپس، از عبارت دقیق استفاده کردیم، اما پس از آن یک “سبک پیکسار” اضافه کردیم. پس از مدتی، Craiyon شبکه‌ای از تصاویر «کارتونیک» بیشتری را نشان داد، که نزدیک‌تر به آنچه که ما به‌عنوان گرافیک‌های ردیابی پرتوی پیکسار در فیلم‌های مورد علاقه‌شان درک می‌کنیم، نشان داد.

Craiyon نتایج بهتری به ما داد زمانی که در همان دستور «سبک پیکسار» را با «سبک انیمه» جایگزین کردیم.

انیمه از نظر ظاهری شیک‌تر از تصاویر واقعی‌تر پیکسار است که به نظر می‌رسد به Craiyon کمک کرده است تا تصاویری تقریباً آماده برای استفاده تولید کند.

فریب دادن با انتشار پنهان

مدل Latent Diffusion که بر روی مجموعه داده LAION-400M آموزش داده شده است، یکی دیگر از تجسم‌کننده متن جالب هوش مصنوعی است. با این حال، در استفاده از آن نیز پیچیده تر است. شما باید آن را به صورت آنلاین در یک ماشین مجازی اجرا کنید و به جای اینکه صرفاً در یک فیلد متنی تایپ کنید، با پارامترهای مختلف آن بازی کنید. با این حال، آسان تر از آن است که به نظر می رسد.

از فضای همکاری Google Latent Diffusion که در حال حاضر خانه آن است، بازدید کنید.
کمی به پایین اسکرول کنید و به قسمت Prompt در قسمت Parameters توجه کنید. اعلان پیش‌فرض را با چیزی که می‌خواهید تصویرتان نشان دهد جایگزین کنید.
از منوی Runtime گزینه Run All را انتخاب کنید یا CTRL + F9 را فشار دهید.
اگر می‌خواهید بتوانید تصاویر تولید شده را مستقیماً از داخل ابزار صادر کنید، وقتی از شما پرسیده شد که می‌خواهید آن را با حساب Google Drive خود پیوند دهید، پاسخ مثبت دهید. این ابزار مدتی طول می کشد تا پیکربندی خود را کامل کند و در طول فرآیند نیاز به دانلود برخی از فایل ها دارد.

افزایش مقادیر Steps، Iterations و Samples_in_parallel ممکن است به نتایج دقیق‌تری منجر شود. با این حال، این ابزار از نظر منابع در سرورهای Google بسیار سخت است. در نتیجه، اگر این مقادیر را بیش از حد افزایش دهید، ممکن است از کار بیفتد یا فرآیند ایجاد یک تصویر خاص پیچیده‌تر از حد انتظار شود.

مطلب مرتبط: جعبه سیاه هوش مصنوعی چیست و چگونه کار می کند؟

جایگزین های جالب

ما زمان قابل توجهی را صرف تست DALL-E mini و Latent Diffusion کرده ایم. روش علمی ما شامل دو بخش مجزا بود. اول، ما باید مفاهیمی را ارائه می‌کردیم که می‌توانستیم آن‌ها را به‌طور دقیق به‌عنوان غم‌انگیز توصیف کنیم. سپس، از آن تجسم‌کنندگان هوش مصنوعی بخواهید که آنها را به تصویر تبدیل کنند. اغلب بیش از آنچه انتظار می رفت، موفق شدند و به تنظیمات کلی که ما تصور می کردیم نزدیک شدند.

ما همچنین برخی از جایگزین های موجود برای این مقاله را امتحان کرده ایم. ما همچنان منتظر دسترسی به دیگران هستیم. برخی از مواردی که ارزش بررسی دارند (بدون ترتیب خاصی):

میانه سفر
MindsEye بتا
StarryAI
رویا
دیسکو دیفیوژن

آیا هنر تولید شده توسط هوش مصنوعی جایگزین هنرهای تجسمی خواهد شد؟

فراوانی و محبوبیت روزافزون ابزارهای مبتنی بر هوش مصنوعی تولید تصویر، بسیاری را به این نتیجه رساند که هنرهای تجسمی به زودی خواهند مرد. وقتی یک هوش مصنوعی می تواند سریعتر (و به زودی بهتر) از شما این کار را انجام دهد، صرف زمان و انرژی برای یادگیری نحوه ترسیم یا استفاده از نرم افزارهای پیچیده برای تجسم چیزها چیست؟

اگر متوجه شده اید، این ابزارها همه «بر روی مجموعه داده ها آموزش دیده اند». به زبان انگلیسی ساده، این بدان معناست که آنها کاری را که انجام می دهند به لطف انسان هایی که قبلاً همان کار را انجام داده اند انجام می دهند.

این اشاره به این است که چرا آن ابزارها نمی توانند جایگزین هنر، خلاقیت و نبوغ انسان شوند. آنها شبیه سازها هستند، شبیه سازهای هوشمند. بدون نسخه های اصلی تولید شده توسط انسان که بر روی آنها آموزش دیده اند، آنها نمی توانند هیچ خروجی تولید کنند.

با این حال، این اکنون است و ما اعتراف می کنیم که نمی دانیم آینده چه خواهد شد. در حال حاضر، هنرمندان تجسمی می توانند با خیال راحت بخوابند. با سرعتی که هوش مصنوعی در حال تکامل است، بسیاری از متخصصان در این زمینه معتقدند که این موضوع مهم نیست که آیا هرگز واقعاً جایگزین کار افرادی مانند شما خواهد شد. فقط مسئله زمان است.

اما هی، این همه عذاب و غم نیست. در حالی که Skynet آماده می شود تا شغل ما را بگیرد، حداقل می توانیم با ایجاد بی زحمت تصاویری از توله سگ ها روی اسکیت بورد روحیه خود را روشن کنیم!