به لطف OpenAI، Imagen، Adobe Firefly، DALL-E-3 و موارد دیگر، تولیدکنندههای تصویر هوش مصنوعی چند سالی است که ما را خوشحال کردهاند (و اذیت میکنند). با پیشرفت تکنولوژی، به نظر می رسد که گزینه های بیشتری برای اصلاح نتایج خود داریم. اکنون، آزمایشگاههای Google Whisk را منتشر کرده است، ابزاری که به شما امکان میدهد تصاویر را بهعنوان راهنمایی به جای درخواستهای متنی آپلود کنید.
به لطف OpenAI، Imagen، Adobe Firefly، DALL-E-3 و موارد دیگر، تولیدکنندههای تصویر هوش مصنوعی چند سالی است که ما را خوشحال کردهاند (و اذیت میکنند). با پیشرفت تکنولوژی، به نظر می رسد که گزینه های بیشتری برای اصلاح نتایج خود داریم. اکنون، آزمایشگاههای Google Whisk را منتشر کرده است، ابزاری که به شما امکان میدهد تصاویر را بهعنوان راهنمایی به جای درخواستهای متنی آپلود کنید.
Google Labs’ Whisk تصاویر را از تصاویر دیگر تولید می کند
اگر در ایالات متحده زندگی می کنید، اکنون از طریق Google Labs به Whisk دسترسی خواهید داشت، که طبق وبلاگ Google یک “آزمایش در هوش مصنوعی مولد” است. با Whisk، به جای تکیه صرفاً بر اعلان های متن توصیفی، می توانید تصاویر را به عنوان مرجع اضافه کنید. پلتفرم سه ویژگی کلیدی را می خواهد: موضوع، صحنه و سبک. سپس این ابزار آن مواد را با هم مخلوط کرده یا “همزن” می کند و تصویری عالی برای شما ایجاد می کند.
Whisk از Imagen 3، آخرین مدل تولید تصویر گوگل استفاده می کند.
گوگل با Whisk به طور کامل از پیام های متنی خودداری نکرده است. شما هنوز این گزینه را دارید که برای هر یک از سه دسته، دستورهای نسل بنویسید یا یک یادداشت کلی اضافه کنید. همچنین میتوانید پس از مشاهده اولین تلاش Whisk، یک تصویر را اصلاح کنید. به عنوان مثال، فرض کنید یک کارت تعطیلات به سبک قدیمی از گربه ای که در برف خوابیده است، تهیه کرده اید. با دیدن این نسل، ممکن است از اضافه کردن دانه های برف به عنوان یک لمس نهایی الهام بگیرید.
هر بار که تصویری را در هر یک از سه دسته Whisk اضافه یا ایجاد میکنید، پلتفرم کار ایجاد شرح مکتوب دقیق از آن را انجام میدهد. بنابراین، اگر میخواهید به یک تصویر موجود اضافه کنید یا آن را ویرایش کنید، فقط میتوانید متن را سفارشی کنید.
در نهایت، اگر احساس میکنید که الهامبخش نیستید، میتوانید با انتخاب یک نماد قالب، اجزای بصری خود را تصادفی کنید. برای نسلهای پیچیدهتر، میتوانید بیش از یک موضوع، صحنه یا مرجع سبک اضافه کنید.
هنگامی که از شاهکار خود راضی بودید، می توانید آن را در پلتفرم ذخیره کنید یا برای دسترسی محلی دانلود کنید.
ارزش ویسک را دارد؟
با وجود تمام گزینههای پیشرفته تولید تصویر با هوش مصنوعی برای بهبود عکسهای شما یا تولید آثار هنری «اصیل»، ابزار جدید Google ممکن است فقط یک حقه به نظر برسد. اما روشی که Whisk از ارجاعات بصری در تولید تصویر خود استفاده می کند منحصر به فرد است و من می توانم ببینم که چقدر در سناریوهای خلاقانه و حرفه ای ارزشمند است.
فرض کنید که در حال کار بر روی یک زمین بازی هستید و به تصاویری نیاز دارید که شبیه به مرجعی باشد که قبلاً دارید. بهجای تلاش برای مهندسی معکوس آن مرجع در کلمات، میتوانید به سادگی فایل را همراه با توضیح متنی مختصری از تفاوت تصویر جدید خود آپلود کنید.
برای متمایز کردن Whisk از سایر نرمافزارهای تصویری هوش مصنوعی، گوگل مشخص کرده است که این پلتفرم برای اکتشاف است نه برای ظرافت. در حالی که سایر محصولات ممکن است برای ویرایش های دقیق مناسب تر باشند، Whisk برای طوفان فکری بهترین است:
“ما آن را برای کاوش سریع بصری ساختهایم، نه ویرایشهای کامل پیکسلی. این در مورد کاوش ایدهها به روشهای جدید و خلاقانه است که به شما امکان میدهد روی دهها گزینه کار کنید و گزینههایی را که دوست دارید دانلود کنید.”
بیایید صادق باشیم: گاهی اوقات، پیدا کردن کلمات دشوار است. به من اعتماد کنید، من دائماً در تلاش برای یافتن توصیفگر مناسب، به نیهای نامرئی چنگ میزنم. برای من، این به ویسک پتانسیل جدی میدهد، برای تمام مواقعی که گفتن «من تصویری میخواهم که شبیه این باشد» آسانتر است.