تبدیل متن به تصویر درحالحاضر فرایند الگوریتمی بسیار جذابی است که با OpenAI Craiyon (که قبلاً با نام DALL-E mini شناخته میشد) و هوش مصنوعی Imagen AI گوگل باعث ایجاد هنرهای فوقالعاده عجیبوغریبی شده که رویهای ساختهشده از تخیل انسان و رایانه در آنها دیده میشود. متا اعلام کرده موتور تولید تصویر مبتنیبر هوش مصنوعی جدیدی توسعه داده که میتواند به ساخت جهانهای فراگیر در متاورس و ایجاد هنرهای دیجیتالی کمک کند.
برای ایجاد یک تصویر براساس عبارت متنی «اسبی در بیمارستان وجود دارد» با استفاده از نسل کنونی هوش مصنوعی، کار زیادی باید انجام شود. در این روند، عبارت متنی ابتدا ازطریق یک مدل تبدیل، دریافت شده و یک شبکهی عصبی که کلمات جمله را تجزیه و درک میکند، زمینهای از رابطههای آنها را با یکدیگر بسازد. بهمحض این که این مدل متوجه شود که کاربر چه چیزی را توصیف کرده است، هوش مصنوعی یک تصویر جدید را با استفاده از مجموعهای از شبکههای مولد، ترکیب خواهد کرد.
هوش مصنوعی پیشرفتهی امروزی بهلطف تلاشهایی که در سالهای اخیر برای آموزش مدلهای یادگیری ماشینی روی مجموعههای تصویری با وضوح بالا و گسترشیافته با توضیحات متنی بهخوبی انجام شده، میتواند عکسهای واقعی را از متنهای کاملاً غیرمرتبط نیز تولید کند. فرایند ایجاد تصاویر در انواع هوش مصنوعی، بسیار خاص است.
بهعنوان مثال، Imagen گوگل از یک مدل Diffusion استفاده میکند که یاد میگیرد الگوی نقاط تصادفی را بهتصاویر تبدیل کند. این تصاویر ابتدا با وضوح پایین شروع میشوند و سپس بهتدریج وضوح آنها افزایش مییابد. از سوی دیگر Pari AI گوگل ابتدا مجموعهای از تصاویر را به دنبالهای از ورودیهای کد شبکه به قطعات پازل تبدیل میکند و سپس یک دستور متنی بهاین ورودیهای کد ترجمه میشود و تصویر جدیدی ایجاد خواهد کرد.
درحالیکه این سیستمها میتوانند هرچیزی را که برای آنها توضیح داده شده است ایجاد کنند، کاربر هیچ کنترلی روی جنبههای خاص تصویر خروجی ندارد. مارک زاکربرگ، مدیرعامل متا در پستی وبلاگی گفت:
برای درک پتانسیل هوض مصنوعی برای پیشبرد بیان خلاقانه، مردم باید بتوانند روی محتوایی که یک سیستم تولید میکند، کنترل داشته باشند.
مفهوم تحقیقاتی-اکتشافی هوش مصنوعی متا، با نام Make-A-Scene شناخته میشود و این کار را با ترکیب طرحهایی که کاربران با تبدیل متن به عکس ایجاد کردهاند، انجام میدهد و تصویری با وضوح ۲۰۴۸ در ۲۰۴۸ پیکسل را تولید میکند. این ترکیب به کاربر اجازه میدهد تا نهتنها آنچه را در تصویر میخواهد، توصیف کند، بلکه ترکیب کلی تصویر را نیز ارائه دهد. زاکربرگ میگوید:
این نشان میدهد که افراد چگونه میتوانند هم از متن و هم نقاشیهای ساده برای انتقال دیدگاه خود و اعمال ویژگیهای بیشتر با استفاده از عناصر، فرمها، ترتیبها، عمق، ترکیببندیها و ساختارها استفاده کنند.
ارزیابهای انسانی در آزمایش هوش مصنوعی جدید متا، اکثراً تصویر بهدستآمده از متن و طرح را نسبت به تصویری که فقط از متن ایجاد شده است، بهعنوان همسویی بهتر با طرح اصلی (۹۹٫۵۴ درصد مواقع) و همسویی بهتر با توضیحات متن اصلی (۶۶ درصد مواقع) انتخاب کردند. متا برای توسعهی بیشتر این فناوری، نسخهی نمایشی Make-A-Scene را با هنرمندان برجستهی هوش مصنوعی ازجمله سوفیا کرسپو، اسکات ایتون، الکساندر برن و رفیک آنادول بهاشتراک گذاشته است. این هنرمندان از هوش مصنوعی استفاده میکنند و سپس بازخورد خود را از عملکرد آن ارائه خواهند داد.
درحالحاضر هنوز مشخص نیست که این هوش مصنوعی چه زمانی دردسترس عموم کاربران قرار خواهد گرفت.
منبع: engadget
دیدگاه خود را بنویسید