تولید کننده تصویر هوش مصنوعی متا می گوید زبان ممکن است تمام چیزی باشد که شما نیاز دارید
با مجله هشت پیک با مقاله ی تولید کننده تصویر هوش مصنوعی متا می گوید زبان ممکن است تمام چیزی باشد که شما نیاز دارید
همراه ما باشید
در چند سال گذشته، جهان توسط برنامههای هوش مصنوعی که هنگام تایپ یک عبارت، تصاویر تولید میکنند، شگفتزده شده است، برنامههایی مانند Stable Diffusion و DALL*E که تصاویر را به هر سبکی که میخواهید خروجی میدهند و میتوان با استفاده از آن به طرز ماهرانهای تغییر داد. عبارات مختلف برانگیخته شده
به طور معمول، آن برنامه ها بر روی دستکاری تصاویر نمونه با انجام فرآیند فشرده سازی بر روی تصاویر نمونه تکیه می کنند و سپس آنها را فشرده سازی می کنند تا نسخه اصلی را بازیابی کنند، به موجب آن قوانین ایجاد تصویر را یاد می گیرند، فرآیندی که به آن انتشار می گویند.
همچنین: هوش مصنوعی مولد: فقط آن را «هنرمند» نگویید، محققان در مجله Science می گویند
کار متا که در هفته گذشته معرفی شد چیز بسیار سادهتری را پیشنهاد میکند: یک تصویر را میتوان صرفاً به عنوان مجموعهای از کدها مانند کلمات در نظر گرفت، و میتوان آن را به همان صورتی که ChatGPT خطوط متن را دستکاری میکند، مدیریت کرد.
ممکن است زبان تنها چیزی باشد که در هوش مصنوعی نیاز دارید.
نتیجه برنامه ای است که می تواند سوژه های پیچیده را با عناصر متعدد مدیریت کند (“خرس عروسکی با کلاه ایمنی موتورسیکلت و شنل در حال سوار بر موتور سیکلت در ریودوژانیرو با Dois Irmãos در پس زمینه است.”) می تواند اشیاء دشوار مانند دست و متن، چیزهایی که در بسیاری از برنامههای تولید تصویر در نهایت تحریف میشوند. میتواند کارهای دیگری مانند توصیف جزئیات یک تصویر داده شده یا تغییر یک تصویر معین را با دقت انجام دهد. و می توان آن را با کسری از توان محاسباتی که معمولاً مورد نیاز است انجام داد.
در مقاله «مقیاسسازی مدلهای چندوجهی خودرگرسیون: پیشآموزش و تنظیم دستورالعمل» توسط لیلو یو و همکارانش در فیسبوک AI Research (FAIR)، که در سایت تحقیقاتی هوش مصنوعی متا ارسال شده است، بینش کلیدی استفاده از تصاویر بهگونهای است که کلمات یا، به جای آن، متن و تصویر با هم به عنوان جملات پیوسته با استفاده از “کتاب کد” برای جایگزینی تصاویر با نشانه ها عمل می کنند.
یو و تیم تیم می نویسند: “رویکرد ما دامنه مدل های خودرگرسیون را گسترش می دهد و پتانسیل آنها را برای رقابت با مدل های انتشار از نظر مقرون به صرفه بودن و عملکرد بهتر نشان می دهد.”
همچنین: این فناوری جدید می تواند GPT-4 و هر چیزی شبیه آن را منفجر کند
ایده کتاب کد از سال 2021 توسط پاتریک اسر و همکارانش در دانشگاه هایدلبرگ شروع شد. آنها یک نوع شبکه عصبی قدیمی به نام شبکه عصبی کانولوشنال (یا CNN) را اقتباس کردند که در مدیریت فایل های تصویری متخصص است. با آموزش یک برنامه هوش مصنوعی به نام شبکه متخاصم مولد یا GAN که میتواند تصاویر بسازد، CNN ساخته شد تا جنبههایی از یک تصویر مانند لبهها را با ورودیهای یک کتاب کد مرتبط کند.
سپس می توان آن شاخص ها را به گونه ای پیش بینی کرد که کلمات در یک مدل زبان مانند ChatGPT کلمه بعدی را پیش بینی می کند. تصاویر با وضوح بالا به جای پیشبینی پیکسل، به دنبالهای از پیشبینیهای شاخص تبدیل میشوند، که عملیات محاسباتی بسیار کمتری است.
با استفاده از رویکرد کتاب کد، یو متا و همکارانش چیزی را که CM3Leon نامیده می شود، با تلفظ “آفتاب پرست”، یک شبکه عصبی که یک مدل زبان بزرگ است که قادر به مدیریت یک کتاب کد تصویر است، جمع آوری کردند.
CM3Leon بر اساس یک برنامه قبلی است که سال گذشته توسط FAIR – CM3 برای “مدلسازی چندوجهی علّی-ماسک شده” معرفی شد. این برنامه مانند ChatGPT است که یک برنامه به سبک “Transformer” است که برای پیش بینی عنصر بعدی در یک دنباله آموزش داده شده است – یک “معماری ترانسفورماتور فقط رمزگشا” – اما آن را با “پوشاندن” بخش هایی از آنچه تایپ شده، مشابه ترکیب می کند. به برنامه BERT گوگل، به طوری که می تواند زمینه را از آنچه ممکن است بعداً در یک جمله بیاید به دست آورد.
CM3Leon با افزودن چیزی که به آن بازیابی میگویند، بر روی CM3 ایجاد میکند. بازیابی، که اهمیت فزایندهای در مدلهای زبانی بزرگ پیدا میکند، به این معنی است که اگر بخواهید، برنامه میتواند با «تلفن خانه»، به پایگاه دادهای از اسناد دسترسی پیدا کند و آنچه را که ممکن است به عنوان خروجی برنامه مرتبط باشد، بازیابی کند. این راهی برای دسترسی به حافظه است تا وزن ها یا پارامترهای شبکه عصبی مجبور نباشند بار حمل همه اطلاعات لازم برای پیش بینی را تحمل کنند.
همچنین: مایکروسافت و TikTok به هوش مصنوعی مولد نوعی حافظه می دهند
به گفته یو و تیم، پایگاه داده آنها یک “بانک داده” برداری است که می توان آن را هم برای اسناد تصویری و هم برای اسناد متنی جستجو کرد: “ما سند چند وجهی را به یک قسمت متنی و یک قسمت تصویری تقسیم می کنیم، آنها را به طور جداگانه با استفاده از خارج از صفحه رمزگذاری می کنیم. رمزگذارهای متن و تصویر CLIP منجمد را در قفسه قفسه قرار دهید و سپس این دو را به عنوان نمایش برداری سند به طور میانگین کنید.”
در یک چرخش جدید، محققان به عنوان مجموعه داده آموزشی، نه تصاویر اینترنتی، بلکه مجموعه ای از 7 میلیون عکس دارای مجوز از Shutterstock، شرکت عکاسی سهام، استفاده می کنند. “در نتیجه، ما میتوانیم از نگرانیهای مربوط به مالکیت و انتساب تصویر، بدون به خطر انداختن عملکرد، اجتناب کنیم.”
تصاویر Shutterstock بازیابی شده از پایگاه داده در مرحله قبل از آموزش CM3Leon برای توسعه قابلیت های برنامه استفاده می شود. این همان روشی است که ChatGPT و سایر مدل های زبان بزرگ از قبل آموزش داده شده اند. اما، یک مرحله اضافی رخ می دهد که در آن ورودی و خروجی CM3Leon از قبل آموزش دیده، هر دو به مدل بازگردانده می شوند تا آن را اصلاح کنند، رویکردی به نام “تنظیم دقیق نظارت شده” یا SFT.
همچنین: بهترین مولدهای هنر هوش مصنوعی: DALL-E 2 و سایر جایگزین های سرگرم کننده برای امتحان
نتیجه همه اینها برنامه ای است که برای انواع کارهای متنی-تصویر به بهترین حالت دست می یابد. آزمایش اولیه آنها Microsoft COCO Captions است، مجموعه داده ای که در سال 2015 توسط Xinlie Chen از دانشگاه کارنگی ملون و همکارانش منتشر شد. یک برنامه با توجه به آنچه که امتیاز FID نامیده می شود، بر اساس میزان خوبی که تصاویر را در مجموعه داده ها تکرار می کند، ارزیابی می شود، یک معیار شباهت که در سال 2018 توسط مارتین هوسل و همکارانش در دانشگاه یوهانس کپلر لینز در اتریش معرفی شد.
یو و تیمش را بنویسید: “مدل CM3Leon-7B امتیاز FID پیشرفته 4.88 را تعیین می کند، در حالی که تنها از کسری از داده های آموزشی و محاسبه مدل های دیگر مانند PARTI استفاده می کند.” بخش “7B” به برنامه CM3Leon با 7 میلیارد پارامتر عصبی اشاره دارد که یک معیار رایج برای مقیاس برنامه است.
یک جدول نشان میدهد که چگونه مدل CM3Leon با دادههای آموزشی بسیار کمتر و با پارامترهای کمتر نسبت به سایر مدلها، امتیاز FID بهتری (کمتر بهتر است) به دست میآورد، که مانند گفتن شدت محاسبات کمتر است:
یک نمودار نشان میدهد که چگونه CM3Leon با استفاده از ساعتهای آموزشی کمتر در پردازندههای گرافیکی Nvidia A100 به آن امتیاز برتر FID میرسد:
تصویر بزرگ چیست؟ CM3Leon، با استفاده از یک عبارت واحد، نه تنها میتواند تصاویر را تولید کند، بلکه میتواند اشیاء را در یک تصویر مشخص شناسایی کند، یا از یک تصویر خاص شرحها ایجاد کند، یا هر کار دیگری را با استفاده از متن و تصویر انجام دهد. واضح است که روش بسیار محبوب تایپ کردن مطالب در یک اعلان در حال تبدیل شدن به یک الگوی جدید است. همان حرکت تایپ را می توان به طور گسترده برای بسیاری از کارها با تعداد زیادی “وجه” به کار برد، به این معنی، انواع مختلف داده – تصویر، صدا، صدا و غیره.
همچنین: این ابزار جدید هوش مصنوعی ابله های شما را به تصاویر باکیفیت تبدیل می کند
همانطور که نویسندگان نتیجه می گیرند، “نتایج ما از ارزش مدل های خودرگرسیون برای طیف گسترده ای از وظایف متن و تصویر پشتیبانی می کند، و کاوش بیشتر برای این رویکرد را تشویق می کند.”
امیدواریم از این مقاله مجله هشت پیک نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 8pic باشید
لینک کوتاه مقاله : https://5ia.ir/oFXzWS
کوتاه کننده لینک
کد QR :
آخرین دیدگاهها