تولید کننده تصویر هوش مصنوعی متا می گوید زبان ممکن است تمام چیزی باشد که شما نیاز دارید

توسط 8pic · 28 تیر 1402

زمان مطالعه: 6 دقیقه

با مجله هشت پیک با مقاله ی تولید کننده تصویر هوش مصنوعی متا می گوید زبان ممکن است تمام چیزی باشد که شما نیاز دارید
همراه ما باشید

با استفاده از کسری از محاسبات GPU، CM3Leon متا به تصاویری با ترکیبات پیچیده از اشیاء و چیزهایی مانند دست و نوشتار که به سختی قابل رندر هستند و در سطحی است که وضعیت جدیدی از هنر را در امتیاز FID بنچمارک به دست می آورد، به دست می آورد.

متا 2023

در چند سال گذشته، جهان توسط برنامه‌های هوش مصنوعی که هنگام تایپ یک عبارت، تصاویر تولید می‌کنند، شگفت‌زده شده است، برنامه‌هایی مانند Stable Diffusion و DALL*E که تصاویر را به هر سبکی که می‌خواهید خروجی می‌دهند و می‌توان با استفاده از آن به طرز ماهرانه‌ای تغییر داد. عبارات مختلف برانگیخته شده

به طور معمول، آن برنامه ها بر روی دستکاری تصاویر نمونه با انجام فرآیند فشرده سازی بر روی تصاویر نمونه تکیه می کنند و سپس آنها را فشرده سازی می کنند تا نسخه اصلی را بازیابی کنند، به موجب آن قوانین ایجاد تصویر را یاد می گیرند، فرآیندی که به آن انتشار می گویند.

همچنین: هوش مصنوعی مولد: فقط آن را «هنرمند» نگویید، محققان در مجله Science می گویند

کار متا که در هفته گذشته معرفی شد چیز بسیار ساده‌تری را پیشنهاد می‌کند: یک تصویر را می‌توان صرفاً به عنوان مجموعه‌ای از کدها مانند کلمات در نظر گرفت، و می‌توان آن را به همان صورتی که ChatGPT خطوط متن را دستکاری می‌کند، مدیریت کرد.

ممکن است زبان تنها چیزی باشد که در هوش مصنوعی نیاز دارید.

نتیجه برنامه ای است که می تواند سوژه های پیچیده را با عناصر متعدد مدیریت کند (“خرس عروسکی با کلاه ایمنی موتورسیکلت و شنل در حال سوار بر موتور سیکلت در ریودوژانیرو با Dois Irmãos در پس زمینه است.”) می تواند اشیاء دشوار مانند دست و متن، چیزهایی که در بسیاری از برنامه‌های تولید تصویر در نهایت تحریف می‌شوند. می‌تواند کارهای دیگری مانند توصیف جزئیات یک تصویر داده شده یا تغییر یک تصویر معین را با دقت انجام دهد. و می توان آن را با کسری از توان محاسباتی که معمولاً مورد نیاز است انجام داد.

در مقاله «مقیاس‌سازی مدل‌های چندوجهی خودرگرسیون: پیش‌آموزش و تنظیم دستورالعمل» توسط لیلو یو و همکارانش در فیس‌بوک AI Research (FAIR)، که در سایت تحقیقاتی هوش مصنوعی متا ارسال شده است، بینش کلیدی استفاده از تصاویر به‌گونه‌ای است که کلمات یا، به جای آن، متن و تصویر با هم به عنوان جملات پیوسته با استفاده از “کتاب کد” برای جایگزینی تصاویر با نشانه ها عمل می کنند.

یو و تیم تیم می نویسند: “رویکرد ما دامنه مدل های خودرگرسیون را گسترش می دهد و پتانسیل آنها را برای رقابت با مدل های انتشار از نظر مقرون به صرفه بودن و عملکرد بهتر نشان می دهد.”

همچنین: این فناوری جدید می تواند GPT-4 و هر چیزی شبیه آن را منفجر کند

شاید این مقاله را هم دوست داشته باشید : گوگل در حال آزمایش یک هوش مصنوعی است که می تواند به روزنامه نگاران در نوشتن داستان های خبری کمک کند

ایده کتاب کد از سال 2021 توسط پاتریک اسر و همکارانش در دانشگاه هایدلبرگ شروع شد. آنها یک نوع شبکه عصبی قدیمی به نام شبکه عصبی کانولوشنال (یا CNN) را اقتباس کردند که در مدیریت فایل های تصویری متخصص است. با آموزش یک برنامه هوش مصنوعی به نام شبکه متخاصم مولد یا GAN که می‌تواند تصاویر بسازد، CNN ساخته شد تا جنبه‌هایی از یک تصویر مانند لبه‌ها را با ورودی‌های یک کتاب کد مرتبط کند.

سپس می توان آن شاخص ها را به گونه ای پیش بینی کرد که کلمات در یک مدل زبان مانند ChatGPT کلمه بعدی را پیش بینی می کند. تصاویر با وضوح بالا به جای پیش‌بینی پیکسل، به دنباله‌ای از پیش‌بینی‌های شاخص تبدیل می‌شوند، که عملیات محاسباتی بسیار کمتری است.

meta-2023-scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning.png — ورودی CM3Leon رشته‌ای از نشانه‌ها است، که در آن تصاویر به یک توکن دیگر در قالب متن کاهش می‌یابد، که اشاره‌ای به ورودی کتاب کد است.

متا 2023

با استفاده از رویکرد کتاب کد، یو متا و همکارانش چیزی را که CM3Leon نامیده می شود، با تلفظ “آفتاب پرست”، یک شبکه عصبی که یک مدل زبان بزرگ است که قادر به مدیریت یک کتاب کد تصویر است، جمع آوری کردند.

CM3Leon بر اساس یک برنامه قبلی است که سال گذشته توسط FAIR – CM3 برای “مدلسازی چندوجهی علّی-ماسک شده” معرفی شد. این برنامه مانند ChatGPT است که یک برنامه به سبک “Transformer” است که برای پیش بینی عنصر بعدی در یک دنباله آموزش داده شده است – یک “معماری ترانسفورماتور فقط رمزگشا” – اما آن را با “پوشاندن” بخش هایی از آنچه تایپ شده، مشابه ترکیب می کند. به برنامه BERT گوگل، به طوری که می تواند زمینه را از آنچه ممکن است بعداً در یک جمله بیاید به دست آورد.

CM3Leon با افزودن چیزی که به آن بازیابی می‌گویند، بر روی CM3 ایجاد می‌کند. بازیابی، که اهمیت فزاینده‌ای در مدل‌های زبانی بزرگ پیدا می‌کند، به این معنی است که اگر بخواهید، برنامه می‌تواند با «تلفن خانه»، به پایگاه داده‌ای از اسناد دسترسی پیدا کند و آنچه را که ممکن است به عنوان خروجی برنامه مرتبط باشد، بازیابی کند. این راهی برای دسترسی به حافظه است تا وزن ها یا پارامترهای شبکه عصبی مجبور نباشند بار حمل همه اطلاعات لازم برای پیش بینی را تحمل کنند.

همچنین: مایکروسافت و TikTok به هوش مصنوعی مولد نوعی حافظه می دهند

به گفته یو و تیم، پایگاه داده آنها یک “بانک داده” برداری است که می توان آن را هم برای اسناد تصویری و هم برای اسناد متنی جستجو کرد: “ما سند چند وجهی را به یک قسمت متنی و یک قسمت تصویری تقسیم می کنیم، آنها را به طور جداگانه با استفاده از خارج از صفحه رمزگذاری می کنیم. رمزگذارهای متن و تصویر CLIP منجمد را در قفسه قفسه قرار دهید و سپس این دو را به عنوان نمایش برداری سند به طور میانگین کنید.”

شاید این مقاله را هم دوست داشته باشید : هوش مصنوعی می تواند دنیای زبان های برنامه نویسی را تکان دهد

در یک چرخش جدید، محققان به عنوان مجموعه داده آموزشی، نه تصاویر اینترنتی، بلکه مجموعه ای از 7 میلیون عکس دارای مجوز از Shutterstock، شرکت عکاسی سهام، استفاده می کنند. “در نتیجه، ما می‌توانیم از نگرانی‌های مربوط به مالکیت و انتساب تصویر، بدون به خطر انداختن عملکرد، اجتناب کنیم.”

تصاویر Shutterstock بازیابی شده از پایگاه داده در مرحله قبل از آموزش CM3Leon برای توسعه قابلیت های برنامه استفاده می شود. این همان روشی است که ChatGPT و سایر مدل های زبان بزرگ از قبل آموزش داده شده اند. اما، یک مرحله اضافی رخ می دهد که در آن ورودی و خروجی CM3Leon از قبل آموزش دیده، هر دو به مدل بازگردانده می شوند تا آن را اصلاح کنند، رویکردی به نام “تنظیم دقیق نظارت شده” یا SFT.

همچنین: بهترین مولدهای هنر هوش مصنوعی: DALL-E 2 و سایر جایگزین های سرگرم کننده برای امتحان

نتیجه همه اینها برنامه ای است که برای انواع کارهای متنی-تصویر به بهترین حالت دست می یابد. آزمایش اولیه آنها Microsoft COCO Captions است، مجموعه داده ای که در سال 2015 توسط Xinlie Chen از دانشگاه کارنگی ملون و همکارانش منتشر شد. یک برنامه با توجه به آنچه که امتیاز FID نامیده می شود، بر اساس میزان خوبی که تصاویر را در مجموعه داده ها تکرار می کند، ارزیابی می شود، یک معیار شباهت که در سال 2018 توسط مارتین هوسل و همکارانش در دانشگاه یوهانس کپلر لینز در اتریش معرفی شد.

یو و تیمش را بنویسید: “مدل CM3Leon-7B امتیاز FID پیشرفته 4.88 را تعیین می کند، در حالی که تنها از کسری از داده های آموزشی و محاسبه مدل های دیگر مانند PARTI استفاده می کند.” بخش “7B” به برنامه CM3Leon با 7 میلیارد پارامتر عصبی اشاره دارد که یک معیار رایج برای مقیاس برنامه است.

یک جدول نشان می‌دهد که چگونه مدل CM3Leon با داده‌های آموزشی بسیار کمتر و با پارامترهای کمتر نسبت به سایر مدل‌ها، امتیاز FID بهتری (کمتر بهتر است) به دست می‌آورد، که مانند گفتن شدت محاسبات کمتر است:

meta-2023-cm3leon-gets-better-score-with-far-less-data-and-fewer-parameters.png — متا 2023

یک نمودار نشان می‌دهد که چگونه CM3Leon با استفاده از ساعت‌های آموزشی کمتر در پردازنده‌های گرافیکی Nvidia A100 به آن امتیاز برتر FID می‌رسد:

meta-2023-cm3leon-gets-to-better-image-score-faster.png — متا 2023

تصویر بزرگ چیست؟ CM3Leon، با استفاده از یک عبارت واحد، نه تنها می‌تواند تصاویر را تولید کند، بلکه می‌تواند اشیاء را در یک تصویر مشخص شناسایی کند، یا از یک تصویر خاص شرح‌ها ایجاد کند، یا هر کار دیگری را با استفاده از متن و تصویر انجام دهد. واضح است که روش بسیار محبوب تایپ کردن مطالب در یک اعلان در حال تبدیل شدن به یک الگوی جدید است. همان حرکت تایپ را می توان به طور گسترده برای بسیاری از کارها با تعداد زیادی “وجه” به کار برد، به این معنی، انواع مختلف داده – تصویر، صدا، صدا و غیره.

همچنین: این ابزار جدید هوش مصنوعی ابله های شما را به تصاویر باکیفیت تبدیل می کند

همانطور که نویسندگان نتیجه می گیرند، “نتایج ما از ارزش مدل های خودرگرسیون برای طیف گسترده ای از وظایف متن و تصویر پشتیبانی می کند، و کاوش بیشتر برای این رویکرد را تشویق می کند.”

امیدواریم از این مقاله مجله هشت پیک نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 8pic باشید