چگونه محققان ChatGPT را شکستند و چه معنایی می تواند برای توسعه هوش مصنوعی آینده داشته باشد

توسط 8pic · 8 مرداد 1402

زمان مطالعه: 3 دقیقه

با مجله هشت پیک با مقاله ی چگونه محققان ChatGPT را شکستند و چه معنایی می تواند برای توسعه هوش مصنوعی آینده داشته باشد همراه ما باشید

شخصی که روی صفحه‌کلید با صفحه‌نمایش هوش مصنوعی Chat بالای آن تایپ می‌کند

از آنجایی که بسیاری از ما به استفاده روزانه از ابزارهای هوش مصنوعی عادت کرده‌ایم، بهتر است به یاد داشته باشیم که کلاه پرسشگری خود را بر سر داشته باشیم. هیچ چیز کاملاً ایمن و عاری از آسیب پذیری های امنیتی نیست. با این حال، شرکت‌هایی که پشت بسیاری از محبوب‌ترین ابزارهای مولد هوش مصنوعی هستند، دائماً اقدامات ایمنی خود را برای جلوگیری از تولید و تکثیر محتوای نادرست و مضر به‌روزرسانی می‌کنند.

محققان دانشگاه کارنگی ملون و مرکز ایمنی هوش مصنوعی برای یافتن آسیب‌پذیری‌ها در ربات‌های چت هوش مصنوعی مانند ChatGPT، Google Bard و Claude با یکدیگر همکاری کردند و موفق شدند.

همچنین: ChatGPT vs Bing Chat در مقابل Google Bard: بهترین چت ربات هوش مصنوعی کدام است؟

در یک مقاله تحقیقاتی برای بررسی آسیب‌پذیری مدل‌های زبان بزرگ (LLM) در برابر حملات خصمانه خودکار، نویسندگان نشان دادند که حتی اگر مدلی در برابر حملات مقاوم باشد، باز هم می‌توان آن را فریب داد تا فیلترهای محتوا را دور بزند و اطلاعات مضر را ارائه دهد. اطلاعات نادرست و سخنان نفرت انگیز این باعث آسیب پذیری این مدل ها می شود و به طور بالقوه منجر به سوء استفاده از هوش مصنوعی می شود.

آویو اوادیا، محقق مرکز اینترنت و جامعه برکمن کلاین در هاروارد، به نیویورک تایمز گفت: «این به وضوح نشان دهنده شکنندگی دفاعی است که ما در این سیستم ها ایجاد می کنیم.

نویسندگان از یک سیستم AI منبع باز برای هدف قرار دادن جعبه سیاه LLM از OpenAI، Google و Anthropic برای آزمایش استفاده کردند. این شرکت‌ها مدل‌های پایه‌ای ایجاد کرده‌اند که روی آن چت‌ربات‌های هوش مصنوعی مربوطه خود، ChatGPT، Bard و Claude ساخته‌اند.

شاید این مقاله را هم دوست داشته باشید : کوالکام و متا در سال 2024 هوش مصنوعی روی دستگاه را به گوشی های پرچمدار ارائه خواهند کرد

از زمان راه اندازی ChatGPT در پاییز گذشته، برخی از کاربران به دنبال راه هایی برای تولید محتوای مخرب از چت بات بودند. این امر باعث شد که OpenAI، شرکتی که پشت GPT-3.5 و GPT-4، LLMS مورد استفاده در ChatGPT قرار دارد، نرده های محافظ قوی تری را در جای خود قرار دهد. به همین دلیل است که نمی‌توانید به ChatGPT بروید و از آن سؤالاتی بپرسید که شامل فعالیت‌های غیرقانونی و سخنان نفرت‌انگیز یا موضوعاتی است که خشونت را ترویج می‌کنند.

همچنین: GPT-3.5 در مقابل GPT-4: آیا ChatGPT Plus ارزش هزینه اشتراک خود را دارد؟

موفقیت ChatGPT شرکت‌های فناوری بیشتری را وادار کرد تا به قایق هوش مصنوعی مولد بپرند و ابزارهای هوش مصنوعی خود را ایجاد کنند، مانند مایکروسافت با بینگ، گوگل با بارد، آنتروپیک با کلود، و بسیاری دیگر. ترس از اینکه بازیگران بد بتوانند از این چت ربات‌های هوش مصنوعی برای تکثیر اطلاعات نادرست استفاده کنند و فقدان مقررات جهانی هوش مصنوعی، هر شرکتی را بر آن داشت تا نرده‌های محافظ خود را ایجاد کند.

گروهی از محققان در Carnegie Mellon تصمیم گرفتند قدرت این اقدامات ایمنی را به چالش بکشند. اما شما نمی توانید فقط از ChatGPT بخواهید که تمام نرده های محافظ خود را فراموش کند و انتظار داشته باشید که مطابقت داشته باشد – یک رویکرد پیچیده تر ضروری بود.

محققان چت ربات‌های هوش مصنوعی را فریب دادند تا ورودی‌های مضر را با اضافه کردن رشته‌ای طولانی از کاراکترها به انتهای هر فرمان، تشخیص ندهند. این شخصیت ها به عنوان یک مبدل برای محصور کردن دستور عمل می کردند. ربات چت پیام مبدل را پردازش کرد، اما کاراکترهای اضافی تضمین می‌کنند که نرده‌های محافظ و فیلتر محتوا آن را به‌عنوان چیزی برای مسدود کردن یا اصلاح نمی‌شناسند، بنابراین سیستم پاسخی را ایجاد می‌کند که معمولاً نمی‌پذیرد.

شاید این مقاله را هم دوست داشته باشید : چگونه گوگل داده ها را هنگام استفاده از چت ربات های هوش مصنوعی مولد ایمن نگه می دارد

مت فردریکسون، استاد کارنگی ملون و یکی از نویسندگان مقاله، به تایمز گفت: «از طریق مکالمه شبیه‌سازی‌شده، می‌توانید از این ربات‌های چت برای متقاعد کردن مردم به باور اطلاعات نادرست استفاده کنید.

همچنین: WormGPT: آنچه درباره پسر عموی مخرب ChatGPT باید بدانید

از آنجایی که چت ربات‌های هوش مصنوعی ماهیت ورودی را به اشتباه تفسیر کردند و خروجی‌های غیرمجاز ارائه کردند، یک چیز آشکار شد: نیاز به روش‌های ایمنی قوی‌تر هوش مصنوعی، با ارزیابی مجدد احتمالی نحوه ساخت نرده‌ها و فیلترهای محتوا وجود دارد. ادامه تحقیقات و کشف این نوع آسیب‌پذیری‌ها نیز می‌تواند توسعه مقررات دولتی برای این سیستم‌های هوش مصنوعی را تسریع کند.

زیکو کولتر، پروفسور کارنگی ملون و نویسنده این گزارش، به تایمز گفت: «راه حل واضحی وجود ندارد. “شما می توانید هر تعداد از این حملات را که می خواهید در مدت زمان کوتاهی ایجاد کنید.”

قبل از انتشار عمومی این تحقیق، نویسندگان آن را با Anthropic، Google و OpenAI به اشتراک گذاشتند که همگی تعهد خود را به بهبود روش های ایمنی برای چت ربات های هوش مصنوعی خود ابراز کردند. آنها اذعان کردند که باید کار بیشتری برای محافظت از مدل های خود در برابر حملات دشمن انجام شود.

امیدواریم از این مقاله مجله هشت پیک نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 8pic باشید