در ماه مه 2025 ، Enkrypt AI خود را منتشر کرد گزارش تیمی چند حالته قرمز، یک تجزیه و تحلیل سرمازدگی که نشان داد چگونه سیستم های AI به راحتی پیشرفته می توانند در تولید محتوای خطرناک و غیر اخلاقی دستکاری شوند. این گزارش بر روی دو مدل پیشرو در زمینه چشم انداز میسترال-با شکوه بزرگ (25.02) و Pixstral-12B-متمرکز شده است و تصویری از مدل هایی را نقاشی می کند که نه تنها از نظر فنی چشمگیر هستند بلکه از نظر مزاحم آسیب پذیر هستند.
مدل های بینایی زبان (VLMS) مانند Pixstral برای تفسیر هر دو ورودی بصری و متنی ساخته شده است و به آنها امکان می دهد تا هوشمندانه به سوابق پیچیده و واقعی در دنیای واقعی پاسخ دهند. اما این توانایی با افزایش خطر همراه است. بر خلاف مدل های زبان سنتی که فقط متن را پردازش می کنند ، VLM ها می توانند تحت تأثیر تعامل بین تصاویر و کلمات قرار بگیرند و درهای جدیدی را برای حملات دشمن باز می کنند. آزمایش Enkrypt AI نشان می دهد که چگونه می توان این درها را به راحتی باز کرد.
نتایج آزمون هشدار دهنده: خرابی CSEM و CBRN
تیم پشت گزارش از پیشرفته استفاده کرده است تیم سازی روشها-نوعی ارزیابی مخالف که برای تقلید از تهدیدات در دنیای واقعی طراحی شده است. این آزمایشات از تاکتیک هایی مانند فرار از زندان استفاده کرده است (باعث می شود مدل با نمایش داده های دقیق برای دور زدن فیلترهای ایمنی) ، فریب مبتنی بر تصویر و دستکاری در زمینه. به طرز نگران کننده ، 68 ٪ از این مخالفان ، پاسخ های مضر را در دو مدل پیکسل ، از جمله محتوایی که مربوط به نظافت ، بهره برداری و حتی طراحی سلاح های شیمیایی است ، ایجاد می کند.
یکی از برجسته ترین افشاگری ها شامل مواد استثمار جنسی کودک (CSEM) است. این گزارش نشان می دهد که مدل های MISTRAL 60 برابر بیشتر در مقایسه با معیارهای صنعت مانند GPT-4O و Claude 3.7 Sonnet ، محتوای مرتبط با CSEM تولید می کنند. در موارد آزمایشی ، مدل ها به مطالب نظافت مبدل با محتوای ساخت یافته و چند پاراگراف پاسخ دادند که نحوه دستکاری افراد زیر سن قانونی-که در سلب مسئولیت های متضاد مانند “فقط برای آگاهی آموزشی” وجود دارد. این مدل ها به سادگی نتوانستند سؤالات مضر را رد کنند – آنها به طور مفصل آنها را تکمیل می کردند.
به همان اندازه نگران کننده بود که نتایج در گروه ریسک CBRN (شیمیایی ، بیولوژیکی ، رادیولوژیکی و هسته ای) بود. در صورت درخواست با درخواستی در مورد نحوه اصلاح عامل عصب VX – سلاح شیمیایی – این مدل ها ایده های تکان دهنده ای خاص برای افزایش پایداری خود در محیط ارائه می دهند. آنها ، در جزئیات اصلاح شده اما کاملاً فنی ، روشهایی مانند کپسوله سازی ، محافظت از محیط زیست و سیستم های انتشار کنترل شده را توصیف کردندبشر
این شکست ها همیشه توسط درخواست های کاملاً مضر انجام نمی شد. یک تاکتیک شامل بارگذاری تصویری از یک لیست شماره خالی و درخواست از مدل برای “پر کردن جزئیات” است. این فوریت ساده و به ظاهر بی نظیر منجر به تولید دستورالعمل های غیر اخلاقی و غیرقانونی شد. تلفیق دستکاری بصری و متنی به ویژه خطرناک بود – روشن کردن یک چالش منحصر به فرد که توسط هوش مصنوعی چندمودال ایجاد شده است.
چرا مدل های بینایی زبان چالش های امنیتی جدیدی را ایجاد می کنند
در قلب این خطرات ، پیچیدگی فنی مدلهای بینایی زبان نهفته است. این سیستم ها فقط زبان را تجزیه نمی کنند – آنها معنا را در قالب ها ترکیب می کنند ، به این معنی که آنها باید محتوای تصویر را تفسیر کنند ، متن متن را درک کنند و به همین ترتیب پاسخ دهند. این تعامل بردارهای جدیدی را برای بهره برداری معرفی می کند. یک مدل ممکن است به درستی یک متن مضر را به تنهایی رد کند ، اما هنگامی که با یک تصویر پیشنهادی یا زمینه مبهم جفت می شود ، ممکن است تولید خطرناک ایجاد کند.
تیم قرمز Enkrypt AI کشف کرد که چگونه حملات تزریقی متقابل– جایی که نشانه های ظریف در یک روش بر خروجی دیگری تأثیر می گذارد – می تواند مکانیسم های ایمنی استاندارد را کاملاً دور بزند. این شکست ها نشان می دهد که تکنیک های اعتدال سنتی ، که برای سیستم های تکدادی ساخته شده اند ، برای VLM های امروز کافی نیستندبشر
این گزارش همچنین جزئیات نحوه دسترسی به مدل های پیکسترال را شرح می دهد: پیکسل بزرگ از طریق AWS Bedrock و Pixstral-12B از طریق پلت فرم MISTRAL. این زمینه استقرار در دنیای واقعی بیشتر بر فوریت این یافته ها تأکید دارد. این مدل ها محدود به آزمایشگاه ها نیستند – آنها از طریق سیستم عامل های ابر جریان اصلی در دسترس هستند و به راحتی می توانند در محصولات مصرف کننده یا سازمانی ادغام شوند.
چه کاری باید انجام شود: یک طرح برای ایمن تر AI
به اعتبار خود ، Enkrypt AI بیش از برجسته کردن مشکلات انجام می دهد – مسیری را به جلو ارائه می دهد. این گزارش یک استراتژی جامع کاهش را آغاز می کند. آموزش تراز ایمنیبشر این شامل بازآفرینی مدل با استفاده از داده های تیمی قرمز خود برای کاهش حساسیت به سوابق مضر است. تکنیک هایی مانند بهینه سازی اولویت مستقیم (DPO) برای پاسخ های مدل خوب به دور از خروجی های خطرناک توصیه می شود.
همچنین بر اهمیت نگهبانان آگاه از زمینه تأکید می کند-فیلترهای دیمیک که می توانند با در نظر گرفتن متن کامل ورودی چندمودال ، سؤالات مضر را در زمان واقعی تفسیر و مسدود کنند. علاوه بر این ، استفاده از کارت های ریسک مدل به عنوان یک اقدام شفافیت ارائه شده است و به ذینفعان کمک می کند تا محدودیت های مدل و موارد خرابی شناخته شده را درک کنند.
شاید مهمترین توصیه این باشد که با تیمی قرمز به عنوان یک فرآیند در حال انجام رفتار کنید ، نه یک آزمایش یک بار. با تکامل مدل ها ، استراتژی های حمله نیز انجام می شود. فقط ارزیابی مداوم و نظارت فعال می تواند قابلیت اطمینان طولانی مدت را تضمین کند ، به ویژه هنگامی که مدل ها در بخش های حساس مانند مراقبت های بهداشتی ، آموزش یا دفاع مستقر می شوند.
در گزارش تیمی چند حالته قرمز از enkrypt ai یک سیگنال واضح برای صنعت AI است: قدرت چندمودال با مسئولیت چندمودالی همراه است. این مدلها نشان دهنده جهشی به جلو در توانایی هستند ، اما همچنین نیاز به جهشی در نحوه تفکر ما در مورد ایمنی ، امنیت و استقرار اخلاقی داریم. آنها بدون بررسی ، آنها فقط به خطر نمی افتند-آنها آسیب در دنیای واقعی را به خطر می اندازند.
برای هرکسی که در AI در مقیاس بزرگ کار می کند یا به کار می رود ، این گزارش فقط یک هشدار نیست. این یک کتاب پخش است. و نمی توانست در زمان فوری تر بیاید.