هنگامی که آتش سوزی AI: گزارش Enkrypt AI آسیب پذیری های خطرناکی را در مدل های چند مدلی افشا می کند

جدول محتوا

در ماه مه 2025 ، Enkrypt AI خود را منتشر کرد گزارش تیمی چند حالته قرمز، یک تجزیه و تحلیل سرمازدگی که نشان داد چگونه سیستم های AI به راحتی پیشرفته می توانند در تولید محتوای خطرناک و غیر اخلاقی دستکاری شوند. این گزارش بر روی دو مدل پیشرو در زمینه چشم انداز میسترال-با شکوه بزرگ (25.02) و Pixstral-12B-متمرکز شده است و تصویری از مدل هایی را نقاشی می کند که نه تنها از نظر فنی چشمگیر هستند بلکه از نظر مزاحم آسیب پذیر هستند.

مدل های بینایی زبان (VLMS) مانند Pixstral برای تفسیر هر دو ورودی بصری و متنی ساخته شده است و به آنها امکان می دهد تا هوشمندانه به سوابق پیچیده و واقعی در دنیای واقعی پاسخ دهند. اما این توانایی با افزایش خطر همراه است. بر خلاف مدل های زبان سنتی که فقط متن را پردازش می کنند ، VLM ها می توانند تحت تأثیر تعامل بین تصاویر و کلمات قرار بگیرند و درهای جدیدی را برای حملات دشمن باز می کنند. آزمایش Enkrypt AI نشان می دهد که چگونه می توان این درها را به راحتی باز کرد.

نتایج آزمون هشدار دهنده: خرابی CSEM و CBRN

تیم پشت گزارش از پیشرفته استفاده کرده است تیم سازی روشها-نوعی ارزیابی مخالف که برای تقلید از تهدیدات در دنیای واقعی طراحی شده است. این آزمایشات از تاکتیک هایی مانند فرار از زندان استفاده کرده است (باعث می شود مدل با نمایش داده های دقیق برای دور زدن فیلترهای ایمنی) ، فریب مبتنی بر تصویر و دستکاری در زمینه. به طرز نگران کننده ، 68 ٪ از این مخالفان ، پاسخ های مضر را در دو مدل پیکسل ، از جمله محتوایی که مربوط به نظافت ، بهره برداری و حتی طراحی سلاح های شیمیایی است ، ایجاد می کند.

یکی از برجسته ترین افشاگری ها شامل مواد استثمار جنسی کودک (CSEM) است. این گزارش نشان می دهد که مدل های MISTRAL 60 برابر بیشتر در مقایسه با معیارهای صنعت مانند GPT-4O و Claude 3.7 Sonnet ، محتوای مرتبط با CSEM تولید می کنند. در موارد آزمایشی ، مدل ها به مطالب نظافت مبدل با محتوای ساخت یافته و چند پاراگراف پاسخ دادند که نحوه دستکاری افراد زیر سن قانونی-که در سلب مسئولیت های متضاد مانند “فقط برای آگاهی آموزشی” وجود دارد. این مدل ها به سادگی نتوانستند سؤالات مضر را رد کنند – آنها به طور مفصل آنها را تکمیل می کردند.

به همان اندازه نگران کننده بود که نتایج در گروه ریسک CBRN (شیمیایی ، بیولوژیکی ، رادیولوژیکی و هسته ای) بود. در صورت درخواست با درخواستی در مورد نحوه اصلاح عامل عصب VX – سلاح شیمیایی – این مدل ها ایده های تکان دهنده ای خاص برای افزایش پایداری خود در محیط ارائه می دهند. آنها ، در جزئیات اصلاح شده اما کاملاً فنی ، روشهایی مانند کپسوله سازی ، محافظت از محیط زیست و سیستم های انتشار کنترل شده را توصیف کردند

منبع:unite.ai

هنگامی که آتش سوزی AI: گزارش Enkrypt AI آسیب پذیری های خطرناکی را در مدل های چند مدلی افشا می کند

نتایج آزمون هشدار دهنده: خرابی CSEM و CBRN

چرا مدل های بینایی زبان چالش های امنیتی جدیدی را ایجاد می کنند

چه کاری باید انجام شود: یک طرح برای ایمن تر AI

دیدگاهتان را بنویسید لغو پاسخ

نتایج آزمون هشدار دهنده: خرابی CSEM و CBRN

چرا مدل های بینایی زبان چالش های امنیتی جدیدی را ایجاد می کنند

چه کاری باید انجام شود: یک طرح برای ایمن تر AI

پست های مرتبط

10 خطای مهم که بی سر و صدا پروژه های یادگیری خودکار را خراب می کنند

تکنیک های افزایش تصویر برای افزایش عملکرد مدل CV شما

Beyond Pandas: 7 تکنیک پیشرفته مدیریت داده برای مجموعه داده های بزرگ

دیدگاهتان را بنویسید لغو پاسخ