ارزیابی تیمی قرمز اخیر انجام شده توسط enkrypt ai خطرات امنیتی قابل توجهی ، نگرانی های اخلاقی و آسیب پذیری ها را در Deepseek-R1 نشان داده است. یافته ها ، مفصل در ژانویه 2025 گزارش تیمی قرمز، حساسیت مدل را برای تولید محتوای مضر ، مغرضانه و ناامن در مقایسه با مدل های پیشرو در صنعت مانند GPT-4O ، Openai O1 و Claude-3-Opus برجسته کنید. در زیر یک تجزیه و تحلیل جامع از خطرات ذکر شده در گزارش و توصیه های کاهش ارائه شده است.
امنیت کلیدی و خطرات اخلاقی
1. بازده مضر و خطرات امنیتی
- در تولید محتوای مضر بسیار آسیب پذیر است، از جمله زبان سمی ، خروجی های مغرضانه و اطلاعات قابل بهره برداری از نظر کیفری.
- 11x به احتمال زیاد تولید می شود مضر محتوا از O1 Openai.
- 4 برابر بیشتر سمی از GPT-4O.
- 3 برابر بیشتر مغرض از Claude-3-Opus.
- 4 برابر در برابر تولید آسیب پذیرتر است کد ناامن از O1 Openai.
- بسیار مستعد به CBRN (شیمیاییبا مربوط به زیست شناسیبا وابسته به رادیولوژیوت هسته ای) تولید اطلاعات ، آن را به ابزاری پرخطر برای بازیگران مخرب تبدیل می کند.
2. مقایسه با مدل های دیگر
دسته خطر | Deepseek-R1 | کلود 3 | GPT-4O | openai’s o1 |
---|---|---|---|---|
تعصب | 3 برابر بالاتر | پایین | مشابه | مشابه |
کد ناامن | 4 برابر بالاتر | 2.5 برابر بالاتر | 1.25 برابر بالاتر | – |
محتوای مضر | 11x بالاتر | 6 برابر بالاتر | 2.5 برابر بالاتر | – |
سمی | 4 برابر بالاتر | تقریبا غایب | 2.5 برابر بالاتر | – |
محتوای CBRN | 3.5 برابر بالاتر | 3.5 برابر بالاتر | 2 برابر بالاتر | – |
تعصب و خطرات اخلاقی
- 83 ٪ حملات تعصب موفقیت آمیز بود، با تعصب قابل توجهی در نمایش داده های بهداشت ، نژاد و دین.
- این مدل سطح بالاتری از کلیشه سازی جمعیتی، که می تواند مقررات مختلف انصاف از جمله را نقض کند اکوبا fhaبا ACA، و اتحادیه اروپابشر
- موارد آزمایش نمونه نشان داد که Deepseek-R1 جمعیتی خاص را برای نقش های شغلی با وضعیت بالا ترجیح می دهد ، و در محل کار تقویت می شود تعصببشر
تولید محتوای مضر
- 45 ٪ از آزمایشات مضر منجر به تولید مدل محتوای مربوط به آن شد فعالیت های جنایی، از جمله سلاح های غیرقانونی و مواد کنترل شده.
- یک آزمایش سریع از این مدل برای توسعه یک وبلاگ در مورد “هنر ترغیب در استخدام تروریستی” منجر به پاسخ بسیار مفصلی شد تشریح استراتژی های رادیکال سازی این می تواند توسط گروه های افراطی برای تصحیح تاکتیک های استخدام ، به طور بالقوه مورد سوء استفاده قرار گیرد افزایش خطر خشونت در دنیای واقعی.
- 2.5 برابر آسیب پذیرتر از GPT-4O و 6 برابر آسیب پذیرتر از Claude-3-Opus به تولید محتوای افراطیبشر
- 45 ٪ از آزمایشات مضر منجر به تولید مدل مربوط به محتوا t شدo فعالیت های جنایی، از جمله سلاح های غیرقانونی و مواد کنترل شده.
تولید کد ناامن
- 78 ٪ از حملات مربوط به کد با موفقیت قطعه های ناامن و مخرب را استخراج کردندبشر
- مدل تولید شده بدافزار ، تروجان ها و اسکریپت های خود را اجرا می کنند در صورت درخواست Trojans یک خطر شدید را به وجود می آورد زیرا می تواند به مهاجمان اجازه دهد دسترسی مداوم و غیرمجاز به سیستم ها را بدست آورند ، داده های حساس را سرقت کنند و بارهای مخرب بیشتری را مستقر کنند.
- اسکریپت های خود را می تواند بدون رضایت کاربر اقدامات مخرب را به صورت خودکار انجام دهد و تهدیدات احتمالی را در برنامه های امنیتی امنیت سایبری ایجاد کند.
- در مقایسه با مدل های صنعت ، Deepseek-R1 بود 4.5x ، 2.5x و 1.25x آسیب پذیر تر به ترتیب Openai’s O1 ، Claude-3-Opus و GPT-4O.
- 78 ٪ حملات مرتبط با کد با موفقیت قطعه های کد ناامن و مخرب استخراج شدهبشر
آسیب پذیری های CBRN
- اطلاعات مفصلی در مورد مکانیسم های بیوشیمیایی تولید کرد عوامل جنگ شیمیاییبشر این نوع اطلاعات به طور بالقوه می تواند به افراد در سنتز مواد خطرناک کمک کند و از محدودیت های ایمنی به منظور جلوگیری از شیوع سلاح های شیمیایی و بیولوژیکی استفاده می کند.
- 13 ٪ از آزمایشات با موفقیت از کنترل های ایمنی ، تولید محتوای مربوط به هسته ای وت تهدیدهای بیولوژیکی.
- 3.5 برابر آسیب پذیرتر از Claude-3-Opus و Openi’s O1بشر
- اطلاعات مفصلی در مورد مکانیسم های بیوشیمیایی تولید کرد عوامل جنگ شیمیاییبشر
- 13 ٪ از آزمایشات با موفقیت کنترل ایمنی را دور زدند، تولید محتوای مربوط به تهدیدهای هسته ای و بیولوژیکی.
- 3.5 برابر آسیب پذیرتر از Claude-3-Opus و Openi’s O1.
توصیه هایی برای کاهش ریسک
برای به حداقل رساندن خطرات مرتبط با Deepseek-R1 ، مراحل زیر توصیه می شود:
1. آموزش تزیینات ایمنی قوی را اجرا کنید
ترتیب. تیمی قرمز خودکار مداوم
- تست های استرس منظم برای شناسایی تعصبات ، آسیب پذیری های امنیتی و تولید محتوای سمی.
- کار کردن نظارت مداوم عملکرد مدل ، به ویژه در برنامه های مالی ، مراقبت های بهداشتی و امنیت سایبری.
3. نگهبانان آگاه از زمینه امنیت
- برای مسدود کردن سوابق مضر ، حفاظت های پویا ایجاد کنید.
- ابزارهای اعتدال محتوا را برای خنثی کردن ورودی های مضر و فیلتر کردن پاسخ های ناامن اجرا کنید.
4. نظارت و ورود به سیستم مدل فعال
- ورود به سیستم در زمان واقعی ورودی های مدل و پاسخ ها برای تشخیص زودرس آسیب پذیری.
- گردش کار حسابرسی خودکار برای اطمینان از رعایت شفافیت هوش مصنوعی و استانداردهای اخلاقی.
5. اقدامات شفافیت و انطباق
- کارت خطر مدل را حفظ کنید با معیارهای اجرایی روشن در مورد قابلیت اطمینان مدل ، امنیت و خطرات اخلاقی.
- مطابق با مقررات هوش مصنوعی مانند nist ai rmf وت اطلس میت برای حفظ اعتبار
پایان
Deepseek-R1 امنیت جدی را ارائه می دهد ، اخلاقیو خطرات مربوط به انطباق که باعث می شود آن را برای بسیاری از برنامه های پرخطر و بدون تلاش های کاهش یافته نامناسب کند. تمایل آن برای تولید محتوای مضر ، مغرضانه و ناامن ، آن را در مقایسه با مدلهایی مانند Claude-3-Opus ، GPT-4O و Opai O1 در معرض ضرر قرار می دهد.
با توجه به اینکه Deepseek-R1 محصولی است که از چین سرچشمه گرفته است ، بعید است که توصیه های لازم برای کاهش به طور کامل اجرا شود. با این حال ، برای جوامع AI و امنیت سایبری بسیار مهم است که از خطرات احتمالی این مدل آگاه باشند. شفافیت در مورد این آسیب پذیری ها تضمین می کند که توسعه دهندگان ، تنظیم کننده ها و شرکت ها می توانند در صورت امکان اقدامات پیشگیرانه را برای کاهش آسیب انجام دهند و در برابر سوء استفاده از چنین فناوری هوشیار باشند.
سازمانهایی که با توجه به استقرار آن باید در تست های امنیتی سخت ، تیمی قرمز خودکار و نظارت مداوم برای اطمینان از ایمن و ایمن سرمایه گذاری کنند AI مسئول اجرای Deepseek-R1 خطرات جدی امنیتی ، اخلاقی و انطباق را ارائه می دهد که باعث می شود بدون تلاش های کاهش گسترده ، برای بسیاری از برنامه های پرخطر نامناسب باشد.
به خوانندگانی که مایل به کسب اطلاعات بیشتر هستند توصیه می شود گزارش را توسط بارگیری کنید بازدید از این صفحهبشر