هوش مصنوعی به سرعت در حال گسترش است و مانند هر فناوری که به سرعت بلوغ می شود ، به مرزهای کاملاً تعریف شده نیاز دارد-روشن ، عمدی و نه تنها برای محدود کردن بلکه برای محافظت و توانمندسازی. این امر به ویژه صادق است زیرا هوش مصنوعی تقریباً در هر جنبه ای از زندگی شخصی و حرفه ای ما تعبیه شده است.
به عنوان رهبران در هوش مصنوعی ، ما در یک لحظه مهم ایستاده ایم. از یک طرف ، ما مدل هایی داریم که سریعتر از هر فناوری قبل از آن یاد می گیرند و سازگار می شوند. از طرف دیگر ، یک مسئولیت در حال افزایش برای اطمینان از عملکرد آنها با ایمنی ، یکپارچگی و تراز عمیق انسانی است. این یک لوکس نیست – این پایه و اساس هوش مصنوعی واقعاً قابل اعتماد است.
امروز اعتماد به نفس امروز است
چند سال گذشته شاهد پیشرفتهای چشمگیر در مدل های زبان ، استدلال چندمودالی و AI عامل بوده است. اما با هر قدم به جلو ، سهام بیشتر می شود. هوش مصنوعی در حال شکل گیری تصمیمات تجاری است ، و ما دیده ایم که حتی کوچکترین اشتباهات عواقب خوبی نیز دارند.
به عنوان مثال ، هوش مصنوعی را در دادگاه قرار دهید. همه ما داستانهایی از وکلا را شنیده ایم که به استدلال های تولید شده توسط AI متکی هستند ، فقط برای یافتن مدل های ساختگی مدل ، گاهی اوقات منجر به اقدامات انضباطی یا بدتر ، از دست دادن مجوز می شوند. در واقع ، مدلهای قانونی حداقل در توهم قرار گرفته اند از هر شش نمایش داده شد. حتی بیشتر مورد توجه مواردی مانند پرونده غم انگیز که شامل شخصیت است. ویژگی های ایمنی، جایی که یک چت بابات با خودکشی یک نوجوان مرتبط بود. این مثالها خطرات دنیای واقعی را از هوش مصنوعی بررسی نشده و مسئولیت بحرانی که ما به عنوان رهبران فناوری بر عهده داریم ، نه تنها برای ساختن ابزارهای باهوش تر ، بلکه برای ساختن مسئولیت پذیری ، با بشریت در هسته ، برجسته می کند.
مورد شخصیت .ai یک یادآوری ترسناک است که چرا اعتماد باید در پایه و اساس هوش مصنوعی مکالمه قرار گیرد ، جایی که مدل ها فقط پاسخ نمی دهند بلکه در زمان واقعی درگیر ، تفسیر و سازگار می شوند. در تعامل صوتی محور یا پر سر و صدا ، حتی یک پاسخ توهم یافته یا پاسخ خارج از کلید می تواند اعتماد را از بین ببرد یا آسیب واقعی ایجاد کند. GuardRails -حفاظت های فنی ، رویه ای و اخلاقی ما -اختیاری نیست. آنها برای حرکت سریع در حین محافظت از آنچه مهم است ، ضروری هستند: ایمنی انسان ، یکپارچگی اخلاقی و اعتماد ماندگار.
تکامل AI ایمن ، تراز
GuardRails جدید نیست. در نرم افزارهای سنتی ، ما همیشه قوانین اعتبار سنجی ، دسترسی مبتنی بر نقش و بررسی های انطباق داشته ایم. اما هوش مصنوعی سطح جدیدی از غیرقابل پیش بینی را معرفی می کند: رفتارهای ظهور ، خروجی های ناخواسته و استدلال مات.
ایمنی AI مدرن اکنون چند بعدی است. برخی از مفاهیم اصلی عبارتند از:
- تراز رفتاری از طریق تکنیک هایی مانند یادگیری تقویت از بازخورد انسانی (RLHF) و هوش مصنوعی قانون اساسی ، هنگامی که به مدل مجموعه ای از “اصول” هدایت را ارائه می دهید-نوع مانند یک کد کوچک اخلاق
- چارچوبهای حاکمیت که چرخه های سیاست ، اخلاق و بررسی را یکپارچه می کند
- ابزار در زمان واقعی برای تشخیص پویا ، فیلتر یا پاسخ های صحیح
آناتومی GuardRails AI
مک کینزی GuardRails را به عنوان سیستمهایی که برای نظارت ، ارزیابی و تصحیح محتوای تولید شده توسط AI برای اطمینان از ایمنی ، صحت و تراز اخلاقی طراحی شده است. این نگهبانان به ترکیبی از مؤلفه های مبتنی بر قانون و AI ، مانند چکرها ، تصحیح کننده ها و عوامل هماهنگ ، متکی هستند تا موضوعاتی مانند تعصب ، اطلاعات شناسایی شخصی (PII) یا محتوای مضر را تشخیص دهند و به طور خودکار خروجی ها را قبل از تحویل تصحیح کنند.
بیایید آن را تجزیه کنیم:
قبل از رسیدن سریع به مدل ، نگهبانان ورودی قصد ، ایمنی و مجوزهای دسترسی را ارزیابی می کنند. این شامل فیلتر کردن و ضد عفونی کننده ها برای رد هر چیز ناامن یا مزخرف ، اجرای کنترل دسترسی برای داده های حساس یا داده های سازمانی ، و تشخیص اینکه آیا هدف کاربر با یک مورد استفاده تأیید شده مطابقت دارد.
هنگامی که مدل پاسخی ایجاد کرد ، گارد محافظ خروجی برای ارزیابی و پالایش آن قدم می گذارد. آنها زبان سمی ، گفتار نفرت یا اطلاعات نادرست را فیلتر می کنند ، پاسخ های ناامن را در زمان واقعی سرکوب یا بازنویسی می کنند و از کاهش تعصب یا ابزارهای بررسی واقعیت برای کاهش توهم و پاسخ های زمینی در متن واقعی استفاده می کنند.
نگهبان های رفتاری حاکی از آن است که چگونه مدل ها با گذشت زمان رفتار می کنند ، به ویژه در تعامل چند مرحله ای یا حساس به متن. اینها شامل محدود کردن حافظه برای جلوگیری از دستکاری سریع ، محدود کردن جریان توکن برای جلوگیری از حملات تزریق و تعیین مرزها برای آنچه مدل مجاز به انجام نیست.
این سیستم های فنی برای GuardRails هنگام تعبیه در چندین لایه از پشته AI بهتر کار می کنند.
یک رویکرد مدولار تضمین می کند که حفاظت ها زائد و مقاوم هستند ، و در نقاط مختلف خرابی ها را به خود اختصاص داده و خطر ابتلا به نقاط تنها را کاهش می دهد. در سطح مدل ، تکنیک هایی مانند RLHF و AI قانون اساسی به شکل گیری رفتار اصلی کمک می کنند و ایمنی را مستقیماً در نحوه فکر و پاسخ دادن به مدل تعبیه می کنند. لایه میانی نرم افزار برای رهگیری ورودی ها و خروجی ها در زمان واقعی ، فیلتر کردن زبان سمی ، اسکن برای داده های حساس و در صورت لزوم ، در اطراف مدل می پیچد. در سطح گردش کار ، GuardRails منطق و دسترسی را در فرایندهای چند مرحله ای یا سیستم های یکپارچه هماهنگ می کند ، و اطمینان می دهد که هوش مصنوعی به مجوزها احترام می گذارد ، از قوانین تجاری پیروی می کند و در محیط های پیچیده به طور قابل پیش بینی رفتار می کند.
در سطح وسیع تری ، نگهبان های سیستمیک و حاکمیتی نظارت را در کل چرخه عمر هوش مصنوعی ارائه می دهند. سیاهههای مربوط به حسابرسی از شفافیت و قابلیت ردیابی اطمینان می دهند ، بافای فرآیندها بررسی تخصصی را به همراه می آورند و کنترل های دسترسی تعیین می کنند چه کسی می تواند مدل را اصلاح یا فراخوانی کند. برخی از سازمان ها همچنین تابلوهای اخلاق را برای هدایت توسعه مسئول AI با ورودی متقابل عملکردی پیاده سازی می کنند.
هوش مصنوعی مکالمه: جایی که GuardRails واقعاً آزمایش می شود
هوش مصنوعی مکالمه مجموعه ای از چالش ها را به ارمغان می آورد: تعامل در زمان واقعی ، ورودی کاربر غیرقابل پیش بینی و نوار بالایی برای حفظ سودمندی و ایمنی. در این تنظیمات ، نگهبانان فقط فیلترهای محتوا نیستند – آنها به شکل دادن به لحن کمک می کنند ، مرزها را اجرا می کنند و تعیین می کنند که چه زمانی موضوعات حساس را تشدید یا از بین می برند. این ممکن است به معنای تغییر سوالات پزشکی به متخصصان دارای مجوز ، تشخیص و کاهش زبان سوءاستفاده یا حفظ انطباق با اطمینان از ماندن اسکریپت ها در خطوط نظارتی باشد.
در محیط های Frontline مانند خدمات به مشتری یا عملیات میدانی ، حتی فضای کمتری برای خطا وجود دارد. یک پاسخ توهم یا پاسخ خارج از کلید می تواند اعتماد را از بین ببرد یا منجر به عواقب واقعی شود. به عنوان مثال ، یک شرکت هواپیمایی بزرگ با یک دادخواست پس از AI Chatbot خود به مشتری اطلاعات نادرستی در مورد تخفیف های دلهره داد. دادگاه در نهایت این شرکت را برای پاسخ چت بابات پاسخ داد. هیچ کس در این شرایط برنده نمی شود. به همین دلیل است که ما به عنوان ارائه دهندگان فناوری ، مسئولیت کامل خود را برای هوش مصنوعی که ما در دست مشتریان خود قرار داده ایم ، بر عهده داریم.
ایجاد نگهبان کار همه است
GuardRails نه تنها باید به عنوان یک شاهکار فنی بلکه به عنوان یک طرز فکر که باید در هر مرحله از چرخه توسعه تعبیه شود ، رفتار شود. در حالی که اتوماسیون می تواند موضوعات آشکار ، قضاوت ، همدلی و زمینه را نشان دهد ، هنوز هم نیاز به نظارت انسانی دارد. در موقعیت های پر سر و صدا یا مبهم ، مردم برای ایمن سازی هوش مصنوعی ، نه فقط به عنوان یک بازپرداخت بلکه به عنوان یک بخش اصلی سیستم ، ضروری هستند.
برای عملیاتی کردن واقعاً نگهبانان ، آنها باید در چرخه عمر توسعه نرم افزار بافته شوند ، که در پایان به آن توجه نمی شود. این به معنای تعبیه مسئولیت در هر مرحله و هر نقش است. مدیران محصول تعریف می کنند که هوش مصنوعی چه باید و نباید انجام دهد. طراحان انتظارات کاربر را تعیین می کنند و مسیرهای بازیابی برازنده را ایجاد می کنند. مهندسان در قلاب های فال ، نظارت و اعتدال می سازند. تیم های QA موارد لبه را آزمایش می کنند و سوء استفاده را شبیه سازی می کنند. حقوقی و انطباق سیاست ها را به منطق ترجمه می کند. تیم های پشتیبانی به عنوان شبکه ایمنی بشر خدمت می کنند. و مدیران باید اعتماد و ایمنی را از بالا به پایین اولویت بندی کنند و فضای نقشه راه را ایجاد کنند و توسعه متفکرانه و مسئول را پاداش دهند. حتی بهترین مدلها نشانه های ظریف را از دست نمی دهند ، و این جایی است که تیم های آموزش دیده و مسیرهای تشدید شفاف به لایه نهایی دفاع تبدیل می شوند و هوش مصنوعی را در ارزش های انسانی نگه می دارند.
اندازه گیری اعتماد: چگونه می دانیم نگهبان ها کار می کنند
شما نمی توانید آنچه را که اندازه گیری نمی کنید مدیریت کنید. اگر اعتماد به هدف باشد ، ما نیاز به تعاریف روشنی از موفقیت به نظر می رسد ، فراتر از زمان یا تأخیر. معیارهای کلیدی برای ارزیابی نگهبانان شامل دقت ایمنی (هر چند وقت یک بار خروجی های مضر با موفقیت در مقابل مثبت کاذب مسدود می شوند) ، میزان مداخله (هر چند که انسان قدم می گذارد) و عملکرد بازیابی (چقدر سیستم پس از یک شکست عذرخواهی می کند ، تغییر مسیر می دهد یا از بین می رود). سیگنالهایی مانند احساسات کاربر ، نرخ کشویی و سردرگمی مکرر می توانند بینشی در مورد اینکه آیا کاربران در واقع احساس امنیت و درک می کنند ، ارائه دهند. و مهمتر از همه ، سازگاری ، چقدر سریع سیستم دارای بازخورد است ، یک شاخص قوی از قابلیت اطمینان طولانی مدت است.
GuardRails نباید ایستا باشد. آنها باید بر اساس استفاده از دنیای واقعی ، موارد لبه و نقاط کور سیستم تکامل یابند. ارزیابی مداوم کمک می کند تا در محل کار ، جایی که آنها بیش از حد سفت و سخت یا ملایم هستند ، و نحوه پاسخ مدل هنگام آزمایش ، نشان می دهد. بدون دید در نحوه عملکرد نگهبانان با گذشت زمان ، ما به جای سیستم های پویا مورد نیاز آنها ، آنها را به عنوان کادر انتخاب می کنیم.
گفته می شود ، حتی نگهبانان با بهترین طراحی با تجارت ذاتی روبرو هستند. مسدود کردن بیش از حد می تواند کاربران را ناامید کند. مسدود کردن می تواند باعث آسیب شود. تنظیم تعادل بین ایمنی و سودمندی یک چالش ثابت است. GuardRails خود می توانند آسیب پذیری های جدیدی را معرفی کنند – از تزریق سریع گرفته تا تعصب رمزگذاری شده. آنها باید قابل توضیح ، منصفانه و قابل تنظیم باشند ، یا خطر تبدیل شدن به یک لایه دیگر کدورت را دارند.
نگاه کردن
هرچه هوش مصنوعی مکالمه تر شود ، در گردش کار ادغام شود و قادر به انجام وظایف به طور مستقل باشد ، پاسخ های آن باید قابل اعتماد و مسئول باشد. در زمینه هایی مانند حقوقی ، حمل و نقل هوایی ، سرگرمی ، خدمات به مشتری و عملیات خط مقدم ، حتی یک پاسخ واحد تولید شده توسط AI می تواند بر یک تصمیم تأثیر بگذارد یا یک عمل را تحریک کند. GuardRails به اطمینان از این که این تعاملات ایمن و با انتظارات در دنیای واقعی هماهنگ هستند ، اطمینان می دهند. هدف فقط ساختن ابزارهای باهوش تر نیست ، بلکه ساخت ابزاری است که مردم می توانند به آن اعتماد کنند. و در هوش مصنوعی مکالمه ، اعتماد یک امتیاز نیست. این پایه است.