فراتر از معیارها: چرا ارزیابی هوش مصنوعی نیاز به بررسی واقعیت دارد


اگر این روزها AI را دنبال کرده اید ، احتمالاً عناوینی را مشاهده کرده اید که دستاوردهای دستیابی به موفقیت مدل های AI را که به سوابق معیار دست می یابند ، گزارش می دهد. از وظایف تشخیص تصویر Imagenet گرفته تا دستیابی به نمرات فوق بشری در ترجمه و تشخیص تصویر پزشکی ، معیارها مدت هاست که استاندارد طلا برای اندازه گیری عملکرد هوش مصنوعی بوده اند. با این حال ، به همان اندازه که ممکن است این اعداد چشمگیر باشد ، آنها همیشه پیچیدگی برنامه های دنیای واقعی را به خود جلب نمی کنند. مدلی که بی عیب و نقص در یک معیار انجام می دهد ، هنوز هم می تواند در محیط های دنیای واقعی آزمایش کند. در این مقاله ، ما به این نتیجه خواهیم رسید که چرا معیارهای سنتی از گرفتن ارزش واقعی هوش مصنوعی کم می شوند و روشهای ارزیابی جایگزین را کشف می کنیم که بهتر منعکس کننده چالش های پویا ، اخلاقی و عملی در استقرار هوش مصنوعی در دنیای واقعی است.

جذابیت معیارها

سالهاست که معیارها پایه و اساس ارزیابی هوش مصنوعی بوده اند. آنها مجموعه داده های استاتیک را برای اندازه گیری کارهای خاص مانند تشخیص شی یا ترجمه دستگاه ارائه می دهند. تصویر، به عنوان مثال ، یک معیار گسترده برای آزمایش طبقه بندی شیء است ، در حالی که جنجال وت روژ با مقایسه آن با متون مرجع نوشته شده انسان ، کیفیت متن تولید شده توسط دستگاه را نمره دهید. این آزمایشات استاندارد به محققان امکان مقایسه پیشرفت و ایجاد رقابت سالم در این زمینه را می دهد. معیارها نقش مهمی در رانندگی پیشرفتهای اساسی در این زمینه داشته اند. به عنوان مثال ، رقابت Imagenet بازی با نشان دادن پیشرفت های دقت قابل توجهی ، نقش مهمی در انقلاب یادگیری عمیق دارد.

با این حال ، معیارها اغلب واقعیت را ساده می کنند. از آنجا که مدل های هوش مصنوعی به طور معمول برای بهبود در یک کار خوب تعریف شده در شرایط ثابت آموزش داده می شوند ، این می تواند منجر به بهینه سازی بیش از حد شود. برای دستیابی به نمرات بالا ، مدل ها ممکن است به الگوهای مجموعه داده که فراتر از معیار نیستند ، تکیه کنند. معروف نمونه یک مدل بینایی است که برای متمایز کردن گرگ ها از Huskies آموزش دیده است. به جای یادگیری متمایز از ویژگی های حیوانات ، این مدل به وجود پیشینه برفی که معمولاً با گرگ ها در داده های آموزش همراه است ، متکی است. در نتیجه ، هنگامی که این مدل با برف در برف ارائه شد ، با اطمینان آن را به عنوان گرگ گمراه کرد. این نشان می دهد که چگونه بیش از حد به یک معیار می تواند منجر به مدل های معیوب شود. به عنوان قانون گودارت اظهار می دارد ، “وقتی یک معیار به یک هدف تبدیل شود ، یک اقدام خوب متوقف می شود.” بنابراین ، هنگامی که نمرات معیار به هدف تبدیل می شوند ، مدل های هوش مصنوعی قانون گودارت را نشان می دهند: آنها نمرات چشمگیر را در تابلوهای رهبر ایجاد می کنند اما در مقابله با چالش های دنیای واقعی تلاش می کنند.

انتظارات انسانی در مقابل نمرات متریک

یکی از بزرگترین محدودیت های معیارها این است که آنها اغلب نتوانند آنچه را که برای انسان مهم است ، ضبط کنند. ترجمه ماشین را در نظر بگیرید. یک مدل ممکن است در متریک BLEU به خوبی نمره دهد ، که همپوشانی بین ترجمه های تولید شده توسط دستگاه و ترجمه های مرجع را اندازه گیری می کند. در حالی که این متریک می تواند از نظر همپوشانی سطح کلمه چقدر قابل قبول باشد ، اما تسلط یا معنی آن را به خود اختصاص نمی دهد. یک ترجمه با وجود طبیعی تر یا حتی دقیق تر ، می تواند ضعیف باشد ، فقط به این دلیل که از متن های مختلف از مرجع استفاده می کرد. با این حال ، کاربران انسانی به معنی و تسلط ترجمه ها اهمیت می دهند ، نه فقط مسابقه دقیق با یک مرجع. همین مسئله در مورد خلاصه متن اعمال می شود: یک نمره بالا روژ تضمین نمی کند که خلاصه ای منسجم باشد یا نکات کلیدی را که یک خواننده انسانی انتظار دارد ، ضبط کند.

برای مدل های AI تولیدی ، مسئله حتی چالش برانگیز تر می شود. به عنوان مثال ، مدل های بزرگ زبان (LLM) به طور معمول بر روی یک معیار ارزیابی می شوند mmlu برای آزمایش توانایی آنها در پاسخ به سؤالات در چندین حوزه. در حالی که معیار ممکن است به آزمایش عملکرد LLMS برای پاسخ به سؤالات کمک کند ، اما قابلیت اطمینان را تضمین نمی کند. این مدل ها هنوز هم می توانند “توهین، “ارائه حقایق دروغین و در عین حال قابل قبول. مورد، یک دستیار هوش مصنوعی که برای تهیه یک خلاصه حقوقی ذکر شده است که به طور کامل پرونده های دادگاه جعلی استناد شده است. هوش مصنوعی می تواند بر روی کاغذ قانع کننده به نظر برسد اما انتظارات اساسی انسان برای حقیقت را شکست.

چالش های معیارهای استاتیک در زمینه های پویا

  • سازگار با تغییر محیط

معیارهای استاتیک عملکرد AI را در شرایط کنترل شده ارزیابی می کنند ، اما سناریوهای دنیای واقعی غیرقابل پیش بینی هستند. به عنوان مثال ، یک هوش مصنوعی مکالمه ممکن است در یک معیار از سؤالات تک نوبت ضبط شده و تک نوبت برتری داشته باشد ، اما در یک گفتگوی چند مرحله ای که شامل پیگیری ها ، عامیانه یا تایپ ها است ، مبارزه می کند. به همین ترتیب ، اتومبیل های خودران اغلب در آزمایشات تشخیص شیء در شرایط ایده آل عملکرد خوبی دارند اما شکست خوردن در شرایط غیرمعمول ، مانند روشنایی ضعیف ، هوای نامطلوب یا موانع غیر منتظره. به عنوان مثال ، یک علامت توقف با برچسب می تواند تغییر کند گیج کردن سیستم بینایی خودرو ، که منجر به تفسیر نادرست می شود. این مثالها نشان می دهد که معیارهای استاتیک به طور قابل اعتماد پیچیدگی های دنیای واقعی را اندازه گیری نمی کنند.

  • ملاحظات اخلاقی و اجتماعی

معیارهای سنتی اغلب در ارزیابی عملکرد اخلاقی هوش مصنوعی ناکام هستند. یک مدل تشخیص تصویر ممکن است به دقت بالایی برسد اما بدبخت کردن افراد برخی از گروه های قومی به دلیل داده های آموزش مغرضانه. به همین ترتیب ، مدل های زبان می توانند ضمن تولید محتوای مغرضانه یا مضر ، در دستور زبان و تسلط خوبی کسب کنند. این موضوعات ، که در معیارهای معیار منعکس نشده اند ، در کاربردهای دنیای واقعی عواقب قابل توجهی دارند.

  • عدم توانایی در گرفتن جنبه های ظریف

معیارها در بررسی مهارت های سطح سطح بسیار عالی هستند ، مانند اینکه آیا یک مدل می تواند متن گرامری صحیح را تولید کند یا یک تصویر واقع بینانه. اما آنها غالباً با خصوصیات عمیق تر ، مانند استدلال عقل سلیم یا مناسب بودن متنی ، مبارزه می کنند. به عنوان مثال ، یک مدل ممکن است با تولید یک جمله کامل در یک معیار برتری داشته باشد ، اما اگر این جمله در واقع نادرست باشد ، بی فایده است. هوش مصنوعی باید درک کند کی وت چگونه برای گفتن چیزی ، نه فقط چه گفتن معیارها به ندرت این سطح از اطلاعات را آزمایش می کنند ، که برای برنامه هایی مانند چت بابات یا ایجاد محتوا بسیار مهم است.

مدل های هوش مصنوعی غالباً برای سازگاری با زمینه های جدید تلاش می کنند ، به ویژه هنگامی که با داده های خارج از مجموعه آموزش خود روبرو می شوند. معیارها معمولاً با داده هایی مشابه با آنچه در این مدل آموزش داده شده است ، طراحی می شوند. این بدان معناست که آنها کاملاً آزمایش نمی کنند که چگونه یک مدل می تواند ورودی جدید یا غیر منتظره را کنترل کند-یک نیاز مهم در برنامه های دنیای واقعی. به عنوان مثال ، یک Chatbot ممکن است از سؤالات معیار بهتر عمل کند اما وقتی کاربران چیزهای نامربوط مانند موضوعات عامیانه یا طاقچه را می پرسند ، مبارزه می کنند.

در حالی که معیارها می توانند تشخیص الگوی یا تولید محتوا را اندازه گیری کنند ، اغلب در استدلال و استنباط سطح بالاتر کوتاه می شوند. هوش مصنوعی باید بیشتر از الگوهای تقلید انجام دهد. این باید پیامدها را درک کند ، ارتباطات منطقی ایجاد کند و اطلاعات جدیدی را استنباط کند. به عنوان مثال ، یک مدل ممکن است یک پاسخ واقعی را ایجاد کند اما نتوانسته است آن را به طور منطقی به یک مکالمه گسترده تر متصل کند. معیارهای فعلی ممکن است این مهارتهای پیشرفته شناختی را به طور کامل ضبط نکنند ، و ما را با دید ناقص از قابلیت های هوش مصنوعی به ما منتقل می کند.

فراتر از معیارها: یک رویکرد جدید برای ارزیابی هوش مصنوعی

برای ایجاد شکاف بین عملکرد معیار و موفقیت در دنیای واقعی ، یک رویکرد جدید برای ارزیابی هوش مصنوعی در حال ظهور است. در اینجا برخی از استراتژی ها که در حال افزایش است:

  • بازخورد انسان در حلقه: به جای تکیه فقط به معیارهای خودکار ، ارزیابان انسانی را در این فرآیند درگیر کنید. این می تواند به معنای داشتن متخصصان یا کاربران نهایی باشد که بازده هوش مصنوعی را برای کیفیت ، سودمندی و مناسب بودن ارزیابی می کند. انسانها در مقایسه با معیارها می توانند جنبه هایی مانند لحن ، ارتباط و توجه اخلاقی را بهتر ارزیابی کنند.
  • آزمایش استقرار در دنیای واقعی: سیستم های هوش مصنوعی باید در محیط هایی که نزدیک به شرایط دنیای واقعی هستند آزمایش شوند. به عنوان مثال ، خودروهای خودران می توانند در جاده های شبیه سازی شده با سناریوهای ترافیکی غیرقابل پیش بینی ، محاکمه کنند ، در حالی که می توان در محیط های زنده برای انجام مکالمات متنوع در محیط های زنده مستقر شد. این تضمین می کند که مدل ها در شرایطی که در واقع با آن روبرو هستند ارزیابی می شوند.
  • استحکام و آزمایش استرس: آزمایش سیستم های AI در شرایط غیرمعمول یا مخالف بسیار مهم است. این می تواند شامل آزمایش یک مدل تشخیص تصویر با تصاویر تحریف شده یا پر سر و صدا یا ارزیابی یک مدل زبان با دیالوگ های طولانی و پیچیده باشد. با درک چگونگی رفتار AI تحت استرس ، می توانیم آن را برای چالش های دنیای واقعی بهتر آماده کنیم.
  • معیارهای ارزیابی چند بعدی: به جای تکیه بر یک نمره معیار واحد ، هوش مصنوعی را در طیف وسیعی از معیارها از جمله دقت ، انصاف ، استحکام و ملاحظات اخلاقی ارزیابی کنید. این رویکرد جامع درک جامع تری از نقاط قوت و ضعف یک مدل هوش مصنوعی ارائه می دهد.
  • تست های خاص دامنه: ارزیابی باید به دامنه خاصی که در آن AI مستقر خواهد شد ، سفارشی شود. به عنوان مثال ، هوش مصنوعی پزشکی باید بر روی مطالعات موردی که توسط متخصصان پزشکی طراحی شده است ، آزمایش شود ، در حالی که یک هوش مصنوعی برای بازارهای مالی باید برای ثبات آن در طی نوسانات اقتصادی ارزیابی شود.

خط پایین

در حالی که معیارها تحقیقات AI پیشرفته دارند ، اما در ضبط عملکرد در دنیای واقعی کوتاه می آیند. با حرکت هوش مصنوعی از آزمایشگاه ها به کاربردهای عملی ، ارزیابی هوش مصنوعی باید محور و کل نگر باشد. آزمایش در شرایط دنیای واقعی ، شامل بازخورد انسان و اولویت بندی انصاف و استحکام بسیار مهم است. هدف این نیست که تابلوهای برتر بلکه توسعه هوش مصنوعی قابل اعتماد ، سازگار و با ارزش در دنیای پویا و پیچیده باشد.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *