آموزش عوامل هوش مصنوعی در محیط های تمیز باعث می شود که آنها در هرج و مرج برتری داشته باشند


بیشتر آموزش های هوش مصنوعی از یک اصل ساده پیروی می کنند: شرایط آموزش خود را با دنیای واقعی مطابقت دهید. اما تحقیقات جدید از MIT این فرض اساسی را در توسعه هوش مصنوعی به چالش می کشد.

یافته های آنها؟ سیستم های هوش مصنوعی اغلب در شرایط غیرقابل پیش بینی وقتی در محیط های تمیز و ساده آموزش دیده اند – نه در شرایط پیچیده ای که در استقرار با آنها روبرو خواهند شد ، عملکرد بهتری دارند. این کشف فقط تعجب آور نیست – می تواند به خوبی تغییر شکل دهد که ما در مورد ساخت سیستم های هوش مصنوعی با توانایی تر فکر می کنیم.

تیم تحقیق ضمن کار با بازی های کلاسیک مانند Pac-Man و Pong ، این الگوی را پیدا کردند. هنگامی که آنها یک AI را در یک نسخه قابل پیش بینی بازی آموزش دادند و سپس آن را در یک نسخه غیرقابل پیش بینی آزمایش کردند ، به طور مداوم از AIS بهتر عمل می کرد که مستقیماً در شرایط غیرقابل پیش بینی آموزش دیده بود.

در خارج از این سناریوهای بازی ، این کشف پیامدهایی برای آینده توسعه هوش مصنوعی برای کاربردهای دنیای واقعی ، از روباتیک گرفته تا سیستم های تصمیم گیری پیچیده.

رویکرد سنتی

تاکنون ، رویکرد استاندارد برای آموزش AI به دنبال منطق واضح است: اگر می خواهید یک هوش مصنوعی در شرایط پیچیده کار کند ، آن را در همان شرایط آموزش دهید.

این منجر به:

  • محیط های آموزشی طراحی شده برای مطابقت با پیچیدگی در دنیای واقعی
  • آزمایش در چندین سناریو چالش برانگیز
  • سرمایه گذاری سنگین در ایجاد شرایط آموزش واقع بینانه

اما یک مشکل اساسی با این رویکرد وجود دارد: وقتی از ابتدا سیستم های هوش مصنوعی را در شرایط پر سر و صدا و غیرقابل پیش بینی آموزش می دهید ، آنها برای یادگیری الگوهای اصلی تلاش می کنند. پیچیدگی محیط در توانایی آنها در درک اصول اساسی تداخل دارد.

این چندین چالش مهم ایجاد می کند:

  • آموزش به طور قابل توجهی کارآمدتر می شود
  • سیستم ها در شناسایی الگوهای اساسی مشکل دارند
  • عملکرد اغلب از انتظارات کم است
  • نیازهای منابع به طرز چشمگیری افزایش می یابد

کشف تیم تحقیقاتی نشان می دهد که رویکرد بهتری برای شروع با محیط های ساده شده است که به سیستم های AI اجازه می دهد تا قبل از معرفی پیچیدگی ، مفاهیم اصلی را تسلط دهند. این آینه ها روشهای مؤثر تدریس را نشان می دهد ، جایی که مهارت های بنیادی پایه ای برای رسیدگی به موقعیت های پیچیده تر ایجاد می کند.

اثر آموزش داخلی: یک کشف ضد انعطاف پذیر

بگذارید آنچه را که محققان MIT در واقع پیدا کردند ، تجزیه کنیم.

این تیم برای آزمایش های خود دو نوع عامل هوش مصنوعی را طراحی کرد:

  1. عوامل یادگیری: اینها در همان محیط پر سر و صدا آموزش داده و آزمایش شدند
  2. عوامل تعمیم: اینها در محیط های تمیز آموزش داده شدند ، سپس در قسمت های پر سر و صدا آزمایش شدند

برای درک نحوه یادگیری این عوامل ، تیم از چارچوبی به نام استفاده کرد فرآیندهای تصمیم گیری مارکوف (MDP)بشر از MDP به عنوان نقشه ای از همه شرایط و اقدامات ممکن ، یک هوش مصنوعی می تواند همراه با نتایج احتمالی آن اقدامات باشد.

آنها سپس تکنیکی به نام “تزریق سر و صدا” ایجاد کردند تا با دقت کنترل کنند که این محیط ها غیرقابل پیش بینی شدند. این امر به آنها اجازه می دهد تا نسخه های مختلفی از یک محیط را با سطح تصادفی متفاوت ایجاد کنند.

چه چیزی در این آزمایشات “سر و صدا” حساب می شود؟ این عنصر است که نتایج را کمتر قابل پیش بینی می کند:

  • اقداماتی که همیشه نتایج مشابهی ندارند
  • تغییرات تصادفی در نحوه حرکت اوضاع
  • حالت غیر منتظره تغییر می کند

هنگامی که آنها آزمایشات خود را انجام دادند ، اتفاق غیر منتظره ای افتاد. عوامل تعمیم – کسانی که در محیط های تمیز و قابل پیش بینی آموزش دیده اند – اغلب شرایط پر سر و صدا را بهتر از عوامل خاص برای آن شرایط آموزش می دهند.

این تأثیر آنقدر تعجب آور بود که محققان آن را “اثر آموزش داخلی” نامگذاری کردند ، سالهای به چالش کشیدن خرد متعارف در مورد نحوه آموزش سیستم های هوش مصنوعی.

راه خود را برای درک بهتر بازی می کند

تیم تحقیقاتی برای اثبات نظر خود به بازی های کلاسیک روی آوردند. چرا بازی ها؟ از آنجا که آنها محیط های کنترل شده ای را ارائه می دهند که در آن می توانید دقیقاً عملکرد یک AI را اندازه گیری کنید.

در Pac-Man ، آنها دو رویکرد مختلف را آزمایش کردند:

  1. روش سنتی: AI را در نسخه ای آموزش دهید که حرکات شبح غیرقابل پیش بینی باشد
  2. روش جدید: ابتدا در یک نسخه ساده آموزش دهید ، سپس در نسخه غیرقابل پیش بینی تست کنید

آنها تست های مشابهی را با Pong انجام دادند و نحوه پاسخ دادن به دست و پا به کنترل ها را تغییر دادند. چه چیزی در این بازی ها “سر و صدا” حساب می شود؟ مثالها شامل:

  • ارواح که گهگاه در Pac-Man Teleport می شوند
  • بالشتک هایی که همیشه به طور مداوم در پنگ پاسخ نمی دهند
  • تغییرات تصادفی در نحوه حرکت عناصر بازی

نتایج واضح بود: AIS که در محیط های پاک آموزش دیده است ، استراتژی های قوی تری را آموخته است. هنگامی که با موقعیت های غیرقابل پیش بینی روبرو شدند ، آنها بهتر از همتایان خود که در شرایط پر سر و صدا آموزش دیده بودند ، سازگار شدند.

اعداد از این موضوع حمایت کردند. برای هر دو بازی ، محققان دریافتند:

  • نمرات متوسط ​​بالاتر
  • عملکرد سازگارتر
  • سازگاری بهتر با موقعیت های جدید

این تیم چیزی به نام “الگوهای اکتشاف” را اندازه گیری کرد – چگونه هوش مصنوعی استراتژی های مختلفی را در طول آموزش امتحان کرد. AIS که در محیط های تمیز آموزش دیده است ، رویکردهای سیستماتیک تری برای حل مسئله ایجاد کرده است ، که معلوم شد بعداً برای رسیدگی به موقعیت های غیرقابل پیش بینی بسیار مهم است.

درک علم پشت موفقیت

مکانیک پشت اثر آموزش داخلی جالب است. نکته اصلی فقط مربوط به محیط های تمیز و پر سر و صدا نیست – بلکه در مورد چگونگی ایجاد سیستم های هوش مصنوعی است.

هنگامی که آژانس ها در محیط های تمیز کاوش می کنند ، آنها چیز مهمی را توسعه می دهند: الگوهای اکتشافی روشن. مانند ساختن نقشه ذهنی به آن فکر کنید. این عوامل بدون ایجاد سر و صدا تصویر ، نقشه های بهتری از آنچه کار می کند و چه چیزی نیست ، ایجاد می کنند.

این تحقیق سه اصل اصلی را نشان داد:

  • تشخیص الگوی: عوامل در محیط های تمیز الگوهای واقعی را سریعتر شناسایی می کنند ، و از تغییرات تصادفی پریشان نمی شوند
  • توسعه استراتژی: آنها استراتژی های قوی تری می سازند که به موقعیت های پیچیده می رسند
  • کارایی اکتشاف: آنها در طول آموزش جفت های عملکردی مفیدتر را کشف می کنند

داده ها چیز قابل توجهی در مورد الگوهای اکتشاف نشان می دهد. هنگامی که محققان چگونگی کاوش در محیط های خود را اندازه گیری کردند ، آنها همبستگی واضحی پیدا کردند: عوامل با الگوهای اکتشافی مشابه ، بدون در نظر گرفتن جایی که آموزش دیده اند ، بهتر عمل می کنند.

تأثیر در دنیای واقعی

پیامدهای این استراتژی فراتر از محیط های بازی است.

آموزش را در نظر بگیرید روبات برای تولید: به جای اینکه بلافاصله آنها را به شبیه سازی های پیچیده کارخانه پرتاب کنیم ، ممکن است با نسخه های ساده کارها شروع کنیم. این تحقیق نشان می دهد که آنها در واقع از این طریق پیچیدگی های دنیای واقعی را بهتر کنترل می کنند.

برنامه های فعلی می تواند شامل موارد زیر باشد:

  • توسعه روباتیک
  • آموزش خودروهای رانندگی
  • سیستم های تصمیم گیری هوش مصنوعی
  • توسعه AI GAME

این اصل همچنین می تواند نحوه نزدیک شدن ما را بهبود بخشد آموزش AI در هر دامنه شرکت ها به طور بالقوه می توانند:

  • منابع آموزشی را کاهش دهید
  • سیستم های سازگار تر بسازید
  • راه حل های AI قابل اطمینان تری ایجاد کنید

مراحل بعدی در این زمینه به احتمال زیاد کشف خواهد شد:

  • پیشرفت بهینه از محیط های ساده به پیچیده
  • روشهای جدید برای اندازه گیری و کنترل پیچیدگی محیط زیست
  • برنامه های کاربردی در زمینه های AI در حال ظهور

خط پایین

آنچه به عنوان یک کشف شگفت آور در Pac-Man و Pong آغاز شد ، به یک اصل تبدیل شده است که می تواند توسعه هوش مصنوعی را تغییر دهد. اثر آموزش داخلی به ما نشان می دهد که مسیر ساخت سیستم های بهتر AI ممکن است ساده تر از آن چیزی باشد که فکر می کردیم-با اصول اولیه شروع کنید ، اصول را تسلط دهید ، سپس با پیچیدگی مقابله کنید. اگر شرکت ها این رویکرد را اتخاذ کنند ، ما می توانیم چرخه های توسعه سریعتر و سیستم های هوش مصنوعی توانمندتر را در هر صنعت مشاهده کنیم.

برای آن دسته از ساختمان ها و کار با سیستم های هوش مصنوعی ، پیام واضح است: گاهی اوقات بهترین راه پیش رو ، بازآفرینی همه پیچیدگی های دنیای واقعی در آموزش نیست. در عوض ، ابتدا روی ایجاد پایه های قوی در محیط های کنترل شده تمرکز کنید. داده ها نشان می دهد که مهارت های اصلی قوی اغلب منجر به سازگاری بهتر در موقعیت های پیچیده می شوند. به تماشای این فضا ادامه دهید – ما تازه شروع به درک این موضوع کرده ایم که چگونه این اصل می تواند توسعه هوش مصنوعی را بهبود بخشد.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *