همانطور که هوش مصنوعی (AI) همچنان به پیشرفت خود ادامه می دهد، توانایی پردازش و درک توالی طولانی از اطلاعات حیاتی تر می شود. سیستمهای هوش مصنوعی اکنون برای کارهای پیچیدهای مانند تجزیه و تحلیل اسناد طولانی، همگام شدن با مکالمات طولانی و پردازش مقادیر زیادی داده استفاده میشوند. با این حال، بسیاری از مدلهای کنونی با استدلال طولانی مدت مشکل دارند. همانطور که ورودیها طولانیتر میشوند، اغلب جزئیات مهم را از دست میدهند که منجر به نتایج کمتر دقیق یا منسجمی میشود.
این موضوع بهویژه در صنایع بهداشتی، خدمات حقوقی و مالی مشکلساز است، جایی که ابزارهای هوش مصنوعی باید اسناد دقیق یا بحثهای طولانی را ارائه دهند و در عین حال پاسخهای دقیق و آگاهانه را ارائه دهند. یک چالش رایج زمینه است رانش، که در آن مدلها با پردازش ورودی جدید، اطلاعات قبلی را از دست میدهند، که منجر به نتایج کمتر مرتبط میشود.
برای رفع این محدودیت ها، DeepMind توسعه داد معیار میکل آنژ. این ابزار به شدت آزمایش می کند که مدل های هوش مصنوعی چقدر خوب مدیریت می کنند استدلال طولانی مدت. این معیار با الهام از هنرمندی به نام میکل آنژ، که به دلیل آشکار ساختن مجسمههای پیچیده از بلوکهای مرمر شناخته میشود، به کشف اینکه مدلهای هوش مصنوعی چگونه میتوانند الگوهای معناداری را از مجموعه دادههای بزرگ استخراج کنند، کمک میکند. با شناسایی نقاط ضعف مدلهای فعلی، معیار میکل آنژ منجر به بهبودهای آینده در توانایی هوش مصنوعی برای استدلال در زمینههای طولانی میشود.
درک استدلال طولانی مدت در هوش مصنوعی
استدلال با زمینه طولانی در مورد توانایی یک مدل هوش مصنوعی برای منسجم و دقیق ماندن در متن طولانی، کد یا توالی مکالمه است. مدل هایی مانند GPT-4 و PaLM-2 با ورودی های کوتاه یا متوسط عملکرد خوبی دارند. با این حال، آنها در زمینه های طولانی تر به کمک نیاز دارند. همانطور که طول ورودی افزایش مییابد، این مدلها اغلب جزئیات ضروری قطعات قبلی را از دست میدهند. این منجر به خطا در درک، خلاصه کردن یا تصمیم گیری می شود. این مسئله به عنوان محدودیت پنجره زمینه شناخته می شود. توانایی مدل برای نگهداری و پردازش اطلاعات با طولانیتر شدن زمینه کاهش مییابد.
این مشکل در برنامه های کاربردی دنیای واقعی قابل توجه است. به عنوان مثال، در خدمات حقوقی، مدلهای هوش مصنوعی قراردادها، مطالعات موردی یا مقرراتی را تجزیه و تحلیل میکنند که میتواند صدها صفحه باشد. اگر این مدلها نتوانند به طور مؤثری چنین اسناد طولانی را حفظ و استدلال کنند، ممکن است بندهای اساسی را از دست بدهند یا اصطلاحات حقوقی را اشتباه تفسیر کنند. این می تواند به توصیه یا تحلیل نادرست منجر شود. در مراقبتهای بهداشتی، سیستمهای هوش مصنوعی باید سوابق بیمار، سوابق پزشکی و برنامههای درمانی را که سالها یا حتی دههها را در بر میگیرد، ترکیب کنند. اگر یک مدل نتواند اطلاعات حیاتی را از سوابق قبلی بهطور دقیق به خاطر بیاورد، میتواند درمانهای نامناسب یا تشخیص اشتباه بیماران را توصیه کند.
حتی اگر تلاشهایی برای بهبود محدودیتهای توکن مدلها (مانند مدیریت GPT-4 تا). 32000 توکن، حدود 50 صفحه متن)، استدلال طولانی مدت هنوز یک چالش است. مشکل پنجره زمینه مقدار ورودی یک مدل را محدود می کند و بر توانایی آن برای حفظ درک دقیق در کل دنباله ورودی تأثیر می گذارد. این منجر به رانش زمینه می شود، جایی که مدل به تدریج fارگت جزئیات قبلی به عنوان اطلاعات جدید معرفی شده است. این توانایی آن را برای تولید خروجی های منسجم و مرتبط کاهش می دهد.
معیار میکل آنژ: مفهوم و رویکرد
معیار میکل آنژ با آزمایش LLMها بر روی وظایفی که به حفظ و پردازش اطلاعات در توالی های گسترده نیاز دارند، با چالش های استدلال با زمینه طولانی مقابله می کند. بر خلاف معیارهای قبلی، که بر روی کارهای متنی کوتاه مانند تکمیل جمله یا پاسخ دادن به سؤالات اساسی تمرکز میکنند، معیار میکل آنژ بر کارهایی تأکید میکند که مدلها را برای استدلال در طول توالی دادههای طولانی، اغلب شامل حواسپرتی یا اطلاعات نامربوط، به چالش میکشد.
معیار Michelangelo مدل های هوش مصنوعی را با استفاده از آن به چالش می کشد چارچوب پرس و جوهای ساختار پنهان (LSQ).. این روش به مدلها نیاز دارد که الگوهای معنیداری را در مجموعه دادههای بزرگ بیابند و در عین حال اطلاعات نامربوط را فیلتر کنند، مشابه اینکه چگونه انسانها دادههای پیچیده را غربال میکنند تا روی آنچه مهم است تمرکز کنند. این معیار بر دو حوزه اصلی تمرکز دارد: زبان طبیعی و کد، معرفی وظایفی که فراتر از بازیابی دادهها را آزمایش میکنند.
یکی از وظایف مهم، کار لیست پنهان است. در این کار، به مدل دنبالهای از عملیات فهرست پایتون، مانند افزودن، حذف یا مرتبسازی عناصر داده میشود و سپس باید فهرست نهایی صحیح را تولید کند. برای سختتر کردن کار، این کار شامل عملیاتهای نامربوط است، مانند معکوس کردن لیست یا لغو مراحل قبلی. این توانایی مدل را برای تمرکز بر عملیات حیاتی آزمایش میکند و شبیهسازی میکند که چگونه سیستمهای هوش مصنوعی باید مجموعههای داده بزرگ را با ارتباط متفاوت مدیریت کنند.
یکی دیگر از وظایف حیاتی، رزولوشن چند دور هم مرجع (MRCR) است. این کار اندازه گیری می کند که مدل چقدر می تواند مراجع را در مکالمات طولانی با موضوعات همپوشانی یا نامشخص ردیابی کند. چالش این است که مدل، ارجاعاتی را که در اواخر مکالمه انجام شده است، به نکات قبلی مرتبط کند، حتی زمانی که آن ارجاعات در جزئیات نامربوط پنهان شده باشند. این وظیفه منعکس کننده بحث های دنیای واقعی است، جایی که موضوعات اغلب تغییر می کنند و هوش مصنوعی باید به طور دقیق مراجع را ردیابی و حل کند تا ارتباطات منسجمی را حفظ کند.
علاوه بر این، میکل آنژ دارای IDK Task است که توانایی مدل را برای تشخیص زمانی که اطلاعات کافی برای پاسخ به یک سوال ندارد، آزمایش می کند. در این کار، مدل با متنی ارائه می شود که ممکن است حاوی اطلاعات مربوطه برای پاسخ به یک پرس و جو خاص نباشد. چالش این است که مدل مواردی را شناسایی کند که پاسخ صحیح «من نمی دانمبه جای ارائه پاسخی قابل قبول اما نادرست. این وظیفه یک جنبه حیاتی از قابلیت اطمینان هوش مصنوعی را منعکس می کند – تشخیص عدم قطعیت.
از طریق کارهایی مانند این، میکل آنژ فراتر از بازیابی ساده حرکت می کند تا توانایی مدل را برای استدلال، ترکیب و مدیریت ورودی های متن طولانی آزمایش کند. این یک معیار مقیاس پذیر، مصنوعی و فاش نشده برای استدلال طولانی مدت معرفی می کند، که معیار دقیق تری از وضعیت فعلی و پتانسیل آینده LLM ها ارائه می دهد.
پیامدهای تحقیق و توسعه هوش مصنوعی
نتایج حاصل از معیار میکل آنژ پیامدهای مهمی برای چگونگی توسعه هوش مصنوعی دارد. معیار نشان می دهد که LLM های فعلی به معماری بهتری نیاز دارند، به ویژه در مکانیسم های توجه و سیستم های حافظه در حال حاضر، بیشتر LLM ها به مکانیسم های خود توجهی متکی هستند. اینها برای کارهای کوتاه موثر هستند اما زمانی که زمینه بزرگتر می شود مشکل دارند. اینجاست که ما مشکل رانش زمینه را می بینیم، جایی که مدل ها جزئیات قبلی را فراموش کرده یا با هم مخلوط می کنند. برای حل این مشکل، محققان در حال بررسی مدلهای تقویتشده حافظه هستند. این مدلها میتوانند اطلاعات مهمی را از قسمتهای قبلی یک مکالمه یا سند ذخیره کنند و به هوش مصنوعی این امکان را میدهند که در صورت نیاز آن را به خاطر بیاورد و از آن استفاده کند.
یکی دیگر از رویکردهای امیدوارکننده، پردازش سلسله مراتبی است. این روش هوش مصنوعی را قادر میسازد تا ورودیهای طولانی را به بخشهای کوچکتر و قابل مدیریت تقسیم کند، که به آن کمک میکند در هر مرحله بر روی مرتبطترین جزئیات تمرکز کند. به این ترتیب، مدل می تواند وظایف پیچیده را بهتر انجام دهد بدون اینکه در یک لحظه تحت فشار اطلاعات بیش از حد قرار گیرد.
بهبود استدلال طولانی مدت تأثیر قابل توجهی خواهد داشت. در مراقبت های بهداشتی، این می تواند به معنای تجزیه و تحلیل بهتر سوابق بیمار باشد، جایی که هوش مصنوعی می تواند تاریخچه بیمار را در طول زمان ردیابی کند و توصیه های درمانی دقیق تری ارائه دهد. در خدمات حقوقی، این پیشرفتها میتواند منجر به سیستمهای هوش مصنوعی شود که میتوانند قراردادهای طولانی یا رویه قضایی را با دقت بیشتری تجزیه و تحلیل کنند و بینش قابل اعتمادتری را برای وکلا و متخصصان حقوقی ارائه دهند.
با این حال، با این پیشرفتها، نگرانیهای اخلاقی حیاتی به وجود میآیند. همانطور که هوش مصنوعی در حفظ و استدلال در زمینه های طولانی بهتر می شود، خطر افشای اطلاعات حساس یا خصوصی وجود دارد. این یک نگرانی واقعی برای صنایعی مانند مراقبت های بهداشتی و خدمات مشتری است، جایی که رازداری در آنها بسیار مهم است.
اگر مدلهای هوش مصنوعی اطلاعات زیادی از تعاملات قبلی خود را حفظ کنند، ممکن است به طور ناخواسته جزئیات شخصی را در مکالمات بعدی فاش کنند. علاوه بر این، از آنجایی که هوش مصنوعی در تولید محتوای طولانی قانعکننده بهتر میشود، این خطر وجود دارد که از آن برای ایجاد اطلاعات نادرست یا اطلاعات نادرست پیشرفتهتر استفاده شود و چالشهای پیرامون مقررات هوش مصنوعی را پیچیدهتر کند.
خط پایین
معیار Michelangelo بینش هایی را در مورد اینکه چگونه مدل های هوش مصنوعی وظایف پیچیده و طولانی مدت را مدیریت می کنند و نقاط قوت و محدودیت های آنها را برجسته می کند، کشف کرده است. این معیار همزمان با توسعه هوش مصنوعی، نوآوری را ارتقا می دهد و معماری مدل بهتر و سیستم های حافظه بهبود یافته را تشویق می کند. پتانسیل برای تبدیل صنایعی مانند مراقبت های بهداشتی و خدمات حقوقی هیجان انگیز است اما با مسئولیت های اخلاقی همراه است.
نگرانیهای مربوط به حفظ حریم خصوصی، اطلاعات نادرست و انصاف باید برطرف شود زیرا هوش مصنوعی در مدیریت حجم وسیعی از اطلاعات ماهرتر میشود. رشد هوش مصنوعی باید بر منافع جامعه متفکرانه و مسئولانه متمرکز باشد.