معیار Michelangelo DeepMind: آشکار کردن محدودیت‌های LLM با زمینه طولانی

جدول محتوا

همانطور که هوش مصنوعی (AI) همچنان به پیشرفت خود ادامه می دهد، توانایی پردازش و درک توالی طولانی از اطلاعات حیاتی تر می شود. سیستم‌های هوش مصنوعی اکنون برای کارهای پیچیده‌ای مانند تجزیه و تحلیل اسناد طولانی، همگام شدن با مکالمات طولانی و پردازش مقادیر زیادی داده استفاده می‌شوند. با این حال، بسیاری از مدل‌های کنونی با استدلال طولانی مدت مشکل دارند. همانطور که ورودی‌ها طولانی‌تر می‌شوند، اغلب جزئیات مهم را از دست می‌دهند که منجر به نتایج کمتر دقیق یا منسجمی می‌شود.

این موضوع به‌ویژه در صنایع بهداشتی، خدمات حقوقی و مالی مشکل‌ساز است، جایی که ابزارهای هوش مصنوعی باید اسناد دقیق یا بحث‌های طولانی را ارائه دهند و در عین حال پاسخ‌های دقیق و آگاهانه را ارائه دهند. یک چالش رایج زمینه است رانش، که در آن مدل‌ها با پردازش ورودی جدید، اطلاعات قبلی را از دست می‌دهند، که منجر به نتایج کمتر مرتبط می‌شود.

برای رفع این محدودیت ها، DeepMind توسعه داد معیار میکل آنژ. این ابزار به شدت آزمایش می کند که مدل های هوش مصنوعی چقدر خوب مدیریت می کنند استدلال طولانی مدت. این معیار با الهام از هنرمندی به نام میکل آنژ، که به دلیل آشکار ساختن مجسمه‌های پیچیده از بلوک‌های مرمر شناخته می‌شود، به کشف اینکه مدل‌های هوش مصنوعی چگونه می‌توانند الگوهای معناداری را از مجموعه داده‌های بزرگ استخراج کنند، کمک می‌کند. با شناسایی نقاط ضعف مدل‌های فعلی، معیار میکل آنژ منجر به بهبودهای آینده در توانایی هوش مصنوعی برای استدلال در زمینه‌های طولانی می‌شود.

درک استدلال طولانی مدت در هوش مصنوعی

استدلال با زمینه طولانی در مورد توانایی یک مدل هوش مصنوعی برای منسجم و دقیق ماندن در متن طولانی، کد یا توالی مکالمه است. مدل هایی مانند GPT-4 و PaLM-2 با ورودی های کوتاه یا متوسط عملکرد خوبی دارند. با این حال، آنها در زمینه های طولانی تر به کمک نیاز دارند. همانطور که طول ورودی افزایش می‌یابد، این مدل‌ها اغلب جزئیات ضروری قطعات قبلی را از دست می‌دهند. این منجر به خطا در درک، خلاصه کردن یا تصمیم گیری می شود. این مسئله به عنوان محدودیت پنجره زمینه شناخته می شود. توانایی مدل برای نگهداری و پردازش اطلاعات با طولانی‌تر شدن زمینه کاهش می‌یابد.

این مشکل در برنامه های کاربردی دنیای واقعی قابل توجه است. به عنوان مثال، در خدمات حقوقی، مدل‌های هوش مصنوعی قراردادها، مطالعات موردی یا مقرراتی را تجزیه و تحلیل می‌کنند که می‌تواند صدها صفحه باشد. اگر این مدل‌ها نتوانند به طور مؤثری چنین اسناد طولانی را حفظ و استدلال کنند، ممکن است بندهای اساسی را از دست بدهند یا اصطلاحات حقوقی را اشتباه تفسیر کنند. این می تواند به توصیه یا تحلیل نادرست منجر شود. در مراقبت‌های بهداشتی، سیستم‌های هوش مصنوعی باید سوابق بیمار، سوابق پزشکی و برنامه‌های درمانی را که سال‌ها یا حتی دهه‌ها را در بر می‌گیرد، ترکیب کنند. اگر یک مدل نتواند اطلاعات حیاتی را از سوابق قبلی به‌طور دقیق به خاطر بیاورد، می‌تواند درمان‌های نامناسب یا تشخیص اشتباه بیماران را توصیه کند.

حتی اگر تلاش‌هایی برای بهبود محدودیت‌های توکن مدل‌ها (مانند مدیریت GPT-4 تا). 32000 توکن، حدود 50 صفحه متن)، استدلال طولانی مدت هنوز یک چالش است. مشکل پنجره زمینه مقدار ورودی یک مدل را محدود می کند و بر توانایی آن برای حفظ درک دقیق در کل دنباله ورودی تأثیر می گذارد. این منجر به رانش زمینه می شود، جایی که مدل به تدریج fارگت جزئیات قبلی به عنوان اطلاعات جدید معرفی شده است. این توانایی آن را برای تولید خروجی های منسجم و مرتبط کاهش می دهد.

معیار میکل آنژ: مفهوم و رویکرد

معیار میکل آنژ با آزمایش LLMها بر روی وظایفی که به حفظ و پردازش اطلاعات در توالی های گسترده نیاز دارند، با چالش های استدلال با زمینه طولانی مقابله می کند. بر خلاف معیارهای قبلی، که بر روی کارهای متنی کوتاه مانند تکمیل جمله یا پاسخ دادن به سؤالات اساسی تمرکز می‌کنند، معیار میکل آنژ بر کارهایی تأکید می‌کند که مدل‌ها را برای استدلال در طول توالی داده‌های طولانی، اغلب شامل حواس‌پرتی یا اطلاعات نامربوط، به چالش می‌کشد.

معیار Michelangelo مدل های هوش مصنوعی را با استفاده از آن به چالش می کشد چارچوب پرس و جوهای ساختار پنهان (LSQ).. این روش به مدل‌ها نیاز دارد که الگوهای معنی‌داری را در مجموعه داده‌های بزرگ بیابند و در عین حال اطلاعات نامربوط را فیلتر کنند، مشابه اینکه چگونه انسان‌ها داده‌های پیچیده را غربال می‌کنند تا روی آنچه مهم است تمرکز کنند. این معیار بر دو حوزه اصلی تمرکز دارد: زبان طبیعی و کد، معرفی وظایفی که فراتر از بازیابی داده‌ها را آزمایش می‌کنند.

یکی از وظایف مهم، کار لیست پنهان است. در این کار، به مدل دنباله‌ای از عملیات فهرست پایتون، مانند افزودن، حذف یا مرتب‌سازی عناصر داده می‌شود و سپس باید فهرست نهایی صحیح را تولید کند. برای سخت‌تر کردن کار، این کار شامل عملیات‌های نامربوط است، مانند معکوس کردن لیست یا لغو مراحل قبلی. این توانایی مدل را برای تمرکز بر عملیات حیاتی آزمایش می‌کند و شبیه‌سازی می‌کند که چگونه سیستم‌های هوش مصنوعی باید مجموعه‌های داده بزرگ را با ارتباط متفاوت مدیریت کنند.

یکی دیگر از وظایف حیاتی، رزولوشن چند دور هم مرجع (MRCR) است. این کار اندازه گیری می کند که مدل چقدر می تواند مراجع را در مکالمات طولانی با موضوعات همپوشانی یا نامشخص ردیابی کند. چالش این است که مدل، ارجاعاتی را که در اواخر مکالمه انجام شده است، به نکات قبلی مرتبط کند، حتی زمانی که آن ارجاعات در جزئیات نامربوط پنهان شده باشند. این وظیفه منعکس کننده بحث های دنیای واقعی است، جایی که موضوعات اغلب تغییر می کنند و هوش مصنوعی باید به طور دقیق مراجع را ردیابی و حل کند تا ارتباطات منسجمی را حفظ کند.

علاوه بر این، میکل آنژ دارای IDK Task است که توانایی مدل را برای تشخیص زمانی که اطلاعات کافی برای پاسخ به یک سوال ندارد، آزمایش می کند. در این کار، مدل با متنی ارائه می شود که ممکن است حاوی اطلاعات مربوطه برای پاسخ به یک پرس و جو خاص نباشد. چالش این است که مدل مواردی را شناسایی کند که پاسخ صحیح «من نمی دانمبه جای ارائه پاسخی قابل قبول اما نادرست. این وظیفه یک جنبه حیاتی از قابلیت اطمینان هوش مصنوعی را منعکس می کند – تشخیص عدم قطعیت.

از طریق کارهایی مانند این، میکل آنژ فراتر از بازیابی ساده حرکت می کند تا توانایی مدل را برای استدلال، ترکیب و مدیریت ورودی های متن طولانی آزمایش کند. این یک معیار مقیاس پذیر، مصنوعی و فاش نشده برای استدلال طولانی مدت معرفی می کند، که معیار دقیق تری از وضعیت فعلی و پتانسیل آینده LLM ها ارائه می دهد.

پیامدهای تحقیق و توسعه هوش مصنوعی

نتایج حاصل از معیار میکل آنژ پیامدهای مهمی برای چگونگی توسعه هوش مصنوعی دارد. معیار نشان می دهد که LLM های فعلی به معماری بهتری نیاز دارند، به ویژه در مکانیسم های توجه و سیستم های حافظه در حال حاضر، بیشتر LLM ها به مکانیسم های خود توجهی متکی هستند. اینها برای کارهای کوتاه موثر هستند اما زمانی که زمینه بزرگتر می شود مشکل دارند. اینجاست که ما مشکل رانش زمینه را می بینیم، جایی که مدل ها جزئیات قبلی را فراموش کرده یا با هم مخلوط می کنند. برای حل این مشکل، محققان در حال بررسی مدل‌های تقویت‌شده حافظه هستند. این مدل‌ها می‌توانند اطلاعات مهمی را از قسمت‌های قبلی یک مکالمه یا سند ذخیره کنند و به هوش مصنوعی این امکان را می‌دهند که در صورت نیاز آن را به خاطر بیاورد و از آن استفاده کند.

یکی دیگر از رویکردهای امیدوارکننده، پردازش سلسله مراتبی است. این روش هوش مصنوعی را قادر می‌سازد تا ورودی‌های طولانی را به بخش‌های کوچک‌تر و قابل مدیریت تقسیم کند، که به آن کمک می‌کند در هر مرحله بر روی مرتبط‌ترین جزئیات تمرکز کند. به این ترتیب، مدل می تواند وظایف پیچیده را بهتر انجام دهد بدون اینکه در یک لحظه تحت فشار اطلاعات بیش از حد قرار گیرد.

بهبود استدلال طولانی مدت تأثیر قابل توجهی خواهد داشت. در مراقبت های بهداشتی، این می تواند به معنای تجزیه و تحلیل بهتر سوابق بیمار باشد، جایی که هوش مصنوعی می تواند تاریخچه بیمار را در طول زمان ردیابی کند و توصیه های درمانی دقیق تری ارائه دهد. در خدمات حقوقی، این پیشرفت‌ها می‌تواند منجر به سیستم‌های هوش مصنوعی شود که می‌توانند قراردادهای طولانی یا رویه قضایی را با دقت بیشتری تجزیه و تحلیل کنند و بینش قابل اعتمادتری را برای وکلا و متخصصان حقوقی ارائه دهند.

با این حال، با این پیشرفت‌ها، نگرانی‌های اخلاقی حیاتی به وجود می‌آیند. همانطور که هوش مصنوعی در حفظ و استدلال در زمینه های طولانی بهتر می شود، خطر افشای اطلاعات حساس یا خصوصی وجود دارد. این یک نگرانی واقعی برای صنایعی مانند مراقبت های بهداشتی و خدمات مشتری است، جایی که رازداری در آنها بسیار مهم است.

اگر مدل‌های هوش مصنوعی اطلاعات زیادی از تعاملات قبلی خود را حفظ کنند، ممکن است به طور ناخواسته جزئیات شخصی را در مکالمات بعدی فاش کنند. علاوه بر این، از آنجایی که هوش مصنوعی در تولید محتوای طولانی قانع‌کننده بهتر می‌شود، این خطر وجود دارد که از آن برای ایجاد اطلاعات نادرست یا اطلاعات نادرست پیشرفته‌تر استفاده شود و چالش‌های پیرامون مقررات هوش مصنوعی را پیچیده‌تر کند.

خط پایین

معیار Michelangelo بینش هایی را در مورد اینکه چگونه مدل های هوش مصنوعی وظایف پیچیده و طولانی مدت را مدیریت می کنند و نقاط قوت و محدودیت های آنها را برجسته می کند، کشف کرده است. این معیار همزمان با توسعه هوش مصنوعی، نوآوری را ارتقا می دهد و معماری مدل بهتر و سیستم های حافظه بهبود یافته را تشویق می کند. پتانسیل برای تبدیل صنایعی مانند مراقبت های بهداشتی و خدمات حقوقی هیجان انگیز است اما با مسئولیت های اخلاقی همراه است.

نگرانی‌های مربوط به حفظ حریم خصوصی، اطلاعات نادرست و انصاف باید برطرف شود زیرا هوش مصنوعی در مدیریت حجم وسیعی از اطلاعات ماهرتر می‌شود. رشد هوش مصنوعی باید بر منافع جامعه متفکرانه و مسئولانه متمرکز باشد.