هوش مصنوعی پیشرفت چشمگیری داشته است ، با مدل های بزرگ زبان (LLM) و همتایان پیشرفته آنها ، مدل های استدلال بزرگ (LRMS)، تعریف مجدد نحوه پردازش ماشین ها و تولید متن مانند انسان. این مدل ها می توانند مقاله بنویسند ، به سؤالات پاسخ دهند و حتی مشکلات ریاضی را حل کنند. با این حال ، با وجود توانایی های چشمگیر آنها ، این مدل ها رفتار کنجکاو را نشان می دهند: آنها اغلب در هنگام مبارزه با موارد پیچیده ، مشکلات ساده را بیش از حد ترکیب می کنند. اخیر مطالعه کردن محققان اپل بینش ارزشمندی در مورد این پدیده ارائه می دهند. در این مقاله به بررسی این موضوع می پردازیم که چرا LLMS و LRM ها اینگونه رفتار می کنند و برای آینده هوش مصنوعی چه معنی دارد.
درک LLMS و LRMS
برای درک اینکه چرا LLMS و LRM ها اینگونه رفتار می کنند ، ابتدا باید روشن کنیم که این مدل ها چیست. LLMS ، مانند GPT-3 یا BERT ، در مجموعه داده های گسترده متن آموزش داده می شود تا کلمه بعدی را در یک دنباله پیش بینی کند. این باعث می شود آنها در کارهایی مانند تولید متن ، ترجمه و جمع بندی عالی باشند. با این حال ، آنها ذاتاً برای استدلال طراحی نشده اند ، که شامل کسر منطقی یا حل مسئله است.
LRM ها کلاس جدیدی از مدل ها هستند که برای رفع این شکاف طراحی شده اند. آنها تکنیک هایی مانند زنجیره ای از فکر (COT) پیشبرد ، جایی که مدل قبل از ارائه پاسخ نهایی ، مراحل استدلال میانی را ایجاد می کند. به عنوان مثال ، هنگام حل یک مشکل ریاضی ، یک LRM ممکن است آن را به مراحل تبدیل کند ، دقیقاً مانند یک انسان. این رویکرد عملکرد در کارهای پیچیده را بهبود می بخشد اما هنگام برخورد با مشکلات پیچیدگی متفاوت ، با چالش هایی روبرو می شود ، همانطور که مطالعه اپل نشان می دهد.
مطالعه تحقیق
تیم تحقیقاتی اپل متفاوت گرفت رویکرد برای ارزیابی قابلیت های استدلال LLMS و LRMS. به جای تکیه بر معیارهای سنتی مانند تست های ریاضی یا برنامه نویسی ، که می تواند تحت تأثیر آلودگی داده ها قرار بگیرد (جایی که مدل ها پاسخ ها را به خاطر می آورند) ، آنها محیط های پازل کنترل شده ایجاد می کنند. اینها شامل معماهای مشهور مانند برج هانویبا پرش چکبا گذرگاه رودخانه، و جهان را مسدود می کند. به عنوان مثال ، برج هانوی شامل جابجایی دیسک ها بین PEG ها به دنبال قوانین خاص است و با افزودن دیسک های بیشتر ، پیچیدگی افزایش می یابد. محققان با تنظیم سیستماتیک پیچیدگی این معماها ضمن حفظ ساختارهای منطقی مداوم ، مشاهده می کنند که چگونه مدل ها در طیف مشکلات انجام می دهند. این روش به آنها امکان می دهد نه تنها پاسخ های نهایی بلکه فرآیندهای استدلال را نیز تجزیه و تحلیل کنند ، که نگاهی عمیق تر به نحوه فکر کردن این مدل ها ارائه می دهند.
یافته های سرنگونی و تسلیم شدن
این مطالعه سه رژیم عملکرد مجزا را بر اساس پیچیدگی مشکل مشخص کرد:
- در سطح پیچیدگی پایین ، LLM های استاندارد اغلب بهتر از LRM ها عمل می کنند زیرا LRM ها تمایل به سرنگونی دارند و مراحل اضافی لازم را ایجاد می کنند ، در حالی که LLM های استاندارد کارآمدتر هستند.
- برای مشکلات مربوط به ترکیب متوسط ، LRM ها به دلیل توانایی آنها در تولید آثار استدلال مفصلی که به آنها در رفع این چالش ها کمک می کند ، عملکرد برتر را نشان می دهد.
- برای مشکلات مربوط به انعطاف پذیری بالا ، هر دو LLM و LRM به طور کامل شکست می خورند. به ویژه LRM ها ، سقوط كامل را تجربه می كنند و علی رغم افزایش دشواری ، تلاش استدلال خود را كاهش می دهند.
برای معماهای ساده ، مانند برج هانوی با یک یا دو دیسک ، LLM های استاندارد برای ارائه پاسخ های صحیح کارآمدتر بودند. با این حال ، LRM ها اغلب این مشکلات را تحت الشعاع قرار می دادند و حتی وقتی محلول ساده بود ، آثار استدلال طولانی ایجاد می کرد. این نشان می دهد که LRMS ممکن است توضیحات اغراق آمیز از داده های آموزشی آنها را تقلید کند ، که می تواند منجر به ناکارآمدی شود.
در سناریوهای نسبتاً پیچیده ، LRM ها بهتر عمل کردند. توانایی آنها در تولید مراحل استدلال دقیق به آنها امکان می دهد تا با مشکلاتی که نیاز به چندین مرحله منطقی دارند ، برطرف شوند. این به آنها اجازه می دهد تا از LLM های استاندارد ، که برای حفظ انسجام تلاش می کردند ، بهتر عمل کنند.
با این حال ، برای معماهای بسیار پیچیده ، مانند برج هانوی با دیسک های زیادی ، هر دو مدل کاملاً شکست خورده اند. با کمال تعجب ، LRMS با وجود داشتن منابع محاسباتی کافی ، پیچیدگی را فراتر از یک نقطه خاص افزایش داد. این رفتار “تسلیم شدن” نشانگر محدودیت اساسی در توانایی آنها در مقیاس قابلیت های استدلال است.
چرا این اتفاق می افتد
سرنگونی پازل های ساده احتمالاً ناشی از آموزش LLMS و LRMS است. این مدل ها از مجموعه داده های وسیعی که شامل توضیحات مختصر و دقیق است ، می آموزند. برای مشکلات آسان ، آنها ممکن است به طور پیش فرض به تولید اثری از استدلال های کلامی ، تقلید از نمونه های طولانی در داده های آموزشی خود ، حتی اگر یک پاسخ مستقیم کافی باشد. این رفتار لزوماً یک نقص نیست بلکه بازتاب آموزش آنها است که استدلال بر کارآیی را در اولویت قرار می دهد.
عدم موفقیت در معماهای پیچیده نشان دهنده ناتوانی LLM ها و LRM ها در یادگیری تعمیم قوانین منطقی است. با افزایش پیچیدگی مشکل ، اعتماد به نفس آنها به تطبیق الگوی تجزیه می شود و منجر به استدلال متناقض و فروپاشی عملکرد می شود. این مطالعه نشان داد که LRM ها در استفاده از الگوریتم های صریح و عقل متناقض در معما های مختلف استفاده نمی کنند. این برجسته می کند که اگرچه این مدل ها می توانند استدلال را شبیه سازی کنند ، اما آنها منطق اساسی را در نحوه انجام انسان درک نمی کنند.
دیدگاههای متنوع
این مطالعه بحث در جامعه هوش مصنوعی را برانگیخته است. برخی از کارشناسان مشاجره کردن که این یافته ها ممکن است باشد غلط تفسیر شدهبشر آنها پیشنهاد می کنند که در حالی که LLMS و LRMS ممکن است مانند انسان استدلال نکنند ، اما هنوز هم در محدودیت های خاص پیچیدگی ، حل مسئله مؤثر را نشان می دهند. آنها تأکید می کنند که “استدلال” در هوش مصنوعی نیازی به آینه کاری انسان ندارد تا ارزشمند باشد. به همین ترتیب ، بحث در سیستم عامل هایی مانند هکرها نیوز ، رویکرد دقیق این مطالعه را ستایش می کند اما نیاز به تحقیقات بیشتر برای بهبود استدلال هوش مصنوعی را برجسته می کند. این دیدگاه ها بر بحث مداوم در مورد آنچه استدلال در هوش مصنوعی است و چگونگی ارزیابی آن تأکید می کند ، تأکید می کند.
پیامدها و مسیرهای آینده
یافته های این مطالعه پیامدهای قابل توجهی برای توسعه هوش مصنوعی دارد. در حالی که LRM ها نشان دهنده پیشرفت در تقلید از استدلال انسان هستند ، محدودیت های آنها در رسیدگی به مشکلات پیچیده و مقیاس بندی تلاش های استدلال نشان می دهد که مدل های فعلی به دور از دستیابی به استدلال قابل تعمیم هستند. این امر نیاز به روشهای ارزیابی جدید را که بر کیفیت و سازگاری فرآیندهای استدلال متمرکز است ، برجسته می کند ، نه فقط صحت پاسخ های نهایی.
تحقیقات آینده باید با هدف تقویت توانایی مدل ها در اجرای دقیق مراحل منطقی و تنظیم تلاش استدلال آنها بر اساس پیچیدگی مشکل انجام شود. ایجاد معیارهایی که منعکس کننده وظایف استدلال در دنیای واقعی ، مانند تشخیص پزشکی یا استدلال حقوقی است ، می تواند بینش معنادار تری در مورد قابلیت های هوش مصنوعی ارائه دهد. علاوه بر این ، پرداختن به بیش از حد به اعتماد به نفس مدل ها در تشخیص الگوی و بهبود توانایی آنها در تعمیم قوانین منطقی برای پیشبرد استدلال هوش مصنوعی بسیار مهم خواهد بود.
خط پایین
این مطالعه یک تجزیه و تحلیل انتقادی از قابلیت های استدلال LLMS و LRMS ارائه می دهد. این نشان می دهد که در حالی که این مدل ها معماهای ساده را تحت الشعاع قرار می دهند ، آنها با مدل های پیچیده تر مبارزه می کنند و هم نقاط قوت و محدودیت آنها را در معرض دید خود قرار می دهند. اگرچه آنها در موقعیت های خاص عملکرد خوبی دارند ، اما عدم توانایی آنها در مقابله با مشکلات بسیار پیچیده ، شکاف بین استدلال شبیه سازی شده و درک واقعی را برجسته می کند. این مطالعه بر لزوم توسعه یک سیستم هوش مصنوعی تأکید می کند که می تواند به طور تطبیقی در سطوح مختلف پیچیدگی استدلال کند ، و این امکان را فراهم می کند تا مشکلات مربوط به پیچیدگی های مختلف را برطرف کند ، دقیقاً مانند انسان.