شکست LLM در ریاضی و نحوه حل آن


ریاضیات همیشه چالش مهمی برای مدل های هوش مصنوعی ایجاد کرده است. تسلط بر ریاضی به مهارت های استدلالی پیچیده نیاز دارد و برای هوش مصنوعی، این کار هر چیزی جز ساده نیست. این مسئله با توجه به اهمیت مهارت ریاضی برای موفقیت حرفه ای، شخصی و تحصیلی مشکل بزرگی ایجاد می کند.

با وجود توانایی‌های قابل توجه، مدل‌های زبان بزرگ (LLM) اغلب مبارزه با وظایف پیچیده ریاضی، مانند هندسه، که به مهارت های استدلال پیشرفته نیاز دارند. این ما را به این سوال مهم می‌رساند: چقدر از توانایی ریاضی یک مدل هوش مصنوعی ناشی از استدلال واقعی در مقابل یادآوری صرف داده‌های آموزشی است؟

یافته های اخیر اپل نشان می‌دهد که حتی زمانی که روی مسائل کلمه‌ای ریاضی مدرسه متمرکز می‌شود، پیچیده‌ترین مدل‌ها به طور کامل توسط «استدلال» هدایت نمی‌شوند.

با برداشتن این یک گام فراتر، تیم تحقیق و توسعه در MathGPT.ai نور جدیدی را در زمینه‌هایی از جبر تا ریاضیات سطح حساب دیفرانسیل و انتگرال که به بیشترین پیشرفت نیاز دارند، روشن کردند.

این داده‌ها چگونگی تأثیر تغییرات در بافت مشکل و زبان بر عملکرد مدل در LLM‌های مختلف، از جمله آخرین مدل‌های o1-preview و o1-mini OpenAI را بررسی کردند. یافته‌ها روند نگران‌کننده‌ای را نشان داد: با انحراف مشکلات از سؤالات اصلی موجود در داده‌های آموزشی LLM، دقت به طور مداوم کاهش می‌یابد، با کاهش شدید عملکرد در معیارهای چالش‌برانگیز ریاضی بالاتر از سطح ریاضی کلاس.

معضل یادآوری در مقابل استدلال

این تحقیق بر سه عامل کلیدی متمرکز بود:

  1. استفاده از معیارهای ریاضی چالش برانگیزتر از ریاضیات مقطع ابتدایی
  2. کاوش یک “اعلام 1 شات” با نزدیکی شدید به مشکل تست
  3. اجرای یک استراتژی “بهترین از n” برای n تلاش برای حل یک مشکل – به طور موثر اکثریت رای برای حذف ناهنجاری های آماری، در زمان استنتاج.

نتایج هم جالب و هم نگران کننده بود. مرزهای تنوع مسئله تحت فشار قرار گرفتند که با پیچیده‌تر شدن معادلات ریاضی، کاهش مداوم عملکرد مدل هوش مصنوعی را نشان داد.

چالش مجموعه داده های ریاضی

را مجموعه داده MATH به کار گرفته شد، که به دلیل مشکلات چالش برانگیز در سطح دبیرستان شناخته می شود، برخلاف مجموعه داده Grade School Math 8K، که شامل 8500 مشکل زبانی متنوع در سطح ابتدایی است. مجموعه داده MATH سوالات چالش برانگیزتری در سطح دبیرستان را برای بررسی عملکرد مدل در سطوح مختلف دشواری، از پیش جبر تا تئوری اعداد، ارائه می‌کند. این انتخاب به MathGPT.ai اجازه داد تا عملکرد مدل را در سطوح مختلف دشواری بررسی کند.

در آزمایش، در حالی که مقادیر عددی و پاسخ های نهایی بدون تغییر باقی ماندند، ما زبان، متغیرها و زمینه مشکلات را تغییر دادیم. به عنوان مثال، سناریوی “سگ راه رفتن” ممکن است به یک مشکل “ماشین ظرفشویی” تبدیل شود. این روش به کاهش پیچیدگی افزایش یافته مجموعه داده MATH کمک کرد و در عین حال توانایی های استدلال مدل ها را به چالش کشید.

فاش کردن نتایج

نتایج قابل توجه بود. حتی پیشرفته‌ترین مدل‌ها نیز در مواجهه با مشکلاتی که احتمالاً در داده‌های آموزشی خود با آن‌ها مواجه شده بودند، دست و پنجه نرم می‌کردند. به عنوان مثال، دقت مدل o1-mini آن از 93.66% در سوالات اصلی به 88.54% در چالش‌برانگیزترین تغییرات کاهش یافته است. مدل o1-preview کاهش مشابهی را تجربه کرد و از 91.22٪ به 82.93٪ کاهش یافت – کاهشی به اندازه کافی برای برجسته کردن شکاف های مهم در استحکام آنها.

این یافته‌ها با تحقیقات قبلی اپل مطابقت دارند و بر اساس آن‌ها ساخته شده‌اند و نشان می‌دهند که محدودیت‌های استدلال ریاضی هوش مصنوعی با پیچیده‌تر شدن مشکلات و نیاز به درک عمیق‌تر به جای تشخیص الگو آشکارتر می‌شوند.

مسیر رو به جلو

همانطور که ما همچنان مرزهای استدلال LLM را پیش می بریم، شناخت پتانسیل باورنکردنی و محدودیت های فعلی آن بسیار مهم است. تحقیقات جدید بر نیاز به نوآوری مداوم در توسعه مدل‌های هوش مصنوعی با قابلیت حرکت فراتر از تشخیص الگو برای دستیابی به مهارت‌های حل مسئله قوی‌تر و قابل تعمیم تأکید می‌کند.

این در زمان حساسی اتفاق می‌افتد، به‌ویژه در آموزش عالی، که در آن هوش مصنوعی به‌عنوان کمک مربی در کلاس درس به‌شدت مورد استفاده قرار می‌گیرد، در حالی که مدارس همچنان شاهد نرخ بالای شکست در میان دانش‌آموزان ریاضی هستند که برای دوره‌ها آماده نیستند.

دستیابی به قابلیت‌های شناختی انسان‌مانند یا هوش عمومی در هوش مصنوعی نه تنها به پیشرفت‌های فناوری نیاز دارد، بلکه به درک دقیقی از نحوه پر کردن شکاف بین یادآوری و استدلال واقعی نیز نیاز دارد.

اگر در این مسیر موفق باشیم، مطمئن هستم که می‌توانیم زندگی میلیون‌ها دانش‌آموز و حتی متخصص را تغییر دهیم تا زندگی‌شان را در مسیری کاملاً جدید قرار دهند.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *