ریاضیات همیشه چالش مهمی برای مدل های هوش مصنوعی ایجاد کرده است. تسلط بر ریاضی به مهارت های استدلالی پیچیده نیاز دارد و برای هوش مصنوعی، این کار هر چیزی جز ساده نیست. این مسئله با توجه به اهمیت مهارت ریاضی برای موفقیت حرفه ای، شخصی و تحصیلی مشکل بزرگی ایجاد می کند.
با وجود تواناییهای قابل توجه، مدلهای زبان بزرگ (LLM) اغلب مبارزه با وظایف پیچیده ریاضی، مانند هندسه، که به مهارت های استدلال پیشرفته نیاز دارند. این ما را به این سوال مهم میرساند: چقدر از توانایی ریاضی یک مدل هوش مصنوعی ناشی از استدلال واقعی در مقابل یادآوری صرف دادههای آموزشی است؟
یافته های اخیر اپل نشان میدهد که حتی زمانی که روی مسائل کلمهای ریاضی مدرسه متمرکز میشود، پیچیدهترین مدلها به طور کامل توسط «استدلال» هدایت نمیشوند.
با برداشتن این یک گام فراتر، تیم تحقیق و توسعه در MathGPT.ai نور جدیدی را در زمینههایی از جبر تا ریاضیات سطح حساب دیفرانسیل و انتگرال که به بیشترین پیشرفت نیاز دارند، روشن کردند.
این دادهها چگونگی تأثیر تغییرات در بافت مشکل و زبان بر عملکرد مدل در LLMهای مختلف، از جمله آخرین مدلهای o1-preview و o1-mini OpenAI را بررسی کردند. یافتهها روند نگرانکنندهای را نشان داد: با انحراف مشکلات از سؤالات اصلی موجود در دادههای آموزشی LLM، دقت به طور مداوم کاهش مییابد، با کاهش شدید عملکرد در معیارهای چالشبرانگیز ریاضی بالاتر از سطح ریاضی کلاس.
معضل یادآوری در مقابل استدلال
این تحقیق بر سه عامل کلیدی متمرکز بود:
- استفاده از معیارهای ریاضی چالش برانگیزتر از ریاضیات مقطع ابتدایی
- کاوش یک “اعلام 1 شات” با نزدیکی شدید به مشکل تست
- اجرای یک استراتژی “بهترین از n” برای n تلاش برای حل یک مشکل – به طور موثر اکثریت رای برای حذف ناهنجاری های آماری، در زمان استنتاج.
نتایج هم جالب و هم نگران کننده بود. مرزهای تنوع مسئله تحت فشار قرار گرفتند که با پیچیدهتر شدن معادلات ریاضی، کاهش مداوم عملکرد مدل هوش مصنوعی را نشان داد.
چالش مجموعه داده های ریاضی
را مجموعه داده MATH به کار گرفته شد، که به دلیل مشکلات چالش برانگیز در سطح دبیرستان شناخته می شود، برخلاف مجموعه داده Grade School Math 8K، که شامل 8500 مشکل زبانی متنوع در سطح ابتدایی است. مجموعه داده MATH سوالات چالش برانگیزتری در سطح دبیرستان را برای بررسی عملکرد مدل در سطوح مختلف دشواری، از پیش جبر تا تئوری اعداد، ارائه میکند. این انتخاب به MathGPT.ai اجازه داد تا عملکرد مدل را در سطوح مختلف دشواری بررسی کند.
در آزمایش، در حالی که مقادیر عددی و پاسخ های نهایی بدون تغییر باقی ماندند، ما زبان، متغیرها و زمینه مشکلات را تغییر دادیم. به عنوان مثال، سناریوی “سگ راه رفتن” ممکن است به یک مشکل “ماشین ظرفشویی” تبدیل شود. این روش به کاهش پیچیدگی افزایش یافته مجموعه داده MATH کمک کرد و در عین حال توانایی های استدلال مدل ها را به چالش کشید.
فاش کردن نتایج
نتایج قابل توجه بود. حتی پیشرفتهترین مدلها نیز در مواجهه با مشکلاتی که احتمالاً در دادههای آموزشی خود با آنها مواجه شده بودند، دست و پنجه نرم میکردند. به عنوان مثال، دقت مدل o1-mini آن از 93.66% در سوالات اصلی به 88.54% در چالشبرانگیزترین تغییرات کاهش یافته است. مدل o1-preview کاهش مشابهی را تجربه کرد و از 91.22٪ به 82.93٪ کاهش یافت – کاهشی به اندازه کافی برای برجسته کردن شکاف های مهم در استحکام آنها.
این یافتهها با تحقیقات قبلی اپل مطابقت دارند و بر اساس آنها ساخته شدهاند و نشان میدهند که محدودیتهای استدلال ریاضی هوش مصنوعی با پیچیدهتر شدن مشکلات و نیاز به درک عمیقتر به جای تشخیص الگو آشکارتر میشوند.
مسیر رو به جلو
همانطور که ما همچنان مرزهای استدلال LLM را پیش می بریم، شناخت پتانسیل باورنکردنی و محدودیت های فعلی آن بسیار مهم است. تحقیقات جدید بر نیاز به نوآوری مداوم در توسعه مدلهای هوش مصنوعی با قابلیت حرکت فراتر از تشخیص الگو برای دستیابی به مهارتهای حل مسئله قویتر و قابل تعمیم تأکید میکند.
این در زمان حساسی اتفاق میافتد، بهویژه در آموزش عالی، که در آن هوش مصنوعی بهعنوان کمک مربی در کلاس درس بهشدت مورد استفاده قرار میگیرد، در حالی که مدارس همچنان شاهد نرخ بالای شکست در میان دانشآموزان ریاضی هستند که برای دورهها آماده نیستند.
دستیابی به قابلیتهای شناختی انسانمانند یا هوش عمومی در هوش مصنوعی نه تنها به پیشرفتهای فناوری نیاز دارد، بلکه به درک دقیقی از نحوه پر کردن شکاف بین یادآوری و استدلال واقعی نیز نیاز دارد.
اگر در این مسیر موفق باشیم، مطمئن هستم که میتوانیم زندگی میلیونها دانشآموز و حتی متخصص را تغییر دهیم تا زندگیشان را در مسیری کاملاً جدید قرار دهند.