گوگل با استفاده از SLM به عنوان معلم، آموزش هوش مصنوعی را 28 درصد سریعتر می کند

جدول محتوا

آموزش مدل های زبان بزرگ (LLM) برای اکثر سازمان ها از دسترس خارج شده است. با هزینه‌های میلیون‌ها نفر و نیازهای محاسباتی که باعث عرق کردن یک ابر رایانه می‌شود، توسعه هوش مصنوعی پشت درهای غول‌های فناوری قفل شده است. اما گوگل این داستان را با رویکردی به قدری ساده که باعث می شود تعجب کنید که چرا هیچ کس زودتر به آن فکر نکرده است، این داستان را به تصویر کشیده است: استفاده از مدل های کوچکتر هوش مصنوعی به عنوان معلم.

SALT چگونه کار می کند: رویکردی جدید برای آموزش مدل های هوش مصنوعی

در یک مقاله تحقیقاتی اخیر با عنوان “یک کمک کوچک راه طولانی را طی می کند: آموزش کارآمد LLM با استفاده از LM های کوچک،Google Research و DeepMind SALT (آموزش مدل کوچک با کمک مدل بزرگ) را معرفی کردند. این روش جدیدی است که رویکرد سنتی ما برای آموزش LLM ها را به چالش می کشد.

چرا این تحقیق قابل توجه است؟ در حال حاضر، آموزش مدل‌های بزرگ هوش مصنوعی مانند تلاش برای آموزش دادن همه چیزهایی که در مورد یک موضوع نیاز دارند به یکباره به دیگران آموزش می‌دهند – ناکارآمد، پرهزینه، و اغلب محدود به سازمان‌هایی با منابع محاسباتی عظیم است. SALT مسیر متفاوتی را طی می کند و یک فرآیند آموزشی دو مرحله ای را معرفی می کند که هم نوآورانه و هم کاربردی است.

نحوه عملکرد واقعی نمک:

مرحله 1: تقطیر دانش

الف مدل زبان کوچکتر (SLM) به عنوان یک معلم عمل می کند و درک خود را با مدل بزرگتر به اشتراک می گذارد
مدل کوچکتر بر انتقال “دانش آموخته شده” خود از طریق آنچه محققان “برچسب های نرم” می نامند تمرکز می کند.
قبل از اینکه دانش آموز به سمت موضوعات پیشرفته حرکت کند، به آن مانند یک دستیار آموزشی فکر کنید که مفاهیم اساسی را مدیریت می کند
این مرحله به‌ویژه در مناطق «آسان» یادگیری مؤثر است – مناطقی که مدل کوچک‌تر اعتماد پیش‌بینی قوی دارد.

مرحله 2: یادگیری خود نظارتی

مدل بزرگ به یادگیری مستقل تبدیل می شود
بر تسلط بر الگوهای پیچیده و وظایف چالش برانگیز تمرکز دارد
اینجاست که مدل قابلیت‌هایی فراتر از آنچه معلم کوچکترش می‌تواند ارائه دهد، توسعه می‌دهد
انتقال بین مراحل از استراتژی های طراحی شده با دقت استفاده می کند، از جمله فروپاشی خطی و کاهش نسبت خطی کاهش وزن تقطیر

در شرایط غیر فنی، iتصور کنید مدل هوش مصنوعی کوچکتر مانند یک معلم کمکی است که مدل بزرگتر را در مراحل ابتدایی آموزش راهنمایی می کند. این استاد راهنما اطلاعات اضافی را همراه با پاسخ های آنها ارائه می دهد که نشان می دهد آنها در مورد هر پاسخ چقدر مطمئن هستند. این اطلاعات اضافی که به عنوان “برچسب های نرم” شناخته می شوند، به مدل بزرگتر کمک می کند تا سریعتر و موثرتر یاد بگیرد.

اکنون، از آنجایی که مدل بزرگ‌تر هوش مصنوعی توانمندتر می‌شود، باید از تکیه بر مربی به یادگیری مستقل تبدیل شود. اینجا جایی است که «واپاشی خطی» و «واپاشی نسبت خطی» وارد عمل می‌شوند.

این تکنیک ها را به عنوان کاهش تدریجی تأثیر معلم در طول زمان در نظر بگیرید:

فروپاشی خطی: مثل این است که صدای معلم را به آرامی کم کنید. راهنمایی معلم با هر مرحله کمتر برجسته می شود و به مدل بزرگتر اجازه می دهد بیشتر بر یادگیری از خود داده های خام تمرکز کند.
کاهش نسبت خطی: این مانند تنظیم تعادل بین توصیه های معلم و کار واقعی است. همانطور که آموزش پیشرفت می کند، تاکید بیشتر به سمت وظیفه اصلی تغییر می کند، در حالی که ورودی مربی کمتر غالب می شود.

هدف هر دو تکنیک اطمینان از یک انتقال روان برای مدل بزرگتر هوش مصنوعی، جلوگیری از هرگونه تغییر ناگهانی در رفتار یادگیری آن است.

نتایج قانع کننده هستند. هنگامی که محققان گوگل SALT را با استفاده از یک پارامتر SLM 1.5 میلیاردی برای آموزش یک LLM 2.8 میلیارد پارامتری روی مجموعه داده شمع، دیدند:

کاهش 28 درصدی زمان تمرین نسبت به روش های سنتی
بهبود عملکرد قابل توجه پس از تنظیم دقیق:
- دقت مسئله ریاضی به 34.87٪ افزایش یافت (در مقایسه با 31.84٪ خط پایه)
- دقت خواندن به 67% رسید (از 63.7%)

اما آنچه که نمک را واقعاً نوآورانه می کند، چارچوب نظری آن است. محققان دریافتند که حتی یک مدل معلم «ضعیف‌تر» نیز می‌تواند عملکرد دانش‌آموز را با دستیابی به آنچه «معادل سوگیری-واریانس مطلوب» می‌نامند، افزایش دهد. به عبارت ساده‌تر، مدل کوچک‌تر به بزرگ‌تر کمک می‌کند تا الگوهای بنیادی را به طور کارآمدتر یاد بگیرد و پایه قوی‌تری برای یادگیری پیشرفته ایجاد کند.

چرا SALT می تواند زمینه بازی توسعه هوش مصنوعی را تغییر دهد؟

به یاد دارید زمانی که رایانش ابری باعث شد چه کسی بتواند یک شرکت فناوری راه اندازی کند؟ SALT ممکن است همین کار را برای توسعه هوش مصنوعی انجام دهد.

من سال‌هاست که نوآوری‌های آموزش هوش مصنوعی را دنبال می‌کنم و بیشتر پیشرفت‌ها عمدتاً به نفع غول‌های فناوری بوده است. اما نمک متفاوت است.

در اینجا معنی آن برای آینده آمده است:

برای سازمان هایی با منابع محدود:

شاید دیگر نیازی به زیرساخت‌های محاسباتی عظیم برای توسعه مدل‌های هوش مصنوعی نداشته باشید
آزمایشگاه ها و شرکت های تحقیقاتی کوچکتر می توانند با توسعه مدل های سفارشی آزمایش کنند
کاهش 28 درصدی زمان آموزش مستقیماً به کاهش هزینه های محاسباتی منجر می شود
مهمتر از آن، می توانید با منابع محاسباتی متوسط شروع کنید و همچنان به نتایج حرفه ای برسید

برای چشم انداز توسعه هوش مصنوعی:

بازیکنان بیشتری می‌توانند وارد میدان شوند، که منجر به راه‌حل‌های متنوع‌تر و تخصصی‌تر هوش مصنوعی می‌شود
دانشگاه ها و مؤسسات تحقیقاتی می توانند آزمایش های بیشتری را با منابع موجود خود انجام دهند
مانع ورود برای تحقیقات هوش مصنوعی به میزان قابل توجهی کاهش می یابد
ما ممکن است برنامه های جدیدی را در زمینه هایی ببینیم که قبلاً توانایی توسعه هوش مصنوعی را نداشتند

این چه معنایی برای آینده دارد

با استفاده از مدل‌های کوچک به عنوان معلم، ما نه تنها آموزش هوش مصنوعی را کارآمدتر می‌کنیم، بلکه اساساً در حال تغییر افرادی هستیم که می‌توانند در توسعه هوش مصنوعی مشارکت کنند. پیامدها بسیار فراتر از پیشرفت های فنی است.

نکات کلیدی که باید در نظر داشته باشید:

کاهش 28 درصدی زمان آموزش تفاوت بین شروع یک پروژه هوش مصنوعی یا دور از دسترس در نظر گرفتن آن است
بهبود عملکرد (34.87٪ در ریاضی، 67٪ در تکالیف خواندن) نشان می دهد که دسترسی همیشه به معنای به خطر انداختن کیفیت نیست.
رویکرد SALT ثابت می‌کند که گاهی اوقات بهترین راه‌حل‌ها از بازاندیشی اصول اولیه به‌جای افزایش قدرت محاسباتی بیشتر می‌آیند.

چه چیزی را تماشا کنیم:

سازمان‌های کوچک‌تری را که شروع به توسعه مدل‌های هوش مصنوعی سفارشی می‌کنند، زیر نظر داشته باشید
مراقب برنامه های جدید در زمینه هایی باشید که قبلاً توانایی توسعه هوش مصنوعی را نداشتند
به دنبال نوآوری در نحوه استفاده از مدل های کوچکتر برای کارهای تخصصی باشید

به یاد داشته باشید: ارزش واقعی SALT در این است که چگونه ممکن است افرادی که می‌توانند در هوش مصنوعی نوآوری کنند، تغییر شکل دهد. چه در حال اداره یک آزمایشگاه تحقیقاتی، مدیریت یک تیم فناوری، یا فقط به توسعه هوش مصنوعی باشید، این نوعی پیشرفت است که می تواند ایده بزرگ بعدی شما را ممکن کند.

شاید شروع کنید به آن پروژه هوش مصنوعی که فکر می کردید دور از دسترس است. ممکن است بیش از آنچه تصور می کردید امکان پذیر باشد.

منبع:unite.ai

SALT چگونه کار می کند: رویکردی جدید برای آموزش مدل های هوش مصنوعی

نحوه عملکرد واقعی نمک:

چرا SALT می تواند زمینه بازی توسعه هوش مصنوعی را تغییر دهد؟

در اینجا معنی آن برای آینده آمده است:

این چه معنایی برای آینده دارد

پست های مرتبط

5 کتابخانه پایتون برای پیش بینی سری های زمانی پیشرفته

چک لیست مهندس یادگیری ماشین: بهترین روش ها برای مدل های قابل اعتماد

5 پایگاه داده برداری برتر برای برنامه های کاربردی LLM با کارایی بالا