مخلوط کنفرانس (MOE) مدل ها در حال تغییر در نحوه مقیاس AI هستند. MOE با فعال کردن تنها زیر مجموعه ای از اجزای یک مدل در هر زمان معین ، یک رویکرد جدید برای مدیریت تجارت بین اندازه مدل و کارآیی محاسباتی ارائه می دهد. بر خلاف مدل های متراکم سنتی که از تمام پارامترها برای هر ورودی استفاده می کنند ، MOE ها ضمن نگه داشتن هزینه های استنتاج و آموزش ، به شمارش پارامترهای عظیم می رسند. این پیشرفت موجی از تحقیق و توسعه را به همراه داشته است و هم غول های فناوری و هم راه اندازی را به سمت سرمایه گذاری زیاد در معماری های مبتنی بر MOE سوق می دهد.
چگونه مدل های کارآزمایی مخلوط کار می کنند
در هسته اصلی آنها ، مدل های MOE شامل چندین شبکه تخصصی تخصصی به نام “متخصصان” هستند که تحت نظارت یک مکانیسم شیروانی قرار می گیرند که تصمیم می گیرد که متخصصان باید هر ورودی را اداره کنند. به عنوان مثال ، یک جمله که به یک مدل زبان منتقل شده است ، فقط ممکن است دو از هشت متخصص را درگیر کند و به طرز چشمگیری بار کاری محاسباتی را کاهش می دهد.
این مفهوم با جریان اصلی وارد شد مدل های ترانسفورماتور سوئیچ و گلم Google، جایی که کارشناسان جایگزین لایه های سنتی پیشانی در ترانسفورماتور شدند. به عنوان مثال ، ترانسفورماتور سوئیچ را به یک متخصص واحد در هر لایه نشان می دهد ، در حالی که GLAM از مسیریابی Top-2 برای بهبود عملکرد استفاده می کند. این طرح ها نشان می دهد که MOE ها می توانند در حالی که از انرژی قابل توجهی کمتر و محاسبه می کنند ، از مدل های متراکم مانند GPT-3 مطابقت داشته باشند یا از آن بهتر عمل کنند.
نوآوری کلیدی در محاسبات شرطی نهفته است. به جای شلیک کل مدل ، MOE ها فقط بخش های مرتبط را فعال می کنند ، به این معنی که یک مدل با صدها میلیارد یا حتی تریلیون پارامترها می تواند با بهره وری از یک دستگاه که دارای سفارشات کوچکتر است اجرا شود. این امر محققان را قادر می سازد تا ظرفیت خود را بدون افزایش خطی در محاسبات ، مقیاس بندی کنند ، با روشهای مقیاس بندی سنتی قابل دستیابی نیست.
برنامه های دنیای واقعی MOE
مدل های MOE قبلاً در چندین حوزه علامت خود را نشان داده اند. ترانسفورماتور GLAM و SWITCH Google نتایج پیشرفته ای در مدل سازی زبان با هزینه های آموزش پایین و استنباط را نشان داد. Z-Code MOE مایکروسافت در ابزار مترجم خود عملیاتی است و بیش از 100 زبان با دقت و کارآیی بهتر نسبت به مدلهای قبلی اداره می کند. اینها فقط پروژه های تحقیقاتی نیستند – آنها در حال تأمین خدمات زنده هستند.
در دید رایانه ، معماری V-Moe Google دقت طبقه بندی را در معیارهایی مانند ImageNet بهبود بخشیده است ، و مدل Limoe عملکرد قوی در کارهای چند حالته شامل تصاویر و متن را نشان داده است. توانایی متخصصان در تخصص – برخی از متن ، تصاویر دیگر – یک لایه جدید از توانایی سیستم های AI را اضافه می کند.
سیستم های پیشنهادی و سیستم عامل های یادگیری چند کاره نیز از MOE بهره مند شده اند. به عنوان مثال ، موتور توصیه YouTube از معماری شبیه به کار گرفته شده است برای رسیدگی به اهداف مانند زمان ساعت و میزان کلیک از طریق کارآمدتر. MOE با اختصاص کارشناسان مختلف به کارهای مختلف یا رفتارهای کاربر ، به ساخت موتورهای شخصی سازی قوی تر کمک می کند.
مزایا و چالش ها
مزیت اصلی MOES کارآیی است. آنها اجازه می دهند تا مدل های عظیم آموزش داده و با محاسبه قابل توجهی کمتر مستقر شوند. به عنوان مثال ، مدل MiStral AI 8 × 7B مدل 47B پارامترهای کل دارد اما فقط 12.9b در هر نشانه را فعال می کند ، و در حالی که با مدل هایی مانند GPT-3.5 با کیفیت رقابت می کند ، هزینه یک مدل 13B را به آن می دهد.
MOE همچنین تخصص را پرورش می دهد. از آنجا که کارشناسان مختلف می توانند الگوهای متمایز را بیاموزند ، مدل کلی در رسیدگی به ورودی های متنوع بهتر می شود. این امر به ویژه در کارهای چند زبانه ، چند دامنه یا چند حالته مفید است که در آن یک مدل متراکم یک اندازه متناسب ممکن است تحت تأثیر قرار بگیرد.
با این حال ، MOE ها با چالش های مهندسی همراه هستند. آموزش آنها برای اطمینان از استفاده مؤثر از همه متخصصان ، نیاز به تعادل دقیق دارد. سربار حافظه یکی دیگر از نگرانی های دیگر است – در حالی که فقط بخشی از پارامترها در هر استنتاج فعال هستند ، همه باید در حافظه بارگذاری شوند. توزیع کارآمد محاسبات در بین GPU یا TPU ها غیر واقعی است و منجر به توسعه چارچوب های تخصصی مانند Deepspeed مایکروسافت و gshard Google شده است.
با وجود این موانع ، عملکرد و مزایای هزینه به اندازه کافی قابل توجه است که MOE ها اکنون به عنوان یک مؤلفه مهم طراحی AI در مقیاس بزرگ دیده می شوند. با بالغ شدن ابزارها و زیرساخت های بیشتر ، این چالش ها به تدریج برطرف می شوند.
چگونه MOE با سایر روش های مقیاس گذاری مقایسه می شود
مقیاس بندی متراکم سنتی اندازه مدل و محاسبه متناسب را افزایش می دهد. MOE با افزایش پارامترهای کل بدون افزایش محاسبه در هر ورودی ، این خطی را می شکند. این امکان را فراهم می کند تا مدل هایی با تریلیون پارامترها در همان سخت افزار که قبلاً محدود به ده ها میلیارد دلار بودند ، آموزش ببینند.
در مقایسه با مجموعه مدل ، که تخصص را نیز معرفی می کند اما به چندین پاس کامل به جلو نیاز دارد ، MOE بسیار کارآمدتر است. به جای اجرای چندین مدل به صورت موازی ، MOE ها فقط یک را اجرا می کنند – اما با بهره مندی از چندین مسیر متخصص.
MOE همچنین استراتژی هایی مانند مقیاس بندی داده های آموزش را تکمیل می کند (به عنوان مثال ، روش Chinchilla). در حالی که Chinchilla بر استفاده از داده های بیشتر با مدل های کوچکتر تأکید می کند ، MOE ها ظرفیت مدل را در حالی که محاسبه پایدار نگه می دارند ، گسترش می دهد و آنها را برای مواردی که محاسبه تنگنا است ، ایده آل می کند.
سرانجام ، در حالی که تکنیک هایی مانند هرس و کمیت اندازه گیری مدل های پس از آموزش ، MOE ظرفیت مدل را در طول آموزش افزایش می دهد. آنها جایگزینی برای فشرده سازی نیستند بلکه ابزاری متعامد برای رشد کارآمد هستند.
شرکت هایی که منجر به انقلاب MOE می شوند
غول های فنی
گوگل پیشگام بسیاری از تحقیقات MOE امروز استبشر مدل های ترانسفورماتور و گلم آنها به ترتیب به پارامترهای 1.6T و 1.2T رسیدند. گلام در حالی که فقط از یک سوم انرژی استفاده می کند ، عملکرد GPT-3 را مطابقت داد. Google همچنین MOES را برای Vision (V-MOE) و کارهای چند حالته (LIMOE) اعمال کرده است و با دید مسیرهای وسیع تر آنها برای مدلهای جهانی AI مطابقت دارد.
مایکروسافت داشتن MOE یکپارچه در تولید از طریق مدل Z-Code خود در مترجم مایکروسافتبشر همچنین Deepspeed-Moe را توسعه داد و تمرینات سریع و استنباط کم تأخیر را برای مدل های تریلیون پارامتر فراهم کرد. مشارکت آنها شامل الگوریتم های مسیریابی و کتابخانه Tutel برای محاسبه کارآمد MOE است.
متا کاوش شده MOE در مدل های زبان در مقیاس بزرگ و سیستم های پیشنهادی مدل MOE 1.1T آنها نشان داد که می تواند با کیفیت مدل متراکم با استفاده از محاسبات 4 × کمتر مطابقت داشته باشد. در حالی که مدل های Llama متراکم هستند ، تحقیقات متا در مورد MOE همچنان به اطلاع جامعه گسترده تر می پردازد.
وابسته به آمازون از MOES از طریق سکوی Sagemaker خود پشتیبانی می کند و تلاش های داخلی آنها آموزش مدل میکترال میسترال را تسهیل کردند و شایعه می شوند که از MOE در خدماتی مانند الکسا AI استفاده می کنند. مستندات AWS به طور فعال MOES را برای آموزش مدل در مقیاس بزرگ ترویج می کند.
هواوی وت باای در چین همچنین مدل های MOE رکورددار مانند pangu-لا (پارامترهای 1.085t). این پتانسیل های MOE را در زبان و کارهای چند مدلی به نمایش می گذارد و جذابیت جهانی آن را برجسته می کند.
استارتاپ ها و چالشگران
mistral ai کودک پوستر برای نوآوری MOE در منبع بازبشر مدل های مخلوط آنها 8 × 7B و 22b 22B ثابت کرده اند که MOE ها می توانند در حالی که با کسری از هزینه کار می کنند ، از مدل های متراکم مانند Llama-2 70B بهتر عمل کنند. با بیش از 600 میلیون یورو بودجه ، میسترال در معماری های پراکنده شرط بندی می کند.
XAI، که توسط الون مسک تأسیس شده است ، است بنا بر گزارش ها ، MOE ها را در مدل Grok خود کاوش می کند. در حالی که جزئیات محدود است ، MOE راهی برای راه اندازی هایی مانند XAI ارائه می دهد تا بدون نیاز به محاسبات گسترده با بازیکنان بزرگتر رقابت کنند.
دیتابیک، از طریق کسب Mosaicml ، منتشر شده است dbrx، یک مدل MOE باز که برای کارآیی طراحی شده است. آنها همچنین زیرساخت ها و دستور العمل هایی را برای آموزش MOE ارائه می دهند و مانع پذیرش را کاهش می دهند.
سایر بازیکنان مانند Hugging Face ، پشتیبانی MOE را در کتابخانه های خود یکپارچه کرده اند و ساخت این مدل ها را برای توسعه دهندگان آسان تر می کند. حتی اگر خود MOE را بسازند ، سکوهایی که آنها را قادر می سازد برای اکوسیستم بسیار مهم است.
پایان
مدل های مخلوط کردن فقط یک روند نیستند-آنها نشان دهنده تغییر اساسی در نحوه ساخت و مقیاس سیستم های AI هستند. MOE با فعال کردن انتخابی تنها بخش هایی از یک شبکه ، قدرت مدل های عظیم را بدون هزینه ممنوع خود ارائه می دهد. از آنجا که زیرساخت های نرم افزاری به دست می آیند و الگوریتم های مسیریابی بهبود می یابند ، MOE ها آماده می شوند تا به معماری پیش فرض برای هوش مصنوعی چند دامنه ، چند زبانه و چند بعدی تبدیل شوند.
این که آیا شما یک محقق ، مهندس یا سرمایه گذار هستید ، MOE ها نگاهی اجمالی به آینده ای می دهند که هوش مصنوعی از گذشته قدرتمندتر ، کارآمدتر و سازگار تر است.