متا اخیراً Llama 3.2 را راه اندازی کرد، آخرین تکرار در سری Llama آن مدل های زبان بزرگ، یک پیشرفت قابل توجه در تکامل اکوسیستم AI مولد منبع باز است. این ارتقا قابلیت های لاما را در دو بعد گسترش می دهد. از یک طرف، Llama 3.2 امکان پردازش دادههای چندوجهی – ادغام تصاویر، متن و موارد دیگر – را فراهم میکند و قابلیتهای پیشرفته هوش مصنوعی را برای مخاطبان وسیعتری قابل دسترستر میکند. از سوی دیگر، پتانسیل استقرار خود را در دستگاههای لبهای گسترش میدهد و فرصتهای هیجانانگیزی را برای برنامههای هوش مصنوعی روی دستگاه در زمان واقعی ایجاد میکند. در این مقاله، این توسعه و پیامدهای آن برای آینده استقرار هوش مصنوعی را بررسی خواهیم کرد.
تکامل لاما
سفر متا با لاما در اوایل سال 2023 آغاز شدو در آن زمان، سریال رشد و پذیرش انفجاری را تجربه کرد. با شروع با Llama 1، که محدود به استفاده غیرتجاری بود و فقط برای مؤسسات تحقیقاتی منتخب قابل دسترسی بود، این مجموعه با انتشار Llama 2 در سال 2023 به حوزه منبع باز تبدیل شد. عرضه Llama 3.1 در اوایل سال جاری، یک گام بزرگ بود. در تکامل، زیرا بزرگترین مدل منبع باز را با 405 میلیارد پارامتر معرفی کرد که یا همتراز رقبای اختصاصی خود است یا از آن پیشی میگیرد. آخرین نسخه، Llama 3.2، با معرفی مدل های سبک وزن جدید و متمرکز بر بینایی، ساخت هوش مصنوعی روی دستگاه و چند وجهی قابلیت های قابل دسترس تر تعهد متا به باز بودن و قابل تغییر بودن به لاما اجازه داده است تا به یک مدل پیشرو در جامعه منبع باز تبدیل شود. این شرکت معتقد است که با متعهد ماندن به شفافیت و دسترسی، میتوانیم به طور مؤثرتری نوآوری هوش مصنوعی را به سمت جلو سوق دهیم – نه فقط برای توسعهدهندگان و مشاغل، بلکه برای همه در سراسر جهان.
معرفی Llama 3.2
Llama 3.2 آخرین نسخه از سری Llama متا است که شامل انواع مدلهای زبانی است که برای برآوردن نیازهای مختلف طراحی شدهاند. مدل های بزرگ و متوسط، شامل 90 و 11 میلیارد پارامتر، برای پردازش داده های چندوجهی از جمله متن و تصویر طراحی شده اند. این مدلها میتوانند نمودارها، نمودارها و دیگر اشکال دادههای بصری را بهطور مؤثر تفسیر کنند و آنها را برای ساخت برنامههای کاربردی در زمینههایی مانند بینایی رایانه، تحلیل اسناد و ابزارهای واقعیت افزوده مناسب کنند. مدل های سبک وزن، دارای 1 میلیارد و 3 میلیارد پارامتر، به طور خاص برای دستگاه های تلفن همراه اتخاذ شده اند. این مدلهای فقط متنی در تولید متن چندزبانه و قابلیتهای فراخوانی ابزار عالی هستند، و آنها را برای کارهایی مانند تولید افزودهشده بازیابی، خلاصهسازی و ایجاد برنامههای شخصیسازی شده مبتنی بر عامل در دستگاههای لبه بسیار مؤثر میسازد.
اهمیت لاما 3.2
این نسخه از Llama 3.2 را می توان به دلیل پیشرفت های آن در دو زمینه کلیدی تشخیص داد.
عصر جدید هوش مصنوعی چندوجهی
Llama 3.2 اولین مدل متن باز متا است که دارای قابلیت پردازش متن و تصویر است. این یک پیشرفت قابل توجه در تکامل هوش مصنوعی مولد منبع باز است زیرا این مدل را قادر میسازد تا ورودیهای بصری را در کنار دادههای متنی تجزیه و تحلیل کند و به آنها پاسخ دهد. به عنوان مثال، کاربران اکنون میتوانند تصاویر را آپلود کنند و تجزیه و تحلیلها یا تغییرات دقیق را بر اساس درخواستهای زبان طبیعی دریافت کنند، مانند شناسایی اشیا یا ایجاد زیرنویس. مارک زاکربرگ در حین عرضه بر این قابلیت تاکید کرد و اظهار داشت که Llama 3.2 طوری طراحی شده است که “بسیاری از برنامه های جالب را فعال می کند که نیاز به درک بصری دارند”. این ادغام دامنه لاما را برای صنایع وابسته به اطلاعات چندوجهی، از جمله خرده فروشی، مراقبت های بهداشتی، آموزش و سرگرمی، گسترش می دهد.
عملکرد روی دستگاه برای دسترسی
یکی از ویژگی های برجسته Llama 3.2 بهینه سازی آن برای استقرار بر روی دستگاه، به ویژه در محیط های تلفن همراه است. نسخه های سبک وزن این مدل با 1 میلیارد و 3 میلیارد پارامتر، به طور خاص برای اجرا بر روی گوشی های هوشمند و دیگر دستگاه های لبه ای طراحی شده اند که از سخت افزار کوالکام و مدیاتک پشتیبانی می کنند. این ابزار به توسعه دهندگان این امکان را می دهد که بدون نیاز به منابع محاسباتی گسترده برنامه های کاربردی ایجاد کنند. علاوه بر این، این نسخههای مدل در پردازش متن چندزبانه عالی هستند و از طول زمینه طولانیتر از ۱۲۸ هزار توکن پشتیبانی میکنند و کاربران را قادر میسازد تا برنامههای پردازش زبان طبیعی را در زبان مادری خود توسعه دهند. علاوه بر این، این مدلها دارای قابلیتهای تماس با ابزار هستند که به کاربران امکان میدهد در برنامههای عاملی مانند مدیریت دعوتهای تقویم و برنامهریزی سفرها مستقیماً در دستگاههای خود شرکت کنند.
توانایی استقرار مدلهای هوش مصنوعی به صورت محلی، هوش مصنوعی منبع باز را قادر میسازد تا بر چالشهای مرتبط با محاسبات ابری، از جمله مسائل تأخیر، خطرات امنیتی، هزینههای عملیاتی بالا و اتکا به اتصال به اینترنت غلبه کند. این پیشرفت پتانسیل تغییر صنایعی مانند مراقبتهای بهداشتی، آموزش و تدارکات را دارد و به آنها اجازه میدهد تا از هوش مصنوعی بدون محدودیتهای زیرساخت ابری یا نگرانیهای حفظ حریم خصوصی و در موقعیتهای بلادرنگ استفاده کنند. این همچنین راه را برای هوش مصنوعی باز می کند تا به مناطقی با اتصال محدود دسترسی پیدا کند و دسترسی به فناوری پیشرفته را دموکراتیک کند.
مزیت رقابتی
متا گزارش می دهد که Llama 3.2 از نظر عملکرد در برابر مدل های پیشرو OpenAI و Anthropic عملکرد رقابتی داشته است. آنها ادعا میکنند که Llama 3.2 در معیارهای مختلف، از جمله وظایف زیر دستورالعملها و خلاصهسازی محتوا، از رقبایی مانند Claude 3-Haiku و GPT-4o-mini بهتر عمل میکند. این مزیت رقابتی برای Meta حیاتی است زیرا هدف آن اطمینان از این است که هوش مصنوعی منبع باز همتراز با مدل های اختصاصی در زمینه به سرعت در حال تکامل هوش مصنوعی مولد است.
Llama Stack: ساده سازی استقرار هوش مصنوعی
یکی از جنبه های کلیدی انتشار Llama 3.2، معرفی Llama Stack است. این مجموعه ابزار کار با مدلهای Llama را برای توسعهدهندگان در محیطهای مختلف، از جمله راهاندازیهای تک نود، درون محل، ابر و روی دستگاه آسانتر میکند. Llama Stack شامل پشتیبانی از RAG و برنامههای کاربردی با ابزار فعال میشود که چارچوبی انعطافپذیر و جامع برای استقرار مدلهای هوش مصنوعی مولد ارائه میدهد. با سادهسازی فرآیند استقرار، متا به توسعهدهندگان این امکان را میدهد تا بدون زحمت مدلهای Llama را در برنامههای خود، چه برای محیطهای ابر، موبایل، یا دسکتاپ، ادغام کنند.
خط پایین
متا لاما 3.2 یک لحظه حیاتی در تکامل هوش مصنوعی مولد منبع باز است که معیارهای جدیدی را برای دسترسی، عملکرد و تطبیق پذیری تعیین می کند. این مدل با قابلیتهای روی دستگاه و پردازش چندوجهی خود، فرصتهای دگرگونی را در سراسر صنایع، از مراقبتهای بهداشتی گرفته تا آموزش، باز میکند، در حالی که به نگرانیهای حیاتی مانند حریم خصوصی، تأخیر و محدودیتهای زیرساختی رسیدگی میکند. Llama 3.2 با توانمندسازی توسعه دهندگان برای استقرار هوش مصنوعی پیشرفته به صورت محلی و کارآمد، نه تنها دامنه کاربردهای هوش مصنوعی را گسترش می دهد، بلکه دسترسی به فناوری های پیشرفته را در مقیاس جهانی دموکراتیزه می کند.