جامبا: مدل جدید ترانسفورماتور هیبریدی-مامبای آزمایشگاه AI21

جدول محتوا

مدل‌های زبان شاهد پیشرفت‌های سریعی بوده‌اند و معماری‌های مبتنی بر ترانسفورماتور در پردازش زبان طبیعی پیشرو هستند. با این حال، همانطور که مدل‌ها مقیاس می‌شوند، چالش‌های مدیریت زمینه‌های طولانی، کارایی حافظه و توان عملیاتی بیشتر شده‌اند.

آزمایشگاه AI21 راه حل جدیدی با Jamba معرفی کرده است، یک مدل پیشرفته زبان بزرگ (LLM) که ترکیبی از نقاط قوت Transformer و معماری مامبا در یک چارچوب ترکیبی این مقاله به جزئیات جامبا می پردازد و معماری، عملکرد و کاربردهای بالقوه آن را بررسی می کند.

مروری بر جامبا

جامبا یک مدل زبان بزرگ ترکیبی است که توسط AI21 Labs توسعه یافته است و از ترکیب لایه‌های Transformer و لایه‌های Mamba استفاده می‌کند که با یک ترکیبی از کارشناسان (MOE) ماژول. این معماری به Jamba اجازه می دهد تا میزان استفاده از حافظه، توان عملیاتی و عملکرد را متعادل کند و آن را به ابزاری قدرتمند برای طیف گسترده ای از وظایف NLP تبدیل کند. این مدل به گونه‌ای طراحی شده است که در یک واحد پردازش گرافیکی 80 گیگابایتی قرار بگیرد و توان پردازشی بالا و حافظه کوچکی را ارائه دهد و در عین حال عملکرد پیشرفته‌ای را در معیارهای مختلف حفظ کند.

معماری جامبا

معماری جامبا سنگ بنای قابلیت های آن است. این بر اساس یک طراحی ترکیبی جدید ساخته شده است که لایه‌های ترانسفورماتور را با لایه‌های Mamba در هم می‌پیوندد، و ماژول‌های MoE را برای افزایش ظرفیت مدل بدون افزایش قابل‌توجه نیازهای محاسباتی ترکیب می‌کند.

1. لایه های ترانسفورماتور

معماری Transformer به دلیل توانایی آن در مدیریت کارآمد پردازش موازی و گرفتن وابستگی های دوربرد در متن به استانداردی برای LLM های مدرن تبدیل شده است. با این حال، عملکرد آن اغلب با نیازهای حافظه و محاسبات بالا، به ویژه هنگام پردازش زمینه های طولانی، محدود می شود. جامبا با ادغام لایه‌های Mamba که در ادامه به بررسی آن‌ها خواهیم پرداخت، این محدودیت‌ها را برطرف می‌کند.

2. لایه های مامبا

مامبا یک مدل فضای حالت وضعیت اخیر (SSM) است که برای مدیریت روابط از راه دور در توالی کارآمدتر از RNN های سنتی یا حتی ترانسفورماتورها طراحی شده است. لایه‌های مامبا به‌ویژه در کاهش ردپای حافظه مرتبط با ذخیره‌سازی حافظه‌های پنهان کلید-مقدار (KV) در Transformers مؤثر هستند. با در هم آمیختن لایه‌های Mamba با لایه‌های Transformer، Jamba مصرف کلی حافظه را کاهش می‌دهد و در عین حال عملکرد بالا را حفظ می‌کند، به‌ویژه در کارهایی که نیاز به مدیریت طولانی مدت دارند.

3. ترکیبی از کارشناسان (MOE) ماژول ها

این وزارت دفاع ماژول در جامبا یک رویکرد انعطاف پذیر برای مقیاس بندی ظرفیت مدل معرفی می کند. MoE به مدل اجازه می دهد تا تعداد پارامترهای موجود را بدون افزایش متناسب پارامترهای فعال در طول استنتاج افزایش دهد. در Jamba، MoE بر روی برخی از لایه‌های MLP اعمال می‌شود، با مکانیزم روتر، کارشناسان برتر را برای فعال کردن هر توکن انتخاب می‌کند. این فعال‌سازی انتخابی، جمبا را قادر می‌سازد تا در حین انجام وظایف پیچیده، کارایی بالایی داشته باشد.

تصویر زیر عملکرد یک هد القایی را در مدل هیبریدی Attention-Mamba نشان می دهد که یکی از ویژگی های کلیدی جامبا است. در این مثال، سر توجه مسئول پیش‌بینی برچسب‌هایی مانند «مثبت» یا «منفی» در پاسخ به وظایف تحلیل احساسات است. کلمات برجسته نشان می‌دهند که چگونه توجه مدل به‌شدت بر روی نشانه‌های برچسب از چند نمونه عکس متمرکز شده است، به ویژه در لحظه حساس قبل از پیش‌بینی برچسب نهایی. این مکانیسم توجه نقش مهمی در توانایی مدل برای انجام یادگیری درون زمینه ای ایفا می کند، جایی که مدل باید برچسب مناسب را بر اساس زمینه داده شده و نمونه های چند تصویری استنباط کند.

بهبود عملکرد ارائه شده با ادغام Mixture-of-Experts (MoE) با معماری ترکیبی Attention-Mamba در جدول مشخص شده است. با استفاده از MoE، جامبا ظرفیت خود را بدون افزایش متناسب هزینه های محاسباتی افزایش می دهد. این امر به ویژه در افزایش قابل توجه عملکرد در معیارهای مختلف مانند HellaSwag، WinoGrande و Natural Questions (NQ) مشهود است. مدل با MoE نه تنها دقت بالاتری را به دست می‌آورد (مثلاً 66.0% در WinoGrande در مقایسه با 62.5% بدون MoE) بلکه همچنین احتمالات گزارش بهبود یافته را در دامنه‌های مختلف نشان می‌دهد (مثلاً 0.534- در C4).

ویژگی های کلیدی معماری

ترکیب لایه: معماری جامبا از بلوک هایی تشکیل شده است که ترکیب می شوند مامبا و لایه های ترانسفورماتور در یک نسبت خاص (مثلاً 1:7، یعنی یک لایه ترانسفورماتور برای هر هفت لایه مامبا). این نسبت برای عملکرد و کارایی بهینه تنظیم شده است.
ادغام وزارت دفاع: لایه‌های MoE هر چند لایه اعمال می‌شوند و 16 کارشناس در دسترس هستند و 2 کارشناس برتر در هر توکن فعال می‌شوند. این پیکربندی به Jamba اجازه می‌دهد تا به طور موثر مقیاس‌بندی شود و در عین حال، مبادلات بین استفاده از حافظه و کارایی محاسباتی را مدیریت کند.
عادی سازی و ثبات: برای اطمینان از پایداری در طول تمرین، Jamba از RMSNorm در لایه‌های Mamba استفاده می‌کند، که به کاهش مشکلاتی مانند سنبله‌های فعال‌سازی بزرگ که می‌تواند در مقیاس رخ دهد، کمک می‌کند.

عملکرد و محک جمبا

جامبا به شدت در برابر طیف گسترده ای از معیارها آزمایش شده است و عملکرد رقابتی را در سراسر صفحه نشان می دهد. بخش‌های زیر برخی از معیارهای کلیدی را که جامبا در آنها برتری داشته است، نشان می‌دهد و نقاط قوت آن را هم در وظایف عمومی NLP و هم در سناریوهای با زمینه طولانی نشان می‌دهد.

1. معیارهای رایج NLP

جامبا بر اساس چندین معیار آکادمیک مورد ارزیابی قرار گرفته است، از جمله:

هلاسواگ (10 تیر): یک کار استدلال عقل سلیم که در آن جامبا نمره عملکرد 87.1٪ را به دست آورد که از بسیاری از مدل های رقیب پیشی گرفت.
WinoGrande (5-shot): یکی دیگر از وظایف استدلالی که در آن جامبا امتیاز 82.5٪ را به دست آورد و دوباره توانایی خود را در مدیریت استدلال پیچیده زبانی نشان داد.
ARC-Challenge (25 تیر): جامبا عملکرد قوی با امتیاز 64.4٪ نشان داد که نشان دهنده توانایی آن در مدیریت سوالات چالش برانگیز چند گزینه ای است.

در معیارهای کلی مانند MMLU (5-shot)، Jamba به امتیاز 67.4% دست یافت که نشان دهنده استحکام آن در انجام وظایف مختلف است.

2. ارزیابی های طولانی مدت

یکی از ویژگی های برجسته جامبا توانایی آن در مدیریت زمینه های بسیار طولانی است. این مدل از طول زمینه تا 256 هزار توکن پشتیبانی می‌کند که طولانی‌ترین در میان مدل‌های در دسترس عموم است. این قابلیت با استفاده از بنچمارک Needle-in-a-Haystack آزمایش شد، جایی که Jamba دقت بازیابی استثنایی را در طول های مختلف زمینه، از جمله تا 256 هزار توکن نشان داد.

3. توان عملیاتی و کارایی

معماری ترکیبی جامبا به طور قابل توجهی توان عملیاتی را بهبود می بخشد، به ویژه با دنباله های طولانی.

در آزمایش‌های مقایسه توان عملیاتی (توکن‌ها در هر ثانیه) در مدل‌های مختلف، جامبا به طور مداوم از همتایان خود، به‌ویژه در سناریوهایی که شامل اندازه‌های دسته‌ای بزرگ و زمینه‌های طولانی است، بهتر عمل می‌کرد. به عنوان مثال، جامبا با 128 هزار توکن، 3 برابر بیشتر از Mixtral، یک مدل قابل مقایسه، دست یافت.

استفاده از Jamba: Python

برای توسعه دهندگان و محققانی که مشتاق آزمایش جامبا هستند، آزمایشگاه AI21 این مدل را بر روی پلتفرم هایی مانند Hugging Face ارائه کرده است و آن را برای طیف گسترده ای از برنامه ها در دسترس قرار داده است. قطعه کد زیر نحوه بارگیری و تولید متن با استفاده از Jamba را نشان می دهد:

from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ai21labs/Jamba-v0.1")
tokenizer = AutoTokenizer.from_pretrained("ai21labs/Jamba-v0.1")
input_ids = tokenizer("In the recent Super Bowl LVIII,", return_tensors='pt').to(model.device)["input_ids"]
outputs = model.generate(input_ids, max_new_tokens=216)
print(tokenizer.batch_decode(outputs))

این اسکریپت ساده مدل جامبا و توکنایزر را بارگیری می کند، متنی را بر اساس یک دستور ورودی داده شده تولید می کند و خروجی تولید شده را چاپ می کند.

تنظیم دقیق جامبا

جامبا به عنوان یک مدل پایه طراحی شده است، به این معنی که می توان آن را برای وظایف یا برنامه های خاص تنظیم کرد. تنظیم دقیق به کاربران این امکان را می دهد که مدل را با دامنه های خاص تطبیق دهند و عملکرد را در کارهای تخصصی بهبود بخشند. مثال زیر نحوه تنظیم دقیق Jamba با استفاده از کتابخانه PEFT را نشان می دهد:

import torch
from datasets import load_dataset
from trl import SFTTrainer, SFTConfig
from peft import LoraConfig
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments
tokenizer = AutoTokenizer.from_pretrained("ai21labs/Jamba-v0.1")
model = AutoModelForCausalLM.from_pretrained(
"ai21labs/Jamba-v0.1", device_map='auto', torch_dtype=torch.bfloat16)
lora_config = LoraConfig(r=8,
target_modules=[
"embed_tokens","x_proj", "in_proj", "out_proj", # mamba
"gate_proj", "up_proj", "down_proj", # mlp
"q_proj", "k_proj", "v_proj" 
# attention],
task_type="CAUSAL_LM", bias="none")
dataset = load_dataset("Abirate/english_quotes", split="train")
training_args = SFTConfig(output_dir="./results",
num_train_epochs=2,
per_device_train_batch_size=4,
logging_dir='./logs',
logging_steps=10, learning_rate=1e-5, dataset_text_field="quote")
trainer = SFTTrainer(model=model, tokenizer=tokenizer, args=training_args,
peft_config=lora_config, train_dataset=dataset,
)
trainer.train()

این قطعه کد، Jamba را روی مجموعه داده‌ای از نقل قول‌های انگلیسی تنظیم می‌کند و پارامترهای مدل را برای تناسب بهتر با وظیفه خاص تولید متن در یک دامنه تخصصی تنظیم می‌کند.

استقرار و ادغام

آزمایشگاه‌های AI21 خانواده جامبا را از طریق پلتفرم‌ها و گزینه‌های استقرار مختلف در دسترس قرار داده است:

پلتفرم های ابری:
- در ارائه دهندگان ابری بزرگ از جمله Google Cloud Vertex AI، Microsoft Azure و NVIDIA NIM.
- به زودی به Amazon Bedrock، Databricks Marketplace و Snowflake Cortex عرضه می شود.
چارچوب های توسعه هوش مصنوعی:
- ادغام با چارچوب های محبوب مانند LangChain و LlamaIndex (آینده).
AI21 Studio:
- دسترسی مستقیم از طریق پلتفرم توسعه خود AI21.
صورت در آغوش گرفته:
- مدل های موجود برای دانلود و آزمایش.
استقرار در محل:
- گزینه هایی برای استقرار خصوصی و در محل برای سازمان هایی با نیازهای امنیتی خاص یا انطباق.
راه حل های سفارشی:
- AI21 خدمات سفارشی سازی و تنظیم دقیق مدل را برای مشتریان سازمانی ارائه می دهد.

ویژگی های برنامه نویس دوستانه

مدل های جامبا دارای چندین قابلیت داخلی هستند که آنها را به ویژه برای توسعه دهندگان جذاب می کند:

فراخوانی تابع: ابزارهای خارجی و APIها را به راحتی در جریان کاری هوش مصنوعی خود ادغام کنید.
خروجی JSON ساختاریافته: ساختارهای داده تمیز و قابل تجزیه را مستقیماً از ورودی های زبان طبیعی ایجاد کنید.
سند هضم شی: پردازش و درک ساختارهای پیچیده سند.
بهینه سازی RAG: ویژگی های داخلی برای بهبود خطوط لوله تولید افزوده بازیابی.

این ویژگی ها، همراه با پنجره زمینه طولانی مدل و پردازش کارآمد، جامبا را به ابزاری همه کاره برای طیف گسترده ای از سناریوهای توسعه تبدیل می کند.

ملاحظات اخلاقی و هوش مصنوعی مسئول

در حالی که قابلیت های جامبا چشمگیر است، بسیار مهم است که به استفاده از آن با ذهنیت هوش مصنوعی مسئولانه نزدیک شوید. آزمایشگاه AI21 بر چند نکته مهم تاکید دارد:

مدل پایه طبیعت: مدل های Jamba 1.5 مدل های پایه از پیش آموزش دیده بدون تراز یا تنظیم دستورالعمل خاص هستند.
عدم وجود محافظ های داخلی: مدل ها مکانیسم های تعدیل ذاتی ندارند.
استقرار دقیق: پیش از استفاده از جامبا در محیط های تولیدی یا با استفاده کنندگان نهایی، سازگاری و تدابیر اضافی باید اعمال شود.
حریم خصوصی داده ها: هنگام استفاده از استقرارهای مبتنی بر ابر، به مدیریت داده ها و الزامات انطباق توجه داشته باشید.
آگاهی تعصب: مانند همه مدل های زبان بزرگ، Jamba ممکن است سوگیری های موجود در داده های آموزشی خود را منعکس کند. کاربران باید از این موضوع آگاه باشند و اقدامات کاهشی مناسب را اعمال کنند.

با در نظر گرفتن این عوامل، توسعه‌دهندگان و سازمان‌ها می‌توانند از قابلیت‌های جامبا به طور مسئولانه و اخلاقی استفاده کنند.

فصل جدیدی در توسعه هوش مصنوعی؟

معرفی خانواده جمبا توسط AI21 Labs نقطه عطف مهمی در تکامل مدل های زبان بزرگ است. جامبا با ترکیب نقاط قوت ترانسفورماتورها و مدل‌های فضای حالت، یکپارچه‌سازی ترکیبی از تکنیک‌های متخصص، و افزایش مرزهای طول زمینه و سرعت پردازش، فرصت‌های جدیدی را برای کاربردهای هوش مصنوعی در سراسر صنایع باز می‌کند.

همانطور که جامعه هوش مصنوعی به کاوش و توسعه این معماری نوآورانه ادامه می‌دهد، می‌توان انتظار داشت که شاهد پیشرفت‌های بیشتری در کارایی مدل، درک متن طولانی و استقرار عملی هوش مصنوعی باشیم. خانواده جامبا نه تنها مجموعه جدیدی از مدل‌ها را نشان می‌دهد، بلکه یک تغییر بالقوه در نحوه رویکرد ما به طراحی و اجرای سیستم‌های هوش مصنوعی در مقیاس بزرگ است.

منبع:unite.ai