فشرده سازی سریع برای بهینه سازی تولید LLM و کاهش هزینه




در این مقاله، پنج تکنیک فشرده سازی سریع عملی را خواهید آموخت که توکن ها را کاهش می دهد و تولید مدل های زبان بزرگ (LLM) را بدون کاهش کیفیت کار تسریع می بخشد.

موضوعاتی که به آنها خواهیم پرداخت عبارتند از:

  • خلاصه معنایی چیست و چه زمانی باید از آن استفاده کرد
  • چگونه درخواست‌های ساختاریافته، فیلتر مربوطه، و سئوی دستورالعمل‌ها تعداد توکن‌ها را کاهش می‌دهند
  • انتزاع مدل کجا مناسب است و چگونه آن را به طور مداوم اعمال کنیم

بیایید این تکنیک ها را بررسی کنیم.

فشرده سازی سریع برای بهینه سازی تولید LLM و کاهش هزینه

فشرده سازی سریع برای بهینه سازی تولید LLM و کاهش هزینه
تصویر توسط ناشر

مقدمه

مدل های زبان بزرگ (LLM) اصولاً برای ایجاد پاسخ‌های متنی به درخواست‌ها یا درخواست‌های کاربر، با استدلال پیچیده که نه تنها شامل تولید زبان با پیش‌بینی هر نشانه بعدی در دنباله خروجی می‌شود، بلکه شامل درک عمیق الگوهای زبانی پیرامون ورودی متن توسط کاربر است.

فشرده سازی سریع این تکنیک ها یک موضوع تحقیقاتی هستند که اخیراً در چشم انداز LLM به دلیل نیاز به کاهش استنتاج آهسته و وقت گیر ناشی از درخواست های بزرگتر کاربر و پنجره های بازشو مورد توجه قرار گرفته است. این تکنیک ها برای کمک به کاهش استفاده از توکن، سرعت بخشیدن به تولید توکن و کاهش هزینه های محاسباتی کلی طراحی شده اند و در عین حال کیفیت نتیجه کار را تا حد امکان حفظ می کنند.

این مقاله پنج تکنیک فشرده سازی سریع را که معمولاً مورد استفاده قرار می گیرد برای تسریع تولید LLM در سناریوهای چالش برانگیز معرفی و توصیف می کند.

1. خلاصه معنایی

خلاصه‌سازی معنایی تکنیکی است که محتوای طولانی یا تکراری را در نسخه‌ای مختصرتر فشرده می‌کند و در عین حال معنای اساسی خود را حفظ می‌کند. به جای ارسال مکرر کل مکالمه یا اسناد متنی به مدل، خلاصه ای که فقط شامل موارد ضروری است منتقل می شود. نتیجه: تعداد نشانه‌های ورودی که مدل باید بخواند کاهش می‌یابد، در نتیجه روند تولید توکن بعدی را سرعت می‌بخشد و هزینه‌ها را بدون از دست دادن اطلاعات کلیدی کاهش می‌دهد.

یک زمینه طولانی و سریع متشکل از صورتجلسات جلسه را فرض کنید، مانند «در جلسه دیروز، ایوان ارقام فصلی را بررسی کرد…“، خلاصه کردن حداکثر پنج پاراگراف. پس از یک خلاصه معنایی، متن کوتاه شده ممکن است شبیه به “خلاصه: ایوان ارقام سه ماهه را بررسی کرد، کاهش فروش در سه ماهه چهارم را برجسته کرد و اقدامات کاهش هزینه را پیشنهاد کرد.»

2. اعلان ساختاریافته (JSON)

این تکنیک بر بیان تکه‌های طولانی و روان اطلاعات متنی در قالب‌های فشرده و نیمه‌ساختار یافته مانند JSON (یعنی جفت‌های کلید-مقدار) یا یک لیست گلوله تمرکز دارد. قالب‌های هدف مورد استفاده برای درخواست‌های ساختاریافته معمولاً شامل کاهش تعداد نشانه‌ها می‌شوند. این به مدل کمک می‌کند تا دستورالعمل‌های کاربر را با اطمینان بیشتری تفسیر کند و بنابراین، سازگاری مدل را بهبود می‌بخشد و ابهام را کاهش می‌دهد در حالی که درخواست‌ها را در طول مسیر کاهش می‌دهد.

الگوریتم‌های اعلان ساخت‌یافته می‌توانند اعلان‌های خام را با دستورالعمل‌هایی مانند تغییر شکل دهند لطفاً مقایسه دقیقی بین محصول X و محصول Y با تمرکز بر قیمت، ویژگی‌های محصول و نظرات مشتریان ارائه دهید. در یک فرم ساختار یافته مانند: {وظیفه: “مقایسه”، عناصر: [“Product X”, “Product Y”]معیارها: [“price”, “features”, “ratings”]}

3. فیلتر کردن بر اساس ارتباط

فیلتر ارتباط، اصل «تمرکز بر آنچه واقعاً مهم است» را اعمال می‌کند: ارتباط بخش‌های خاصی از متن را اندازه‌گیری می‌کند و تنها آن عناصری از زمینه را که واقعاً با کار مورد نظر مرتبط هستند، در پیام نهایی ادغام می‌کند. به جای حذف کل اطلاعات، مانند اسنادی که بخشی از زمینه هستند، تنها زیرمجموعه های کوچکی از اطلاعات که بیشتر مرتبط با پرس و جوی هدف هستند حفظ می شوند. این روش دیگری برای کاهش قابل توجه اندازه اعلان‌ها و کمک به عملکرد بهتر مدل از نظر تمرکز و بهبود دقت پیش‌بینی است (به یاد داشته باشید که تولید توکن LLM، در اصل، یک کار پیش‌بینی کلمه بعدی است که چندین بار تکرار می‌شود).

به عنوان مثال، یک کتابچه راهنمای کامل محصول 10 صفحه ای برای تلفن همراه را در نظر بگیرید که به عنوان پیوست اضافه شده است (زمینه فوری). پس از اعمال فیلتر مربوطه، تنها چند بخش کوتاه مربوط به “عمر باتری” و “فرایند شارژ” حفظ می شود، زیرا کاربر از پیامدهای ایمنی هنگام شارژ دستگاه مطلع شده است.

4. دستورالعمل های ارجاع

بسیاری از درخواست‌ها همان نوع دستورالعمل‌ها را بارها و بارها تکرار می‌کنند، مانند «این لحن را بگیرید»، «در این قالب پاسخ دهید» یا «از جملات مختصر استفاده کنید»، به نام چند. ارجاع دستورالعمل، یک مرجع برای هر دستورالعمل رایج (شامل مجموعه ای از نشانه ها) ایجاد می کند، هر یک را فقط یک بار ذخیره می کند، و مجدداً از آن به عنوان یک شناسه نشانه منحصر به فرد استفاده می کند. هر زمان که درخواست های آینده یک “درخواست مشترک” ثبت شده را ذکر کنند، از این شناسه استفاده می شود. علاوه بر کوتاه کردن اعلان‌ها، این استراتژی همچنین به حفظ رفتار ثابت در طول زمان کمک می‌کند.

مجموعه ای ترکیبی از دستورالعمل ها مانند “با لحن دوستانه بنویسید. از اصطلاحات خاص خودداری کنید. جملات را مختصر نگه دارید. مثال هایی ارائه دهید.” را می توان به “استفاده از راهنمای سبک X” ساده کرد. و پس از مشخص شدن مجدد دستورالعمل های معادل، دوباره مورد استفاده قرار گیرد.

5. انتزاع مدل

برخی از الگوها یا دستورالعمل‌ها اغلب در دستورات ظاهر می‌شوند، برای مثال ساختارهای گزارش، قالب‌های ارزیابی، یا روش‌های گام به گام. انتزاع مدل یک اصل مشابه را برای ارجاع به بیانیه اعمال می کند، اما بر شکل و قالبی که خروجی تولید شده باید داشته باشد، با کپسوله کردن این مدل های رایج تحت نام مدل، تمرکز می کند. سپس از ارجاع مدل استفاده می شود و LLM وظیفه پر کردن بقیه اطلاعات را بر عهده می گیرد. این نه تنها به شفاف‌تر ماندن اعلان‌ها کمک می‌کند، بلکه حضور توکن‌های مکرر را نیز تا حد زیادی کاهش می‌دهد.

پس از انتزاع مدل، یک درخواست را می توان به چیزی مانند “تولید یک تحلیل رقابتی با استفاده از مدل AB-3” تبدیل کرد. که در آن AB-3 لیستی از بخش های محتوای درخواست شده برای تجزیه و تحلیل است که هر کدام به وضوح تعریف شده اند. چیزی شبیه به:

یک تحلیل رقابتی در چهار بخش تولید کنید:

  • بررسی اجمالی بازار (2-3 پاراگراف که روندهای صنعت را خلاصه می کند)
  • توزیع رقیب (جدول مقایسه حداقل 5 رقیب)
  • نقاط قوت و ضعف (نقاط گلوله)
  • توصیه های استراتژیک (3 مرحله قابل دستیابی).

نتیجه گیری

این مقاله پنج روش متداول را برای سرعت بخشیدن به تولید LLM در سناریوهای دشوار با فشرده‌سازی اعلان‌های کاربر، که اغلب بر بخش متنی آن‌ها متمرکز می‌شود، ارائه و توصیف می‌کند، که اغلب علت اصلی «اعلان‌های بیش از حد» است که باعث کاهش سرعت LLM می‌شود.







منبع:aitoolsclub.com/