از قصد تا اجرا: چگونه مایکروسافت مدل های زبان بزرگ را به هوش مصنوعی عمل گرا تبدیل می کند


مدل های زبان بزرگ (LLM) دارند تغییر کرد چگونه پردازش زبان طبیعی را مدیریت می کنیم. آنها می توانند به سوالات پاسخ دهند، کد بنویسند و مکالمه داشته باشند. با این حال، آنها در مورد وظایف دنیای واقعی کوتاهی می کنند. به عنوان مثال، یک LLM می تواند شما را در خرید یک ژاکت راهنمایی کند اما نمی تواند برای شما سفارش دهد. این شکاف بین فکر کردن و انجام دادن یک محدودیت عمده است. مردم فقط به اطلاعات نیاز ندارند. آنها نتیجه می خواهند

برای پر کردن این شکاف، مایکروسافت است چرخاندن LLM به عوامل AI عمل گرا. با توانمند ساختن آنها برای برنامه ریزی، تجزیه وظایف و شرکت در تعاملات دنیای واقعی، آنها LLM ها را برای مدیریت موثر وظایف عملی توانمند می کنند. این تغییر قابلیت بازتعریف آنچه LLMها می توانند انجام دهند را دارد و آنها را به ابزارهایی تبدیل می کند که گردش کار پیچیده را خودکار می کند و کارهای روزمره را ساده می کند. بیایید ببینیم برای تحقق این امر چه چیزی لازم است و مایکروسافت چگونه به این مشکل نزدیک می شود.

آنچه LLM ها باید عمل کنند

برای اینکه LLM ها بتوانند وظایف خود را در دنیای واقعی انجام دهند، باید فراتر از درک متن عمل کنند. آنها باید با محیط های دیجیتال و فیزیکی تعامل داشته باشند و در عین حال با شرایط متغیر سازگار شوند. در اینجا برخی از قابلیت های مورد نیاز آنها آورده شده است:

  1. درک هدف کاربر

برای عمل موثر، LLM ها باید درخواست های کاربر را درک کنند. ورودی هایی مانند متن یا دستورات صوتی اغلب مبهم یا ناقص هستند. سیستم باید با استفاده از دانش خود و زمینه درخواست، شکاف ها را پر کند. مکالمات چند مرحله‌ای می‌تواند به اصلاح این مقاصد کمک کند، و اطمینان حاصل شود که هوش مصنوعی قبل از اقدام متوجه می‌شود.

  1. تبدیل نیات به اعمال

پس از درک یک کار، LLM ها باید آن را به مراحل عملی تبدیل کنند. این ممکن است شامل کلیک کردن روی دکمه‌ها، فراخوانی APIها یا کنترل دستگاه‌های فیزیکی باشد. LLM ها باید اقدامات خود را برای انجام وظایف خاص تغییر دهند، با محیط سازگار شوند و چالش ها را در صورت بروز حل کنند.

  1. انطباق با تغییرات

کارهای دنیای واقعی همیشه طبق برنامه پیش نمی روند. LLM ها باید مشکلات را پیش بینی کنند، مراحل را تنظیم کنند، و در صورت بروز مشکلات، جایگزین پیدا کنند. به عنوان مثال، اگر منبع لازم در دسترس نباشد، سیستم باید راه دیگری برای تکمیل کار پیدا کند. این انعطاف‌پذیری تضمین می‌کند که هنگام تغییر شرایط، فرآیند متوقف نمی‌شود.

  1. متخصص در وظایف خاص

در حالی که LLM برای استفاده عمومی طراحی شده است، تخصص آنها را کارآمدتر می کند. با تمرکز بر وظایف خاص، این سیستم ها می توانند نتایج بهتری را با منابع کمتر ارائه دهند. این امر به ویژه برای دستگاه‌هایی که قدرت محاسباتی محدودی دارند، مانند گوشی‌های هوشمند یا سیستم‌های تعبیه‌شده، مهم است.

با توسعه این مهارت ها، LLM ها می توانند فراتر از پردازش اطلاعات حرکت کنند. آنها می توانند اقدامات معنی داری انجام دهند و راه را برای ادغام یکپارچه هوش مصنوعی در جریان های کاری روزمره هموار کنند.

چگونه مایکروسافت در حال تغییر LLM ها است

رویکرد مایکروسافت برای ایجاد هوش مصنوعی عمل گرا از یک فرآیند ساختاریافته پیروی می کند. هدف اصلی این است که LLM ها را قادر به درک دستورات، برنامه ریزی موثر و انجام اقدام کنند. در اینجا نحوه انجام آنها آمده است:

مرحله 1: جمع آوری و آماده سازی داده ها

در عبارت اول، آنها داده های مربوط به موارد استفاده خاص خود را جمع آوری کردند: عامل بشقاب پرنده (توضیح داده شده در زیر). داده ها شامل پرس و جوهای کاربر، جزئیات محیطی، و اقدامات خاص کار است. دو نوع مختلف داده در این مرحله جمع‌آوری می‌شوند: اولاً، آنها داده‌های طرح وظیفه را جمع‌آوری کردند که به LLMها کمک می‌کرد تا مراحل سطح بالا مورد نیاز برای تکمیل یک کار را ترسیم کنند. برای مثال، «تغییر اندازه قلم در Word» ممکن است شامل مراحلی مانند انتخاب متن و تنظیم تنظیمات نوار ابزار باشد. ثانیاً، آنها داده‌های وظیفه-عملی را جمع‌آوری کردند، و به LLMها این امکان را می‌دادند که این مراحل را به دستورالعمل‌های دقیق ترجمه کنند، مانند کلیک کردن روی دکمه‌های خاص یا استفاده از میانبرهای صفحه کلید.

این ترکیب هم تصویر بزرگ و هم دستورالعمل های دقیقی را که برای انجام کارها به طور موثر نیاز دارد به مدل می دهد.

مرحله 2: آموزش مدل

پس از جمع آوری داده ها، LLM ها از طریق جلسات آموزشی متعدد اصلاح می شوند. در مرحله اول، LLM ها برای برنامه ریزی کار با آموزش نحوه تقسیم درخواست های کاربر به مراحل عملی به آنها آموزش می بینند. سپس داده‌های برچسب‌گذاری شده توسط متخصص برای آموزش نحوه ترجمه این طرح‌ها به اقدامات خاص مورد استفاده قرار می‌گیرد. برای افزایش بیشتر قابلیت‌های حل مسئله، LLMها درگیر فرآیند اکتشاف خودافزاینده‌ای شده‌اند که آنها را قادر می‌سازد تا با کارهای حل نشده مقابله کنند و نمونه‌های جدیدی برای یادگیری مستمر تولید کنند. در نهایت، یادگیری تقویتی با استفاده از بازخورد از موفقیت ها و شکست ها برای بهبود بیشتر تصمیم گیری آنها استفاده می شود.

مرحله 3: تست آفلاین

پس از آموزش، مدل در محیط های کنترل شده برای اطمینان از قابلیت اطمینان آزمایش می شود. معیارهایی مانند نرخ موفقیت کار (TSR) و نرخ موفقیت مرحله (SSR) برای اندازه گیری عملکرد استفاده می شود. برای مثال، آزمایش یک عامل مدیریت تقویم ممکن است مستلزم تأیید توانایی آن در برنامه‌ریزی جلسات و ارسال دعوت‌نامه‌ها بدون خطا باشد.

مرحله 4: ادغام در سیستم های واقعی

پس از تأیید اعتبار، مدل در یک چارچوب عامل ادغام می شود. این به آن اجازه می‌داد تا با محیط‌های دنیای واقعی، مانند کلیک کردن روی دکمه‌ها یا پیمایش منوها، تعامل داشته باشد. ابزارهایی مانند UI Automation API به سیستم کمک کردند تا عناصر رابط کاربری را به صورت پویا شناسایی و دستکاری کند.

به عنوان مثال، اگر وظیفه برجسته کردن متن در Word را داشته باشد، عامل دکمه برجسته را شناسایی می کند، متن را انتخاب می کند و قالب بندی را اعمال می کند. یک جزء حافظه می تواند به LLM کمک کند تا اقدامات گذشته را پیگیری کند و آن را قادر می سازد تا با سناریوهای جدید سازگار شود.

مرحله 5: آزمایش در دنیای واقعی

مرحله نهایی ارزیابی آنلاین است. در اینجا، سیستم در سناریوهای دنیای واقعی آزمایش می شود تا اطمینان حاصل شود که می تواند تغییرات و خطاهای غیرمنتظره را مدیریت کند. به عنوان مثال، یک ربات پشتیبانی مشتری ممکن است کاربران را از طریق بازنشانی رمز عبور و در عین حال سازگاری با ورودی های نادرست یا اطلاعات از دست رفته راهنمایی کند. این آزمایش تضمین می کند که هوش مصنوعی قوی و آماده برای استفاده روزمره است.

یک مثال عملی: عامل بشقاب پرنده

مایکروسافت برای نشان دادن نحوه عملکرد هوش مصنوعی اقدام گرا، آن را توسعه داد عامل بشقاب پرنده. این سیستم برای اجرای وظایف دنیای واقعی در محیط های ویندوز طراحی شده است و درخواست های کاربر را به اقدامات تکمیل شده تبدیل می کند.

در هسته خود، UFO Agent از یک LLM برای تفسیر درخواست ها و برنامه ریزی اقدامات استفاده می کند. برای مثال، اگر کاربری بگوید: «کلمه مهم را در این سند برجسته کنید»، عامل برای تکمیل کار با Word تعامل می‌کند. اطلاعات متنی مانند موقعیت های کنترل های رابط کاربری را جمع آوری می کند و از آن برای برنامه ریزی و اجرای اقدامات استفاده می کند.

عامل بشقاب پرنده بر ابزارهایی مانند اتوماسیون رابط کاربری ویندوز (UIA) API. این API برنامه ها را برای عناصر کنترلی مانند دکمه ها یا منوها اسکن می کند. برای کاری مانند «ذخیره سند به‌عنوان PDF»، عامل از UIA برای شناسایی دکمه «فایل» استفاده می‌کند، گزینه «ذخیره به‌عنوان» را پیدا می‌کند و مراحل لازم را انجام می‌دهد. با ساختار دهی مداوم داده ها، این سیستم عملکرد روان را از آموزش تا کاربرد در دنیای واقعی تضمین می کند.

غلبه بر چالش ها

در حالی که این یک توسعه هیجان انگیز است، ایجاد هوش مصنوعی عمل گرا با چالش هایی همراه است. مقیاس پذیری یک مسئله اصلی است. آموزش و استقرار این مدل‌ها در وظایف مختلف به منابع قابل توجهی نیاز دارد. اطمینان از ایمنی و قابلیت اطمینان به همان اندازه مهم است. مدل ها باید وظایف را بدون عواقب ناخواسته انجام دهند، به خصوص در محیط های حساس. و از آنجایی که این سیستم ها با داده های خصوصی تعامل دارند، حفظ استانداردهای اخلاقی در مورد حریم خصوصی و امنیت نیز بسیار مهم است.

نقشه راه مایکروسافت بر بهبود کارایی، گسترش موارد استفاده و حفظ استانداردهای اخلاقی تمرکز دارد. با این پیشرفت‌ها، LLM‌ها می‌توانند نحوه تعامل هوش مصنوعی با جهان را دوباره تعریف کنند و آنها را کاربردی‌تر، سازگارتر و کنش‌گراتر کنند.

آینده هوش مصنوعی

تبدیل LLM ها به عوامل عمل گرا می تواند یک تغییر بازی باشد. این سیستم ها می توانند وظایف را خودکار کنند، گردش کار را ساده کنند و فناوری را در دسترس تر کنند. کار مایکروسافت بر روی هوش مصنوعی اکشن گرا و ابزارهایی مانند UFO Agent تنها آغاز کار است. همانطور که هوش مصنوعی به تکامل خود ادامه می‌دهد، می‌توانیم انتظار سیستم‌های هوشمندتر و توانمندتری را داشته باشیم که فقط با ما تعامل ندارند، بلکه کارها را انجام می‌دهند.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *