مدل های زبان بزرگ (LLM) دارند تغییر کرد چگونه پردازش زبان طبیعی را مدیریت می کنیم. آنها می توانند به سوالات پاسخ دهند، کد بنویسند و مکالمه داشته باشند. با این حال، آنها در مورد وظایف دنیای واقعی کوتاهی می کنند. به عنوان مثال، یک LLM می تواند شما را در خرید یک ژاکت راهنمایی کند اما نمی تواند برای شما سفارش دهد. این شکاف بین فکر کردن و انجام دادن یک محدودیت عمده است. مردم فقط به اطلاعات نیاز ندارند. آنها نتیجه می خواهند
برای پر کردن این شکاف، مایکروسافت است چرخاندن LLM به عوامل AI عمل گرا. با توانمند ساختن آنها برای برنامه ریزی، تجزیه وظایف و شرکت در تعاملات دنیای واقعی، آنها LLM ها را برای مدیریت موثر وظایف عملی توانمند می کنند. این تغییر قابلیت بازتعریف آنچه LLMها می توانند انجام دهند را دارد و آنها را به ابزارهایی تبدیل می کند که گردش کار پیچیده را خودکار می کند و کارهای روزمره را ساده می کند. بیایید ببینیم برای تحقق این امر چه چیزی لازم است و مایکروسافت چگونه به این مشکل نزدیک می شود.
آنچه LLM ها باید عمل کنند
برای اینکه LLM ها بتوانند وظایف خود را در دنیای واقعی انجام دهند، باید فراتر از درک متن عمل کنند. آنها باید با محیط های دیجیتال و فیزیکی تعامل داشته باشند و در عین حال با شرایط متغیر سازگار شوند. در اینجا برخی از قابلیت های مورد نیاز آنها آورده شده است:
درک هدف کاربر
برای عمل موثر، LLM ها باید درخواست های کاربر را درک کنند. ورودی هایی مانند متن یا دستورات صوتی اغلب مبهم یا ناقص هستند. سیستم باید با استفاده از دانش خود و زمینه درخواست، شکاف ها را پر کند. مکالمات چند مرحلهای میتواند به اصلاح این مقاصد کمک کند، و اطمینان حاصل شود که هوش مصنوعی قبل از اقدام متوجه میشود.
تبدیل نیات به اعمال
پس از درک یک کار، LLM ها باید آن را به مراحل عملی تبدیل کنند. این ممکن است شامل کلیک کردن روی دکمهها، فراخوانی APIها یا کنترل دستگاههای فیزیکی باشد. LLM ها باید اقدامات خود را برای انجام وظایف خاص تغییر دهند، با محیط سازگار شوند و چالش ها را در صورت بروز حل کنند.
انطباق با تغییرات
کارهای دنیای واقعی همیشه طبق برنامه پیش نمی روند. LLM ها باید مشکلات را پیش بینی کنند، مراحل را تنظیم کنند، و در صورت بروز مشکلات، جایگزین پیدا کنند. به عنوان مثال، اگر منبع لازم در دسترس نباشد، سیستم باید راه دیگری برای تکمیل کار پیدا کند. این انعطافپذیری تضمین میکند که هنگام تغییر شرایط، فرآیند متوقف نمیشود.
متخصص در وظایف خاص
در حالی که LLM برای استفاده عمومی طراحی شده است، تخصص آنها را کارآمدتر می کند. با تمرکز بر وظایف خاص، این سیستم ها می توانند نتایج بهتری را با منابع کمتر ارائه دهند. این امر به ویژه برای دستگاههایی که قدرت محاسباتی محدودی دارند، مانند گوشیهای هوشمند یا سیستمهای تعبیهشده، مهم است.
با توسعه این مهارت ها، LLM ها می توانند فراتر از پردازش اطلاعات حرکت کنند. آنها می توانند اقدامات معنی داری انجام دهند و راه را برای ادغام یکپارچه هوش مصنوعی در جریان های کاری روزمره هموار کنند.
چگونه مایکروسافت در حال تغییر LLM ها است
رویکرد مایکروسافت برای ایجاد هوش مصنوعی عمل گرا از یک فرآیند ساختاریافته پیروی می کند. هدف اصلی این است که LLM ها را قادر به درک دستورات، برنامه ریزی موثر و انجام اقدام کنند. در اینجا نحوه انجام آنها آمده است:
مرحله 1: جمع آوری و آماده سازی داده ها
در عبارت اول، آنها داده های مربوط به موارد استفاده خاص خود را جمع آوری کردند: عامل بشقاب پرنده (توضیح داده شده در زیر). داده ها شامل پرس و جوهای کاربر، جزئیات محیطی، و اقدامات خاص کار است. دو نوع مختلف داده در این مرحله جمعآوری میشوند: اولاً، آنها دادههای طرح وظیفه را جمعآوری کردند که به LLMها کمک میکرد تا مراحل سطح بالا مورد نیاز برای تکمیل یک کار را ترسیم کنند. برای مثال، «تغییر اندازه قلم در Word» ممکن است شامل مراحلی مانند انتخاب متن و تنظیم تنظیمات نوار ابزار باشد. ثانیاً، آنها دادههای وظیفه-عملی را جمعآوری کردند، و به LLMها این امکان را میدادند که این مراحل را به دستورالعملهای دقیق ترجمه کنند، مانند کلیک کردن روی دکمههای خاص یا استفاده از میانبرهای صفحه کلید.
این ترکیب هم تصویر بزرگ و هم دستورالعمل های دقیقی را که برای انجام کارها به طور موثر نیاز دارد به مدل می دهد.
مرحله 2: آموزش مدل
پس از جمع آوری داده ها، LLM ها از طریق جلسات آموزشی متعدد اصلاح می شوند. در مرحله اول، LLM ها برای برنامه ریزی کار با آموزش نحوه تقسیم درخواست های کاربر به مراحل عملی به آنها آموزش می بینند. سپس دادههای برچسبگذاری شده توسط متخصص برای آموزش نحوه ترجمه این طرحها به اقدامات خاص مورد استفاده قرار میگیرد. برای افزایش بیشتر قابلیتهای حل مسئله، LLMها درگیر فرآیند اکتشاف خودافزایندهای شدهاند که آنها را قادر میسازد تا با کارهای حل نشده مقابله کنند و نمونههای جدیدی برای یادگیری مستمر تولید کنند. در نهایت، یادگیری تقویتی با استفاده از بازخورد از موفقیت ها و شکست ها برای بهبود بیشتر تصمیم گیری آنها استفاده می شود.
مرحله 3: تست آفلاین
پس از آموزش، مدل در محیط های کنترل شده برای اطمینان از قابلیت اطمینان آزمایش می شود. معیارهایی مانند نرخ موفقیت کار (TSR) و نرخ موفقیت مرحله (SSR) برای اندازه گیری عملکرد استفاده می شود. برای مثال، آزمایش یک عامل مدیریت تقویم ممکن است مستلزم تأیید توانایی آن در برنامهریزی جلسات و ارسال دعوتنامهها بدون خطا باشد.
مرحله 4: ادغام در سیستم های واقعی
پس از تأیید اعتبار، مدل در یک چارچوب عامل ادغام می شود. این به آن اجازه میداد تا با محیطهای دنیای واقعی، مانند کلیک کردن روی دکمهها یا پیمایش منوها، تعامل داشته باشد. ابزارهایی مانند UI Automation API به سیستم کمک کردند تا عناصر رابط کاربری را به صورت پویا شناسایی و دستکاری کند.
به عنوان مثال، اگر وظیفه برجسته کردن متن در Word را داشته باشد، عامل دکمه برجسته را شناسایی می کند، متن را انتخاب می کند و قالب بندی را اعمال می کند. یک جزء حافظه می تواند به LLM کمک کند تا اقدامات گذشته را پیگیری کند و آن را قادر می سازد تا با سناریوهای جدید سازگار شود.
مرحله 5: آزمایش در دنیای واقعی
مرحله نهایی ارزیابی آنلاین است. در اینجا، سیستم در سناریوهای دنیای واقعی آزمایش می شود تا اطمینان حاصل شود که می تواند تغییرات و خطاهای غیرمنتظره را مدیریت کند. به عنوان مثال، یک ربات پشتیبانی مشتری ممکن است کاربران را از طریق بازنشانی رمز عبور و در عین حال سازگاری با ورودی های نادرست یا اطلاعات از دست رفته راهنمایی کند. این آزمایش تضمین می کند که هوش مصنوعی قوی و آماده برای استفاده روزمره است.
یک مثال عملی: عامل بشقاب پرنده
مایکروسافت برای نشان دادن نحوه عملکرد هوش مصنوعی اقدام گرا، آن را توسعه داد عامل بشقاب پرنده. این سیستم برای اجرای وظایف دنیای واقعی در محیط های ویندوز طراحی شده است و درخواست های کاربر را به اقدامات تکمیل شده تبدیل می کند.
در هسته خود، UFO Agent از یک LLM برای تفسیر درخواست ها و برنامه ریزی اقدامات استفاده می کند. برای مثال، اگر کاربری بگوید: «کلمه مهم را در این سند برجسته کنید»، عامل برای تکمیل کار با Word تعامل میکند. اطلاعات متنی مانند موقعیت های کنترل های رابط کاربری را جمع آوری می کند و از آن برای برنامه ریزی و اجرای اقدامات استفاده می کند.
عامل بشقاب پرنده بر ابزارهایی مانند اتوماسیون رابط کاربری ویندوز (UIA) API. این API برنامه ها را برای عناصر کنترلی مانند دکمه ها یا منوها اسکن می کند. برای کاری مانند «ذخیره سند بهعنوان PDF»، عامل از UIA برای شناسایی دکمه «فایل» استفاده میکند، گزینه «ذخیره بهعنوان» را پیدا میکند و مراحل لازم را انجام میدهد. با ساختار دهی مداوم داده ها، این سیستم عملکرد روان را از آموزش تا کاربرد در دنیای واقعی تضمین می کند.
غلبه بر چالش ها
در حالی که این یک توسعه هیجان انگیز است، ایجاد هوش مصنوعی عمل گرا با چالش هایی همراه است. مقیاس پذیری یک مسئله اصلی است. آموزش و استقرار این مدلها در وظایف مختلف به منابع قابل توجهی نیاز دارد. اطمینان از ایمنی و قابلیت اطمینان به همان اندازه مهم است. مدل ها باید وظایف را بدون عواقب ناخواسته انجام دهند، به خصوص در محیط های حساس. و از آنجایی که این سیستم ها با داده های خصوصی تعامل دارند، حفظ استانداردهای اخلاقی در مورد حریم خصوصی و امنیت نیز بسیار مهم است.
نقشه راه مایکروسافت بر بهبود کارایی، گسترش موارد استفاده و حفظ استانداردهای اخلاقی تمرکز دارد. با این پیشرفتها، LLMها میتوانند نحوه تعامل هوش مصنوعی با جهان را دوباره تعریف کنند و آنها را کاربردیتر، سازگارتر و کنشگراتر کنند.
آینده هوش مصنوعی
تبدیل LLM ها به عوامل عمل گرا می تواند یک تغییر بازی باشد. این سیستم ها می توانند وظایف را خودکار کنند، گردش کار را ساده کنند و فناوری را در دسترس تر کنند. کار مایکروسافت بر روی هوش مصنوعی اکشن گرا و ابزارهایی مانند UFO Agent تنها آغاز کار است. همانطور که هوش مصنوعی به تکامل خود ادامه میدهد، میتوانیم انتظار سیستمهای هوشمندتر و توانمندتری را داشته باشیم که فقط با ما تعامل ندارند، بلکه کارها را انجام میدهند.