آنچه شما باید در مورد اپراتور Openai بدانید

جدول محتوا

طی چند هفته گذشته ، Openai در حال انجام کار زمینی بوده است. در حالی که بیشتر کاربران تازه شروع به کشف کردند وظایف chatgpt – ویژگی جدیدی که به برنامه کاربر اجازه می دهد و وظایف را تحریک می کند – این شرکت در حال آماده سازی برای چیزی بسیار مهم تر بود.

انتشار دیروز از عملگر یکی دیگر از سیگنال های واضح دیگر است که هوش مصنوعی در آن قرار دارد: از مدلهایی که به سادگی اطلاعات را به نمایندگان پردازش می کنند که می توانند به طور فعال در کنار ما کار کنند.

هر روز ، ساعتهای بی شماری را صرف پیمایش در وب سایت ها ، پر کردن فرم ها ، خدمات رزرو و مدیریت کارهای دیجیتال می کنیم. هوش مصنوعی بیشتر از حاشیه تماشا کرده است ، محدود به ارائه مشاوره یا پردازش متن. اپراتور به همراه برخی دیگر از اعلامیه های عامل اخیر مانند Anthropic’s استفاده از رایانه و گوگل پروژه مارینر، این پویا را کاملاً تغییر دهید.

دستاورد فنی در اینجا قابل توجه است. Openai هوش مصنوعی ایجاد کرده است که می تواند با رابط های وب مانند یک انسان مشاهده و تعامل داشته باشد. این تصاویر را ضبط می کند ، طرح های بصری را درک می کند و در مورد جایی که باید کلیک کنید ، چه چیزی را تایپ کنید و چگونه حرکت کنید ، تصمیم می گیرد.

در اینجا چیزی است که شما باید در مورد عامل اپراتور بدانید: در حالی که بسیاری از ابزارهای هوش مصنوعی اساساً در پشت API ها و ادغام های تخصصی به دام می افتند ، اپراتور دقیقاً مانند شما با وب کار می کند. صفحه نمایش را می بیند ، زمینه را درک می کند و مستقیماً اقدام می کند.

نگاهی دقیق تر به عملکرد واقعی اپراتور

هنگامی که شرکت های هوش مصنوعی معیارهای خود را منتشر می کنند ، مهم است که با دقت نگاه کنید که این تعداد در واقع به چه معنی است. عملکرد اپراتور داستانی متفاوت را در محیط های مختلف تست نشان می دهد.

چشمگیرترین متریک نرخ موفقیت 87 ٪ اپراتور در معیار WebVoyagerبشر این مهم است زیرا WebVoyager وب سایت های دنیای واقعی را آزمایش می کند-سیستم عامل های واقعی که روزانه مانند نقشه های آمازون و Google از آنها استفاده می کنیم. این یک آزمایش آزمایشگاهی کنترل نشده نیست. این یک عملکرد در طبیعت است.

اما وقتی به معیارهای دیگر نگاه می کنیم ، تصویری ظریف تر می بینیم:

معیار Webarena: 58.1 ٪ نرخ موفقیت. آزمایش وب سایت های شبیه سازی شده برای کارهایی مانند خرید و مدیریت محتوا. عملکرد پایین تر در اینجا در واقع چیز مهمی را در مورد نحوه برخورد عوامل هوش مصنوعی در مقابل محیط های بدون ساختار نشان می دهد.
معیار Osworld: 38.1 ٪ نرخ موفقیت. این تست های پیچیده و چند مرحله ای مانند ترکیب PDF از ایمیل ها. افت قابل توجه در عملکرد ، محدودیت های فعلی عوامل AI را در هنگام انجام وظایف به سوئیچ های متناسب نشان می دهد.

آنچه من را در مورد این اعداد مورد علاقه خود قرار می دهد این است که چگونه آنها از الگوهای یادگیری انسان آینه می کنند. ما به طور معمول در محیط های آشنا و واقعی نسبت به سناریوهای تست مصنوعی عملکرد بهتری داریم. این واقعیت که اپراتور در وب سایت های واقعی در حالی که با نمونه های شبیه سازی شده مبارزه می کند ، نشان می دهد که آموزش آن اولویت بندی کاربردهای عملی را برای عملکرد نظری دارد.

این معیارها سوابق جدیدی را در اتوماسیون مرورگر تعیین می کنند ، اما نرخ موفقیت متفاوت در تست های مختلف چیزی را در مورد استراتژی Openai به ما می گوید.

به مرور وب خود فکر کنید. بیشتر کارها ساده است: پر کردن فرم ها ، خرید ، رزرو قرار ملاقات. اینجاست که میزان موفقیت 87 ٪ اپراتور می درخشد. وظایف پیچیده تر – در جایی که عملکرد کاهش می یابد – به طور معمول مواردی هستند که به هر حال نظارت انسان با ارزش است.

این داده ها نشان می دهد که OpenAI در حال انتخاب یک انتخاب عمدی است: ابتدا وظایف مشترک را کامل کنید ، سپس به تدریج به عملیات پیچیده تر گسترش دهید. این یک رویکرد عملی است که کاربرد فوری را نسبت به قابلیت های نظری در اولویت قرار می دهد.

معیارهای عامل AI (OpenAi)

رویکرد Openai با اپراتور یک استراتژی با دقت ارکستر را نشان می دهد.

ابتدا زمان بندی را در نظر بگیرید. ویژگی های اخیر ویژگی هایی مانند وظایف chatgpt فقط مربوط به افزودن ویژگی ها نبود – بلکه در مورد تهیه کاربران برای عوامل خودمختار بود.

اما اینجا چیزی است که واقعاً جالب است: OpenAi قصد دارد مدل CUA را از طریق API افشا کند. این بدان معناست که توسعه دهندگان قادر به ایجاد عوامل استفاده از رایانه خود خواهند بود.

پیامدهای این امر قابل توجه است:

پتانسیل ادغام

ترکیب مستقیم در گردش کار موجود
نمایندگان سفارشی برای نیازهای تجاری خاص
راه حل های اتوماسیون خاص صنعت

مسیر توسعه آینده

گسترش به کاربران به علاوه ، تیم و سازمانی
ادغام chatgpt مستقیم
گسترش جغرافیایی (اگرچه اروپا به دلیل بیشتر طول خواهد کشید الزامات نظارتی)

مشارکتهای استراتژیک نیز می گوید. OpenAi در تلاش است تا یک اکوسیستم کامل ایجاد کند. آنها با شرکت هایی مانند Doordash ، Instacart و OpenTable ، بلکه با سازمان های بخش دولتی مانند شهر Stockton همکاری می کنند.

این به آینده ای اشاره می کند که عوامل هوش مصنوعی فقط دستیاران نیستند بلکه بخش هایی از نحوه تعامل ما با سیستم های دیجیتال هستند.

این در واقع برای شما چه معنی دارد

ما در حال ورود به مرحله ای هستیم که AI فقط به سؤالات پاسخ نمی دهد – بلکه در زندگی دیجیتال ما به یک شرکت کننده فعال تبدیل می شود.

به کارهای آنلاین روزانه خود فکر کنید. نه کار پیچیده و استراتژیک که به تخصص شما نیاز دارد ، بلکه وظایف تکراری است. من در مورد تحقیق در مورد گزینه های سفر در چندین سایت ، پر کردن فرم های استاندارد شده ، جمع آوری داده ها از منابع مختلف وب و مدیریت رزرو معمول صحبت می کنم. این جایی است که در ابتدا اپراتور مشغول از بین بردن کار دیجیتال است. اما این جایی نیست که متوقف شود. با گذشت زمان ، عوامل هوش مصنوعی قادر به تکمیل گردش کار بیشتر و پیچیده تر خواهند بود.

داده های عملکرد اولیه همچنین چیز مهمی را به ما می گوید: اپراتور در کارهای روزمره با نرخ موفقیت 87 ٪ برتری دارد. پذیرندگان اولیه که یاد می گیرند آن را به طور مؤثر ادغام کنند ، مزیت بهره وری قابل توجهی خواهند داشت.

جدول زمانی ادغام رویکرد دقیق Openai را نشان می دهد. آنها با کاربران حرفه ای در ایالات متحده شروع می کنند ، سپس به کاربران Plus ، Team و Enterprise گسترش می یابند ، قبل از اینکه در نهایت مستقیماً در ChatGPT ادغام شوند.

ما در حال مشاهده یک تغییر اساسی در نحوه عملکرد ابزارهای AI هستیم. سؤال واقعی که باید از خود بپرسید این نیست که آیا با این تغییر سازگار نیستید ، بلکه نحوه انجام آن به صورت استراتژیک است. این فناوری تکامل خواهد یافت ، اما اصل باقی مانده است: هوش مصنوعی از پاسخ دادن به سؤالات به سمت اقدام حرکت می کند. کسانی که این تغییر را در اوایل درک می کنند ، در شکل دادن به نحوه ادغام این ابزارها در گردش کار خود از مزیت قابل توجهی برخوردار خواهند بود.

منبع:unite.ai

نگاهی دقیق تر به عملکرد واقعی اپراتور

این در واقع برای شما چه معنی دارد

پست های مرتبط

7 روند AI عاملی که باید در سال 2026 تماشا کنید

تسلط بر جعبه ابزار LLM: چارچوب کامل برای اتصال مدل ها به دنیای واقعی

هر آنچه که باید در مورد نحوه مدیریت حافظه پایتون بدانید