عوامل هوش مصنوعی در تحقیقات واقعی چقدر خوب هستند؟ در داخل گزارش نیمکت تحقیق عمیق


به عنوان مدل های بزرگ زبان (LLMS) به سرعت تکامل می یابد ، قول آنها به عنوان دستیاران تحقیق قدرتمند نیز می شود. به طور فزاینده ، آنها فقط به سؤالات واقعی واقعی پاسخ نمی دهند-آنها به انجام وظایف “تحقیقات عمیق” می پردازند ، که شامل استدلال چند مرحله ای ، ارزیابی اطلاعات متناقض ، تهیه اطلاعات از سراسر وب و ترکیب آن در یک خروجی منسجم است.

این توانایی در حال ظهور اکنون تحت نام های تجاری مختلف توسط آزمایشگاه های اصلی به بازار عرضه می شود – Openai آن را “تحقیقات عمیق” می نامد ، انسان شناسی از آن به عنوان “تفکر گسترده” یاد می کند ، Google Gemini ویژگی های “جستجو + PRO” را ارائه می دهد ، و برچسب های سرنوشت خود را “جستجوی حرفه ای” یا “تحقیقات عمیق” ارائه می دهد. اما این پیشنهادات در عمل چقدر مؤثر است؟ گزارش جدید توسط جستجوی آینده، عنوان شده نیمکت تحقیقاتی عمیق (DRB): ارزیابی عوامل تحقیقات وب، دقیق ترین ارزیابی را تا به امروز ارائه می دهد – و نتایج نشان می دهد که هم قابلیت های چشمگیر و هم کاستی های مهم را نشان می دهد.

نیمکت تحقیقاتی عمیق چیست؟

Deep Research Bench که توسط تیم Futuresearch ایجاد شده است ، یک معیار دقیق ساخته شده است که برای ارزیابی عملکرد عوامل هوش مصنوعی در کارهای تحقیقاتی چند مرحله ای و مبتنی بر وب طراحی شده است. اینها سؤالات ساده ای با پاسخ های ساده نیستند-آنها منعکس کننده چالش های کثیف و باز است که تحلیلگران ، سیاستگذاران و محققان در تنظیمات دنیای واقعی با آن روبرو هستند.

این معیار شامل 89 کار مجزا در 8 دسته مانند:

  • شماره پیدا کردن: به عنوان مثال “چه تعداد فراخوان دستگاه پزشکی FDA کلاس II رخ داده است؟”
  • ادعای معتبر: به عنوان مثال “آیا Chatgpt 10x انرژی بیشتری نسبت به جستجوی Google دارد؟”
  • مجموعه داده: به عنوان مثال “روند شغلی برای توسعه دهندگان نرم افزار ایالات متحده از 2019-2023”

هر نوع کار با دقت با پاسخ های تایید شده انسان ساخته شده و با استفاده از یک مجموعه داده منجمد صفحات وب خراشیده شده ، معروف به retrosearch ارزیابی می شود. این امر سازگاری در ارزیابی های مدل را تضمین می کند و از وضعیت نوسان وب زنده جلوگیری می کند.

معماری عامل: واکنش و بازپرداخت

در قلب نیمکت تحقیقاتی عمیق ، معماری React ، کوتاه برای “دلیل + عمل” قرار دارد. این روش تقلید می کند که چگونه یک محقق انسانی ممکن است یک مشکل را برطرف کند – با فکر کردن از طریق کار ، انجام عملی مانند انجام یک جستجوی وب ، مشاهده نتایج و سپس تصمیم گیری در مورد تکرار یا نتیجه گیری.

در حالی که مدل های قبلی این حلقه را به صراحت دنبال می کنند ، مدل های جدیدتر “تفکر” اغلب روند کار را ساده تر می کنند و استدلال بیشتری را در اقدامات خود قرار می دهند. برای اطمینان از قوام در ارزیابی ها ، DRB Retrosearch را معرفی می کند-یک نسخه استاتیک ساخته شده سفارشی از وب. به جای تکیه بر اینترنت زنده ، که به طور مداوم تغییر می کند ، عوامل به یک بایگانی سرپوشیده صفحات وب که با استفاده از ابزارهایی مانند سرپرستبا نمایشنامه نویسوت خندقبشر این مقیاس چشمگیر است: برای کارهای کاملاً پیچیده مانند “جمع آوری شواهد” ، Retrosearch می تواند به بیش از 189،000 صفحه دسترسی داشته باشد ، همه به موقع یخ زده ، از یک محیط آزمایش منصفانه و قابل تکرار اطمینان حاصل می کنند.

کدام عوامل هوش مصنوعی بهترین عملکرد را دارند؟

در میان همه مدعیان ، O3 Openai به عنوان بهترین مجری ظاهر شد و 0.51 از 1.0 احتمالی را در نیمکت تحقیقاتی عمیق به دست آورد. اگرچه این ممکن است متوسط ​​به نظر برسد ، درک دشواری معیار مهم است: به دلیل ابهام در تعاریف کار و امتیاز دهی ، حتی یک عامل بی عیب و نقص احتمالاً در حدود 0.8 قرار دارد – آنچه محققان آن را “سقف سر و صدا” می نامند. به عبارت دیگر ، حتی بهترین مدل ها امروزه هنوز از محققان انسانی آگاه و روشمند کم نمی شوند.

با این وجود ، تابلوی رهبر بینش های آشکار را ارائه می دهد. O3 نه تنها بسته را به همراه داشت بلکه این کار را با سرعت و قوام انجام داد و عملکرد محکمی را در تقریباً در همه نوع کارها نشان داد. Claude 3.7 Sonnet از Anthropic از نزدیک دنبال کرد و تطبیق پذیری را در هر دو حالت “تفکر” و “غیر تفکر” نشان داد. Gemini 2.5 Pro ، مدل پرچمدار Google ، به دلیل توانایی خود در انجام وظایف نیاز به برنامه ریزی ساختاری و استدلال گام به گام ، ایستادگی کرد. در همین حال ، با وزن باز Deepseek-R1 یک تعجب دلپذیر را با GPT-4 Turbo به همراه داشت و شکاف عملکرد بین مدلهای باز و بسته را محدود کرد.

در سراسر صفحه ، یک الگوی واضح پدیدار شد: مدل های جدیدتر و “با قابلیت تفکر” به طور مداوم از همتایان قبلی خود بهتر عمل می کردند و مدل های منبع بسته دارای یک لبه قابل توجه نسبت به گزینه های با وزن باز بودند.

مأمورین کجا می جنگند؟

خواندن از طریق الگوهای شکست برجسته در گزارش نیمکت تحقیقاتی عمیق ، به طرز شگفت انگیزی آشنا بود. یکی از ناامید کننده ترین جنبه هایی که من شخصاً با آن روبرو شده ام – خصوصاً در جلسات تحقیقاتی طولانی یا ایجاد محتوا – زمانی است که یک عامل هوش مصنوعی به سادگی آنچه را که انجام می دادیم فراموش می کند. با گسترش پنجره زمینه ، مدل اغلب شروع به از دست دادن موضوع می کند: جزئیات کلیدی محو می شود ، اهداف گنگ می شوند و ناگهان ، پاسخ ها احساس اختلال یا بی هدف می شوند. در بعضی از مواقع ، من آموخته ام که اغلب بهتر است ضررها را کاهش داده و از ابتدا شروع کنم ، حتی اگر این به معنای دور انداختن همه چیزهایی است که تاکنون تولید شده است.

این نوع فراموشی فقط حکایتی نیست – مهمترین پیش بینی کننده عدم موفقیت در ارزیابی نیمکت تحقیقاتی عمیق است. اما این تنها مسئله تکراری نیست. این گزارش همچنین نشان می دهد که چگونه برخی از مدل ها در استفاده از ابزار تکراری قرار می گیرند و همان جستجو را بارها و بارها انجام می دهند که گویی در یک حلقه گیر کرده است. برخی دیگر به جای اینکه به طور جدی در مورد چگونگی جستجوی مؤثر فکر کنند ، صنایع دستی ضعیف ، تطبیق با کلمات کلیدی را نشان می دهند. و اغلب اوقات ، مأمورین قربانی نتیجه گیری های زودرس می شوند-پاسخ دادن به یک پاسخ نیمه شکل که از نظر فنی جعبه را بررسی می کند اما از بینش واقعی کم می شود.

حتی در بین مدل های برتر ، تفاوت ها واضح است. به عنوان مثال ، GPT-4 Turbo تمایل قابل توجهی برای فراموش کردن مراحل قبلی نشان داد ، در حالی که Deepseek-R1 به احتمال زیاد بود توهین یا اطلاعات قابل قبول و اما نادرست را ابداع کنید. در سراسر هیئت مدیره ، مدل ها اغلب قبل از نهایی شدن خروجی خود ، نتوانسته اند منابع را بررسی کنند یا یافته ها را تأیید کنند. برای هرکسی که برای کارهای جدی به هوش مصنوعی اعتماد داشته باشد ، این مسائل بسیار آشنا هستند – و آنها تأکید می کنند که تا چه حد باید در نمایندگان ساختمان برویم که واقعاً می توانند مانند انسان فکر کنند و تحقیق کنند.

عملکرد مبتنی بر حافظه چیست؟

جالب اینجاست که نیمکت تحقیقاتی عمیق همچنین آنچه را که آن را عوامل “Toolless” می نامد ، ارزیابی می کند – مدل های زبانی که بدون دسترسی به ابزارهای خارجی ، مانند جستجوی وب یا بازیابی اسناد کار می کنند. این عوامل کاملاً به داده های آموزش داخلی و حافظه خود متکی هستند و فقط بر اساس آنچه قبلاً در طول آموزش آموخته اند ، پاسخ هایی را ایجاد می کنند. در عمل ، این بدان معنی است که آنها نمی توانند چیزی را جستجو کنند یا اطلاعات را تأیید کنند – آنها بر اساس آنچه “به یاد می آورند” حدس می زنند.

با کمال تعجب ، این مأمورین Toolless تقریباً و همچنین عوامل تحقیقاتی کامل در مورد کارهای خاص انجام دادند. به عنوان مثال ، در مورد وظیفه ادعای اعتبارسنجی-جایی که هدف ارزیابی محتمل بودن بیانیه است-آنها 0.61 به ثمر رساندند که تقریباً با میانگین 0.62 عوامل فعال شده با ابزار مطابقت دارد. این نشان می دهد که مدلهایی مانند O3 و کلود دارای مقدمات داخلی قوی هستند و اغلب می توانند بدون نیاز به جستجوی وب ، حقیقت ادعاهای مشترک را بشناسند.

اما در کارهای خواستار تر – مانند تعداد مشتق ، که نیاز به جمع آوری مقادیر مختلف از منابع مختلف دارد ، یا شواهدی را جمع آوری می کند ، که این بستگی به یافتن و ارزیابی حقایق متنوع در متن دارد – این مدل های Toolless کاملاً از هم جدا شدند. آنها بدون اطلاعات تازه یا قابلیت جستجو در زمان واقعی ، آنها به سادگی فاقد وسیله ای برای تولید پاسخ های دقیق یا جامع بودند.

این کنتراست یک ظرافت مهم را برجسته می کند: در حالی که LLM های امروز می توانند “دانستن” را بسیار شبیه سازی کنند ، تحقیقات عمیق نه تنها به یادآوری بستگی دارد ، بلکه به استدلال با اطلاعات به روز و قابل اثبات بستگی دارد-فقط چیزی که فقط عوامل با ابزارآمیز ابزار می توانند ارائه دهند.

افکار نهایی

گزارش DRB یک چیز را روشن می کند: در حالی که بهترین عوامل هوش مصنوعی امروز می توانند از انسانهای متوسط ​​در وظایف کاملاً تعریف شده پیشی بگیرند ، آنها هنوز هم از محققان ماهر ماهر عقب مانده اند-به ویژه وقتی صحبت از برنامه ریزی استراتژیک ، تطبیق فرآیند میانی و استدلال با ظرافت است.

این شکاف به ویژه در جلسات طولانی یا پیچیده آشکار می شود – چیزی که من دست اول را تجربه کرده ام ، جایی که یک عامل به تدریج هدف این کار را از دست می دهد و منجر به شکست ناامیدکننده در انسجام و ابزار می شود.

چه چیزی ایجاد می کند نیمکت تحقیقاتی عمیق بسیار ارزشمند است که فقط دانش سطح سطح را آزمایش نمی کند-این تقاطع استفاده از ابزار ، حافظه ، استدلال و سازگاری را بررسی می کند ، و یک آنالوگ نزدیک تر به تحقیقات در دنیای واقعی نسبت به معیارهایی مانند MMLU یا GSM8K ارائه می دهد.

همانطور که LLMS همچنان در کار دانش جدی ادغام می شود ، جستجوی آینده ابزارهایی مانند DRB برای ارزیابی نه فقط آنچه که این سیستم ها می دانند ، بلکه در واقع چقدر خوب کار می کنند ، ضروری خواهد بود.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *