LLM ها چقدر خوب می توانند از طریق مشکلات کثیف استدلال کنند؟


مقدمه و تکامل هوش مصنوعی آنقدر ناگهانی و شدید بوده است که در واقع درک کامل این فناوری که زندگی ما را تغییر داده است ، بسیار دشوار است.

فقط سه سال پیش بزرگنمایی کنید. بله ، حداقل در تئوری ، هوش مصنوعی گسترده تر می شد. بیشتر مردم برخی از کارهایی را که می توانستند انجام دهند ، می دانستند ، اگرچه حتی با وجود سوء تفاهم های گسترده در مورد توانایی های هوش مصنوعی وجود داشت. به نوعی این فناوری به طور همزمان به آنچه در واقع می توانست به دست آورد ، اعتبار کافی و بیش از حد داده شد. با این وجود ، یک فرد متوسط ​​می تواند حداقل به یک یا دو حوزه که AI در محل کار خود بود ، انجام دهد و کارهای بسیار تخصصی انجام دهد نسبتاً خوب، در محیط های بسیار کنترل شده. هر چیزی فراتر از آن یا هنوز در یک آزمایشگاه تحقیق بود ، یا به سادگی وجود نداشت.

آن را با امروز مقایسه کنید. با مهارت های صفر غیر از توانایی نوشتن یک جمله یا پرسیدن سؤال ، جهان در نوک انگشتان ما است. ما می توانیم تصاویر ، موسیقی و حتی فیلم هایی را که واقعاً بی نظیر و شگفت انگیز هستند تولید کنیم و توانایی مختل کردن کل صنایع را داشته باشیم. ما می توانیم فرآیند موتور جستجوی خود را شارژ کنیم و از یک سؤال ساده بپرسیم که اگر به درستی قاب بندی شود ، می تواند صفحات محتوای سفارشی را به اندازه کافی خوب تولید کند تا به عنوان یک محقق آموزش دیده دانشگاه منتقل شود … یا اگر POV را مشخص کنیم ، یک دانش آموز سوم متوسط. در حالی که آنها به نوعی ، فقط در یک یا دو سال ، معمول می شوند ، این قابلیت ها فقط چند سال پیش کاملاً غیرممکن تلقی می شدند. زمینه هوش مصنوعی تولیدی وجود داشته است اما به هیچ وجه از بین نرفته است.

امروز ، بسیاری از افراد با هوش مصنوعی تولیدی مانند Chatgpt ، Midjourney یا سایر ابزارها آزمایش کرده اند. دیگران قبلاً آنها را در زندگی روزمره خود گنجانیده اند. سرعتی که اینها تکامل یافته اند تا جایی که تقریباً نگران کننده است ، تا حدی است. و با توجه به پیشرفت های شش ماه گذشته ، بدون شک قرار است در چند سال آینده ، بارها و بارها از بین برود.

یک ابزار خاص در بازی در هوش مصنوعی تولیدی ، عملکرد سیستم های نسل بازیابی (RAG) و توانایی آنها در تفکر از طریق نمایش داده های پیچیده است. معرفی قاب مجموعه داده ، با جزئیات در یک مقاله در مورد نحوه عملکرد مجموعه داده های ارزیابی ، نشان می دهد که هم اکنون وضعیت هنر در کجا قرار دارد و هم به کجا هدایت می شود. حتی از زمان معرفی فریم ها در اواخر سال 2024 ، تعدادی از سیستم عامل ها قبلاً سوابق جدیدی را در مورد توانایی آنها برای استدلال از طریق سؤالات دشوار و پیچیده شکسته اند.

بیایید به آنچه که فریم ها برای ارزیابی و چگونگی عملکرد مدل های مختلف AI تولید می کنند ، شیرجه بزنیم. ما می توانیم ببینیم که چگونه هیچ گونه عدم تمرکز و سیستم عامل های منبع باز نه تنها زمین خود را نگه می دارند (به ویژه چت احساساتی) ، آنها به کاربران این امکان را می دهند که از این استدلال حیرت انگیز که برخی از مدل های هوش مصنوعی قادر به دستیابی به آن هستند ، نگاهی اجمالی به دست آورند.

مجموعه داده های فریم و فرآیند ارزیابی آن بر روی 824 سؤالات “چند هاپ” طراحی شده برای نیاز به استنتاج ، اتصال منطقی ، استفاده از چندین منبع مختلف برای بازیابی اطلاعات کلیدی و امکان منطقی کردن همه آنها در کنار هم برای پاسخ به این سوال متمرکز شده است. سؤالات بین دو تا 15 سند برای پاسخ صحیح به آنها نیاز دارند ، و همچنین به طور هدفمند شامل محدودیت ها ، محاسبات ریاضی و کسر و همچنین توانایی پردازش منطق مبتنی بر زمان است. به عبارت دیگر ، این سؤالات بسیار دشوار است و در واقع نمایانگر کارهای تحقیقاتی در دنیای واقعی است که ممکن است یک انسان در اینترنت انجام دهد. ما همیشه با این چالش ها سر و کار داریم و باید اطلاعات کلیدی پراکنده را در یک دریا از منابع اینترنتی جستجو کنیم ، اطلاعات را بر اساس سایت های مختلف جمع کنیم ، با محاسبه و کسر اطلاعات جدید ایجاد کنیم و درک کنیم که چگونه این حقایق را در پاسخ صحیح سؤال قرار دهید.

آنچه محققان هنگام انتشار و آزمایش مجموعه داده ها پیدا کردند این است که بالا مدل های ژنتیکی وقتی مجبور شدند با استفاده از روشهای تک مرحله ای پاسخ دهند ، می توانستند تا حدودی دقیق باشند (حدود 40 ٪) ، اما در صورت اجازه جمع آوری تمام اسناد لازم برای پاسخ به این سؤال ، می توانند به دقت 73 ٪ دست یابند. بله ، 73 ٪ ممکن است مانند یک انقلاب به نظر نرسد. اما اگر دقیقاً می فهمید که چه چیزی باید پاسخ داده شود ، این تعداد بسیار چشمگیر تر می شود.

به عنوان مثال ، یک سؤال خاص این است: “گروه موسیقی گروهی که در ابتدا آهنگ نمونه برداری شده در آهنگ Kanye West’s Song Power Born را اجرا می کرد؟” چگونه یک انسان در مورد حل این مشکل پیش می رود؟ این شخص ممکن است ببیند که آنها باید عناصر اطلاعاتی مختلفی مانند اشعار آهنگ Kanye West به نام “Power” را جمع آوری کنند ، و سپس قادر به جستجوی اشعار و مشخص کردن نکته در آهنگ که در واقع نمونه آهنگ دیگری را نشان می دهد. ما به عنوان انسان احتمالاً می توانستیم به آهنگ گوش دهیم (حتی اگر با آن ناآشنا باشد) و قادر به گفتن زمان نمونه گیری یک آهنگ متفاوت هستیم.

اما در مورد آن فکر کنید: یک Genai برای کشف ترانه ای غیر از اصل در حالی که “گوش دادن” به آن می شود ، چه می تواند انجام دهد؟ اینجاست که یک سؤال اساسی به یک آزمایش عالی از هوش مصنوعی واقعاً هوشمند تبدیل می شود. و اگر ما توانستیم آهنگ را پیدا کنیم ، به آن گوش فرا دهیم و اشعار نمونه برداری شده را مشخص کنیم ، این فقط مرحله 1 است. ما هنوز هم باید بدانیم که نام این آهنگ چیست ، گروه چیست ، رهبر آن گروه کیست ، و سپس آن شخص چه سالی متولد شد.

فریم ها نشان می دهد که برای پاسخ به سؤالات واقع بینانه ، مقدار زیادی از پردازش فکر لازم است. دو چیز در اینجا به ذهن خطور می کند.

اول ، توانایی غیر متمرکز مدل های Genai نه تنها به رقابت می پردازند ، بلکه به طور بالقوه بر نتایج حاکم می شوند ، باورنکردنی است. تعداد فزاینده ای از شرکت ها از روش غیرمتمرکز برای مقیاس توانایی های پردازش خود استفاده می کنند و در عین حال اطمینان حاصل می کنند که یک جامعه بزرگ دارای نرم افزار است ، نه یک جعبه سیاه متمرکز که پیشرفت های خود را به اشتراک نمی گذارد. شرکت هایی مانند Perplexity و Sentient این روند را رهبری می کنند که هر یک مدل های فوق العاده با انتشار فریم ها بالاتر از اولین سوابق دقت هستند.

عنصر دوم این است که تعداد کمتری از این مدل های هوش مصنوعی نه تنها غیر متمرکز هستند بلکه منبع باز هستند. به عنوان مثال ، چت احساساتی هر دو است ، و آزمایش های اولیه نشان می دهد که استدلال آن چقدر می تواند پیچیده باشد ، به لطف دسترسی ارزشمند منبع باز. سوال فریم در بالا با استفاده از همان فرایند تفکر همانند یک انسان که از آن استفاده می کند ، پاسخ داده می شود و جزئیات استدلال آن برای بررسی در دسترس است. شاید حتی جالب تر ، سکوی آنها به عنوان تعدادی از مدل ها ساختار یافته است که می توانند یک دیدگاه و عملکرد خاص را تنظیم کنند ، حتی اگر روند تنظیم دقیق در برخی از مدل های Genai منجر به کاهش دقت شود. در مورد گپ احساساتی ، بسیاری از مدل های مختلف تهیه شده است. به عنوان مثال ، یک مدل اخیر به نام “Dobby 8B” قادر است از معیارهای فریم بهتر عمل کند ، بلکه یک نگرش متمایز و طرفدار آزادی را نیز ایجاد می کند ، که بر چشم انداز مدل تأثیر می گذارد ، زیرا بخش هایی از اطلاعات را پردازش می کند و پاسخی را ایجاد می کند.

نکته اصلی همه این نوآوری های حیرت انگیز سرعت سریع ما را به اینجا آورده است. ما باید تصدیق کنیم که هرچه سریع این فناوری تکامل یافته است ، در آینده نزدیک حتی سریعتر تکامل می یابد. ما قادر خواهیم بود ، به خصوص با مدلهای غیر متمرکز و منبع باز Genai ، آن آستانه مهم که در آن هوش سیستم شروع به فراتر از بیشتر و بیشتر از خودمان می کند ، و این به معنای آینده است.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *