ببینید ، فکر کنید ، توضیح دهید: ظهور مدل های زبان بینایی در AI


حدود یک دهه پیش ، هوش مصنوعی بین شناخت تصویر و درک زبان تقسیم شد. مدل های بینایی می توانند اشیاء را نشان دهند اما نتوانند آنها را توصیف کنند ، و مدل های زبان متن تولید می کنند اما نمی توانند “ببینند”. امروز ، این تقسیم به سرعت ناپدید می شود. مدل های بینایی زبان (VLMS) اکنون مهارت های بصری و زبانی را با هم ترکیب کرده و به آنها اجازه می دهد تا تصاویر را تفسیر کرده و آنها را به روش هایی که تقریباً انسانی هستند توضیح دهند. آنچه آنها را واقعاً قابل توجه می کند ، روند استدلال گام به گام آنهاست ، که به آن معروف است زنجیر، که به تبدیل این مدل ها به ابزارهای قدرتمند و عملی در صنایع مانند مراقبت های بهداشتی و آموزش کمک می کند. در این مقاله ، ما بررسی خواهیم کرد که چگونه VLMS کار می کند ، چرا استدلال آنها اهمیت دارد و چگونه آنها زمینه ها را از پزشکی به اتومبیل های خودران تبدیل می کنند.

درک مدل های زبان بینایی

مدل های زبان بینایی یا VLM ها نوعی از هوش مصنوعی هستند که می توانند همزمان تصاویر و هم متن را درک کنند. بر خلاف سیستم های AI قدیمی تر که فقط می توانند متن یا تصاویر را اداره کنند ، VLM ها این دو مهارت را با هم جمع می کنند. این باعث می شود آنها فوق العاده همه کاره باشند. آنها می توانند به یک تصویر نگاه کنند و آنچه را که اتفاق می افتد را توصیف کنند ، به سؤالات مربوط به یک فیلم پاسخ دهند ، یا حتی بر اساس توضیحات کتبی تصاویر ایجاد کنند.

به عنوان مثال ، اگر از VLM بخواهید عکسی از سگ را که در یک پارک در حال اجرا است ، توصیف کند. VLM فقط نمی گوید ، “یک سگ وجود دارد.” این می تواند به شما بگوید ، “سگ در حال تعقیب توپ در نزدیکی یک درخت بلوط بزرگ است.” این تصویر را می بیند و آن را به کلمات متصل می کند به گونه ای که منطقی باشد. این توانایی در ترکیب درک بصری و زبان ، انواع امکانات را ایجاد می کند ، از کمک به شما در جستجوی عکس به صورت آنلاین تا کمک به کارهای پیچیده تر مانند تصویربرداری پزشکی.

در هسته اصلی آنها ، VLM ها با ترکیب دو قطعه کلیدی کار می کنند: یک سیستم بینایی که تصاویر و یک سیستم زبانی را که متن را پردازش می کند ، تجزیه و تحلیل می کند. قسمت بینایی جزئیات مانند شکل ها و رنگ ها را انتخاب می کند ، در حالی که قسمت زبان آن جزئیات را به جملات تبدیل می کند. VLM ها بر روی مجموعه داده های عظیم حاوی میلیاردها جفت متن تصویر آموزش داده می شوند و به آنها تجربه گسترده ای می دهند تا درک و دقت بالایی را توسعه دهند.

استدلال زنجیره ای فکر در VLM ها

استدلال زنجیره ای از فکر ، یا COT ، راهی برای فکر کردن است که هوش مصنوعی گام به گام فکر می کند ، دقیقاً مانند اینکه چگونه با شکستن آن با یک مشکل روبرو می شویم. در VLMS ، این بدان معناست که هوش مصنوعی فقط وقتی از آن چیزی در مورد یک تصویر می پرسید ، پاسخی را ارائه نمی دهد ، همچنین توضیح می دهد که چگونه به آنجا رسید ، و هر مرحله منطقی را در طول مسیر توضیح می دهد.

بیایید بگوییم شما یک VLM تصویری از کیک تولد با شمع نشان می دهید و می پرسید ، “شخص چند ساله است؟” بدون تختخواب ، فقط ممکن است یک عدد را حدس بزند. با توجه به اینكه از طریق آن فکر می كند: “خوب ، من كیك با شمع را می بینم. شمع ها معمولاً سن كسی را نشان می دهند. بیایید آنها را بشماریم ، 10. بنابراین ، شخص احتمالاً 10 ساله است.” شما می توانید استدلال را همانطور که آشکار می شود ، دنبال کنید ، و این باعث می شود جواب بسیار قابل اعتماد تر باشد.

به همین ترتیب ، وقتی صحنه ترافیکی به VLM نشان داده شد و از او پرسید ، “آیا عبور از آن بی خطر است؟” VLM ممکن است استدلال کند ، “چراغ عابر پیاده قرمز است ، بنابراین شما نباید از آن عبور کنید. یک ماشین در حال چرخش نیز در این نزدیکی است ، و در حال حرکت است ، متوقف نمی شود. این بدان معنی است که در حال حاضر ایمن نیست.” با قدم زدن در این مراحل ، هوش مصنوعی دقیقاً به شما نشان می دهد که در تصویر به چه چیزی توجه می کند و چرا تصمیم می گیرد چه کاری انجام می دهد.

چرا زنجیره ای از فکر در VLMS اهمیت دارد

ادغام استدلال COT در VLMS چندین مزیت کلیدی را به همراه دارد.

اول ، اعتماد به هوش مصنوعی را آسان تر می کند. وقتی مراحل آن را توضیح می دهد ، درک روشنی از چگونگی رسیدن به جواب دریافت می کنید. این در مناطقی مانند مراقبت های بهداشتی مهم است. به عنوان مثال ، هنگامی که به یک اسکن MRI نگاه می کنید ، یک VLM ممکن است بگوید ، “من سایه ای را در سمت چپ مغز می بینم. آن منطقه گفتار را کنترل می کند ، و بیمار در صحبت کردن مشکل دارد ، بنابراین می تواند تومور باشد.” پزشک می تواند این منطق را دنبال کند و نسبت به ورودی هوش مصنوعی احساس اطمینان کند.

دوم ، این به AI کمک می کند تا مشکلات پیچیده ای را برطرف کند. با شکستن چیزها ، می تواند سؤالاتی را که بیش از یک نگاه سریع به آن نیاز دارند ، برطرف کند. به عنوان مثال ، شمارش شمع ساده است ، اما فهمیدن ایمنی در یک خیابان شلوغ ، مراحل مختلفی از جمله چک کردن چراغ ، لکه بینی اتومبیل ، قضاوت در مورد سرعت را انجام می دهد. COT هوش مصنوعی را قادر می سازد با تقسیم آن به چندین مرحله ، آن پیچیدگی را کنترل کند.

سرانجام ، این باعث می شود هوش مصنوعی سازگار تر شود. هنگامی که این امر به مرحله به مرحله دلیل می دهد ، می تواند آنچه را که می داند در موقعیت های جدید اعمال کند. اگر قبلاً هرگز نوع خاصی از کیک را ندیده است ، هنوز هم می تواند اتصال سن شمع را تشخیص دهد زیرا فکر می کند از طریق آن ، نه فقط به الگوهای به یاد ماندنی تکیه می کند.

چگونه زنجیره ای از فکر و VLM در حال تعریف مجدد صنایع هستند

ترکیبی از COT و VLM ها تأثیر قابل توجهی در زمینه های مختلف می گذارد:

  • بهداشت و درمان: در پزشکی ، VLMS مانند Google’s Med-Palm 2 از COT برای تجزیه سؤالات پزشکی پیچیده در مراحل تشخیصی کوچکتر استفاده کنید. به عنوان مثال ، هنگامی که اشعه ایکس قفسه سینه و علائمی مانند سرفه و سردرد داده می شود ، ممکن است هوش مصنوعی فکر کند: “این علائم می تواند یک سرماخوردگی ، آلرژی یا چیز بدتر باشد. هیچ غدد لنفاوی متورم نیست ، بنابراین احتمالاً یک عفونت جدی نیست. این گزینه ها را با یک پاسخ می گذراند و به پزشکان می پردازد و به پزشکان توضیح روشنی برای کار با آنها می دهد.
  • اتومبیل های خودران: برای وسایل نقلیه خودمختار ، VLM های تقویت شده با COT ، ایمنی و تصمیم گیری را بهبود می بخشند. به عنوان مثال ، یک ماشین خودران می تواند یک صحنه ترافیک را به صورت گام به گام تجزیه و تحلیل کند: بررسی سیگنال های عابر پیاده ، شناسایی وسایل نقلیه در حال حرکت و تصمیم گیری در مورد اینکه آیا این کار ایمن است. سیستم هایی مانند Wayve’s Lingo-1 برای توضیح اقدامات مانند کاهش سرعت یک دوچرخه سوار ، تفسیر زبان طبیعی ایجاد کنید. این به مهندسان و مسافران کمک می کند تا روند استدلال خودرو را درک کنند. منطق گام به گام همچنین با ترکیب ورودی های بصری با دانش متنی ، امکان دستیابی بهتر از شرایط غیرمعمول جاده را فراهم می کند.
  • تجزیه و تحلیل ژئولوژیکی: گوگل مدل جمینی اعمال می شود استدلال COT به داده های مکانی مانند نقشه ها و تصاویر ماهواره ای. به عنوان مثال ، می تواند با ادغام تصاویر ماهواره ای ، پیش بینی آب و هوا و داده های جمعیتی ، آسیب طوفان را ارزیابی کند ، سپس تجسم و پاسخ های واضح را به سؤالات پیچیده ایجاد می کند. این توانایی با ارائه تصمیم گیرندگان با بینش به موقع و مفید بدون نیاز به تخصص فنی ، پاسخ به فاجعه را سرعت می بخشد.
  • رباتیک: در روباتیک ، ادغام COT و VLMS روبات ها را قادر می سازد تا کارهای چند مرحله ای را بهتر برنامه ریزی و انجام دهند. به عنوان مثال ، هنگامی که یک ربات وظیفه برداشت یک شی را بر عهده دارد ، VLM با قابلیت COT به آن اجازه می دهد تا جام را شناسایی کند ، بهترین نقاط درک را تعیین کند ، یک مسیر بدون برخورد را تعیین کند و حرکت را انجام دهد ، همه در حالی که هر مرحله از روند خود را “توضیح می دهد”. پروژه هایی مانند RT-2 نشان می دهد که چگونه COT روبات ها را قادر می سازد تا با کارهای جدید بهتر سازگار شوند و با استدلال روشن به دستورات پیچیده پاسخ دهند.
  • آموزش: در یادگیری ، معلمان هوش مصنوعی دوست دارند خیانت برای آموزش بهتر از تختخواب استفاده کنید. برای یک مشکل ریاضی ، ممکن است یک دانش آموز را راهنمایی کند: “ابتدا معادله را بنویسید. بعد ، متغیر را به تنهایی با تفریق 5 از هر دو طرف بدست آورید. اکنون ، تقسیم بر 2.” به جای اینکه جواب را تحویل دهیم ، روند کار را طی می کند و به دانش آموزان کمک می کند تا مفاهیم را گام به گام درک کنند.

خط پایین

مدل های زبان بینایی (VLMS) AI را قادر می سازد داده های بصری را با استفاده از استدلال گام به گام انسان مانند انسان از طریق فرآیندهای زنجیره ای از فکر (COT) تفسیر و توضیح دهد. این رویکرد باعث افزایش اعتماد ، سازگاری و حل مسئله در صنایعی مانند مراقبت های بهداشتی ، خودروهای خودران ، تجزیه و تحلیل جغرافیایی ، روباتیک و آموزش می شود. VLM ها با تغییر چگونگی مقابله با وظایف پیچیده و پشتیبانی از تصمیم گیری ، استاندارد جدیدی را برای فناوری هوشمند قابل اعتماد و عملی تعیین می کنند.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *