ماشین LLM: پیشرفتی در ارتباطات انسان-AV

جدول محتوا

همانطور که وسایل نقلیه خودران (AVs) به استقبال گسترده نزدیک‌تر می‌شوند، یک چالش مهم باقی می‌ماند: پر کردن شکاف ارتباطی بین مسافران انسانی و راننده‌های روباتیک آنها. در حالی که AV ها پیشرفت های قابل توجهی در جهت یابی در محیط های پیچیده جاده ای داشته اند، آنها اغلب برای تفسیر دستورات ظریف و زبان طبیعی که به راحتی برای رانندگان انسانی ارائه می شود، در تلاش هستند.

یک را وارد کنید مطالعه نوآورانه از دانشکده مهندسی عمران و ساخت و ساز لایلز دانشگاه پردو. به رهبری دستیار پروفسور Ziran Wang، تیمی از مهندسان پیشگام رویکردی نوآورانه برای تقویت تعامل AV-انسان با استفاده از هوش مصنوعی هستند. راه حل آنها ادغام مدل های زبان بزرگ (LLM) مانند ChatGPT در سیستم های رانندگی مستقل است.

قدرت زبان طبیعی در AV

LLM ها نشان دهنده یک جهش به جلو در توانایی هوش مصنوعی برای درک و تولید متنی شبیه انسان است. این سیستم‌های پیشرفته هوش مصنوعی بر روی حجم وسیعی از داده‌های متنی آموزش دیده‌اند و به آن‌ها اجازه می‌دهد تا زمینه، تفاوت‌های ظریف و معنای ضمنی را به روش‌هایی درک کنند که پاسخ‌های برنامه‌ریزی شده سنتی نمی‌توانند.

در زمینه وسایل نقلیه خودمختار، LLM ها قابلیت تغییردهنده ای را ارائه می دهند. برخلاف رابط‌های معمولی AV که بر دستورات صوتی خاص یا ورودی‌های دکمه تکیه دارند، LLM‌ها می‌توانند طیف وسیعی از دستورالعمل‌های زبان طبیعی را تفسیر کنند. این بدان معناست که مسافران می توانند با وسایل نقلیه خود به همان شیوه ای که با یک راننده انسانی ارتباط برقرار می کنند، ارتباط برقرار کنند.

پیشرفت در قابلیت های ارتباطی AV قابل توجه است. تصور کنید به خودروی خود بگویید “دیر دارم می دوم” و به طور خودکار کارآمدترین مسیر را محاسبه می کند و سبک رانندگی خود را برای به حداقل رساندن ایمن زمان سفر تنظیم می کند. یا توانایی گفتن «کمی احساس خستگی می کنم» را در نظر بگیرید که خودرو را وادار می کند تا مشخصات حرکتی خود را برای سواری نرم تر تنظیم کند. این فعل و انفعالات ظریف، که رانندگان انسانی به طور شهودی آن را درک می کنند، از طریق ادغام LLM ها برای AV ها ممکن می شود.

زیران وانگ، دستیار استاد دانشگاه پردو، در کنار یک وسیله نقلیه خودمختار آزمایشی ایستاده است که او و دانشجویانش برای تفسیر دستورات مسافران با استفاده از ChatGPT یا دیگر مدل‌های زبان بزرگ مجهز شده‌اند. (عکس دانشگاه پردو/جان آندروود)

مطالعه پوردو: روش‌شناسی و یافته‌ها

برای آزمایش پتانسیل LLM در وسایل نقلیه خودران، تیم Purdue یک سری آزمایش را با استفاده از یک وسیله نقلیه خودمختار سطح چهار انجام داد – تنها یک قدم با استقلال کامل که توسط SAE International تعریف شده است.

محققان با آموزش ChatGPT برای پاسخگویی به طیف وسیعی از دستورات، از دستورالعمل‌های مستقیم مانند «لطفا سریع‌تر رانندگی کنید» تا درخواست‌های غیرمستقیم‌تر مانند «در حال حاضر کمی احساس ناراحتی می‌کنم» شروع کردند. سپس آن‌ها این مدل آموزش‌دیده را با سیستم‌های موجود خودرو ادغام کردند و به آن اجازه می‌دهند عواملی مانند قوانین راهنمایی و رانندگی، شرایط جاده، آب‌وهوا و داده‌های حسگر را هنگام تفسیر فرمان‌ها در نظر بگیرد.

تنظیم آزمایشی دقیق بود. بیشتر آزمایش‌ها در زمین آزمایشی در کلمبوس، ایندیانا انجام شد – یک باند فرودگاه سابق که امکان تست سرعت بالا را فراهم می‌کرد. تست‌های پارک اضافی در محوطه ورزشگاه راس آده پوردو انجام شد. در طول آزمایش‌ها، AV با کمک LLM به دستورات از پیش آموخته شده و جدید مسافران پاسخ می‌دهد.

نتایج امیدوارکننده بود. شرکت کنندگان در مقایسه با تجربیات معمولی در سطح چهار AV بدون کمک LLM، میزان ناراحتی قابل توجهی کمتری را گزارش کردند. این وسیله نقلیه به طور مداوم از معیارهای ایمنی و راحتی در خط پایه عملکرد بهتری داشت، حتی زمانی که به دستوراتی که به صراحت در مورد آن آموزش ندیده بود پاسخ می داد.

شاید مهم‌تر از همه، این سیستم توانایی یادگیری و انطباق با ترجیحات فردی مسافران را در طول یک سواری نشان داد و پتانسیل حمل‌ونقل مستقل واقعاً شخصی‌سازی شده را به نمایش گذاشت.

Can Cui، دانشجوی دکترای پوردو، برای سوار شدن در خودروی خودمختار آزمایشی می نشیند. یک میکروفون در کنسول دستورات او را که مدل های زبان بزرگ در فضای ابری تفسیر می کنند، دریافت می کند. این وسیله نقلیه طبق دستورالعمل های تولید شده از مدل های زبان بزرگ رانندگی می کند. (عکس دانشگاه پردو/جان آندروود)

پیامدها برای آینده حمل و نقل

برای کاربران، مزایا بسیار زیاد است. توانایی برقراری ارتباط طبیعی با AV منحنی یادگیری مرتبط با فناوری جدید را کاهش می‌دهد و وسایل نقلیه خودران را برای طیف وسیع‌تری از افراد، از جمله افرادی که ممکن است توسط رابط‌های پیچیده مرعوب شوند، در دسترس‌تر می‌سازد. علاوه بر این، قابلیت‌های شخصی‌سازی نشان‌داده‌شده در مطالعه پوردو، آینده‌ای را نشان می‌دهد که در آن خودروهای AV می‌توانند با ترجیحات فردی سازگار شوند و تجربه‌ای متناسب برای هر مسافر فراهم کنند.

این تعامل بهبود یافته همچنین می تواند ایمنی را افزایش دهد. با درک بهتر قصد و وضعیت مسافر – مانند تشخیص اینکه کسی عجله دارد یا احساس ناخوشایندی دارد – AV ها می توانند رفتار رانندگی خود را بر این اساس تنظیم کنند و به طور بالقوه تصادفات ناشی از ارتباط نادرست یا ناراحتی مسافر را کاهش دهند.

از دیدگاه صنعت، این فناوری می تواند یک تمایز کلیدی در بازار رقابتی AV باشد. تولیدکنندگانی که می توانند تجربه کاربری شهودی و پاسخگوتری ارائه دهند، ممکن است مزیت قابل توجهی کسب کنند.

چالش ها و جهت گیری های آینده

علیرغم نتایج امیدوارکننده، چندین چالش باقی مانده است تا اینکه AV های یکپارچه LLM در جاده های عمومی به واقعیت تبدیل شوند. یکی از مسائل کلیدی زمان پردازش است. سیستم فعلی به طور متوسط 1.6 ثانیه برای تفسیر و پاسخ به یک فرمان – قابل قبول برای سناریوهای غیر بحرانی اما به طور بالقوه مشکل ساز در موقعیت هایی که نیاز به پاسخ های سریع دارند.

نگرانی مهم دیگر این است که LLMها ممکن است دستورات را “توهم” یا اشتباه تفسیر کنند. در حالی که این مطالعه مکانیسم های ایمنی را برای کاهش این خطر گنجانده است، پرداختن به این موضوع به طور جامع برای پیاده سازی در دنیای واقعی بسیار مهم است.

با نگاهی به آینده، تیم وانگ در حال بررسی چندین راه برای تحقیقات بیشتر است. آن‌ها در حال ارزیابی سایر LLM‌ها، از جمله دستیاران Google Gemini و Llama AI متا هستند تا عملکرد را با هم مقایسه کنند. نتایج اولیه نشان می‌دهد که ChatGPT در حال حاضر از نظر معیارهای ایمنی و کارایی بهتر از سایرین است، اگرچه یافته‌های منتشر شده در آینده است.

یک جهت جذاب آینده پتانسیل ارتباط بین خودرویی با استفاده از LLM است. این می تواند مدیریت ترافیک پیچیده تری را امکان پذیر کند، مانند AV که در تقاطع ها در مورد حق تقدم مذاکره می کند.

علاوه بر این، این تیم پروژه‌ای را برای مطالعه مدل‌های بینایی بزرگ – سیستم‌های هوش مصنوعی آموزش‌دیده بر روی تصاویر به جای متن – آغاز می‌کند تا به دستگاه‌های AV کمک کند تا در شرایط آب و هوایی شدید زمستانی که در غرب میانه رایج است حرکت کنند. این تحقیق که توسط مرکز حمل و نقل متصل و خودکار پشتیبانی می شود، می تواند سازگاری و ایمنی وسایل نقلیه خودران را بیشتر افزایش دهد.

خط پایین

تحقیقات پیشگامانه دانشگاه پردو در مورد ادغام مدل های زبان بزرگ با وسایل نقلیه خودران، لحظه ای مهم در فناوری حمل و نقل را نشان می دهد. با فعال کردن تعامل شهودی و پاسخگوی انسان-AV، این نوآوری به چالشی حیاتی در پذیرش AV می پردازد. در حالی که موانعی مانند سرعت پردازش و تفسیرهای نادرست احتمالی همچنان وجود دارد، نتایج امیدوارکننده این مطالعه راه را برای آینده ای هموار می کند که در آن برقراری ارتباط با وسایل نقلیه ما می تواند به اندازه مکالمه با یک راننده انسانی طبیعی باشد. همانطور که این فناوری در حال تکامل است، این پتانسیل را دارد که نه تنها نحوه سفر، بلکه نحوه درک و تعامل ما با هوش مصنوعی را در زندگی روزمره متحول کند.