چگونه هوش مصنوعی تشخیص زبان اشاره را دقیق تر از همیشه می کند؟


هنگامی که به شکستن موانع ارتباطی فکر می کنیم، اغلب بر روی آن تمرکز می کنیم برنامه های ترجمه زبان یا دستیارهای صوتی اما برای میلیون‌ها نفری که از زبان اشاره استفاده می‌کنند، این ابزارها شکاف را کاملاً پر نکرده‌اند. زبان اشاره فقط مربوط به حرکات دست نیست، بلکه یک شکل غنی و پیچیده از ارتباط است که شامل حالات چهره و زبان بدن است که هر عنصر دارای معنایی حیاتی است.

در اینجا چیزی است که این موضوع را به ویژه چالش برانگیز می کند: بر خلاف زبان های گفتاری که عمدتاً از نظر واژگان و دستور زبان متفاوت هستند، زبان های اشاره در سراسر جهان اساساً در نحوه انتقال معنی متفاوت هستند. به عنوان مثال، زبان اشاره آمریکایی (ASL)، گرامر و نحو منحصر به فرد خود را دارد که با انگلیسی گفتاری مطابقت ندارد.

این پیچیدگی به این معنی است که ایجاد فناوری برای تشخیص و ترجمه زبان اشاره در زمان واقعی نیاز به درک کل سیستم زبان در حال حرکت دارد.

رویکردی جدید به شناخت

اینجاست که تیمی در کالج مهندسی و علوم کامپیوتر دانشگاه آتلانتیک فلوریدا (FAU) تصمیم گرفتند رویکرد جدیدی اتخاذ کنند. به جای تلاش برای مقابله با کل پیچیدگی زبان اشاره، آنها بر تسلط بر اولین قدم مهم تمرکز کردند: تشخیص حرکات الفبای ASL با دقت بی سابقه از طریق هوش مصنوعی.

به آن مانند آموزش خواندن دست خط به رایانه فکر کنید، اما به صورت سه بعدی و در حرکت. این تیم چیزی قابل توجه ساخت: مجموعه داده ای از 29820 تصویر ثابت که حرکات دست ASL را نشان می دهد. اما آنها فقط عکس جمع آوری نکردند. آنها هر تصویر را با 21 نقطه کلیدی روی دست علامت‌گذاری کردند و نقشه‌ای دقیق از نحوه حرکت دست‌ها و تشکیل علائم مختلف ایجاد کردند.

دکتر بادر الشریف که رهبری کرد این تحقیق به عنوان دکتری. نامزد، توضیح می دهد: “این روش در تحقیقات قبلی مورد بررسی قرار نگرفته است، و آن را به یک جهت جدید و امیدوارکننده برای پیشرفت های آینده تبدیل می کند.”

شکستن تکنولوژی

بیایید به ترکیب فن آوری هایی بپردازیم که باعث می شود این سیستم تشخیص زبان اشاره کار کند.

MediaPipe و YOLOv8

جادو از طریق ادغام یکپارچه دو ابزار قدرتمند رخ می دهد: MediaPipe و YOLOv8. MediaPipe را به عنوان یک ناظر دست متخصص در نظر بگیرید – یک مترجم ماهر زبان اشاره که می تواند هر حرکت ظریف انگشت و موقعیت دست را ردیابی کند. تیم تحقیقاتی MediaPipe را به طور خاص به دلیل توانایی استثنایی آن در ارائه ردیابی دقیق نقطه عطف دست، شناسایی 21 نقطه دقیق در هر دست، همانطور که در بالا ذکر کردیم، انتخاب کردند.

اما ردیابی کافی نیست – ما باید معنی این حرکات را بفهمیم. اینجاست که YOLOv8 وارد می‌شود. YOLOv8 یک متخصص تشخیص الگو است که تمام نقاط ردیابی شده را می‌گیرد و متوجه می‌شود که کدام حرف یا حرکت را نشان می‌دهند. این تحقیق نشان می‌دهد که وقتی YOLOv8 یک تصویر را پردازش می‌کند، آن را به یک شبکه S × S تقسیم می‌کند و هر سلول شبکه مسئول تشخیص اشیا (در این مورد، حرکات دست) در محدوده‌های آن است.

الشریف و همکاران، فرانکلین اوپن (2024)

چگونه سیستم در واقع کار می کند

این فرآیند پیچیده تر از آن چیزی است که در نگاه اول به نظر می رسد.

اتفاقی که در پشت صحنه می افتد این است:

مرحله تشخیص دست

وقتی علامتی می‌سازید، MediaPipe ابتدا دست شما را در کادر شناسایی می‌کند و آن ۲۱ نقطه کلیدی را ترسیم می‌کند. اینها فقط نقاط تصادفی نیستند – آنها مربوط به مفاصل و نقاط مشخص روی دست شما هستند، از نوک انگشتان تا کف دست.

تحلیل فضایی

سپس YOLOv8 این اطلاعات را می گیرد و در زمان واقعی تجزیه و تحلیل می کند. برای هر سلول شبکه ای در تصویر، پیش بینی می کند:

  • احتمال وجود یک حرکت دست
  • مختصات دقیق مکان ژست
  • امتیاز اطمینان پیش بینی آن

طبقه بندی

این سیستم از چیزی به نام «پیش‌بینی جعبه محدود» استفاده می‌کند – تصور کنید که یک مستطیل کامل در اطراف حرکت دست خود بکشید. YOLOv8 پنج مقدار مهم را برای هر جعبه محاسبه می کند: مختصات x و y برای مرکز، عرض، ارتفاع و امتیاز اطمینان.

الشریف و همکاران، فرانکلین اوپن (2024)

چرا این ترکیب خیلی خوب کار می کند

تیم تحقیقاتی کشف کردند که با ترکیب این فناوری ها چیزی بیشتر از مجموع اجزای آن ایجاد کردند. ردیابی دقیق MediaPipe همراه با تشخیص پیشرفته شیء YOLOv8 نتایج بسیار دقیقی را ایجاد کرد – ما در مورد نرخ دقت 98٪ و امتیاز F1 99٪ صحبت می کنیم.

چیزی که این موضوع را به ویژه چشمگیر می کند این است که چگونه سیستم با پیچیدگی زبان اشاره برخورد می کند. برخی از علائم ممکن است بسیار شبیه به چشم های آموزش ندیده به نظر برسند، اما سیستم می تواند تفاوت های ظریف را تشخیص دهد.

نتایج رکورد شکنی

هنگامی که محققان فناوری جدید را توسعه می دهند، همیشه سوال بزرگ این است: “در واقع چقدر خوب کار می کند؟” برای این سیستم تشخیص زبان اشاره، نتایج چشمگیر است.

تیم FAU سیستم خود را تحت آزمایش های دقیق قرار داد، و در اینجا چیزی است که آنها پیدا کردند:

  • سیستم در 98 درصد مواقع علائم را به درستی شناسایی می کند
  • 98 درصد از تمام علائم ساخته شده در مقابل خود را می گیرد
  • نمره عملکرد کلی به 99٪ چشمگیر می رسد

الشریف توضیح می‌دهد: «نتایج تحقیقات ما توانایی مدل ما را در تشخیص دقیق و طبقه‌بندی حرکات زبان اشاره آمریکایی با خطاهای بسیار کمی نشان می‌دهد».

این سیستم در موقعیت های روزمره به خوبی کار می کند – نورهای مختلف، موقعیت های مختلف دست، و حتی با امضای افراد مختلف.

این پیشرفت، مرزهای آنچه در تشخیص زبان اشاره ممکن است را تغییر می دهد. سیستم‌های قبلی با دقت مشکل داشتند، اما با ترکیب ردیابی دست MediaPipe با قابلیت‌های شناسایی YOLOv8، تیم تحقیقاتی چیز خاصی را ایجاد کرد.

محمد الیاس، یکی از نویسندگان این مطالعه، می‌گوید: «موفقیت این مدل عمدتاً به دلیل ادغام دقیق یادگیری انتقال، ایجاد دقیق مجموعه داده‌ها و تنظیم دقیق است. این توجه به جزئیات در عملکرد قابل توجه سیستم نتیجه داد.

این به چه معناست برای ارتباطات

موفقیت این سیستم فرصت‌های هیجان‌انگیزی را برای دسترسی بیشتر و فراگیرتر کردن ارتباطات باز می‌کند.

تیم فقط به تشخیص حروف بسنده نمی کند. چالش بزرگ بعدی آموزش سیستم برای درک طیف وسیع تری از اشکال و حرکات دست است. به لحظاتی فکر کنید که علائم تقریباً یکسان به نظر می رسند – مانند حروف “M” و “N” در زبان اشاره. محققان در تلاش هستند تا به سیستم خود کمک کنند تا این تفاوت های ظریف را حتی بهتر تشخیص دهد. همانطور که دکتر الشریف می گوید: “به طور مهم، یافته های این مطالعه نه تنها بر استحکام سیستم بلکه بر پتانسیل آن برای استفاده در کاربردهای عملی و بلادرنگ تاکید می کند.”

تمرکز تیم اکنون بر روی موارد زیر است:

  • کارکرد روان سیستم در دستگاه های معمولی
  • آن را به اندازه کافی برای مکالمات دنیای واقعی سریع می کند
  • اطمینان از کارکرد قابل اعتماد در هر محیطی

دین استلا باتالاما از کالج مهندسی و علوم کامپیوتر FAU دیدگاه بزرگ‌تری را به اشتراک می‌گذارد: «با بهبود تشخیص زبان اشاره آمریکایی، این کار به ایجاد ابزارهایی کمک می‌کند که می‌توانند ارتباطات را برای جامعه ناشنوایان و کم‌شنوایان تقویت کنند.»

تصور کنید وارد مطب دکتر می شوید یا در کلاسی شرکت می کنید که این فناوری فوراً شکاف های ارتباطی را پر می کند. این هدف واقعی در اینجا است – ایجاد تعاملات روزانه برای همه افراد درگیر، روان‌تر و طبیعی‌تر. این در حال ایجاد فناوری است که در واقع به افراد کمک می کند تا ارتباط برقرار کنند. چه در آموزش، چه در مراقبت های بهداشتی و چه در مکالمات روزمره، این سیستم نشان دهنده گامی به سوی جهانی است که موانع ارتباطی در آن کمتر می شود.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *