هنگامی که به شکستن موانع ارتباطی فکر می کنیم، اغلب بر روی آن تمرکز می کنیم برنامه های ترجمه زبان یا دستیارهای صوتی اما برای میلیونها نفری که از زبان اشاره استفاده میکنند، این ابزارها شکاف را کاملاً پر نکردهاند. زبان اشاره فقط مربوط به حرکات دست نیست، بلکه یک شکل غنی و پیچیده از ارتباط است که شامل حالات چهره و زبان بدن است که هر عنصر دارای معنایی حیاتی است.
در اینجا چیزی است که این موضوع را به ویژه چالش برانگیز می کند: بر خلاف زبان های گفتاری که عمدتاً از نظر واژگان و دستور زبان متفاوت هستند، زبان های اشاره در سراسر جهان اساساً در نحوه انتقال معنی متفاوت هستند. به عنوان مثال، زبان اشاره آمریکایی (ASL)، گرامر و نحو منحصر به فرد خود را دارد که با انگلیسی گفتاری مطابقت ندارد.
این پیچیدگی به این معنی است که ایجاد فناوری برای تشخیص و ترجمه زبان اشاره در زمان واقعی نیاز به درک کل سیستم زبان در حال حرکت دارد.
رویکردی جدید به شناخت
اینجاست که تیمی در کالج مهندسی و علوم کامپیوتر دانشگاه آتلانتیک فلوریدا (FAU) تصمیم گرفتند رویکرد جدیدی اتخاذ کنند. به جای تلاش برای مقابله با کل پیچیدگی زبان اشاره، آنها بر تسلط بر اولین قدم مهم تمرکز کردند: تشخیص حرکات الفبای ASL با دقت بی سابقه از طریق هوش مصنوعی.
به آن مانند آموزش خواندن دست خط به رایانه فکر کنید، اما به صورت سه بعدی و در حرکت. این تیم چیزی قابل توجه ساخت: مجموعه داده ای از 29820 تصویر ثابت که حرکات دست ASL را نشان می دهد. اما آنها فقط عکس جمع آوری نکردند. آنها هر تصویر را با 21 نقطه کلیدی روی دست علامتگذاری کردند و نقشهای دقیق از نحوه حرکت دستها و تشکیل علائم مختلف ایجاد کردند.
دکتر بادر الشریف که رهبری کرد این تحقیق به عنوان دکتری. نامزد، توضیح می دهد: “این روش در تحقیقات قبلی مورد بررسی قرار نگرفته است، و آن را به یک جهت جدید و امیدوارکننده برای پیشرفت های آینده تبدیل می کند.”
شکستن تکنولوژی
بیایید به ترکیب فن آوری هایی بپردازیم که باعث می شود این سیستم تشخیص زبان اشاره کار کند.
MediaPipe و YOLOv8
جادو از طریق ادغام یکپارچه دو ابزار قدرتمند رخ می دهد: MediaPipe و YOLOv8. MediaPipe را به عنوان یک ناظر دست متخصص در نظر بگیرید – یک مترجم ماهر زبان اشاره که می تواند هر حرکت ظریف انگشت و موقعیت دست را ردیابی کند. تیم تحقیقاتی MediaPipe را به طور خاص به دلیل توانایی استثنایی آن در ارائه ردیابی دقیق نقطه عطف دست، شناسایی 21 نقطه دقیق در هر دست، همانطور که در بالا ذکر کردیم، انتخاب کردند.
اما ردیابی کافی نیست – ما باید معنی این حرکات را بفهمیم. اینجاست که YOLOv8 وارد میشود. YOLOv8 یک متخصص تشخیص الگو است که تمام نقاط ردیابی شده را میگیرد و متوجه میشود که کدام حرف یا حرکت را نشان میدهند. این تحقیق نشان میدهد که وقتی YOLOv8 یک تصویر را پردازش میکند، آن را به یک شبکه S × S تقسیم میکند و هر سلول شبکه مسئول تشخیص اشیا (در این مورد، حرکات دست) در محدودههای آن است.

الشریف و همکاران، فرانکلین اوپن (2024)
چگونه سیستم در واقع کار می کند
این فرآیند پیچیده تر از آن چیزی است که در نگاه اول به نظر می رسد.
اتفاقی که در پشت صحنه می افتد این است:
مرحله تشخیص دست
وقتی علامتی میسازید، MediaPipe ابتدا دست شما را در کادر شناسایی میکند و آن ۲۱ نقطه کلیدی را ترسیم میکند. اینها فقط نقاط تصادفی نیستند – آنها مربوط به مفاصل و نقاط مشخص روی دست شما هستند، از نوک انگشتان تا کف دست.
تحلیل فضایی
سپس YOLOv8 این اطلاعات را می گیرد و در زمان واقعی تجزیه و تحلیل می کند. برای هر سلول شبکه ای در تصویر، پیش بینی می کند:
- احتمال وجود یک حرکت دست
- مختصات دقیق مکان ژست
- امتیاز اطمینان پیش بینی آن
طبقه بندی
این سیستم از چیزی به نام «پیشبینی جعبه محدود» استفاده میکند – تصور کنید که یک مستطیل کامل در اطراف حرکت دست خود بکشید. YOLOv8 پنج مقدار مهم را برای هر جعبه محاسبه می کند: مختصات x و y برای مرکز، عرض، ارتفاع و امتیاز اطمینان.

الشریف و همکاران، فرانکلین اوپن (2024)
چرا این ترکیب خیلی خوب کار می کند
تیم تحقیقاتی کشف کردند که با ترکیب این فناوری ها چیزی بیشتر از مجموع اجزای آن ایجاد کردند. ردیابی دقیق MediaPipe همراه با تشخیص پیشرفته شیء YOLOv8 نتایج بسیار دقیقی را ایجاد کرد – ما در مورد نرخ دقت 98٪ و امتیاز F1 99٪ صحبت می کنیم.
چیزی که این موضوع را به ویژه چشمگیر می کند این است که چگونه سیستم با پیچیدگی زبان اشاره برخورد می کند. برخی از علائم ممکن است بسیار شبیه به چشم های آموزش ندیده به نظر برسند، اما سیستم می تواند تفاوت های ظریف را تشخیص دهد.
نتایج رکورد شکنی
هنگامی که محققان فناوری جدید را توسعه می دهند، همیشه سوال بزرگ این است: “در واقع چقدر خوب کار می کند؟” برای این سیستم تشخیص زبان اشاره، نتایج چشمگیر است.
تیم FAU سیستم خود را تحت آزمایش های دقیق قرار داد، و در اینجا چیزی است که آنها پیدا کردند:
- سیستم در 98 درصد مواقع علائم را به درستی شناسایی می کند
- 98 درصد از تمام علائم ساخته شده در مقابل خود را می گیرد
- نمره عملکرد کلی به 99٪ چشمگیر می رسد
الشریف توضیح میدهد: «نتایج تحقیقات ما توانایی مدل ما را در تشخیص دقیق و طبقهبندی حرکات زبان اشاره آمریکایی با خطاهای بسیار کمی نشان میدهد».
این سیستم در موقعیت های روزمره به خوبی کار می کند – نورهای مختلف، موقعیت های مختلف دست، و حتی با امضای افراد مختلف.
این پیشرفت، مرزهای آنچه در تشخیص زبان اشاره ممکن است را تغییر می دهد. سیستمهای قبلی با دقت مشکل داشتند، اما با ترکیب ردیابی دست MediaPipe با قابلیتهای شناسایی YOLOv8، تیم تحقیقاتی چیز خاصی را ایجاد کرد.
محمد الیاس، یکی از نویسندگان این مطالعه، میگوید: «موفقیت این مدل عمدتاً به دلیل ادغام دقیق یادگیری انتقال، ایجاد دقیق مجموعه دادهها و تنظیم دقیق است. این توجه به جزئیات در عملکرد قابل توجه سیستم نتیجه داد.
این به چه معناست برای ارتباطات
موفقیت این سیستم فرصتهای هیجانانگیزی را برای دسترسی بیشتر و فراگیرتر کردن ارتباطات باز میکند.
تیم فقط به تشخیص حروف بسنده نمی کند. چالش بزرگ بعدی آموزش سیستم برای درک طیف وسیع تری از اشکال و حرکات دست است. به لحظاتی فکر کنید که علائم تقریباً یکسان به نظر می رسند – مانند حروف “M” و “N” در زبان اشاره. محققان در تلاش هستند تا به سیستم خود کمک کنند تا این تفاوت های ظریف را حتی بهتر تشخیص دهد. همانطور که دکتر الشریف می گوید: “به طور مهم، یافته های این مطالعه نه تنها بر استحکام سیستم بلکه بر پتانسیل آن برای استفاده در کاربردهای عملی و بلادرنگ تاکید می کند.”
تمرکز تیم اکنون بر روی موارد زیر است:
- کارکرد روان سیستم در دستگاه های معمولی
- آن را به اندازه کافی برای مکالمات دنیای واقعی سریع می کند
- اطمینان از کارکرد قابل اعتماد در هر محیطی
دین استلا باتالاما از کالج مهندسی و علوم کامپیوتر FAU دیدگاه بزرگتری را به اشتراک میگذارد: «با بهبود تشخیص زبان اشاره آمریکایی، این کار به ایجاد ابزارهایی کمک میکند که میتوانند ارتباطات را برای جامعه ناشنوایان و کمشنوایان تقویت کنند.»
تصور کنید وارد مطب دکتر می شوید یا در کلاسی شرکت می کنید که این فناوری فوراً شکاف های ارتباطی را پر می کند. این هدف واقعی در اینجا است – ایجاد تعاملات روزانه برای همه افراد درگیر، روانتر و طبیعیتر. این در حال ایجاد فناوری است که در واقع به افراد کمک می کند تا ارتباط برقرار کنند. چه در آموزش، چه در مراقبت های بهداشتی و چه در مکالمات روزمره، این سیستم نشان دهنده گامی به سوی جهانی است که موانع ارتباطی در آن کمتر می شود.