در یک لحظه تعیین کننده برای هوش مصنوعی به زبان عربی ، cntxt ai رونمایی کرده است مونس، یک الگوی تشخیص گفتار عربی نسل بعدی که نه تنها دقیق ترین ساخته شده برای عربی است ، بلکه موردی است که با قاطعیت از غول های جهانی مانند OpenAI ، متا ، مایکروسافت و یازده در معیارهای استاندارد بهتر عمل می کند. Munsit که در امارات متحده عربی از زمین به بالا ساخته شده است ، یک گام قدرتمند به جلو در آنچه CNTXT “AI Sovereign” – تکنولوژی ساخته شده در منطقه ، برای منطقه ، اما با رقابت جهانی است ، نشان می دهد.
مبانی علمی این دستاورد در مقاله تازه منتشر شده این تیم ارائه شده است. “پیشبرد شناخت گفتار عربی از طریق یادگیری ضعیف در مقیاس بزرگ“، که یک روش آموزش مقیاس پذیر و کارآمد داده را معرفی می کند که به کمبود دیرینه داده های گفتار عربی برچسب زده می شود. این روش – یادگیری تحت نظارت – این تیم را قادر می سازد سیستمی را بسازند که نوار جدیدی را برای کیفیت رونویسی در هر دو عربی استاندارد مدرن (MSA) و بیش از 25 گویش منطقه ای ایجاد کند.
غلبه بر خشکسالی داده ها در ASR عربی
عربی ، علی رغم اینکه یکی از زبان های گسترده در سطح جهان و یک زبان رسمی سازمان ملل است ، مدتهاست که در زمینه تشخیص گفتار یک زبان کم منبع در نظر گرفته شده است. این از هر دو آن ناشی می شود پیچیدگی مورفولوژیکی و فقدان مجموعه داده های گفتار بزرگ ، متنوع و دارای برچسب. بر خلاف انگلیسی ، که از ساعات بی شماری از داده های صوتی رونویسی دستی ، غنای دیالکتیکی عربی و حضور دیجیتالی تکه تکه شده بهره می برد ، چالش های مهمی را برای ساخت سیستم های تشخیص گفتار اتوماتیک قوی (ASR) ایجاد کرده است.
CNTXT AI به جای انتظار برای روند آهسته و گران قیمت رونویسی دستی ، مسیری کاملاً مقیاس پذیر را دنبال کرد: نظارت ضعیف. رویکرد آنها با یک جسد گسترده بیش از 30،000 ساعت صوتی بدون برچسب عربی جمع آوری شده از منابع متنوع آغاز شد. از طریق یک خط لوله پردازش داده های سفارشی ، این صدای خام تمیز ، تقسیم شده و به طور خودکار برچسب گذاری شد تا یک مجموعه داده آموزشی با کیفیت بالا 15000 ساعته-یکی از بزرگترین و نماینده ترین گفتار عربی که تاکنون مونتاژ شده است-به دست آورد.
این روند به حاشیه نویسی انسان متکی نبود. در عوض ، CNTXT یک سیستم چند مرحله ای برای تولید ، ارزیابی و فیلتر کردن فرضیه ها از چندین مدل ASR ایجاد کرد. این رونوشت ها با استفاده از فاصله لونشیتین برای انتخاب سازگارترین فرضیه ها ، متقاطع شدند و سپس از طریق یک مدل زبان عبور کردند تا قابل قبول بودن گرامری آنها را ارزیابی کنند. بخش هایی که نتوانستند آستانه های کیفیت تعریف شده را برآورده کنند ، دور ریخته شدند و اطمینان حاصل کردند که حتی بدون تأیید انسانی ، داده های آموزش قابل اعتماد باقی مانده است. این تیم این خط لوله را از طریق تکرارهای متعدد تصحیح کرد ، هر بار که با بازیابی سیستم ASR و تغذیه مجدد آن به فرآیند برچسب زدن ، دقت برچسب را بهبود می بخشد.
Powering Munsit: معماری Conformer
در قلب Munsit مدل Consiter ، یک معماری شبکه عصبی ترکیبی است که حساسیت محلی لایه های حلقوی را با قابلیت های مدل سازی توالی جهانی ترانسفورماتورها ترکیب می کند. این طرح باعث می شود که سازنده به خصوص در رسیدگی به تفاوت های ظریف زبان گفتاری ، که در آن هر دو وابستگی دوربرد (مانند ساختار جمله) و جزئیات آوایی ریز دانه بسیار مهم هستند ، بسیار مهم باشد.
CNTXT AI نوع بزرگی از Conformer را اجرا کرد و آن را از ابتدا با استفاده از 80 کانال Mel-Spectrograms به عنوان ورودی آموزش داد. این مدل از 18 لایه تشکیل شده است و تقریباً 121 میلیون پارامتر را شامل می شود. آموزش بر روی یک خوشه با کارایی بالا با استفاده از هشت GPU NVIDIA A100 با دقت BFLOAT16 انجام شد و امکان دستیابی به کارآمد از اندازه های دسته ای گسترده و فضاهای ویژگی با ابعاد بالا را فراهم می آورد. این تیم برای رسیدگی به نشانه سازی ساختار غنی از نظر مورفولوژیکی عربی ، از یک توکین ساز که به طور خاص در قسمت سفارشی خود آموزش داده شده بود ، استفاده کرد و در نتیجه واژگان 1.024 واحد فرعی را به دست آورد.
بر خلاف آموزش ASR تحت نظارت معمولی ، که به طور معمول نیاز به هر کلیپ صوتی دارد که با یک برچسب با دقت رونویسی جفت شود ، روش CNTXT کاملاً روی برچسب های ضعیف عمل می کند. این برچسب ها ، گرچه پر از تأیید شده از انسان هستند ، اما از طریق یک حلقه بازخورد که در اولویت اجماع ، انسجام گرامری و محتمل بودن واژگانی قرار گرفته بود ، بهینه شدند. این مدل با استفاده از طبقه بندی زمانی اتصال دهنده (CTC) عملکرد از دست دادن ، که برای مدل سازی توالی بدون طراحی مناسب است-مهم برای کارهای تشخیص گفتار که در آن زمان کلمات گفتاری متغیر و غیرقابل پیش بینی است.
حاکم بر معیارها
نتایج برای خودشان صحبت می کنند. Munsit در برابر مدل های پیشرو در منبع باز و تجاری ASR در شش مجموعه داده عربی معیار آزمایش شد: SADA ، Common Voice 18.0 ، MASC (پاک و پر سر و صدا) ، MGB-2 و Casablanca. این مجموعه داده ها در مجموع ده ها گویش و لهجه در سراسر جهان عرب ، از عربستان سعودی تا مراکش است.
در تمام معیارها ، MUNSIT-1 به طور متوسط نرخ خطای کلمه (WER) 26.68 و نرخ خطای کاراکتر (CER) 10.05 را بدست آورد. در مقایسه ، بهترین نسخه از Whisper Openai به طور متوسط WER 36.86 و CER 17.21 را به ثبت رساند. یکپارچه Meta’slessm4t ، یکی دیگر از مدل های چند زبانه ترین ، حتی بالاتر آمد. Munsit از هر سیستم دیگری در هر دو داده تمیز و پر سر و صدا بهتر عمل کرد و در شرایط پر سر و صدا استحکام ویژه ای را نشان داد ، یک عامل مهم برای برنامه های کاربردی در دنیای واقعی مانند مراکز تماس و خدمات عمومی.
این شکاف به همان اندازه در برابر سیستم های اختصاصی کاملاً واضح بود. Munsit از مدلهای ASR عربی مایکروسافت لاجورد ، کاتب Elevenlabs و حتی از ویژگی های رونویسی GPT-4O OpenAi بهتر عمل کرد. این نتایج سود حاشیه ای نیست – آنها نشان دهنده بهبود نسبی 23.19 ٪ در WER و 24.78 ٪ در CER در مقایسه با قوی ترین پایه باز است و MUNSIT را به عنوان رهبر روشن در تشخیص گفتار عربی تعیین می کند.
سکویی برای آینده صدای عربی AI
در حالی که Munsit-1 در حال حاضر امکانات رونویسی ، زیرنویس و پشتیبانی مشتری را در بازارهای عربی زبان تغییر می دهد ، CNTXT AI این پرتاب را فقط آغاز می داند. این شرکت مجموعه کاملی از فن آوری های صوتی به زبان عربی ، از جمله متن به گفتار ، دستیاران صوتی و سیستم های ترجمه در زمان واقعی را پیش بینی می کند-همه در زیرساخت های حاکمیتی و هوش مصنوعی مرتبط با آن پایه گذاری شده است.
محمد ابو شیخ ، مدیرعامل CNTXT AI گفت: “Munsit بیش از این یک موفقیت در تشخیص گفتار است.” “این اعلامیه ای است که عربی متعلق به خط مقدم جهانی جهانی است. ما ثابت کرده ایم که هوش مصنوعی در سطح جهانی نیازی به واردات ندارد-می تواند در اینجا ، به زبان عربی ، برای عربی ساخته شود.”
با ظهور مدل های خاص منطقه مانند Munsit ، صنعت هوش مصنوعی در حال ورود به دوره جدیدی است-جایی که ارتباط زبانی و فرهنگی در دستیابی به تعالی فنی قربانی نمی شود. در واقع ، با مونس، cntxt ai نشان داده است که آنها یک و یکسان هستند.