چگونه هوش مصنوعی «مشکل کوکتل مهمانی» و تأثیر آن بر فناوری‌های صوتی آینده را حل می‌کند


تصور کنید که در یک رویداد شلوغ، احاطه شده توسط صداها و سر و صدای پس زمینه، با این حال شما موفق به تمرکز بر روی مکالمه با فرد درست در مقابل شما. این توانایی برای جداسازی یک صدای خاص در میان پس‌زمینه‌ی پر سر و صدا، به عنوان صدا شناخته می‌شود مشکل کوکتل پارتی، اصطلاحی که اولین بار توسط دانشمند بریتانیایی کالین چری در سال 1958 برای توصیف این توانایی قابل توجه مغز انسان ابداع شد. متخصصان هوش مصنوعی ده‌ها سال است که در تلاش بوده‌اند تا از این قابلیت انسانی با ماشین‌ها تقلید کنند، اما همچنان این یک کار دلهره‌آور است. با این حال، پیشرفت‌های اخیر در هوش مصنوعی، راه‌حل‌های مؤثری را برای این مشکل ارائه می‌کند. این زمینه را برای تغییر تحول در فناوری صدا فراهم می کند. در این مقاله، چگونگی پیشرفت هوش مصنوعی در رسیدگی به مشکل کوکتل پارتی و پتانسیل آن برای فناوری‌های صوتی آینده را بررسی می‌کنیم. قبل از پرداختن به این موضوع که هوش مصنوعی چگونه آن را حل می کند، ابتدا باید بفهمیم که انسان ها چگونه این مشکل را حل می کنند.

چگونه انسان ها مشکل کوکتل پارتی را رمزگشایی می کنند

انسان ها دارای یک سیستم شنوایی منحصر به فرد هستند که به ما کمک می کند در محیط های پر سر و صدا حرکت کنیم. مغز ما صداهای دو گوش را پردازش می کند، به این معنی که از ورودی هر دو گوش برای تشخیص تفاوت های جزئی در زمان و میزان صدا استفاده می کنیم و به ما کمک می کند مکان صداها را تشخیص دهیم. این توانایی به ما اجازه می دهد تا به سمت صدایی که می خواهیم بشنویم جهت گیری کنیم، حتی زمانی که صداهای دیگر برای جلب توجه رقابت می کنند.

فراتر از شنوایی، توانایی های شناختی ما این فرآیند را بیشتر تقویت می کند. توجه انتخابی به ما کمک می کند صداهای نامربوط را فیلتر کنیم و به ما امکان می دهد روی اطلاعات مهم تمرکز کنیم. در همین حال، زمینه، حافظه و نشانه های بصری، مانند لب خوانی، به جداسازی گفتار از نویز پس زمینه کمک می کنند. این سیستم پردازش حسی و شناختی پیچیده فوق‌العاده کارآمد است، اما تکرار آن در هوش ماشینی همچنان دلهره‌آور است.

چرا همچنان برای هوش مصنوعی چالش برانگیز است؟

از دستیاران مجازی که دستورات ما را در یک کافه شلوغ تشخیص می‌دهند تا سمعک‌هایی که به کاربران کمک می‌کنند روی یک مکالمه متمرکز شوند، محققان هوش مصنوعی به طور مداوم در تلاش هستند تا توانایی مغز انسان را برای حل مشکل کوکتل پارتی تکرار کنند. این جستجو منجر به توسعه تکنیک هایی مانند جداسازی منبع کور (BSS) و تجزیه و تحلیل اجزای مستقل (ICA)طراحی شده برای شناسایی و جداسازی منابع صوتی متمایز برای پردازش فردی. در حالی که این روش‌ها در محیط‌های کنترل‌شده امیدوارکننده بوده‌اند – جایی که منابع صدا قابل پیش‌بینی هستند و از نظر فرکانس به طور قابل توجهی همپوشانی ندارند – هنگام تمایز صداهای همپوشانی یا جداسازی یک منبع صدا در زمان واقعی، به‌ویژه در تنظیمات پویا و غیرقابل پیش‌بینی، با مشکل مواجه می‌شوند. این در درجه اول به دلیل عدم وجود عمق حسی و زمینه ای است که انسان به طور طبیعی از آن استفاده می کند. بدون نشانه‌های اضافی مانند سیگنال‌های بصری یا آشنایی با زنگ‌های خاص، هوش مصنوعی در مدیریت ترکیب پیچیده و آشفته صداهایی که در محیط‌های روزمره با آن مواجه می‌شوند، با چالش‌هایی مواجه است.

چگونه WaveSciences از هوش مصنوعی برای رفع مشکل استفاده کرد

در سال 2019، WaveSciencesیک شرکت مستقر در ایالات متحده که توسط مهندس برق کیت مک الوین در سال 2009 تأسیس شد، پیشرفت در رسیدگی به مشکل کوکتل مهمانی. راه حل آنها، انتشار فضایی از پوشش (SRM)، از هوش مصنوعی و فیزیک انتشار صدا برای جداسازی صدای گوینده از نویز پس زمینه استفاده می کند. همانطور که سیستم شنوایی انسان صدا را از جهات مختلف پردازش می کند، SRM از چندین میکروفون برای گرفتن امواج صوتی در حین حرکت در فضا استفاده می کند.

یکی از چالش‌های حیاتی در این فرآیند این است که امواج صوتی به طور مداوم در اطراف پرتاب می‌شوند و در محیط مخلوط می‌شوند و جدا کردن صداهای خاص از نظر ریاضی را دشوار می‌کنند. با این حال، WaveSciences با استفاده از هوش مصنوعی، روشی را برای تعیین دقیق منشأ هر صدا و فیلتر کردن نویز پس‌زمینه و صداهای محیطی بر اساس موقعیت مکانی آنها ایجاد کرد. این سازگاری به SRM اجازه می‌دهد تا با تغییرات بلادرنگ، مانند بلندگوی متحرک یا معرفی صداهای جدید مقابله کند، و به طور قابل‌توجهی موثرتر از روش‌های قبلی است که با ماهیت غیرقابل پیش‌بینی تنظیمات صوتی در دنیای واقعی مبارزه می‌کردند. این پیشرفت نه تنها توانایی تمرکز بر مکالمات در محیط های پر سر و صدا را افزایش می دهد، بلکه راه را برای نوآوری های آینده در فناوری صوتی هموار می کند.

پیشرفت در تکنیک های هوش مصنوعی

پیشرفت های اخیر در هوش مصنوعی به ویژه در شبکه های عصبی عمیق، توانایی ماشین ها را برای حل مشکلات مهمانی کوکتل به طور قابل توجهی بهبود بخشیده است. الگوریتم‌های یادگیری عمیق، آموزش‌دیده بر روی مجموعه داده‌های بزرگ سیگنال‌های صوتی ترکیبی، در شناسایی و جداسازی منابع صوتی مختلف، حتی در سناریوهای صوتی با هم تداخل دارند. پروژه هایی مانند BioCPPNet اثربخشی این روش‌ها را با جداسازی صداهای حیوانات با موفقیت نشان داده‌اند، که نشان‌دهنده کاربرد آن‌ها در زمینه‌های مختلف بیولوژیکی فراتر از گفتار انسان است. محققان نشان داده‌اند که تکنیک‌های یادگیری عمیق می‌توانند جداسازی صدای آموخته‌شده در محیط‌های موسیقی را با موقعیت‌های جدید تطبیق دهند و استحکام مدل را در تنظیمات مختلف افزایش دهند.

شکل دهی پرتو عصبی این قابلیت ها را با استفاده از چندین میکروفون برای تمرکز بر صداها از جهات خاص و در عین حال به حداقل رساندن نویز پس زمینه افزایش می دهد. این تکنیک با تنظیم پویا فوکوس بر اساس محیط صوتی اصلاح می شود. علاوه بر این، مدل‌های هوش مصنوعی به کار می‌روند پوشش زمان-فرکانس برای متمایز کردن منابع صوتی با ویژگی های طیفی و زمانی منحصر به فرد آنها. پیشرفته دیاریزاسیون گوینده سیستم‌ها صداها را جدا می‌کنند و تک تک گویندگان را ردیابی می‌کنند و مکالمات سازمان‌یافته را تسهیل می‌کنند. هوش مصنوعی می‌تواند با استفاده از نشانه‌های بصری، مانند حرکات لب، در کنار داده‌های صوتی، صداهای خاص را با دقت بیشتری جدا و تقویت کند.

کاربردهای دنیای واقعی مسئله کوکتل پارتی

این پیشرفت ها راه های جدیدی را برای پیشرفت فناوری های صوتی باز کرده است. برخی از برنامه های کاربردی دنیای واقعی شامل موارد زیر است:

  • تجزیه و تحلیل پزشکی قانونی: با توجه به الف گزارش بی بی سیفناوری تشخیص و دستکاری گفتار (SRM) در دادگاه برای تجزیه و تحلیل شواهد صوتی استفاده شده است، به ویژه در مواردی که نویز پس زمینه شناسایی گویندگان و گفتگوی آنها را پیچیده می کند. اغلب، ضبط در چنین سناریوهایی به عنوان مدرک غیرقابل استفاده می شود. با این حال، SRM در زمینه های پزشکی قانونی بسیار ارزشمند است و با موفقیت صداهای مهم را برای ارائه در دادگاه رمزگشایی می کند.
  • هدفون حذف نویز: محققان نمونه اولیه سیستم هوش مصنوعی به نام هدف شنوایی گفتار برای هدفون های حذف کننده نویز که به کاربران امکان می دهد صدای یک فرد خاص را انتخاب کنند تا در عین حال صداهای دیگر را لغو کنند. این سیستم از تکنیک‌های مبتنی بر مشکل مهمانی استفاده می‌کند تا به طور موثر روی هدفون‌هایی با قدرت محاسباتی محدود اجرا شود. در حال حاضر این یک اثبات مفهومی است، اما سازندگان در حال مذاکره با برندهای هدفون هستند تا به طور بالقوه از این فناوری استفاده کنند.
  • سمعک: سمعک های مدرن اغلب در محیط های پر سر و صدا با مشکل مواجه می شوند و صداهای خاصی را از صداهای پس زمینه جدا نمی کنند. در حالی که این دستگاه‌ها می‌توانند صدا را تقویت کنند، اما فاقد مکانیسم‌های فیلتر پیشرفته هستند که گوش انسان را قادر می‌سازد تا در میان صداهای رقابتی روی یک مکالمه متمرکز شود. این محدودیت به ویژه در تنظیمات شلوغ یا پویا، که در آن صداهای همپوشانی و سطوح نویز نوسان غالب است، چالش برانگیز است. راه حل های مشکل مهمانی کوکتل می تواند سمعک ها را با جداسازی صداهای دلخواه و در عین حال به حداقل رساندن صدای اطراف بهبود بخشد.
  • مخابرات: در ارتباطات راه دور، هوش مصنوعی می‌تواند کیفیت تماس را با فیلتر کردن نویز پس‌زمینه و تاکید بر صدای گوینده افزایش دهد. این منجر به ارتباطات واضح تر و مطمئن تر می شود، به خصوص در محیط های پر سر و صدا مانند خیابان های شلوغ یا دفاتر شلوغ.
  • دستیارهای صوتی: دستیارهای صوتی مجهز به هوش مصنوعی، مانند الکسای آمازون و سیری اپل، می توانند در محیط های پر سر و صدا موثرتر عمل کنند و مشکلات مهمانی های کوکتل را با کارایی بیشتری حل کنند. این پیشرفت‌ها دستگاه‌ها را قادر می‌سازد تا به طور دقیق دستورات کاربر را درک کنند و به آن‌ها پاسخ دهند، حتی در هنگام گفتگوی پس‌زمینه.
  • ضبط و ویرایش صدا: فناوری‌های مبتنی بر هوش مصنوعی می‌توانند با جداسازی منابع صوتی جداگانه در مواد ضبط‌شده، به مهندسان صدا در پس‌تولید کمک کنند. این قابلیت اجازه می دهد تا آهنگ های تمیزتر و ویرایش کارآمدتر انجام شود.

خط پایین

مشکل کوکتل پارتی، یک چالش مهم در پردازش صدا، پیشرفت های قابل توجهی از طریق فناوری های هوش مصنوعی داشته است. نوآوری‌هایی مانند انتشار فضایی از پوشش (SRM) و الگوریتم‌های یادگیری عمیق، نحوه جداسازی و جداسازی صداها را ماشین‌ها در محیط‌های پر سر و صدا از نو تعریف می‌کنند. این پیشرفت‌ها تجربیات روزمره مانند مکالمات واضح‌تر در محیط‌های شلوغ و عملکرد بهبود یافته برای سمعک و دستیار صوتی را بهبود می‌بخشد. با این حال، آنها همچنین دارای پتانسیل تحول آفرین برای تجزیه و تحلیل پزشکی قانونی، ارتباطات از راه دور، و کاربردهای تولید صدا هستند. همانطور که هوش مصنوعی به تکامل خود ادامه می دهد، توانایی آن در تقلید از قابلیت های شنوایی انسان منجر به پیشرفت های مهم تری در فناوری های صوتی می شود و در نهایت نحوه تعامل ما با صدا را در زندگی روزمره خود تغییر می دهد.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *