تصور کنید که در یک رویداد شلوغ، احاطه شده توسط صداها و سر و صدای پس زمینه، با این حال شما موفق به تمرکز بر روی مکالمه با فرد درست در مقابل شما. این توانایی برای جداسازی یک صدای خاص در میان پسزمینهی پر سر و صدا، به عنوان صدا شناخته میشود مشکل کوکتل پارتی، اصطلاحی که اولین بار توسط دانشمند بریتانیایی کالین چری در سال 1958 برای توصیف این توانایی قابل توجه مغز انسان ابداع شد. متخصصان هوش مصنوعی دهها سال است که در تلاش بودهاند تا از این قابلیت انسانی با ماشینها تقلید کنند، اما همچنان این یک کار دلهرهآور است. با این حال، پیشرفتهای اخیر در هوش مصنوعی، راهحلهای مؤثری را برای این مشکل ارائه میکند. این زمینه را برای تغییر تحول در فناوری صدا فراهم می کند. در این مقاله، چگونگی پیشرفت هوش مصنوعی در رسیدگی به مشکل کوکتل پارتی و پتانسیل آن برای فناوریهای صوتی آینده را بررسی میکنیم. قبل از پرداختن به این موضوع که هوش مصنوعی چگونه آن را حل می کند، ابتدا باید بفهمیم که انسان ها چگونه این مشکل را حل می کنند.
چگونه انسان ها مشکل کوکتل پارتی را رمزگشایی می کنند
انسان ها دارای یک سیستم شنوایی منحصر به فرد هستند که به ما کمک می کند در محیط های پر سر و صدا حرکت کنیم. مغز ما صداهای دو گوش را پردازش می کند، به این معنی که از ورودی هر دو گوش برای تشخیص تفاوت های جزئی در زمان و میزان صدا استفاده می کنیم و به ما کمک می کند مکان صداها را تشخیص دهیم. این توانایی به ما اجازه می دهد تا به سمت صدایی که می خواهیم بشنویم جهت گیری کنیم، حتی زمانی که صداهای دیگر برای جلب توجه رقابت می کنند.
فراتر از شنوایی، توانایی های شناختی ما این فرآیند را بیشتر تقویت می کند. توجه انتخابی به ما کمک می کند صداهای نامربوط را فیلتر کنیم و به ما امکان می دهد روی اطلاعات مهم تمرکز کنیم. در همین حال، زمینه، حافظه و نشانه های بصری، مانند لب خوانی، به جداسازی گفتار از نویز پس زمینه کمک می کنند. این سیستم پردازش حسی و شناختی پیچیده فوقالعاده کارآمد است، اما تکرار آن در هوش ماشینی همچنان دلهرهآور است.
چرا همچنان برای هوش مصنوعی چالش برانگیز است؟
از دستیاران مجازی که دستورات ما را در یک کافه شلوغ تشخیص میدهند تا سمعکهایی که به کاربران کمک میکنند روی یک مکالمه متمرکز شوند، محققان هوش مصنوعی به طور مداوم در تلاش هستند تا توانایی مغز انسان را برای حل مشکل کوکتل پارتی تکرار کنند. این جستجو منجر به توسعه تکنیک هایی مانند جداسازی منبع کور (BSS) و تجزیه و تحلیل اجزای مستقل (ICA)طراحی شده برای شناسایی و جداسازی منابع صوتی متمایز برای پردازش فردی. در حالی که این روشها در محیطهای کنترلشده امیدوارکننده بودهاند – جایی که منابع صدا قابل پیشبینی هستند و از نظر فرکانس به طور قابل توجهی همپوشانی ندارند – هنگام تمایز صداهای همپوشانی یا جداسازی یک منبع صدا در زمان واقعی، بهویژه در تنظیمات پویا و غیرقابل پیشبینی، با مشکل مواجه میشوند. این در درجه اول به دلیل عدم وجود عمق حسی و زمینه ای است که انسان به طور طبیعی از آن استفاده می کند. بدون نشانههای اضافی مانند سیگنالهای بصری یا آشنایی با زنگهای خاص، هوش مصنوعی در مدیریت ترکیب پیچیده و آشفته صداهایی که در محیطهای روزمره با آن مواجه میشوند، با چالشهایی مواجه است.
چگونه WaveSciences از هوش مصنوعی برای رفع مشکل استفاده کرد
در سال 2019، WaveSciencesیک شرکت مستقر در ایالات متحده که توسط مهندس برق کیت مک الوین در سال 2009 تأسیس شد، پیشرفت در رسیدگی به مشکل کوکتل مهمانی. راه حل آنها، انتشار فضایی از پوشش (SRM)، از هوش مصنوعی و فیزیک انتشار صدا برای جداسازی صدای گوینده از نویز پس زمینه استفاده می کند. همانطور که سیستم شنوایی انسان صدا را از جهات مختلف پردازش می کند، SRM از چندین میکروفون برای گرفتن امواج صوتی در حین حرکت در فضا استفاده می کند.
یکی از چالشهای حیاتی در این فرآیند این است که امواج صوتی به طور مداوم در اطراف پرتاب میشوند و در محیط مخلوط میشوند و جدا کردن صداهای خاص از نظر ریاضی را دشوار میکنند. با این حال، WaveSciences با استفاده از هوش مصنوعی، روشی را برای تعیین دقیق منشأ هر صدا و فیلتر کردن نویز پسزمینه و صداهای محیطی بر اساس موقعیت مکانی آنها ایجاد کرد. این سازگاری به SRM اجازه میدهد تا با تغییرات بلادرنگ، مانند بلندگوی متحرک یا معرفی صداهای جدید مقابله کند، و به طور قابلتوجهی موثرتر از روشهای قبلی است که با ماهیت غیرقابل پیشبینی تنظیمات صوتی در دنیای واقعی مبارزه میکردند. این پیشرفت نه تنها توانایی تمرکز بر مکالمات در محیط های پر سر و صدا را افزایش می دهد، بلکه راه را برای نوآوری های آینده در فناوری صوتی هموار می کند.
پیشرفت در تکنیک های هوش مصنوعی
پیشرفت های اخیر در هوش مصنوعی به ویژه در شبکه های عصبی عمیق، توانایی ماشین ها را برای حل مشکلات مهمانی کوکتل به طور قابل توجهی بهبود بخشیده است. الگوریتمهای یادگیری عمیق، آموزشدیده بر روی مجموعه دادههای بزرگ سیگنالهای صوتی ترکیبی، در شناسایی و جداسازی منابع صوتی مختلف، حتی در سناریوهای صوتی با هم تداخل دارند. پروژه هایی مانند BioCPPNet اثربخشی این روشها را با جداسازی صداهای حیوانات با موفقیت نشان دادهاند، که نشاندهنده کاربرد آنها در زمینههای مختلف بیولوژیکی فراتر از گفتار انسان است. محققان نشان دادهاند که تکنیکهای یادگیری عمیق میتوانند جداسازی صدای آموختهشده در محیطهای موسیقی را با موقعیتهای جدید تطبیق دهند و استحکام مدل را در تنظیمات مختلف افزایش دهند.
شکل دهی پرتو عصبی این قابلیت ها را با استفاده از چندین میکروفون برای تمرکز بر صداها از جهات خاص و در عین حال به حداقل رساندن نویز پس زمینه افزایش می دهد. این تکنیک با تنظیم پویا فوکوس بر اساس محیط صوتی اصلاح می شود. علاوه بر این، مدلهای هوش مصنوعی به کار میروند پوشش زمان-فرکانس برای متمایز کردن منابع صوتی با ویژگی های طیفی و زمانی منحصر به فرد آنها. پیشرفته دیاریزاسیون گوینده سیستمها صداها را جدا میکنند و تک تک گویندگان را ردیابی میکنند و مکالمات سازمانیافته را تسهیل میکنند. هوش مصنوعی میتواند با استفاده از نشانههای بصری، مانند حرکات لب، در کنار دادههای صوتی، صداهای خاص را با دقت بیشتری جدا و تقویت کند.
کاربردهای دنیای واقعی مسئله کوکتل پارتی
این پیشرفت ها راه های جدیدی را برای پیشرفت فناوری های صوتی باز کرده است. برخی از برنامه های کاربردی دنیای واقعی شامل موارد زیر است:
- تجزیه و تحلیل پزشکی قانونی: با توجه به الف گزارش بی بی سیفناوری تشخیص و دستکاری گفتار (SRM) در دادگاه برای تجزیه و تحلیل شواهد صوتی استفاده شده است، به ویژه در مواردی که نویز پس زمینه شناسایی گویندگان و گفتگوی آنها را پیچیده می کند. اغلب، ضبط در چنین سناریوهایی به عنوان مدرک غیرقابل استفاده می شود. با این حال، SRM در زمینه های پزشکی قانونی بسیار ارزشمند است و با موفقیت صداهای مهم را برای ارائه در دادگاه رمزگشایی می کند.
- هدفون حذف نویز: محققان نمونه اولیه سیستم هوش مصنوعی به نام هدف شنوایی گفتار برای هدفون های حذف کننده نویز که به کاربران امکان می دهد صدای یک فرد خاص را انتخاب کنند تا در عین حال صداهای دیگر را لغو کنند. این سیستم از تکنیکهای مبتنی بر مشکل مهمانی استفاده میکند تا به طور موثر روی هدفونهایی با قدرت محاسباتی محدود اجرا شود. در حال حاضر این یک اثبات مفهومی است، اما سازندگان در حال مذاکره با برندهای هدفون هستند تا به طور بالقوه از این فناوری استفاده کنند.
- سمعک: سمعک های مدرن اغلب در محیط های پر سر و صدا با مشکل مواجه می شوند و صداهای خاصی را از صداهای پس زمینه جدا نمی کنند. در حالی که این دستگاهها میتوانند صدا را تقویت کنند، اما فاقد مکانیسمهای فیلتر پیشرفته هستند که گوش انسان را قادر میسازد تا در میان صداهای رقابتی روی یک مکالمه متمرکز شود. این محدودیت به ویژه در تنظیمات شلوغ یا پویا، که در آن صداهای همپوشانی و سطوح نویز نوسان غالب است، چالش برانگیز است. راه حل های مشکل مهمانی کوکتل می تواند سمعک ها را با جداسازی صداهای دلخواه و در عین حال به حداقل رساندن صدای اطراف بهبود بخشد.
- مخابرات: در ارتباطات راه دور، هوش مصنوعی میتواند کیفیت تماس را با فیلتر کردن نویز پسزمینه و تاکید بر صدای گوینده افزایش دهد. این منجر به ارتباطات واضح تر و مطمئن تر می شود، به خصوص در محیط های پر سر و صدا مانند خیابان های شلوغ یا دفاتر شلوغ.
- دستیارهای صوتی: دستیارهای صوتی مجهز به هوش مصنوعی، مانند الکسای آمازون و سیری اپل، می توانند در محیط های پر سر و صدا موثرتر عمل کنند و مشکلات مهمانی های کوکتل را با کارایی بیشتری حل کنند. این پیشرفتها دستگاهها را قادر میسازد تا به طور دقیق دستورات کاربر را درک کنند و به آنها پاسخ دهند، حتی در هنگام گفتگوی پسزمینه.
- ضبط و ویرایش صدا: فناوریهای مبتنی بر هوش مصنوعی میتوانند با جداسازی منابع صوتی جداگانه در مواد ضبطشده، به مهندسان صدا در پستولید کمک کنند. این قابلیت اجازه می دهد تا آهنگ های تمیزتر و ویرایش کارآمدتر انجام شود.
خط پایین
مشکل کوکتل پارتی، یک چالش مهم در پردازش صدا، پیشرفت های قابل توجهی از طریق فناوری های هوش مصنوعی داشته است. نوآوریهایی مانند انتشار فضایی از پوشش (SRM) و الگوریتمهای یادگیری عمیق، نحوه جداسازی و جداسازی صداها را ماشینها در محیطهای پر سر و صدا از نو تعریف میکنند. این پیشرفتها تجربیات روزمره مانند مکالمات واضحتر در محیطهای شلوغ و عملکرد بهبود یافته برای سمعک و دستیار صوتی را بهبود میبخشد. با این حال، آنها همچنین دارای پتانسیل تحول آفرین برای تجزیه و تحلیل پزشکی قانونی، ارتباطات از راه دور، و کاربردهای تولید صدا هستند. همانطور که هوش مصنوعی به تکامل خود ادامه می دهد، توانایی آن در تقلید از قابلیت های شنوایی انسان منجر به پیشرفت های مهم تری در فناوری های صوتی می شود و در نهایت نحوه تعامل ما با صدا را در زندگی روزمره خود تغییر می دهد.