تشخیص Deepfakes در کنفرانس ویدئویی با عملکرد “ارتعاش” گوشی هوشمند


تحقیقات جدید در سنگاپور روش جدیدی را برای تشخیص اینکه آیا فردی در سمت دیگر ابزار کنفرانس ویدیویی تلفن هوشمند از روش‌هایی مانند استفاده می‌کند یا خیر پیشنهاد کرده است. DeepFaceLive جعل هویت شخص دیگری

عنوان شده است SFake، رویکرد جدید روش های غیرفعال استفاده شده توسط اکثر سیستم ها را کنار می گذارد و باعث ایجاد تلفن کاربر می شود برای ارتعاش (با استفاده از همان مکانیسم های “ارتعاش”. مشترک در گوشی‌های هوشمند)، و به‌طور نامحسوس چهره آن‌ها را محو کنید.

اگرچه سیستم‌های دیپ‌فیک زنده به‌طور متفاوتی قادر به تکرار تاری حرکت هستند، تا زمانی که فیلم‌های تار در داده‌های آموزشی، یا حداقل در داده‌های قبل از آموزش گنجانده شده باشد، نمی‌توانند به اندازه کافی به تاری‌های غیرمنتظره از این نوع پاسخ دهند و به خروجی ادامه می‌دهند. بخش‌های غیر تار چهره، وجود یک تماس کنفرانسی عمیق را آشکار می‌کند.

DeepFaceLive نمی تواند به اندازه کافی سریع پاسخ دهد تا تاری ناشی از لرزش دوربین را شبیه سازی کند. منبع: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive نمی تواند به اندازه کافی سریع پاسخ دهد تا تاری ناشی از لرزش دوربین را شبیه سازی کند. منبع: https://arxiv.org/pdf/2409.10889v1

نتایج آزمایش بر روی مجموعه داده‌های خودگردان محققین (از آنجایی که هیچ مجموعه داده‌ای که لرزش فعال دوربین را نشان نمی‌دهد) نشان داد که SFake از روش‌های تشخیص عمیق مبتنی بر ویدیوی رقیب بهتر عمل می‌کند، حتی زمانی که با شرایط چالش برانگیز مواجه می‌شوید، مانند حرکت طبیعی دست، زمانی که دیگری اتفاق می‌افتد. فردی که در یک کنفرانس ویدئویی به جای استفاده از پایه تلفن ثابت، دوربین را با دست خود گرفته است.

نیاز روزافزون به تشخیص Deepfake مبتنی بر ویدیو

تحقیقات در زمینه تشخیص دیپ فیک مبتنی بر ویدئو اخیرا افزایش یافته است. در پی چندین سال موفقیت‌آمیز مبتنی بر صدا سرقت های عمیق، اوایل سال جاری یک کارگر مالی بود فریب خورده به انتقال 25 میلیون دلار به یک کلاهبردار که در یک تماس ویدئویی کنفرانسی جعلی به عنوان یک مدیر ارشد مالی جعل هویت می کرد.

اگرچه سیستمی با این ماهیت به سطح بالایی از دسترسی سخت‌افزاری نیاز دارد، بسیاری از کاربران گوشی‌های هوشمند از قبل به خدمات مالی و سایر انواع سرویس‌های تاییدیه که از ما می‌خواهند ویژگی‌های چهره خود را برای احراز هویت مبتنی بر چهره ثبت کنیم، عادت کرده‌اند (در واقع، این حتی یکسان است. بخشی از فرآیند تأیید لینکدین).

بنابراین به نظر می‌رسد که چنین روش‌هایی به طور فزاینده‌ای برای سیستم‌های ویدئو کنفرانس به اجرا درآیند، زیرا این نوع جنایت همچنان در سرفصل اخبار قرار دارد.

اکثر راه‌حل‌هایی که به Deepfaking ویدئوکنفرانس بلادرنگ می‌پردازند، یک سناریوی بسیار ثابت را فرض می‌کنند، جایی که ارتباط گیرنده از یک وب‌کم ثابت استفاده می‌کند و هیچ حرکت یا تغییرات محیطی یا نوری بیش از حد انتظار نمی‌رود. تماس تلفن هوشمند چنین وضعیت «ثابتی» را ارائه نمی دهد.

در عوض، SFake از تعدادی روش تشخیص برای جبران تعداد بالای انواع بصری در یک کنفرانس ویدئویی مبتنی بر تلفن هوشمند دستی استفاده می‌کند و به نظر می‌رسد اولین پروژه تحقیقاتی باشد که با استفاده از تجهیزات استاندارد ارتعاش تعبیه‌شده در گوشی‌های هوشمند به این مشکل رسیدگی می‌کند.

این کاغذ عنوان شده است تکان دادن جعلی: تشخیص ویدیوهای Deepfake در زمان واقعی از طریق Probes فعالو از دو محقق از دانشگاه فناوری نانیانگ در سنگاپور است.

روش

SFake به عنوان یک سرویس مبتنی بر ابر طراحی شده است، که در آن یک برنامه محلی داده‌ها را به یک سرویس API راه دور ارسال می‌کند تا پردازش شود و نتایج بازگردانده می‌شود.

با این حال، ردپای 450 مگابایتی و متدولوژی بهینه آن به شما امکان می‌دهد تا تشخیص عمیق‌فک را به طور کامل بر روی خود دستگاه پردازش کند، در مواردی که اتصال شبکه می‌تواند باعث فشرده‌سازی بیش از حد تصاویر ارسالی شود که بر روند تشخیص تأثیر می‌گذارد.

اجرای «تمام محلی» به این روش به این معنی است که سیستم بدون نیاز به دسترسی مستقیم به فید دوربین کاربر کدک تداخل اغلب با ویدئو کنفرانس همراه است.

میانگین زمان تجزیه و تحلیل به یک نمونه ویدیوی چهار ثانیه ای نیاز دارد که در طی آن از کاربر خواسته می شود ثابت بماند و در طی آن SFake «کاوشگر» را برای ایجاد لرزش دوربین می فرستد، در فواصل تصادفی انتخابی که سیستم هایی مانند DeepFaceLive نمی توانند به موقع به آن پاسخ دهند. .

(باید دوباره تاکید کرد که هر مهاجمی که محتوای تار را در مجموعه داده آموزشی قرار نداده باشد، بعید است که بتواند مدلی تولید کند که حتی در شرایط بسیار مطلوب‌تر بتواند تاری ایجاد کند، و DeepFaceLive نمی‌تواند فقط این قابلیت را اضافه کند. به یک مدل آموزش‌دیده بر روی یک مجموعه داده کم‌تصفیه شده)

این سیستم نواحی منتخبی از صورت را به‌عنوان مناطقی با محتوای دیپ‌فیک انتخاب می‌کند، به استثنای چشم‌ها و ابروها (زیرا پلک زدن و سایر حرکات صورت در آن ناحیه خارج از محدوده تشخیص تاری است و یک نشانگر ایده‌آل نیست).

طرح مفهومی برای SFake.

طرح مفهومی برای SFake.

همانطور که در طرح مفهومی بالا می بینیم، پس از انتخاب الگوهای ارتعاش مناسب و غیرقابل پیش بینی، تعیین بهترین فاصله کانونی و انجام تشخیص چهره (از جمله تشخیص نقطه عطف از طریق یک Dlib مؤلفه ای که 68 نشانه استاندارد صورت را تخمین می زند، SFake گرادیان ها را از چهره ورودی استخراج می کند و بر روی مناطق انتخابی این گرادیان ها متمرکز می شود.

توالی واریانس با تجزیه و تحلیل متوالی هر فریم در کلیپ کوتاه مورد مطالعه به دست می‌آید، تا زمانی که توالی متوسط ​​یا «ایده‌آل» به دست آید، و بقیه نادیده گرفته شوند.

این استخراج شده را فراهم می کند ویژگی ها که می تواند به عنوان کمیت برای احتمال محتوای عمیق جعلی، بر اساس پایگاه داده آموزش دیده (که به صورت لحظه ای تر) استفاده شود.

این سیستم به وضوح تصویر 1920×1080 پیکسل و همچنین حداقل زوم 2 برابری برای لنز نیاز دارد. این مقاله خاطرنشان می‌کند که چنین وضوح‌هایی (و حتی وضوح‌های بالاتر) در Microsoft Teams، Skype، Zoom و Tencent Meeting پشتیبانی می‌شوند.

اکثر گوشی های هوشمند دارای دوربین جلو و خود هستند و اغلب تنها یکی از این دوربین ها قابلیت زوم مورد نیاز SFake را دارد. بنابراین برنامه از ارتباط گیرنده می خواهد که از هر یک از دو دوربین که این الزامات را برآورده می کند استفاده کند.

هدف در اینجا به دست آوردن یک است نسبت صحیح از چهره کاربر به جریان ویدئویی که سیستم تجزیه و تحلیل خواهد کرد. این مقاله مشاهده می کند که میانگین فاصله ای که زنان از دستگاه های تلفن همراه استفاده می کنند 34.7 سانتی متر و برای مردان 38.2 سانتی متر است. گزارش شده است در مجله بینایی سنجی) و اینکه SFake در این فواصل بسیار خوب عمل می کند.

از آنجایی که تثبیت یک مشکل در ویدیوهای دستی است و از آنجایی که تاری که از حرکت دست ایجاد می شود مانعی برای عملکرد SFake است، محققان چندین روش را برای جبران آن امتحان کردند. موفق ترین آنها محاسبه نقطه مرکزی نشانه های تخمینی و استفاده از آن به عنوان “لنگر” بود – به طور موثر یک تکنیک تثبیت الگوریتمی. با این روش دقت 92 درصد به دست آمد.

داده ها و آزمون ها

از آنجایی که هیچ مجموعه داده مناسبی برای این هدف وجود نداشت، محققان مجموعه داده های خود را توسعه دادند:

‘[We] از 8 برند مختلف گوشی هوشمند برای ضبط 15 شرکت کننده با جنسیت و سن مختلف برای ساخت مجموعه داده خود استفاده کنید. گوشی هوشمند را روی پایه گوشی در فاصله 20 سانتی‌متری از شرکت‌کننده قرار می‌دهیم و دوبار بزرگ‌نمایی می‌کنیم، به سمت صورت شرکت‌کننده هدف قرار می‌دهیم تا تمام ویژگی‌های صورت او را در بر بگیرد و در عین حال تلفن هوشمند را در الگوهای مختلف ویبره می‌کنیم.

برای گوشی‌هایی که دوربین جلوی آن‌ها نمی‌تواند زوم کند، از دوربین‌های عقب به عنوان جایگزین استفاده می‌کنیم. ما 150 ویدیوی طولانی ضبط می کنیم که هر کدام 20 ثانیه طول می کشد. به‌طور پیش‌فرض، دوره تشخیص را 4 ثانیه فرض می‌کنیم. ما 10 کلیپ 4 ثانیه ای را از یک ویدیوی طولانی با تصادفی کردن زمان شروع کوتاه می کنیم. بنابراین، در مجموع 1500 کلیپ واقعی دریافت می کنیم که هر کدام 4 ثانیه است.’

هر چند DeepFaceLive (لینک GitHub) هدف اصلی این مطالعه بود، از آنجایی که در حال حاضر پرکاربردترین سیستم دیپ فاک زنده منبع باز است، محققان چهار روش دیگر را برای آموزش مدل تشخیص پایه خود در نظر گرفتند: Hififace; FS-GANV2; RemakerAI; و MobileFaceSwap – آخرین مورد، با توجه به محیط مورد نظر، انتخاب مناسبی است.

1500 فیلم جعلی به همراه تعداد معادل فیلم واقعی و بدون تغییر برای آموزش استفاده شد.

SFake در برابر چندین طبقه بندی مختلف آزمایش شد، از جمله SBI; FaceAF; CnnDetect; LRNet; DefakeHop انواع و سرویس آنلاین رایگان تشخیص دیپ فیک Deepaware. برای هر یک از این روش های دیپ فیک، 1500 فیلم جعلی و 1500 فیلم واقعی آموزش داده شد.

برای طبقه بندی تست پایه، یک دو لایه ساده شبکه عصبی با یک عملکرد فعال سازی ReLU استفاده شد. 1000 ویدیوی واقعی و 1000 ویدیوی جعلی به طور تصادفی انتخاب شدند (اگرچه ویدیوهای جعلی منحصراً نمونه های DeepFaceLive بودند).

منحنی مشخصه عملیاتی ناحیه زیر گیرنده (AUC/AUROC) و دقت (ACC) به عنوان معیار استفاده شد.

برای آموزش و استنباط، از NVIDIA RTX 3060 استفاده شد و تست‌ها تحت اوبونتو اجرا می‌شوند. ویدیوهای آزمایشی با شیائومی Redmi 10x، Xiaomi Redmi K50، OPPO Find x6، Huawei Nova9، Xiaomi 14 Ultra، Honor 20، Google Pixel 6a و Huawei P60 ضبط شده اند.

برای مطابقت با روش‌های تشخیص موجود، آزمایش‌ها در PyTorch پیاده‌سازی شدند. نتایج آزمایش اولیه در جدول زیر نشان داده شده است:

نتایج برای SFake در برابر روش های رقیب.

نتایج برای SFake در برابر روش های رقیب.

در اینجا نویسندگان نظر می دهند:

در همه موارد، دقت تشخیص SFake از 95٪ فراتر رفت. در بین پنج الگوریتم دیپ فیک، به جز Hififace، SFake در برابر سایر الگوریتم های دیپ فیک بهتر از شش روش تشخیص دیگر عمل می کند. از آنجایی که طبقه‌بندی‌کننده ما با استفاده از تصاویر جعلی ایجاد شده توسط DeepFaceLive آموزش داده شده است، هنگام تشخیص DeepFaceLive به بالاترین میزان دقت 98.8٪ می‌رسد.

وقتی با چهره‌های جعلی تولید شده توسط RemakerAI مواجه می‌شوید، سایر روش‌های تشخیص عملکرد ضعیفی دارند. ما حدس می زنیم که این ممکن است به دلیل فشرده سازی خودکار فیلم ها هنگام دانلود از اینترنت باشد که منجر به از بین رفتن جزئیات تصویر و در نتیجه کاهش دقت تشخیص می شود. با این حال، این بر تشخیص توسط SFake که به دقت 96.8 درصد در تشخیص در برابر RemakerAI دست می‌یابد، تأثیری نمی‌گذارد.

نویسندگان همچنین خاطرنشان می کنند که SFake عملکردی ترین سیستم در سناریوی زوم 2 برابری است که روی لنز کپچر اعمال می شود، زیرا این حرکت را اغراق آمیز می کند و یک چشم انداز فوق العاده چالش برانگیز است. حتی در این شرایط، SFake توانست به دقت تشخیص 84% و 83% برای ضریب بزرگنمایی 2.5 و 3 دست یابد.

نتیجه گیری

پروژه ای که از نقاط ضعف سیستم دیپ فیک زنده علیه خود استفاده می کند، پیشنهادی تازه است در سالی که تشخیص دیپ فیک تحت سلطه مقالاتی است که صرفاً تحریک شده اند. ارجمند رویکردهایی پیرامون تحلیل فرکانس (که به دور از نوآوری در فضای دیپ فیک مصون است).

در پایان سال 2022، سیستم دیگری استفاده شد واریانس روشنایی مانیتور به عنوان یک قلاب آشکارساز؛ و در همان سال تظاهرات خودم ناتوانی DeepFaceLive در مدیریت نماهای سخت 90 درجه ای نمایه باعث شده است علاقه جامعه.

DeepFaceLive هدف درستی برای چنین پروژه‌ای است، زیرا تقریباً به طور قطع در مورد کلاهبرداری ویدئو کنفرانس، کانون توجه جنایی است.

با این حال، اخیراً شواهد حکایتی دیده ام که نشان می دهد LivePortrait سیستم، که در حال حاضر در جامعه VFX بسیار محبوب است، نمایش های پروفایل را بسیار بهتر از DeepFaceLive مدیریت می کند. اگر می توانست در این مطالعه گنجانده شود جالب بود.

اولین بار سه شنبه، 24 سپتامبر 2024 منتشر شد



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *