تحقیقات جدید در سنگاپور روش جدیدی را برای تشخیص اینکه آیا فردی در سمت دیگر ابزار کنفرانس ویدیویی تلفن هوشمند از روشهایی مانند استفاده میکند یا خیر پیشنهاد کرده است. DeepFaceLive جعل هویت شخص دیگری
عنوان شده است SFake، رویکرد جدید روش های غیرفعال استفاده شده توسط اکثر سیستم ها را کنار می گذارد و باعث ایجاد تلفن کاربر می شود برای ارتعاش (با استفاده از همان مکانیسم های “ارتعاش”. مشترک در گوشیهای هوشمند)، و بهطور نامحسوس چهره آنها را محو کنید.
اگرچه سیستمهای دیپفیک زنده بهطور متفاوتی قادر به تکرار تاری حرکت هستند، تا زمانی که فیلمهای تار در دادههای آموزشی، یا حداقل در دادههای قبل از آموزش گنجانده شده باشد، نمیتوانند به اندازه کافی به تاریهای غیرمنتظره از این نوع پاسخ دهند و به خروجی ادامه میدهند. بخشهای غیر تار چهره، وجود یک تماس کنفرانسی عمیق را آشکار میکند.
نتایج آزمایش بر روی مجموعه دادههای خودگردان محققین (از آنجایی که هیچ مجموعه دادهای که لرزش فعال دوربین را نشان نمیدهد) نشان داد که SFake از روشهای تشخیص عمیق مبتنی بر ویدیوی رقیب بهتر عمل میکند، حتی زمانی که با شرایط چالش برانگیز مواجه میشوید، مانند حرکت طبیعی دست، زمانی که دیگری اتفاق میافتد. فردی که در یک کنفرانس ویدئویی به جای استفاده از پایه تلفن ثابت، دوربین را با دست خود گرفته است.
نیاز روزافزون به تشخیص Deepfake مبتنی بر ویدیو
تحقیقات در زمینه تشخیص دیپ فیک مبتنی بر ویدئو اخیرا افزایش یافته است. در پی چندین سال موفقیتآمیز مبتنی بر صدا سرقت های عمیق، اوایل سال جاری یک کارگر مالی بود فریب خورده به انتقال 25 میلیون دلار به یک کلاهبردار که در یک تماس ویدئویی کنفرانسی جعلی به عنوان یک مدیر ارشد مالی جعل هویت می کرد.
اگرچه سیستمی با این ماهیت به سطح بالایی از دسترسی سختافزاری نیاز دارد، بسیاری از کاربران گوشیهای هوشمند از قبل به خدمات مالی و سایر انواع سرویسهای تاییدیه که از ما میخواهند ویژگیهای چهره خود را برای احراز هویت مبتنی بر چهره ثبت کنیم، عادت کردهاند (در واقع، این حتی یکسان است. بخشی از فرآیند تأیید لینکدین).
بنابراین به نظر میرسد که چنین روشهایی به طور فزایندهای برای سیستمهای ویدئو کنفرانس به اجرا درآیند، زیرا این نوع جنایت همچنان در سرفصل اخبار قرار دارد.
اکثر راهحلهایی که به Deepfaking ویدئوکنفرانس بلادرنگ میپردازند، یک سناریوی بسیار ثابت را فرض میکنند، جایی که ارتباط گیرنده از یک وبکم ثابت استفاده میکند و هیچ حرکت یا تغییرات محیطی یا نوری بیش از حد انتظار نمیرود. تماس تلفن هوشمند چنین وضعیت «ثابتی» را ارائه نمی دهد.
در عوض، SFake از تعدادی روش تشخیص برای جبران تعداد بالای انواع بصری در یک کنفرانس ویدئویی مبتنی بر تلفن هوشمند دستی استفاده میکند و به نظر میرسد اولین پروژه تحقیقاتی باشد که با استفاده از تجهیزات استاندارد ارتعاش تعبیهشده در گوشیهای هوشمند به این مشکل رسیدگی میکند.
این کاغذ عنوان شده است تکان دادن جعلی: تشخیص ویدیوهای Deepfake در زمان واقعی از طریق Probes فعالو از دو محقق از دانشگاه فناوری نانیانگ در سنگاپور است.
روش
SFake به عنوان یک سرویس مبتنی بر ابر طراحی شده است، که در آن یک برنامه محلی دادهها را به یک سرویس API راه دور ارسال میکند تا پردازش شود و نتایج بازگردانده میشود.
با این حال، ردپای 450 مگابایتی و متدولوژی بهینه آن به شما امکان میدهد تا تشخیص عمیقفک را به طور کامل بر روی خود دستگاه پردازش کند، در مواردی که اتصال شبکه میتواند باعث فشردهسازی بیش از حد تصاویر ارسالی شود که بر روند تشخیص تأثیر میگذارد.
اجرای «تمام محلی» به این روش به این معنی است که سیستم بدون نیاز به دسترسی مستقیم به فید دوربین کاربر کدک تداخل اغلب با ویدئو کنفرانس همراه است.
میانگین زمان تجزیه و تحلیل به یک نمونه ویدیوی چهار ثانیه ای نیاز دارد که در طی آن از کاربر خواسته می شود ثابت بماند و در طی آن SFake «کاوشگر» را برای ایجاد لرزش دوربین می فرستد، در فواصل تصادفی انتخابی که سیستم هایی مانند DeepFaceLive نمی توانند به موقع به آن پاسخ دهند. .
(باید دوباره تاکید کرد که هر مهاجمی که محتوای تار را در مجموعه داده آموزشی قرار نداده باشد، بعید است که بتواند مدلی تولید کند که حتی در شرایط بسیار مطلوبتر بتواند تاری ایجاد کند، و DeepFaceLive نمیتواند فقط این قابلیت را اضافه کند. به یک مدل آموزشدیده بر روی یک مجموعه داده کمتصفیه شده)
این سیستم نواحی منتخبی از صورت را بهعنوان مناطقی با محتوای دیپفیک انتخاب میکند، به استثنای چشمها و ابروها (زیرا پلک زدن و سایر حرکات صورت در آن ناحیه خارج از محدوده تشخیص تاری است و یک نشانگر ایدهآل نیست).
همانطور که در طرح مفهومی بالا می بینیم، پس از انتخاب الگوهای ارتعاش مناسب و غیرقابل پیش بینی، تعیین بهترین فاصله کانونی و انجام تشخیص چهره (از جمله تشخیص نقطه عطف از طریق یک Dlib مؤلفه ای که 68 نشانه استاندارد صورت را تخمین می زند، SFake گرادیان ها را از چهره ورودی استخراج می کند و بر روی مناطق انتخابی این گرادیان ها متمرکز می شود.
توالی واریانس با تجزیه و تحلیل متوالی هر فریم در کلیپ کوتاه مورد مطالعه به دست میآید، تا زمانی که توالی متوسط یا «ایدهآل» به دست آید، و بقیه نادیده گرفته شوند.
این استخراج شده را فراهم می کند ویژگی ها که می تواند به عنوان کمیت برای احتمال محتوای عمیق جعلی، بر اساس پایگاه داده آموزش دیده (که به صورت لحظه ای تر) استفاده شود.
این سیستم به وضوح تصویر 1920×1080 پیکسل و همچنین حداقل زوم 2 برابری برای لنز نیاز دارد. این مقاله خاطرنشان میکند که چنین وضوحهایی (و حتی وضوحهای بالاتر) در Microsoft Teams، Skype، Zoom و Tencent Meeting پشتیبانی میشوند.
اکثر گوشی های هوشمند دارای دوربین جلو و خود هستند و اغلب تنها یکی از این دوربین ها قابلیت زوم مورد نیاز SFake را دارد. بنابراین برنامه از ارتباط گیرنده می خواهد که از هر یک از دو دوربین که این الزامات را برآورده می کند استفاده کند.
هدف در اینجا به دست آوردن یک است نسبت صحیح از چهره کاربر به جریان ویدئویی که سیستم تجزیه و تحلیل خواهد کرد. این مقاله مشاهده می کند که میانگین فاصله ای که زنان از دستگاه های تلفن همراه استفاده می کنند 34.7 سانتی متر و برای مردان 38.2 سانتی متر است. گزارش شده است در مجله بینایی سنجی) و اینکه SFake در این فواصل بسیار خوب عمل می کند.
از آنجایی که تثبیت یک مشکل در ویدیوهای دستی است و از آنجایی که تاری که از حرکت دست ایجاد می شود مانعی برای عملکرد SFake است، محققان چندین روش را برای جبران آن امتحان کردند. موفق ترین آنها محاسبه نقطه مرکزی نشانه های تخمینی و استفاده از آن به عنوان “لنگر” بود – به طور موثر یک تکنیک تثبیت الگوریتمی. با این روش دقت 92 درصد به دست آمد.
داده ها و آزمون ها
از آنجایی که هیچ مجموعه داده مناسبی برای این هدف وجود نداشت، محققان مجموعه داده های خود را توسعه دادند:
‘[We] از 8 برند مختلف گوشی هوشمند برای ضبط 15 شرکت کننده با جنسیت و سن مختلف برای ساخت مجموعه داده خود استفاده کنید. گوشی هوشمند را روی پایه گوشی در فاصله 20 سانتیمتری از شرکتکننده قرار میدهیم و دوبار بزرگنمایی میکنیم، به سمت صورت شرکتکننده هدف قرار میدهیم تا تمام ویژگیهای صورت او را در بر بگیرد و در عین حال تلفن هوشمند را در الگوهای مختلف ویبره میکنیم.
برای گوشیهایی که دوربین جلوی آنها نمیتواند زوم کند، از دوربینهای عقب به عنوان جایگزین استفاده میکنیم. ما 150 ویدیوی طولانی ضبط می کنیم که هر کدام 20 ثانیه طول می کشد. بهطور پیشفرض، دوره تشخیص را 4 ثانیه فرض میکنیم. ما 10 کلیپ 4 ثانیه ای را از یک ویدیوی طولانی با تصادفی کردن زمان شروع کوتاه می کنیم. بنابراین، در مجموع 1500 کلیپ واقعی دریافت می کنیم که هر کدام 4 ثانیه است.’
هر چند DeepFaceLive (لینک GitHub) هدف اصلی این مطالعه بود، از آنجایی که در حال حاضر پرکاربردترین سیستم دیپ فاک زنده منبع باز است، محققان چهار روش دیگر را برای آموزش مدل تشخیص پایه خود در نظر گرفتند: Hififace; FS-GANV2; RemakerAI; و MobileFaceSwap – آخرین مورد، با توجه به محیط مورد نظر، انتخاب مناسبی است.
1500 فیلم جعلی به همراه تعداد معادل فیلم واقعی و بدون تغییر برای آموزش استفاده شد.
SFake در برابر چندین طبقه بندی مختلف آزمایش شد، از جمله SBI; FaceAF; CnnDetect; LRNet; DefakeHop انواع و سرویس آنلاین رایگان تشخیص دیپ فیک Deepaware. برای هر یک از این روش های دیپ فیک، 1500 فیلم جعلی و 1500 فیلم واقعی آموزش داده شد.
برای طبقه بندی تست پایه، یک دو لایه ساده شبکه عصبی با یک عملکرد فعال سازی ReLU استفاده شد. 1000 ویدیوی واقعی و 1000 ویدیوی جعلی به طور تصادفی انتخاب شدند (اگرچه ویدیوهای جعلی منحصراً نمونه های DeepFaceLive بودند).
منحنی مشخصه عملیاتی ناحیه زیر گیرنده (AUC/AUROC) و دقت (ACC) به عنوان معیار استفاده شد.
برای آموزش و استنباط، از NVIDIA RTX 3060 استفاده شد و تستها تحت اوبونتو اجرا میشوند. ویدیوهای آزمایشی با شیائومی Redmi 10x، Xiaomi Redmi K50، OPPO Find x6، Huawei Nova9، Xiaomi 14 Ultra، Honor 20، Google Pixel 6a و Huawei P60 ضبط شده اند.
برای مطابقت با روشهای تشخیص موجود، آزمایشها در PyTorch پیادهسازی شدند. نتایج آزمایش اولیه در جدول زیر نشان داده شده است:
در اینجا نویسندگان نظر می دهند:
در همه موارد، دقت تشخیص SFake از 95٪ فراتر رفت. در بین پنج الگوریتم دیپ فیک، به جز Hififace، SFake در برابر سایر الگوریتم های دیپ فیک بهتر از شش روش تشخیص دیگر عمل می کند. از آنجایی که طبقهبندیکننده ما با استفاده از تصاویر جعلی ایجاد شده توسط DeepFaceLive آموزش داده شده است، هنگام تشخیص DeepFaceLive به بالاترین میزان دقت 98.8٪ میرسد.
وقتی با چهرههای جعلی تولید شده توسط RemakerAI مواجه میشوید، سایر روشهای تشخیص عملکرد ضعیفی دارند. ما حدس می زنیم که این ممکن است به دلیل فشرده سازی خودکار فیلم ها هنگام دانلود از اینترنت باشد که منجر به از بین رفتن جزئیات تصویر و در نتیجه کاهش دقت تشخیص می شود. با این حال، این بر تشخیص توسط SFake که به دقت 96.8 درصد در تشخیص در برابر RemakerAI دست مییابد، تأثیری نمیگذارد.
نویسندگان همچنین خاطرنشان می کنند که SFake عملکردی ترین سیستم در سناریوی زوم 2 برابری است که روی لنز کپچر اعمال می شود، زیرا این حرکت را اغراق آمیز می کند و یک چشم انداز فوق العاده چالش برانگیز است. حتی در این شرایط، SFake توانست به دقت تشخیص 84% و 83% برای ضریب بزرگنمایی 2.5 و 3 دست یابد.
نتیجه گیری
پروژه ای که از نقاط ضعف سیستم دیپ فیک زنده علیه خود استفاده می کند، پیشنهادی تازه است در سالی که تشخیص دیپ فیک تحت سلطه مقالاتی است که صرفاً تحریک شده اند. ارجمند رویکردهایی پیرامون تحلیل فرکانس (که به دور از نوآوری در فضای دیپ فیک مصون است).
در پایان سال 2022، سیستم دیگری استفاده شد واریانس روشنایی مانیتور به عنوان یک قلاب آشکارساز؛ و در همان سال تظاهرات خودم ناتوانی DeepFaceLive در مدیریت نماهای سخت 90 درجه ای نمایه باعث شده است علاقه جامعه.
DeepFaceLive هدف درستی برای چنین پروژهای است، زیرا تقریباً به طور قطع در مورد کلاهبرداری ویدئو کنفرانس، کانون توجه جنایی است.
با این حال، اخیراً شواهد حکایتی دیده ام که نشان می دهد LivePortrait سیستم، که در حال حاضر در جامعه VFX بسیار محبوب است، نمایش های پروفایل را بسیار بهتر از DeepFaceLive مدیریت می کند. اگر می توانست در این مطالعه گنجانده شود جالب بود.
اولین بار سه شنبه، 24 سپتامبر 2024 منتشر شد