هویت واقعی را می توان از مجموعه داده های مصنوعی بازیابی کرد


اگر سال 2022 لحظه ای بود که پتانسیل مخرب هوش مصنوعی مولد برای اولین بار توجه عمومی را به خود جلب کرد، سال 2024 سالی بود که سؤالات مربوط به قانونی بودن داده های زیربنایی آن برای مشاغلی که مشتاق به استفاده از قدرت آن هستند در کانون توجه قرار گرفت.

ایالات متحده آمریکا دکترین استفاده منصفانههمراه با مجوز علمی ضمنی که مدت‌ها به بخش‌های تحقیقاتی دانشگاهی و تجاری اجازه می‌داد تا هوش مصنوعی مولد را کاوش کنند، به‌طور فزاینده‌ای غیرقابل دفاع شد. شواهد سرقت ادبی ظاهر شد. متعاقبا، ایالات متحده در حال حاضر، غیر مجاز محتوای تولید شده توسط هوش مصنوعی به دلیل داشتن حق چاپ.

این مسائل به دور از حل و فصل، و به دور از حل و فصل قریب الوقوع است. در سال 2023، تا حدی به دلیل رسانه های رو به رشد و نگرانی عمومی در مورد وضعیت حقوقی خروجی تولید شده توسط هوش مصنوعی، اداره حق نسخه برداری ایالات متحده تحقیقاتی طولانی را در مورد این جنبه از هوش مصنوعی مولد آغاز کرد. بخش اول (در مورد کپی های دیجیتال) در جولای 2024.

در این میان، منافع تجاری به دلیل احتمال اینکه مدل‌های گران‌قیمتی که می‌خواهند از آنها بهره‌برداری کنند می‌تواند آنها را در معرض عواقب قانونی قرار دهد، زمانی که قوانین و تعاریف قطعی در نهایت ظهور پیدا می‌کنند، ناامید هستند.

راه‌حل گران‌مدت کوتاه‌مدت مشروعیت بخشیدن به مدل‌های تولیدی با آموزش آنها بر روی داده‌هایی است که شرکت‌ها حق بهره‌برداری از آن‌ها را دارند. تبدیل متن به تصویر Adobe (و اکنون متن به ویدئو) معماری فایرفلای در درجه اول توسط آن نیرو می گیرد خرید مجموعه داده عکس استوک Fotolia در سال 2014، تکمیل شده است با استفاده از داده های مالکیت عمومی منقضی شده با حق نسخه برداری*. در همان زمان، تامین کنندگان عکس سهام فعلی مانند Getty و Shutterstock با حروف بزرگ در ارزش جدید داده های دارای مجوز آنها، با تعداد فزاینده معاملات برای مجوز محتوا یا توسعه سیستم های GenAI سازگار با IP خود.

راه حل های مصنوعی

از زمان حذف داده های دارای حق چاپ از آموزش دیده فضای نهفته یک مدل هوش مصنوعی است مملو از مشکلات، اشتباهات در این زمینه به طور بالقوه می تواند برای شرکت هایی که با راه حل های مصرف کننده و تجاری که از یادگیری ماشینی استفاده می کنند، بسیار پرهزینه باشد.

یک راه حل جایگزین و بسیار ارزان تر برای سیستم های بینایی کامپیوتری (و همچنین مدل های زبان بزرگ، یا LLMs) استفاده از داده های مصنوعی، که در آن مجموعه داده از نمونه های تولید شده به طور تصادفی از دامنه هدف (مانند چهره ها، گربه ها، کلیساها یا حتی مجموعه داده های کلی تر) تشکیل شده است.

سایت‌هایی مانند thispersondoesnotexist.com مدت‌ها پیش این ایده را رایج کردند که عکس‌های واقعی از افراد «غیر واقعی» را می‌توان ترکیب کرد (در آن مورد خاص، از طریق شبکه‌های متخاصم مولد، یا GAN ها) بدون داشتن هیچ ارتباطی با افرادی که واقعاً در دنیای واقعی وجود دارند.

بنابراین، اگر یک سیستم تشخیص چهره یا یک سیستم تولیدی را بر روی چنین مثال‌های انتزاعی و غیر واقعی آموزش دهید، در تئوری می‌توانید استاندارد واقعی بهره‌وری را برای یک مدل هوش مصنوعی بدون نیاز به بررسی اینکه آیا داده‌ها از نظر قانونی قابل استفاده هستند یا خیر، به دست آورید.

قانون تعادل

مشکل این است که سیستم‌هایی که داده‌های مصنوعی تولید می‌کنند، خودشان بر روی داده‌های واقعی آموزش دیده‌اند. اگر آثاری از آن داده‌ها وارد داده‌های مصنوعی شود، این به طور بالقوه شواهدی را ارائه می‌دهد که از مطالب محدود یا غیرمجاز برای سود پولی استفاده شده است.

برای جلوگیری از این امر، و برای تولید تصاویر واقعاً تصادفی، چنین مدل‌هایی باید اطمینان حاصل کنند که خوب هستند.تعمیم یافته است. تعمیم معیار توانایی یک مدل هوش مصنوعی آموزش دیده برای درک ذاتی مفاهیم سطح بالا (مانند “صورت”، “مرد”، یا “زن) بدون توسل به تکرار داده های آموزشی واقعی.

متأسفانه، تولید (یا تشخیص) برای سیستم های آموزش دیده دشوار است. جزئیات دانه ای مگر اینکه به طور گسترده روی یک مجموعه داده آموزش ببیند. این سیستم را در معرض خطر قرار می دهد حفظ کردن: تمایل به بازتولید، تا حدی، نمونه هایی از داده های آموزشی واقعی.

این را می توان با تنظیم آرامش بیشتر کاهش داد میزان یادگیری، یا با پایان دادن به آموزش در مرحله ای که مفاهیم اصلی هنوز انعطاف پذیر هستند و با هیچ نقطه داده خاصی مرتبط نیستند (مانند تصویر خاصی از یک شخص، در مورد مجموعه داده چهره).

با این حال، هر دوی این راه‌حل‌ها احتمالاً به مدل‌هایی با جزئیات کمتر منتهی می‌شوند، زیرا سیستم فرصتی برای پیشرفت فراتر از «اصول» دامنه هدف و پایین‌تر رفتن به جزئیات را نداشت.

بنابراین، در ادبیات علمی، نرخ یادگیری بسیار بالا و برنامه های آموزشی جامع به طور کلی اعمال می شود. در حالی که محققان معمولاً سعی می‌کنند بین کاربرد گسترده و جزئیات در مدل نهایی سازش کنند، حتی سیستم‌های «حافظه‌شده» نیز اغلب می‌توانند خود را به‌خوبی تعمیم‌یافته – حتی در آزمایش‌های اولیه – به اشتباه معرفی کنند.

فاش کردن چهره

این ما را به یک مقاله جدید جالب از سوئیس می‌رساند، که ادعا می‌کند برای اولین بار نشان می‌دهد که تصاویر اصلی و واقعی که داده‌های مصنوعی را تامین می‌کنند، می‌توانند از تصاویر تولید شده بازیابی شوند که در تئوری باید کاملاً تصادفی باشند:

نمونه‌هایی از تصاویر چهره که از داده‌های آموزشی به بیرون درز کرده است. در ردیف بالا، تصاویر اصلی (واقعی) را می بینیم. در ردیف زیر، تصاویری را می بینیم که به صورت تصادفی تولید شده اند که به طور قابل توجهی با تصاویر واقعی مطابقت دارند. منبع: https://arxiv.org/pdf/2410.24015

نمونه‌هایی از تصاویر چهره که از داده‌های آموزشی به بیرون درز کرده است. در ردیف بالا، تصاویر اصلی (واقعی) را می بینیم. در ردیف زیر، تصاویری را می بینیم که به صورت تصادفی تولید شده اند که به طور قابل توجهی با تصاویر واقعی مطابقت دارد. منبع: https://arxiv.org/pdf/2410.24015

نویسندگان استدلال می کنند که نتایج نشان می دهد که ژنراتورهای “مصنوعی” در حقیقت بسیاری از نقاط داده آموزشی را در جستجوی خود برای دانه بندی بیشتر به خاطر سپرده اند. آنها همچنین نشان می‌دهند که سیستم‌هایی که بر داده‌های مصنوعی برای محافظت از تولیدکنندگان هوش مصنوعی در برابر عواقب قانونی متکی هستند، می‌توانند در این زمینه بسیار غیرقابل اعتماد باشند.

محققان یک مطالعه گسترده بر روی شش مجموعه داده مصنوعی پیشرفته انجام دادند و نشان دادند که در همه موارد، داده‌های اصلی (بالقوه دارای حق چاپ یا محافظت شده) قابل بازیابی هستند. اظهار نظر می کنند:

آزمایش‌های ما نشان می‌دهد که مجموعه داده‌های تشخیص چهره مصنوعی پیشرفته حاوی نمونه‌هایی هستند که در داده‌های آموزشی مدل‌های مولدشان به نمونه‌ها بسیار نزدیک هستند. در برخی موارد، نمونه‌های مصنوعی حاوی تغییرات کوچکی نسبت به تصویر اصلی هستند، با این حال، ما همچنین می‌توانیم در برخی موارد مشاهده کنیم که نمونه تولید شده دارای تنوع بیشتری است (به عنوان مثال، حالت‌های مختلف، شرایط نور، و غیره) در حالی که هویت حفظ می‌شود.

این نشان می‌دهد که مدل‌های مولد در حال یادگیری و حفظ اطلاعات مربوط به هویت از داده‌های آموزشی هستند و ممکن است هویت‌های مشابهی ایجاد کنند. این نگرانی های حیاتی در مورد استفاده از داده های مصنوعی در کارهای حساس به حریم خصوصی مانند بیومتریک و تشخیص چهره ایجاد می کند.

این کاغذ عنوان شده است پرده برداری از چهره های مصنوعی: چگونه مجموعه داده های مصنوعی می توانند هویت های واقعی را آشکار کنندو از دو محقق در موسسه تحقیقاتی Idiap در Martigny، École Polytechnique Fédérale de Lozanne (EPFL) و Université de Lozanne (UNIL) در لوزان می آید.

روش، داده ها و نتایج

چهره های حفظ شده در مطالعه توسط حمله استنتاج عضویت. اگرچه این مفهوم پیچیده به نظر می رسد، اما کاملاً توضیحی است: استنباط عضویت، در این مورد، به فرآیند زیر سوال بردن یک سیستم اشاره دارد تا زمانی که داده هایی را نشان دهد که یا با داده های مورد نظر شما مطابقت دارد یا به طور قابل توجهی شبیه آن است.

نمونه های بیشتر از منابع داده استنباط شده، از مطالعه. در این مورد، تصاویر مصنوعی منبع از مجموعه داده DCFace هستند.

نمونه های بیشتر از منابع داده استنباط شده، از مطالعه. در این مورد، تصاویر مصنوعی منبع از مجموعه داده DCFace هستند.

محققان شش مجموعه داده مصنوعی را مطالعه کردند که منبع داده (واقعی) برای آنها مشخص بود. از آنجایی که هم مجموعه داده های واقعی و هم جعلی مورد بحث، همگی دارای حجم بسیار بالایی از تصاویر هستند، این کار در واقع مانند جستجوی سوزنی در انبار کاه است.

بنابراین نویسندگان از یک مدل تشخیص چهره خارج از قفسه استفاده کردند با یک ResNet100 ستون فقرات آموزش دیده در AdaFace عملکرد از دست دادن (روی WebFace12M مجموعه داده).

شش مجموعه داده مصنوعی مورد استفاده عبارت بودند از: DCFace (یک مدل انتشار نهفته)؛ IDiff-Face (یکنواخت – یک مدل انتشار بر اساس FFHQ). IDiff-Face (دو مرحله ای – یک نوع با استفاده از روش نمونه گیری متفاوت)؛ GANDiffFace (بر اساس شبکه های متخاصم مولد و مدل های انتشار، با استفاده از StyleGAN3 برای تولید هویت های اولیه و سپس Dream Booth برای ایجاد نمونه های متنوع)؛ IDNet (یک روش GAN، بر اساس StyleGAN-ADA) و SFace (چارچوب محافظ هویت).

از آنجایی که GANDiffFace از هر دو روش GAN و Diffusion استفاده می‌کند، با مجموعه داده آموزشی StyleGAN مقایسه شد – نزدیک‌ترین منبع به یک مبدأ چهره واقعی که این شبکه ارائه می‌کند.

نویسندگان مجموعه‌های داده مصنوعی را که از روش‌های CGI به جای AI استفاده می‌کنند، کنار گذاشتند، و در ارزیابی نتایج، به دلیل ناهنجاری‌های توزیعی در این زمینه، و همچنین تصاویر غیر چهره (که اغلب در مجموعه داده‌های چهره، جایی که خراش‌های وب رخ می‌دهد، منطبق‌ها را برای کودکان کاهش دادند. سیستم ها برای اشیا یا مصنوعاتی که دارای ویژگی های چهره مانند هستند، موارد مثبت کاذب تولید می کنند.

شباهت کسینوس برای تمام جفت‌های بازیابی شده محاسبه شد و به هیستوگرام‌هایی که در زیر نشان داده شده است، الحاق شد:

نمایش هیستوگرام برای نمرات شباهت کسینوس محاسبه شده در مجموعه داده های مختلف، همراه با مقادیر مشابه شباهت آنها برای جفت های top-k (خطوط عمودی چین دار).

نمایش هیستوگرام برای نمرات شباهت کسینوس محاسبه شده در مجموعه داده های مختلف، همراه با مقادیر مشابه شباهت آنها برای جفت های top-k (خطوط عمودی چین دار).

تعداد شباهت ها در اسپک های نمودار بالا نشان داده شده است. این مقاله همچنین دارای مقایسه نمونه از شش مجموعه داده و تصاویر تخمینی مربوطه آنها در مجموعه داده های اصلی (واقعی) است که برخی از انتخاب ها در زیر نشان داده شده است:

نمونه‌هایی از بسیاری از نمونه‌های بازتولید شده در مقاله منبع، که خواننده برای انتخاب جامع‌تر به آن ارجاع داده می‌شود.

نمونه‌هایی از بسیاری از نمونه‌های بازتولید شده در مقاله منبع، که خواننده برای انتخاب جامع‌تر به آن ارجاع داده می‌شود.

نظر این روزنامه:

‘[The] مجموعه داده های مصنوعی تولید شده حاوی تصاویر بسیار مشابهی از مجموعه آموزشی مدل مولد خود است که نگرانی هایی را در مورد تولید چنین هویت هایی ایجاد می کند.

نویسندگان خاطرنشان می‌کنند که برای این رویکرد خاص، مقیاس‌بندی تا مجموعه داده‌های با حجم بالاتر احتمالاً ناکارآمد است، زیرا محاسبات لازم بسیار سنگین خواهد بود. آنها همچنین مشاهده کردند که مقایسه بصری برای استنباط مطابقت ضروری است و تشخیص خودکار صورت به تنهایی احتمالاً برای یک کار بزرگتر کافی نخواهد بود.

با توجه به پیامدهای تحقیق و با توجه به راه های پیش رو، کار بیان می کند:

‘[We] می‌خواهم تاکید کنم که انگیزه اصلی برای تولید مجموعه‌های داده مصنوعی، رسیدگی به نگرانی‌های حفظ حریم خصوصی در استفاده از مجموعه داده‌های صورت خزیده‌شده در مقیاس بزرگ است.

بنابراین، نشت هرگونه اطلاعات حساس (مانند هویت تصاویر واقعی در داده‌های آموزشی) در مجموعه داده مصنوعی نگرانی‌های حیاتی در مورد استفاده از داده‌های مصنوعی برای کارهای حساس به حریم خصوصی، مانند بیومتریک را افزایش می‌دهد. مطالعه ما مشکلات حریم خصوصی در تولید مجموعه داده های تشخیص چهره مصنوعی را روشن می کند و راه را برای مطالعات آینده به سمت تولید مجموعه داده های مصنوعی چهره مصنوعی هموار می کند.

اگرچه نویسندگان قول انتشار کد برای این اثر را در سایت می دهند صفحه پروژه، هیچ پیوند مخزن فعلی وجود ندارد.

نتیجه گیری

اخیراً توجه رسانه ها بر این موضوع تأکید کرده است کاهش بازده با آموزش مدل های هوش مصنوعی بر روی داده های تولید شده توسط هوش مصنوعی به دست آمده است.

با این حال، تحقیقات جدید سوئیسی، توجه بیشتری را برای تعداد فزاینده شرکت‌هایی که می‌خواهند از هوش مصنوعی مولد بهره ببرند و از آن سود ببرند، مورد توجه قرار می‌دهد – تداوم الگوهای داده‌ای محافظت‌شده با IP یا غیرمجاز، حتی در مجموعه داده‌هایی که برای مبارزه با این عمل طراحی شده است. اگر بخواهیم تعریفی از آن ارائه کنیم، در این مورد ممکن است به آن «شستشوی صورت» گفته شود.

* با این حال، تصمیم Adobe برای اجازه دادن به تصاویر آپلود شده توسط کاربر که توسط هوش مصنوعی در Adobe Stock آپلود شده اند، به طور موثری خلوص قانونی این داده ها را تضعیف کرده است. بلومبرگ مناقشه کرد در آوریل 2024، تصاویر ارائه شده توسط کاربر از سیستم هوش مصنوعی MidJourney در قابلیت های Firefly گنجانده شده بود.

این مدل در مقاله مشخص نشده است.

اولین بار چهارشنبه 6 نوامبر 2024 منتشر شد



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *