استفاده از فشرده سازی JPEG برای بهبود آموزش شبکه عصبی


یک مقاله تحقیقاتی جدید از کانادا چارچوبی را پیشنهاد کرده است که به طور عمدی فشرده سازی JPEG را در طرح آموزشی یک شبکه عصبی معرفی می کند و می تواند نتایج بهتر و مقاومت بهتر در برابر حملات متخاصم را به دست آورد.

این یک ایده نسبتاً رادیکال است، زیرا عقل کلی فعلی این است که مصنوعات JPEG، که برای مشاهده انسان بهینه شده اند، و نه برای یادگیری ماشین، عموماً تأثیر مخربی بر شبکه های عصبی آموزش داده شده بر روی داده های JPEG دارند.

نمونه‌ای از تفاوت وضوح بین تصاویر JPEG فشرده‌شده در مقادیر مختلف از دست دادن (از دست دادن بیشتر باعث می‌شود اندازه فایل کوچک‌تر، به قیمت ترسیم کردن و نواربندی بین گرادیان‌های رنگی، در میان انواع دیگر مصنوعات) فراهم شود. منبع: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

نمونه ای از تفاوت در وضوح بین تصاویر JPEG فشرده شده در مقادیر مختلف از دست دادن (از دست دادن بیشتر اجازه می دهد اندازه فایل کوچکتر، به بهای ترسیم و باند در سراسر گرادیان رنگ، در میان انواع دیگر مصنوعات). منبع: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

گزارش سال 2022 از دانشگاه مریلند و هوش مصنوعی فیسبوک ادعا کرد فشرده‌سازی JPEG در آموزش شبکه‌های عصبی، علی‌رغم کار قبلی که شبکه های عصبی ادعا شده نسبت به مصنوعات فشرده سازی تصویر انعطاف پذیر هستند.

یک سال قبل از این، رشته فکری جدیدی در ادبیات ظاهر شد: فشرده‌سازی JPEG می‌تواند در واقع اهرم شوند برای نتایج بهتر در آموزش مدل.

با این حال، اگرچه نویسندگان آن مقاله توانستند نتایج بهبود یافته‌ای را در آموزش تصاویر JPEG با سطوح کیفی متفاوت به دست آورند، مدل پیشنهادی آن‌ها آنقدر پیچیده و سنگین بود که عملی نشد. علاوه بر این، استفاده سیستم از تنظیمات بهینه سازی پیش فرض JPEG (کوانتیزاسیون) مانعی برای اثربخشی تمرین به اثبات رساند.

پروژه بعدی (2023 فشرده سازی سازگار با JPEG برای DNN Vision) سیستمی را آزمایش کرد که نتایج کمی بهتر از تصاویر آموزشی فشرده شده با JPEG با استفاده از یک منجمد شده مدل شبکه عصبی عمیق (DNN) با این حال، انجماد بخش‌هایی از یک مدل در طول آموزش باعث کاهش تطبیق‌پذیری مدل و همچنین انعطاف‌پذیری گسترده‌تر آن در برابر داده‌های جدید می‌شود.

JPEG-DL

در عوض، کار جدید، با عنوان یادگیری عمیق با الهام از JPEG، معماری بسیار ساده تری را ارائه می دهد که حتی می تواند بر مدل های موجود تحمیل شود.

محققان دانشگاه واترلو اظهار داشتند:

نتایج نشان می دهد که JPEG-DL به طور قابل توجهی و به طور مداوم از DL استاندارد در معماری های مختلف DNN با افزایش ناچیز پیچیدگی مدل بهتر عمل می کند.

به طور خاص، JPEG-DL دقت طبقه‌بندی را تا 20.9 درصد در برخی از مجموعه داده‌های طبقه‌بندی دقیق بهبود می‌بخشد، در حالی که تنها 128 پارامتر قابل آموزش را به خط لوله DL اضافه می‌کند. علاوه بر این، برتری JPEG-DL نسبت به DL استاندارد با افزایش استحکام خصمانه مدل های آموخته شده و کاهش اندازه فایل تصاویر ورودی بیشتر نشان داده می شود.

نویسندگان ادعا می‌کنند که سطح بهینه کیفیت فشرده‌سازی JPEG می‌تواند به شبکه عصبی کمک کند تا موضوع/های مرکزی تصویر را تشخیص دهد. در مثال زیر، نتایج خط پایه (سمت چپ) را می بینیم که پرنده را در پس زمینه زمانی که ویژگی ها توسط شبکه عصبی به دست می آیند، ترکیب می کنند. در مقابل، JPEG-DL (راست) در تشخیص و مشخص کردن موضوع عکس موفق است.

آزمایش‌هایی در برابر روش‌های پایه برای JPEG-DL. منبع: https://arxiv.org/pdf/2410.07081

آزمایش‌هایی در برابر روش‌های پایه برای JPEG-DL. منبع: https://arxiv.org/pdf/2410.07081

“این پدیده،” توضیح می دهند، “فشرده سازی کمک می کند” در [2021] کاغذ، با این واقعیت توجیه می‌شود که فشرده‌سازی می‌تواند نویز و ویژگی‌های مزاحم پس‌زمینه را حذف کند، در نتیجه شی اصلی را در یک تصویر برجسته می‌کند، که به DNN‌ها کمک می‌کند پیش‌بینی بهتری داشته باشند.

روش

JPEG-DL یک متمایز پذیر را معرفی می کند کوانتایزر نرم، که جایگزین عملیات کوانتیزاسیون غیر قابل تمایز در یک روال استاندارد بهینه سازی JPEG می شود.

این اجازه می دهد مبتنی بر گرادیان بهینه سازی تصاویر این در کدگذاری JPEG معمولی که از a استفاده می کند امکان پذیر نیست کوانتایزر یکنواخت با عملیات گرد کردن که نزدیکترین ضریب را تقریب می‌کند.

تمایز طرحواره JPEG-DL اجازه بهینه سازی مشترک پارامترهای مدل آموزشی و کوانتیزاسیون JPEG (سطح فشرده سازی) را می دهد. بهینه سازی مشترک به این معنی است که هم مدل و هم داده های آموزشی در کنار یکدیگر قرار می گیرند انتها به انتها فرآیند، و نیازی به انجماد لایه ها نیست.

اساساً، این سیستم فشرده سازی JPEG یک مجموعه داده (خام) را برای تناسب با منطق فرآیند تعمیم سفارشی می کند.

طرحواره برای JPEG-DL.

طرح مفهومی برای JPEG-DL.

ممکن است فرض شود که داده های خام می تواند علوفه ایده آل برای آموزش باشد. پس از همه، تصاویر زمانی که به صورت دسته‌ای اجرا می‌شوند، به‌طور کامل در فضای رنگی تمام‌قد مناسب از حالت فشرده خارج می‌شوند. پس فرمت اصلی چه تفاوتی دارد؟

خوب، از آنجایی که فشرده سازی JPEG برای مشاهده انسان بهینه شده است، قسمت هایی از جزئیات یا رنگ را به روشی مطابق با این هدف دور می کند. با توجه به تصویری از یک دریاچه در زیر آسمان آبی، سطوح فشردگی بیشتری روی آسمان اعمال خواهد شد، زیرا حاوی جزئیات «ضروری» نیست.

از سوی دیگر، یک شبکه عصبی فاقد فیلترهای غیرعادی است که به ما اجازه می‌دهند سوژه‌های مرکزی را صفر کنیم. درعوض، احتمالاً هر گونه مصنوعات نواری در آسمان را به عنوان داده های معتبر در نظر می گیرد که باید در آن ادغام شوند. فضای نهفته.

اگرچه یک انسان در یک تصویر به شدت فشرده شده (سمت چپ) نوارهای موجود در آسمان را از بین می‌برد، یک شبکه عصبی نمی‌داند که این محتوا باید دور ریخته شود و به تصویری با کیفیت بالاتر (سمت راست) نیاز دارد. منبع: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

اگرچه یک انسان در یک تصویر به شدت فشرده شده (سمت چپ) نوارهای موجود در آسمان را از بین می‌برد، یک شبکه عصبی نمی‌داند که این محتوا باید دور ریخته شود و به تصویری با کیفیت بالاتر (سمت راست) نیاز دارد. منبع: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

بنابراین، بعید است که یک سطح از فشرده سازی JPEG با کل محتوای یک مجموعه داده آموزشی مطابقت داشته باشد، مگر اینکه یک دامنه بسیار خاص را نشان دهد. برای مثال، عکس‌های انبوه جمعیت به فشرده‌سازی بسیار کمتری نسبت به تصویر با فوکوس باریک از یک پرنده نیاز دارند.

نویسندگان مشاهده می کنند که کسانی که با چالش های کوانتیزاسیون آشنا نیستند، اما با اصول اولیه ترانسفورماتورها معماری، می تواند این فرآیندها را به عنوان یک “عملیات توجه”، به طور گسترده

داده ها و آزمون ها

JPEG-DL در برابر معماری های مبتنی بر ترانسفورماتور و شبکه های عصبی کانولوشنال (سی ان ان). معماری های مورد استفاده بودند EfficientFormer-L1; ResNet; VGG; موبایل نت; و ShuffleNet.

نسخه‌های ResNet مورد استفاده مختص به سیفار مجموعه داده: ResNet32، ResNet56، و ResNet110. VGG8 و VGG13 برای آزمایش‌های مبتنی بر VGG انتخاب شدند.

برای CNN، روش آموزشی از کار سال 2020 مشتق شده است تقطیر نمایندگی متضاد (CRD). برای EfficientFormer-L1 (مبتنی بر ترانسفورماتور)، روش تمرینی از سال 2023 راه‌اندازی مدل‌ها با مدل‌های بزرگتر استفاده شد.

برای وظایف ریزدانه مشخص شده در آزمون ها، از چهار مجموعه داده استفاده شد: سگ های استنفورد; دانشگاه آکسفورد گل ها; CUB-200-2011 (پرندگان CalTech); و حیوانات خانگی (“گربه ها و سگ ها”، همکاری بین دانشگاه آکسفورد و حیدرآباد در هند).

برای کارهای دقیق در CNN، نویسندگان از آن استفاده کردند PreAct ResNet-18 و DenseNet-BC. برای EfficientFormer-L1، روشی که در بالا ذکر شد راه‌اندازی مدل‌ها با مدل‌های بزرگتر استفاده شد.

در سراسر CIFAR-100 و وظایف ریزدانه، مقادیر مختلف تبدیل کسینوس گسسته فرکانس‌های (DCT) در رویکرد فشرده‌سازی JPEG با استفاده از آدم بهینه ساز، به منظور انطباق با میزان یادگیری برای لایه JPEG در سراسر مدل هایی که آزمایش شده اند.

در تست های روی ImageNet-1Kدر تمام آزمایش‌ها، نویسندگان از PyTorch استفاده کردند SqueezeNet، ResNet-18 و ResNet-34 به عنوان مدل های اصلی.

برای ارزیابی بهینه‌سازی لایه JPEG، محققان استفاده کردند نزول گرادیان تصادفی (SGD) به جای آدام، برای عملکرد پایدارتر. با این حال، برای آزمایش ImageNet-1K، روش از مقاله 2019 کوانتیزاسیون اندازه مرحله ای را یاد گرفتیم به کار گرفته شد.

بالای 1 دقت اعتبارسنجی برای خط مبنا در مقابل JPEG-DL در CIFAR-100، با میانگین انحراف استاندارد و میانگین در سه اجرا. در زیر، دقت اعتبار سنجی برتر 1 در وظایف مختلف طبقه بندی تصاویر ریز دانه، در معماری های مدل های مختلف، مجدداً از سه پاس به طور میانگین محاسبه شده است.

بالای 1 دقت اعتبارسنجی برای خط مبنا در مقابل JPEG-DL در CIFAR-100، با میانگین انحراف استاندارد و میانگین در سه اجرا. در زیر، دقت اعتبار سنجی برتر 1 در وظایف مختلف طبقه بندی تصاویر ریز دانه، در معماری های مدل های مختلف، مجدداً از سه پاس به طور میانگین محاسبه شده است.

نظر در مورد دور اولیه نتایج نشان داده شده در بالا، نویسندگان بیان می کنند:

در هر هفت مدل آزمایش شده برای CIFAR-100، JPEG-DL به طور مداوم بهبودهایی را ارائه می دهد، با افزایش دقت 1.53 درصدی. در وظایف ریزدانه، JPEG-DL افزایش عملکرد قابل توجهی را با بهبود تا 20.90٪ در تمام مجموعه داده ها با استفاده از دو مدل مختلف ارائه می دهد.

نتایج آزمایش های ImageNet-1K در زیر نشان داده شده است:

نتایج صحت اعتبار سنجی Top-1 در ImageNet در چارچوب های مختلف.

نتایج صحت اعتبار سنجی Top-1 در ImageNet در چارچوب های مختلف.

در اینجا در این مقاله آمده است:

با افزایش ناچیز پیچیدگی (اضافه کردن 128 پارامتر)، JPEG-DL به افزایش 0.31٪ در دقت بالای 1 برای SqueezeNetV1.1 در مقایسه با خط پایه با استفاده از یک دور منفرد دست می یابد. [quantization] عملیات

با افزایش تعداد دورهای کوانتیزاسیون به پنج، شاهد بهبودی اضافی 0.20% هستیم که منجر به افزایش کل 0.51% نسبت به خط پایه می‌شود.

محققان همچنین این سیستم را با استفاده از داده های به خطر انداخته شده توسط این سیستم آزمایش کردند حمله خصمانه نزدیک می شود روش امضای گرادیان سریع (FGSM) و نزول گرادیان پیش بینی شده (PGD).

این حملات در دو مدل از CIFAR-100 انجام شد:

نتایج آزمایش برای JPEG-DL، در برابر دو چارچوب استاندارد حمله متخاصم.

نتایج آزمایش برای JPEG-DL، در برابر دو چارچوب استاندارد حمله متخاصم.

نویسندگان بیان می کنند:

‘[The] مدل‌های JPEG-DL به طور قابل‌توجهی استحکام خصمانه را در مقایسه با مدل‌های استاندارد DNN بهبود می‌بخشند، با بهبودهایی تا 15% برای FGSM و 6% برای PGD.

علاوه بر این، همانطور که قبلا در مقاله نشان داده شد، نویسندگان مقایسه ای از نقشه های ویژگی استخراج شده با استفاده از GradCAM++ – چارچوبی که می تواند ویژگی های استخراج شده را به صورت بصری برجسته کند.

یک تصویر GradCAM++ برای طبقه‌بندی تصویر پایه و JPEG-DL، با ویژگی‌های استخراج‌شده برجسته شده است.

یک تصویر GradCAM++ برای طبقه‌بندی تصویر پایه و JPEG-DL، با ویژگی‌های استخراج‌شده برجسته.

این مقاله خاطرنشان می کند که JPEG-DL یک نتیجه بهبود یافته ایجاد می کند، و در یک نمونه حتی قادر به طبقه بندی تصویری بود که خط پایه نتوانست آن را شناسایی کند. با توجه به تصویری که قبلاً نشان داده شده بود پرندگان، نویسندگان می‌گویند:

‘[It] واضح است که نقشه‌های ویژگی از مدل JPEG-DL کنتراست قابل توجهی بهتری را بین اطلاعات پیش‌زمینه (پرنده) و پس‌زمینه در مقایسه با نقشه‌های ویژگی تولید شده توسط مدل پایه نشان می‌دهند.

به طور خاص، شی پیش‌زمینه در نقشه‌های ویژگی JPEG-DL در یک کانتور کاملاً مشخص قرار می‌گیرد که باعث می‌شود از نظر بصری از پس‌زمینه متمایز شود.

در مقابل، نقشه‌های ویژگی مدل پایه ساختار ترکیبی‌تری را نشان می‌دهند، جایی که پیش‌زمینه انرژی بالاتری در فرکانس‌های پایین دارد و باعث می‌شود که به آرامی با پس‌زمینه ترکیب شود.

نتیجه گیری

JPEG-DL برای استفاده در موقعیت‌هایی در نظر گرفته شده است که داده‌های خام در دسترس هستند – اما بسیار جالب است که ببینیم آیا برخی از اصول برجسته‌شده در این پروژه می‌توانند در آموزش داده‌های مرسوم، که در آن محتوا ممکن است کیفیت پایین‌تری داشته باشد (به عنوان مثال غالباً با مجموعه داده‌های فرامقیاس حذف شده از اینترنت رخ می‌دهد).

همانطور که وجود دارد، این تا حد زیادی یک مشکل حاشیه نویسی باقی می ماند، اگرچه در مورد آن پرداخته شده است تشخیص تصویر مبتنی بر ترافیک، و جاهای دیگر.

اولین بار پنجشنبه 10 اکتبر 2024 منتشر شد



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *