ویرایش تصویر با اسپلیت گاوسی

جدول محتوا

یک همکاری جدید بین محققان لهستان و بریتانیا، چشم انداز استفاده را پیشنهاد می کند پاشیدن گاوسی برای ویرایش تصاویر، با تفسیر موقت بخشی از تصویر به فضای سه بعدی، به کاربر اجازه می دهد تا نمایش سه بعدی تصویر را تغییر داده و دستکاری کند و سپس تبدیل را اعمال کند.

برای تغییر جهت سر گربه، بخش مربوطه از طریق Gaussian Splatting به فضای سه بعدی منتقل می شود و سپس توسط کاربر دستکاری می شود. سپس اصلاح اعمال می شود. این فرآیند مشابه تکنیک‌های مختلف مودال در نرم‌افزار Adobe است که تا زمانی که یک فرآیند پیچیده فعلی تکمیل شود، رابط را قفل می‌کند. منبع: https://github.com/waczjoan/MiraGe/

از آنجایی که عنصر Gaussian Splat به طور موقت با شبکه ای از مثلث ها نشان داده می شود و به طور لحظه ای وارد یک “وضعیت CGI” می شود، یک موتور فیزیک ادغام شده در فرآیند می تواند حرکت طبیعی را تفسیر کند، یا برای تغییر حالت ایستا یک جسم یا برای تولید یک انیمیشن. .

یک موتور فیزیک که در سیستم جدید MiraGe گنجانده شده است، می‌تواند تفاسیر طبیعی حرکت فیزیکی را برای انیمیشن‌ها یا تغییرات استاتیک در یک تصویر انجام دهد.

هیچ هوش مصنوعی مولد در این فرآیند دخیل نیست، به این معنی که خیر مدل های انتشار پنهان (LDM) بر خلاف Adobe دخیل هستند سیستم کرم شب تاب، که در Adobe Stock (سابق Fotolia) آموزش دیده است.

سیستم – نامیده می شود MiraGe – انتخاب ها را به فضای سه بعدی تفسیر می کند و با ایجاد یک هندسه استنباط می کند تصویر آینه ای از انتخاب، و تقریبی مختصات سه بعدی که می توانند در یک Splat تجسم شوند، که سپس تصویر را به یک مش تفسیر می کند.

برای پخش کلیک کنید. نمونه های بیشتری از عناصری که یا به صورت دستی توسط کاربر سیستم MiraGe تغییر یافته اند یا در معرض تغییر شکل مبتنی بر فیزیک قرار گرفته اند.

نویسندگان سیستم MiraGe را با رویکردهای قبلی مقایسه کردند و دریافتند که این سیستم به عملکرد پیشرفته‌ای در کار هدف دست می‌یابد.

کاربران سیستم مدل‌سازی zBrush با این فرآیند آشنا هستند، زیرا zBrush اساساً به کاربر اجازه می‌دهد یک مدل سه بعدی را “صاف” کنید و جزئیات 2 بعدی را اضافه کنید، در حالی که مش زیرین را حفظ کنید، و جزئیات جدید را در آن تفسیر کنید – یک “انجماد” که برعکس روش MiraGe است، که بیشتر شبیه Firefly یا سایر دستکاری های مدال به سبک فتوشاپ، مانند تاب برداشتن یا خام بودن عمل می کند. تفسیرهای سه بعدی

Splat‌های Gaussian Parametrized به MiraGe اجازه می‌دهند تا بازسازی‌هایی با کیفیت بالا از نواحی انتخابی یک تصویر دوبعدی ایجاد کند و فیزیک بدن نرم را در انتخاب موقت سه بعدی اعمال کند.

در این مقاله آمده است:

‘[We] مدلی را معرفی کنید که تصاویر دو بعدی را با شبیه سازی تفسیر انسانی رمزگذاری می کند. به طور خاص، مدل ما یک تصویر دوبعدی را همانطور که انسان یک عکس یا یک صفحه کاغذ را مشاهده می‌کند، درک می‌کند و آن را به عنوان یک جسم صاف در یک فضای سه‌بعدی در نظر می‌گیرد.

این رویکرد ویرایش بصری و انعطاف‌پذیر تصویر را امکان‌پذیر می‌کند، در حالی که تغییرات پیچیده را امکان‌پذیر می‌کند.

این کاغذ جدید عنوان شده است MiraGe: تصاویر دو بعدی قابل ویرایش با استفاده از پاشیدن گاوسیو از چهار نویسنده در دانشگاه Jagiellonian در کراکوف و دانشگاه کمبریج آمده است. کد کامل سیستم بوده است در GitHub منتشر شد.

بیایید نگاهی به چگونگی مقابله محققان با این چالش بیندازیم.

روش

رویکرد MiraGe استفاده می کند پاشیدن مش گاوسی پارامترسازی (GaMeS)، یک تکنیک توسعه یافته توسط گروهی که شامل دو نفر از نویسندگان مقاله جدید است. GaMeS به Gaussian Splats اجازه می دهد تا به عنوان مش های CGI سنتی تفسیر شوند و تحت طیف استاندارد تکنیک های تاب برداشتن و اصلاح قرار گیرند که جامعه CGI در چندین دهه گذشته توسعه داده است.

MiraGe گوسی‌های مسطح را در فضای دوبعدی تفسیر می‌کند و از GaMeS برای کشیدن موقت محتوا به فضای سه‌بعدی مجهز به GSplat استفاده می‌کند.

هر گاوسی مسطح به صورت سه نقطه در ابری از مثلث‌ها به نام «سوپ مثلث» نشان داده می‌شود که تصویر استنباط‌شده را برای دستکاری باز می‌کند. منبع: https://arxiv.org/pdf/2410.01521

می‌توانیم در گوشه سمت چپ پایین تصویر بالا ببینیم که MiraGe یک تصویر آینه‌ای از بخش تصویری که باید تفسیر شود ایجاد می‌کند.

نویسندگان بیان می کنند:

‘[We] از یک رویکرد جدید با استفاده از دو دوربین متضاد که در امتداد محور Y قرار گرفته‌اند، به طور متقارن در اطراف مبدا قرار گرفته و به سمت یکدیگر هدایت می‌شوند، استفاده کنید. دوربین اول وظیفه بازسازی تصویر اصلی را دارد، در حالی که دوربین دوم انعکاس آینه را مدل می کند.

بنابراین، عکس به عنوان یک ورق کاغذ ردیابی نیمه شفاف، که در بافت فضایی سه بعدی جاسازی شده است، مفهوم‌سازی می‌شود. انعکاس را می توان به طور موثر با چرخاندن افقی نشان داد [image]. این تنظیم دوربین آینه، وفاداری انعکاس های ایجاد شده را افزایش می دهد و راه حلی قوی برای ثبت دقیق عناصر بصری ارائه می دهد.

این مقاله خاطرنشان می کند که هنگامی که این استخراج به دست آمد، تنظیمات پرسپکتیو که معمولاً چالش برانگیز هستند از طریق ویرایش مستقیم در سه بعدی قابل دسترسی می شوند. در مثال زیر، منتخبی از تصویر یک زن را می بینیم که فقط بازوی او را در بر می گیرد. در این مثال، کاربر عقربه را به روشی قابل قبول به سمت پایین خم کرده است، که تنها با فشار دادن پیکسل ها به اطراف، یک کار چالش برانگیز خواهد بود.

نمونه ای از تکنیک ویرایش MiraGe.

تلاش برای این کار با استفاده از ابزارهای مولد فایرفلای در فتوشاپ معمولاً به این معنی است که دست با یک دست ترکیبی و تخیلی منتشر شده جایگزین می‌شود و اصالت ویرایش را از بین می‌برد. حتی سیستم های توانمندتر، مانند ControlNet سیستم کمکی برای انتشار پایدار و سایر مدل‌های انتشار پنهان، مانند Flux، برای دستیابی به این نوع ویرایش در خط لوله تصویر به تصویر تلاش می کند.

این پیگیری خاص با استفاده از روش‌های استفاده از بازنمایی‌های عصبی ضمنی (INRs)، مانند آژیر و سیم. تفاوت بین روش نمایش ضمنی و صریح در این است که مختصات مدل به طور مستقیم در INR ها قابل آدرس دهی نیستند، که از یک عملکرد پیوسته.

در مقابل، Gaussian Splatting X/Y/Z صریح و قابل آدرس دهی را ارائه می دهد مختصات دکارتی، حتی اگر به جای استفاده از بیضی های گاوسی وکسل ها یا روش های دیگر برای به تصویر کشیدن محتوا در فضای سه بعدی.

نویسندگان خاطرنشان می‌کنند که ایده استفاده از GSplat در فضای دوبعدی به‌طور برجسته در همکاری آکادمیک چینی در سال 2024 ارائه شده است. Gaussian Image، که یک نسخه دوبعدی از Gaussian Splatting را ارائه می دهد که نرخ فریم استنتاج 1000 فریم در ثانیه را امکان پذیر می کند. با این حال، این مدل هیچ پیاده سازی مرتبط با ویرایش تصویر ندارد.

پس از اینکه پارامترسازی GaMeS ناحیه انتخاب شده را به یک نمایش گاوسی/مش استخراج کرد، تصویر با استفاده از روش امتیازات مواد (MPM) بازسازی می‌شود که ابتدا در یک تصویر مشخص شد. کاغذ CSAIL 2018.

در MiraGe، در طول فرآیند تغییر، شکاف گاوسی به عنوان یک پروکسی راهنما برای یک نسخه مش معادل وجود دارد. مدل های 3DMM CGI هستند اغلب استفاده می شود به عنوان روش های ارکستراسیون برای تکنیک های رندر عصبی ضمنی مانند میدان های تابشی عصبی (NeRF).

در این فرآیند، اشیاء دو بعدی در فضای سه بعدی مدل‌سازی می‌شوند و قسمت‌هایی از تصویر که تحت تأثیر قرار نمی‌گیرند برای کاربر نهایی قابل مشاهده نیستند، به طوری که تا زمانی که فرآیند به نتیجه نرسد، تأثیر متنی دستکاری‌ها آشکار نمی‌شود.

MiraGe را می توان در برنامه محبوب سه بعدی منبع باز ادغام کرد مخلوط کن، که اکنون است اغلب استفاده می شود در گردش‌های کاری شامل هوش مصنوعی، عمدتاً برای اهداف تصویر به تصویر.

یک گردش کار برای MiraGe در بلندر، شامل حرکت بازوی یک شکل که در یک تصویر دو بعدی به تصویر کشیده شده است.

نویسندگان دو نسخه از یک رویکرد تغییر شکل مبتنی بر پاشیدن گاوسی را ارائه می دهند – بی شکل و گرافیت.

رویکرد آمورف مستقیماً از روش GaMeS استفاده می‌کند و به انتخاب دوبعدی استخراج‌شده اجازه می‌دهد آزادانه در فضای سه‌بعدی حرکت کند، در حالی که رویکرد گرافیت، گاوس‌ها را به فضای دوبعدی در طول اولیه‌سازی و آموزش محدود می‌کند.

محققان دریافتند که اگرچه رویکرد آمورف ممکن است اشکال پیچیده را بهتر از گرافیت مدیریت کند، اشک‌ها یا مصنوعات شکاف آشکارتر بودند، جایی که لبه تغییر شکل با بخش بدون تأثیر تصویر همسو می‌شود*.

بنابراین، آنها سیستم “تصویر آینه ای” فوق الذکر را توسعه دادند:

‘[We] از یک رویکرد جدید با استفاده از دو دوربین متضاد که در امتداد محور Y قرار گرفته‌اند، به طور متقارن در اطراف مبدا قرار گرفته و به سمت یکدیگر هدایت می‌شوند، استفاده کنید.

دوربین اول وظیفه بازسازی تصویر اصلی را دارد، در حالی که دوربین دوم انعکاس آینه را مدل می کند. بنابراین عکس به عنوان یک ورق کاغذ ردیابی نیمه شفاف، که در بافت فضایی سه بعدی تعبیه شده است، مفهوم سازی می شود. انعکاس را می توان به طور موثر با چرخاندن افقی نشان داد [image].

این تنظیم دوربین آینه، وفاداری انعکاس های تولید شده را افزایش می دهد و راه حلی قوی برای ثبت دقیق عناصر بصری ارائه می دهد.

این مقاله خاطرنشان می کند که MiraGe می تواند از موتورهای فیزیک خارجی مانند آن استفاده کند موجود در بلندر، یا در Taichi_Elements.

داده ها و آزمون ها

برای ارزیابی کیفیت تصویر در تست های انجام شده برای MiraGe، نسبت سیگنال به نویز (SNR) و MS-SIM معیارها استفاده شد.

مجموعه داده های مورد استفاده عبارت بودند از مجموعه تصاویر رنگ واقعی بدون افت کداک، و DIV2K اعتبار سنجی مجموعه وضوح این مجموعه داده ها برای مقایسه با نزدیک ترین کار قبلی، تصویر گاوسی مناسب است. دیگر فریم ورک های رقیب آزمایش شده SIREN، WIRE، NVIDIA بودند Instant Neural Graphics Primitives (I-NGP)، و NeuRBF.

آزمایش‌ها روی لپ‌تاپ NVIDIA GEFORCE RTX 4070 و NVIDIA RTX 2080 انجام شد.

طبق نتایج ارائه شده در مقاله جدید، MiraGe نتایج پیشرفته‌ای را در برابر چارچوب‌های انتخابی قبلی ارائه می‌دهد.

از این نتایج، نویسندگان بیان می کنند:

ما می بینیم که پیشنهاد ما از راه حل های قبلی در هر دو مجموعه داده عملکرد بهتری دارد. کیفیت اندازه گیری شده توسط هر دو معیار بهبود قابل توجهی را در مقایسه با تمام رویکردهای قبلی نشان می دهد.

نتیجه گیری

اقتباس MiraGe از دوبعدی گاوسی اسپلیت به وضوح یک حمله نوپای و آزمایشی به چیزی است که ممکن است جایگزین بسیار جالبی برای هوس‌ها و هوس‌های استفاده از مدل‌های انتشار برای اعمال تغییرات در یک تصویر باشد (یعنی از طریق Firefly و سایر روش‌های انتشار مبتنی بر API و از طریق معماری های منبع باز مانند Stable Diffusion و Flux).

اگرچه مدل‌های انتشار زیادی وجود دارند که می‌توانند تغییرات جزئی در تصاویر ایجاد کنند، LDM‌ها با رویکرد معنایی و اغلب «بیش از حد تخیلی» خود به درخواست کاربر مبتنی بر متن برای اصلاح محدود می‌شوند.

بنابراین، توانایی کشیدن موقت بخشی از یک تصویر به فضای سه بعدی، دستکاری آن و جایگزینی آن در تصویر، در حالی که تنها از تصویر منبع به عنوان مرجع استفاده می شود، کاری به نظر می رسد که Gaussian Splatting ممکن است در آینده برای آن مناسب باشد.

* در این مقاله سردرگمی وجود دارد، به این دلیل که «آمورف-سراب» را به‌عنوان مؤثرترین و تواناترین روش، علیرغم تمایل آن به تولید گاوسی‌های ناخواسته (مصنوعات) ذکر می‌کند، در حالی که استدلال می‌کند که «گرافیت-سراب» انعطاف‌پذیرتر است. به نظر می رسد که Amorphous-Mirage بهترین جزئیات و Graphite-Mirage بهترین انعطاف را دارند. از آنجایی که هر دو روش با نقاط قوت و ضعف متنوع در مقاله ارائه شده‌اند، ترجیحات نویسندگان، در صورت وجود، در حال حاضر واضح به نظر نمی‌رسد.

اولین بار پنجشنبه، 3 اکتبر 2024 منتشر شد