یک همکاری جدید بین محققان لهستان و بریتانیا، چشم انداز استفاده را پیشنهاد می کند پاشیدن گاوسی برای ویرایش تصاویر، با تفسیر موقت بخشی از تصویر به فضای سه بعدی، به کاربر اجازه می دهد تا نمایش سه بعدی تصویر را تغییر داده و دستکاری کند و سپس تبدیل را اعمال کند.

برای تغییر جهت سر گربه، بخش مربوطه از طریق Gaussian Splatting به فضای سه بعدی منتقل می شود و سپس توسط کاربر دستکاری می شود. سپس اصلاح اعمال می شود. این فرآیند مشابه تکنیکهای مختلف مودال در نرمافزار Adobe است که تا زمانی که یک فرآیند پیچیده فعلی تکمیل شود، رابط را قفل میکند. منبع: https://github.com/waczjoan/MiraGe/
از آنجایی که عنصر Gaussian Splat به طور موقت با شبکه ای از مثلث ها نشان داده می شود و به طور لحظه ای وارد یک “وضعیت CGI” می شود، یک موتور فیزیک ادغام شده در فرآیند می تواند حرکت طبیعی را تفسیر کند، یا برای تغییر حالت ایستا یک جسم یا برای تولید یک انیمیشن. .

یک موتور فیزیک که در سیستم جدید MiraGe گنجانده شده است، میتواند تفاسیر طبیعی حرکت فیزیکی را برای انیمیشنها یا تغییرات استاتیک در یک تصویر انجام دهد.
هیچ هوش مصنوعی مولد در این فرآیند دخیل نیست، به این معنی که خیر مدل های انتشار پنهان (LDM) بر خلاف Adobe دخیل هستند سیستم کرم شب تاب، که در Adobe Stock (سابق Fotolia) آموزش دیده است.
سیستم – نامیده می شود MiraGe – انتخاب ها را به فضای سه بعدی تفسیر می کند و با ایجاد یک هندسه استنباط می کند تصویر آینه ای از انتخاب، و تقریبی مختصات سه بعدی که می توانند در یک Splat تجسم شوند، که سپس تصویر را به یک مش تفسیر می کند.
برای پخش کلیک کنید. نمونه های بیشتری از عناصری که یا به صورت دستی توسط کاربر سیستم MiraGe تغییر یافته اند یا در معرض تغییر شکل مبتنی بر فیزیک قرار گرفته اند.
نویسندگان سیستم MiraGe را با رویکردهای قبلی مقایسه کردند و دریافتند که این سیستم به عملکرد پیشرفتهای در کار هدف دست مییابد.
کاربران سیستم مدلسازی zBrush با این فرآیند آشنا هستند، زیرا zBrush اساساً به کاربر اجازه میدهد یک مدل سه بعدی را “صاف” کنید و جزئیات 2 بعدی را اضافه کنید، در حالی که مش زیرین را حفظ کنید، و جزئیات جدید را در آن تفسیر کنید – یک “انجماد” که برعکس روش MiraGe است، که بیشتر شبیه Firefly یا سایر دستکاری های مدال به سبک فتوشاپ، مانند تاب برداشتن یا خام بودن عمل می کند. تفسیرهای سه بعدی

Splatهای Gaussian Parametrized به MiraGe اجازه میدهند تا بازسازیهایی با کیفیت بالا از نواحی انتخابی یک تصویر دوبعدی ایجاد کند و فیزیک بدن نرم را در انتخاب موقت سه بعدی اعمال کند.
در این مقاله آمده است:
‘[We] مدلی را معرفی کنید که تصاویر دو بعدی را با شبیه سازی تفسیر انسانی رمزگذاری می کند. به طور خاص، مدل ما یک تصویر دوبعدی را همانطور که انسان یک عکس یا یک صفحه کاغذ را مشاهده میکند، درک میکند و آن را به عنوان یک جسم صاف در یک فضای سهبعدی در نظر میگیرد.
این رویکرد ویرایش بصری و انعطافپذیر تصویر را امکانپذیر میکند، در حالی که تغییرات پیچیده را امکانپذیر میکند.
این کاغذ جدید عنوان شده است MiraGe: تصاویر دو بعدی قابل ویرایش با استفاده از پاشیدن گاوسیو از چهار نویسنده در دانشگاه Jagiellonian در کراکوف و دانشگاه کمبریج آمده است. کد کامل سیستم بوده است در GitHub منتشر شد.
بیایید نگاهی به چگونگی مقابله محققان با این چالش بیندازیم.
روش
رویکرد MiraGe استفاده می کند پاشیدن مش گاوسی پارامترسازی (GaMeS)، یک تکنیک توسعه یافته توسط گروهی که شامل دو نفر از نویسندگان مقاله جدید است. GaMeS به Gaussian Splats اجازه می دهد تا به عنوان مش های CGI سنتی تفسیر شوند و تحت طیف استاندارد تکنیک های تاب برداشتن و اصلاح قرار گیرند که جامعه CGI در چندین دهه گذشته توسعه داده است.
MiraGe گوسیهای مسطح را در فضای دوبعدی تفسیر میکند و از GaMeS برای کشیدن موقت محتوا به فضای سهبعدی مجهز به GSplat استفاده میکند.

هر گاوسی مسطح به صورت سه نقطه در ابری از مثلثها به نام «سوپ مثلث» نشان داده میشود که تصویر استنباطشده را برای دستکاری باز میکند. منبع: https://arxiv.org/pdf/2410.01521
میتوانیم در گوشه سمت چپ پایین تصویر بالا ببینیم که MiraGe یک تصویر آینهای از بخش تصویری که باید تفسیر شود ایجاد میکند.
نویسندگان بیان می کنند:
‘[We] از یک رویکرد جدید با استفاده از دو دوربین متضاد که در امتداد محور Y قرار گرفتهاند، به طور متقارن در اطراف مبدا قرار گرفته و به سمت یکدیگر هدایت میشوند، استفاده کنید. دوربین اول وظیفه بازسازی تصویر اصلی را دارد، در حالی که دوربین دوم انعکاس آینه را مدل می کند.
بنابراین، عکس به عنوان یک ورق کاغذ ردیابی نیمه شفاف، که در بافت فضایی سه بعدی جاسازی شده است، مفهومسازی میشود. انعکاس را می توان به طور موثر با چرخاندن افقی نشان داد [image]. این تنظیم دوربین آینه، وفاداری انعکاس های ایجاد شده را افزایش می دهد و راه حلی قوی برای ثبت دقیق عناصر بصری ارائه می دهد.
این مقاله خاطرنشان می کند که هنگامی که این استخراج به دست آمد، تنظیمات پرسپکتیو که معمولاً چالش برانگیز هستند از طریق ویرایش مستقیم در سه بعدی قابل دسترسی می شوند. در مثال زیر، منتخبی از تصویر یک زن را می بینیم که فقط بازوی او را در بر می گیرد. در این مثال، کاربر عقربه را به روشی قابل قبول به سمت پایین خم کرده است، که تنها با فشار دادن پیکسل ها به اطراف، یک کار چالش برانگیز خواهد بود.

نمونه ای از تکنیک ویرایش MiraGe.
تلاش برای این کار با استفاده از ابزارهای مولد فایرفلای در فتوشاپ معمولاً به این معنی است که دست با یک دست ترکیبی و تخیلی منتشر شده جایگزین میشود و اصالت ویرایش را از بین میبرد. حتی سیستم های توانمندتر، مانند ControlNet سیستم کمکی برای انتشار پایدار و سایر مدلهای انتشار پنهان، مانند Flux، برای دستیابی به این نوع ویرایش در خط لوله تصویر به تصویر تلاش می کند.
این پیگیری خاص با استفاده از روشهای استفاده از بازنماییهای عصبی ضمنی (INRs)، مانند آژیر و سیم. تفاوت بین روش نمایش ضمنی و صریح در این است که مختصات مدل به طور مستقیم در INR ها قابل آدرس دهی نیستند، که از یک عملکرد پیوسته.
در مقابل، Gaussian Splatting X/Y/Z صریح و قابل آدرس دهی را ارائه می دهد مختصات دکارتی، حتی اگر به جای استفاده از بیضی های گاوسی وکسل ها یا روش های دیگر برای به تصویر کشیدن محتوا در فضای سه بعدی.
نویسندگان خاطرنشان میکنند که ایده استفاده از GSplat در فضای دوبعدی بهطور برجسته در همکاری آکادمیک چینی در سال 2024 ارائه شده است. Gaussian Image، که یک نسخه دوبعدی از Gaussian Splatting را ارائه می دهد که نرخ فریم استنتاج 1000 فریم در ثانیه را امکان پذیر می کند. با این حال، این مدل هیچ پیاده سازی مرتبط با ویرایش تصویر ندارد.
پس از اینکه پارامترسازی GaMeS ناحیه انتخاب شده را به یک نمایش گاوسی/مش استخراج کرد، تصویر با استفاده از روش امتیازات مواد (MPM) بازسازی میشود که ابتدا در یک تصویر مشخص شد. کاغذ CSAIL 2018.
در MiraGe، در طول فرآیند تغییر، شکاف گاوسی به عنوان یک پروکسی راهنما برای یک نسخه مش معادل وجود دارد. مدل های 3DMM CGI هستند اغلب استفاده می شود به عنوان روش های ارکستراسیون برای تکنیک های رندر عصبی ضمنی مانند میدان های تابشی عصبی (NeRF).
در این فرآیند، اشیاء دو بعدی در فضای سه بعدی مدلسازی میشوند و قسمتهایی از تصویر که تحت تأثیر قرار نمیگیرند برای کاربر نهایی قابل مشاهده نیستند، به طوری که تا زمانی که فرآیند به نتیجه نرسد، تأثیر متنی دستکاریها آشکار نمیشود.
MiraGe را می توان در برنامه محبوب سه بعدی منبع باز ادغام کرد مخلوط کن، که اکنون است اغلب استفاده می شود در گردشهای کاری شامل هوش مصنوعی، عمدتاً برای اهداف تصویر به تصویر.

یک گردش کار برای MiraGe در بلندر، شامل حرکت بازوی یک شکل که در یک تصویر دو بعدی به تصویر کشیده شده است.
نویسندگان دو نسخه از یک رویکرد تغییر شکل مبتنی بر پاشیدن گاوسی را ارائه می دهند – بی شکل و گرافیت.
رویکرد آمورف مستقیماً از روش GaMeS استفاده میکند و به انتخاب دوبعدی استخراجشده اجازه میدهد آزادانه در فضای سهبعدی حرکت کند، در حالی که رویکرد گرافیت، گاوسها را به فضای دوبعدی در طول اولیهسازی و آموزش محدود میکند.
محققان دریافتند که اگرچه رویکرد آمورف ممکن است اشکال پیچیده را بهتر از گرافیت مدیریت کند، اشکها یا مصنوعات شکاف آشکارتر بودند، جایی که لبه تغییر شکل با بخش بدون تأثیر تصویر همسو میشود*.
بنابراین، آنها سیستم “تصویر آینه ای” فوق الذکر را توسعه دادند:
‘[We] از یک رویکرد جدید با استفاده از دو دوربین متضاد که در امتداد محور Y قرار گرفتهاند، به طور متقارن در اطراف مبدا قرار گرفته و به سمت یکدیگر هدایت میشوند، استفاده کنید.
دوربین اول وظیفه بازسازی تصویر اصلی را دارد، در حالی که دوربین دوم انعکاس آینه را مدل می کند. بنابراین عکس به عنوان یک ورق کاغذ ردیابی نیمه شفاف، که در بافت فضایی سه بعدی تعبیه شده است، مفهوم سازی می شود. انعکاس را می توان به طور موثر با چرخاندن افقی نشان داد [image].
این تنظیم دوربین آینه، وفاداری انعکاس های تولید شده را افزایش می دهد و راه حلی قوی برای ثبت دقیق عناصر بصری ارائه می دهد.
این مقاله خاطرنشان می کند که MiraGe می تواند از موتورهای فیزیک خارجی مانند آن استفاده کند موجود در بلندر، یا در Taichi_Elements.
داده ها و آزمون ها
برای ارزیابی کیفیت تصویر در تست های انجام شده برای MiraGe، نسبت سیگنال به نویز (SNR) و MS-SIM معیارها استفاده شد.
مجموعه داده های مورد استفاده عبارت بودند از مجموعه تصاویر رنگ واقعی بدون افت کداک، و DIV2K اعتبار سنجی مجموعه وضوح این مجموعه داده ها برای مقایسه با نزدیک ترین کار قبلی، تصویر گاوسی مناسب است. دیگر فریم ورک های رقیب آزمایش شده SIREN، WIRE، NVIDIA بودند Instant Neural Graphics Primitives (I-NGP)، و NeuRBF.
آزمایشها روی لپتاپ NVIDIA GEFORCE RTX 4070 و NVIDIA RTX 2080 انجام شد.

طبق نتایج ارائه شده در مقاله جدید، MiraGe نتایج پیشرفتهای را در برابر چارچوبهای انتخابی قبلی ارائه میدهد.
از این نتایج، نویسندگان بیان می کنند:
ما می بینیم که پیشنهاد ما از راه حل های قبلی در هر دو مجموعه داده عملکرد بهتری دارد. کیفیت اندازه گیری شده توسط هر دو معیار بهبود قابل توجهی را در مقایسه با تمام رویکردهای قبلی نشان می دهد.
نتیجه گیری
اقتباس MiraGe از دوبعدی گاوسی اسپلیت به وضوح یک حمله نوپای و آزمایشی به چیزی است که ممکن است جایگزین بسیار جالبی برای هوسها و هوسهای استفاده از مدلهای انتشار برای اعمال تغییرات در یک تصویر باشد (یعنی از طریق Firefly و سایر روشهای انتشار مبتنی بر API و از طریق معماری های منبع باز مانند Stable Diffusion و Flux).
اگرچه مدلهای انتشار زیادی وجود دارند که میتوانند تغییرات جزئی در تصاویر ایجاد کنند، LDMها با رویکرد معنایی و اغلب «بیش از حد تخیلی» خود به درخواست کاربر مبتنی بر متن برای اصلاح محدود میشوند.
بنابراین، توانایی کشیدن موقت بخشی از یک تصویر به فضای سه بعدی، دستکاری آن و جایگزینی آن در تصویر، در حالی که تنها از تصویر منبع به عنوان مرجع استفاده می شود، کاری به نظر می رسد که Gaussian Splatting ممکن است در آینده برای آن مناسب باشد.
* در این مقاله سردرگمی وجود دارد، به این دلیل که «آمورف-سراب» را بهعنوان مؤثرترین و تواناترین روش، علیرغم تمایل آن به تولید گاوسیهای ناخواسته (مصنوعات) ذکر میکند، در حالی که استدلال میکند که «گرافیت-سراب» انعطافپذیرتر است. به نظر می رسد که Amorphous-Mirage بهترین جزئیات و Graphite-Mirage بهترین انعطاف را دارند. از آنجایی که هر دو روش با نقاط قوت و ضعف متنوع در مقاله ارائه شدهاند، ترجیحات نویسندگان، در صورت وجود، در حال حاضر واضح به نظر نمیرسد.
اولین بار پنجشنبه، 3 اکتبر 2024 منتشر شد