روش‌های راز زدایی گروه: تقویت، بسته‌بندی و انباشتگی توضیح داده شد


روش‌های راز زدایی گروه: تقویت، بسته‌بندی و انباشتگی توضیح داده شد

روش‌های راز زدایی گروه: تقویت، بسته‌بندی و انباشتگی توضیح داده شد
تصویر ویرایشگر | ایدئوگرام

وحدت قدرت است. این شعار شناخته شده کاملاً ماهیت روش‌های مجموعه را به تصویر می‌کشد: یکی از قدرتمندترین رویکردهای یادگیری ماشین (ML) – با حسن نیت از شبکه‌های عصبی عمیق – برای حل مؤثر مشکلات پیچیده داده‌محور، با ترکیب چندین مدل برای حل یک مشکل پیش‌بینی‌کننده. . لکه دار کردن این مقاله سه راه متداول برای ایجاد مدل‌های گروهی را شرح می‌دهد: تقویت، بسته‌بندی و چیدن. بیایید شروع کنیم!

کوله بری

Bagging شامل آموزش چندین مدل به طور مستقل و موازی است. مدل‌ها عموماً از یک نوع هستند، برای مثال مجموعه‌ای از درخت‌های تصمیم یا رگرسیورهای چند جمله‌ای. تفاوت بین هر مدل در این است که هر کدام بر روی یک زیر مجموعه تصادفی از مجموعه داده های آموزشی آموزش داده می شوند. هنگامی که هر مدل یک پیش‌بینی را برمی‌گرداند، همه پیش‌بینی‌ها در یک پیش‌بینی کلی گروه‌بندی می‌شوند. چگونه؟ بستگی به نوع کار پیش بینی دارد:

  • برای یک مجموعه کیسه ای از مدل های رگرسیونپیش بینی های عددی به طور میانگین می شوند.
  • برای یک مجموعه کیسه ای از مدل های طبقه بندیپیش بینی های کلاس با اکثریت آرا ترکیب می شوند.

در هر دو مورد، تجمیع پیش‌بینی‌های مدل چندگانه، واریانس را کاهش می‌دهد و عملکرد کلی را در مقایسه با مدل‌های مستقل ML بهبود می‌بخشد.

انتخاب تصادفی داده ها در طول خوشه بندی می تواند بر اساس نمونه ها یا ویژگی ها باشد:

  • در بسته بندی مبتنی بر نمونهمدل‌ها بر روی زیرمجموعه‌های تصادفی از نمونه‌های داده آموزش داده می‌شوند که معمولاً با جایگزینی از طریق فرآیندی به نام نمونه‌برداری می‌شوند. بتونه کاری. نمونه‌گیری جایگزینی به این معنی است که یک نمونه خاص از مجموعه داده‌ها را می‌توان به‌طور تصادفی برای هیچ‌یک، یک یا چند مورد از آموزش‌های مدل که بخشی از مجموعه خواهند بود انتخاب کرد.
  • در بسته بندی مبتنی بر ویژگیهر مدل در مجموعه از یک زیرمجموعه تصادفی متفاوت از ویژگی‌ها در داده‌های آموزشی استفاده می‌کند، در نتیجه تنوع بین مدل‌ها را معرفی می‌کند. این رویکرد به کاهش آنچه ما می گوییم کمک می کند نفرین ابعاد: مشکلی که هنگام آموزش مدل‌های ML بر روی مجموعه‌های داده با تعداد بسیار زیاد ویژگی‌ها با آن مواجه می‌شود که منجر به از دست دادن کارایی احتمالی می‌شود. بیش از حد (مدل بیش از حد از داده ها یاد می گیرد و آنها را به خاطر می سپارد و در نتیجه توانایی تعمیم به داده های آینده را از دست می دهد) و غیره.

تصادفی بودن دو فرآیند انتخابی که در بالا توضیح داده شد به روش مجموعه کمک می کند تا “مناطق” مختلف داده ها را به طور کامل تر یاد بگیرد و در عین حال از برازش بیش از حد اجتناب کند و در نهایت سیستم را قوی تر می کند.

تصویر ست کیسه کشیتصویر ست کیسه کشی

تصویر ست کیسه کشی
تصویر توسط نویسنده

جنگل های تصادفی نمونه‌ای پرکاربرد از روش بسته‌بندی هستند که تصادفی بودن سطح نمونه و ویژگی را با هم ترکیب می‌کند. همانطور که از نام آن پیداست، یک جنگل تصادفی چندین درخت تصمیم می‌سازد که هر کدام بر روی یک نمونه بوت استرپ از داده‌ها و یک زیرمجموعه تصادفی از ویژگی‌ها در هر درخت آموزش داده شده‌اند. این نمونه برداری دوگانه باعث ارتقای تنوع در میان درختان و کاهش همبستگی بین مدل ها می شود.

تقویت کننده

بر خلاف گروه بسته بندی که در آن چندین مدل به طور موازی آموزش داده می شوند و پیش بینی های فردی آنها با هم گروه بندی می شوند. تحریک کردن یک رویکرد متوالی اتخاذ می کند. با انرژی دادن به کل ها، چندین مدل از همان نوع یکی پس از دیگری تشکیل می شوندهر کدام قابل مشاهده ترین خطاها را تصحیح کنید توسط مدل قبلی به دست آمد. همانطور که خطاها به تدریج توسط چندین مدل یکی پس از دیگری تصحیح می شوند، کل در نهایت یک راه حل کلی ایجاد می کند که قوی تر، دقیق تر و قوی تر به الگوهای پیچیده در داده ها است.

تصویر یک مجموعه محرکتصویر یک مجموعه محرک

تصویر یک مجموعه محرک
تصویر توسط نویسنده

XGBoost (تقویت گرادیان شدید) یک نمونه محبوب از یک گروه مبتنی بر تقویت است. XGBoost مدل‌ها را به‌طور متوالی می‌سازد و به شدت بر تصحیح خطا در هر مرحله تمرکز می‌کند و به دلیل کارایی، سرعت و عملکرد بالا در وظایف یادگیری ماشین رقابتی شناخته شده است. اگرچه XGBoost محدود به درخت‌های تصمیم نیست، اما شبیه جنگل‌های تصادفی است، زیرا به‌گونه‌ای طراحی شده است که عملکرد خوبی در مجموعه‌های درخت تصمیم داشته باشد.

انباشته شدن

یک رویکرد کمی پیچیده تر است انباشته شدنکه اغلب ترکیب می شود انواع مدل های مختلف (مانند طبقه‌بندی‌کننده‌های درخت تصمیم، طبقه‌بندی‌کننده‌های رگرسیون لجستیک و شبکه‌های عصبی با هم)، به طور جداگانه در همان داده ها. مشکل: هر نوع مدل معمولاً الگوهای موجود در داده ها را به طور متفاوتی ثبت می کند. علاوه بر این، به جای تجمیع پیش‌بینی‌های فردی، انباشته کردن یک گام فراتر می‌رود: پیش‌بینی‌های فردی به‌عنوان ورودی برای مدل ML مرحله نهایی استفاده می‌شوند که به نام متا مدلکه یاد می‌گیرد پیش‌بینی‌های مدل‌های پایه را به‌گونه‌ای که نمونه‌های داده‌ای هستند، وزن کرده و ترکیب کند. به طور خلاصه، ترکیب نقاط قوت مهارت های استنتاج هر مدل خاص منجر به تصمیم نهایی دقیق تری می شود.

تصویری از یک مجموعه قابل انباشتهتصویری از یک مجموعه قابل انباشته

تصویری از یک مجموعه قابل انباشته
تصویر توسط نویسنده

تعمیم انباشته یک رویکرد انباشته رایج است که در آن متا مدل اغلب یک مدل رگرسیون خطی یا لجستیک ساده است.

نتیجه گیری

روش‌های مجموعه‌ای مانند تقویت، بسته‌بندی و انباشته کردن، از نقاط قوت ترکیب چند مدل ML برای بهبود دقت و استحکام پیش‌بینی استفاده می‌کنند. ویژگی‌های منحصر به فرد هر رویکرد به شما کمک می‌کند تا با موفقیت بیشتری با چالش‌های داده‌های پیچیده مقابله کنید و نقاط ضعف بالقوه مدل فردی را به نقاط قوت جمعی تبدیل کنید.



منبع:aitoolsclub.com/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *