
روشهای راز زدایی گروه: تقویت، بستهبندی و انباشتگی توضیح داده شد
تصویر ویرایشگر | ایدئوگرام
وحدت قدرت است. این شعار شناخته شده کاملاً ماهیت روشهای مجموعه را به تصویر میکشد: یکی از قدرتمندترین رویکردهای یادگیری ماشین (ML) – با حسن نیت از شبکههای عصبی عمیق – برای حل مؤثر مشکلات پیچیده دادهمحور، با ترکیب چندین مدل برای حل یک مشکل پیشبینیکننده. . لکه دار کردن این مقاله سه راه متداول برای ایجاد مدلهای گروهی را شرح میدهد: تقویت، بستهبندی و چیدن. بیایید شروع کنیم!
کوله بری
Bagging شامل آموزش چندین مدل به طور مستقل و موازی است. مدلها عموماً از یک نوع هستند، برای مثال مجموعهای از درختهای تصمیم یا رگرسیورهای چند جملهای. تفاوت بین هر مدل در این است که هر کدام بر روی یک زیر مجموعه تصادفی از مجموعه داده های آموزشی آموزش داده می شوند. هنگامی که هر مدل یک پیشبینی را برمیگرداند، همه پیشبینیها در یک پیشبینی کلی گروهبندی میشوند. چگونه؟ بستگی به نوع کار پیش بینی دارد:
- برای یک مجموعه کیسه ای از مدل های رگرسیونپیش بینی های عددی به طور میانگین می شوند.
- برای یک مجموعه کیسه ای از مدل های طبقه بندیپیش بینی های کلاس با اکثریت آرا ترکیب می شوند.
در هر دو مورد، تجمیع پیشبینیهای مدل چندگانه، واریانس را کاهش میدهد و عملکرد کلی را در مقایسه با مدلهای مستقل ML بهبود میبخشد.
انتخاب تصادفی داده ها در طول خوشه بندی می تواند بر اساس نمونه ها یا ویژگی ها باشد:
- در بسته بندی مبتنی بر نمونهمدلها بر روی زیرمجموعههای تصادفی از نمونههای داده آموزش داده میشوند که معمولاً با جایگزینی از طریق فرآیندی به نام نمونهبرداری میشوند. بتونه کاری. نمونهگیری جایگزینی به این معنی است که یک نمونه خاص از مجموعه دادهها را میتوان بهطور تصادفی برای هیچیک، یک یا چند مورد از آموزشهای مدل که بخشی از مجموعه خواهند بود انتخاب کرد.
- در بسته بندی مبتنی بر ویژگیهر مدل در مجموعه از یک زیرمجموعه تصادفی متفاوت از ویژگیها در دادههای آموزشی استفاده میکند، در نتیجه تنوع بین مدلها را معرفی میکند. این رویکرد به کاهش آنچه ما می گوییم کمک می کند نفرین ابعاد: مشکلی که هنگام آموزش مدلهای ML بر روی مجموعههای داده با تعداد بسیار زیاد ویژگیها با آن مواجه میشود که منجر به از دست دادن کارایی احتمالی میشود. بیش از حد (مدل بیش از حد از داده ها یاد می گیرد و آنها را به خاطر می سپارد و در نتیجه توانایی تعمیم به داده های آینده را از دست می دهد) و غیره.
تصادفی بودن دو فرآیند انتخابی که در بالا توضیح داده شد به روش مجموعه کمک می کند تا “مناطق” مختلف داده ها را به طور کامل تر یاد بگیرد و در عین حال از برازش بیش از حد اجتناب کند و در نهایت سیستم را قوی تر می کند.


تصویر ست کیسه کشی
تصویر توسط نویسنده
جنگل های تصادفی نمونهای پرکاربرد از روش بستهبندی هستند که تصادفی بودن سطح نمونه و ویژگی را با هم ترکیب میکند. همانطور که از نام آن پیداست، یک جنگل تصادفی چندین درخت تصمیم میسازد که هر کدام بر روی یک نمونه بوت استرپ از دادهها و یک زیرمجموعه تصادفی از ویژگیها در هر درخت آموزش داده شدهاند. این نمونه برداری دوگانه باعث ارتقای تنوع در میان درختان و کاهش همبستگی بین مدل ها می شود.
تقویت کننده
بر خلاف گروه بسته بندی که در آن چندین مدل به طور موازی آموزش داده می شوند و پیش بینی های فردی آنها با هم گروه بندی می شوند. تحریک کردن یک رویکرد متوالی اتخاذ می کند. با انرژی دادن به کل ها، چندین مدل از همان نوع یکی پس از دیگری تشکیل می شوندهر کدام قابل مشاهده ترین خطاها را تصحیح کنید توسط مدل قبلی به دست آمد. همانطور که خطاها به تدریج توسط چندین مدل یکی پس از دیگری تصحیح می شوند، کل در نهایت یک راه حل کلی ایجاد می کند که قوی تر، دقیق تر و قوی تر به الگوهای پیچیده در داده ها است.


تصویر یک مجموعه محرک
تصویر توسط نویسنده
XGBoost (تقویت گرادیان شدید) یک نمونه محبوب از یک گروه مبتنی بر تقویت است. XGBoost مدلها را بهطور متوالی میسازد و به شدت بر تصحیح خطا در هر مرحله تمرکز میکند و به دلیل کارایی، سرعت و عملکرد بالا در وظایف یادگیری ماشین رقابتی شناخته شده است. اگرچه XGBoost محدود به درختهای تصمیم نیست، اما شبیه جنگلهای تصادفی است، زیرا بهگونهای طراحی شده است که عملکرد خوبی در مجموعههای درخت تصمیم داشته باشد.
انباشته شدن
یک رویکرد کمی پیچیده تر است انباشته شدنکه اغلب ترکیب می شود انواع مدل های مختلف (مانند طبقهبندیکنندههای درخت تصمیم، طبقهبندیکنندههای رگرسیون لجستیک و شبکههای عصبی با هم)، به طور جداگانه در همان داده ها. مشکل: هر نوع مدل معمولاً الگوهای موجود در داده ها را به طور متفاوتی ثبت می کند. علاوه بر این، به جای تجمیع پیشبینیهای فردی، انباشته کردن یک گام فراتر میرود: پیشبینیهای فردی بهعنوان ورودی برای مدل ML مرحله نهایی استفاده میشوند که به نام متا مدلکه یاد میگیرد پیشبینیهای مدلهای پایه را بهگونهای که نمونههای دادهای هستند، وزن کرده و ترکیب کند. به طور خلاصه، ترکیب نقاط قوت مهارت های استنتاج هر مدل خاص منجر به تصمیم نهایی دقیق تری می شود.


تصویری از یک مجموعه قابل انباشته
تصویر توسط نویسنده
تعمیم انباشته یک رویکرد انباشته رایج است که در آن متا مدل اغلب یک مدل رگرسیون خطی یا لجستیک ساده است.
نتیجه گیری
روشهای مجموعهای مانند تقویت، بستهبندی و انباشته کردن، از نقاط قوت ترکیب چند مدل ML برای بهبود دقت و استحکام پیشبینی استفاده میکنند. ویژگیهای منحصر به فرد هر رویکرد به شما کمک میکند تا با موفقیت بیشتری با چالشهای دادههای پیچیده مقابله کنید و نقاط ضعف بالقوه مدل فردی را به نقاط قوت جمعی تبدیل کنید.