10 تک لاینر پایتون برای محاسبه اهمیت ویژگی مدل


10 پایتون تک لاینر که اهمیت ویژگی مدل را محاسبه می کند

10 تک لاینر پایتون برای محاسبه اهمیت ویژگی مدل
تصویر توسط ناشر

آشنایی با مدل های یادگیری ماشینی یک جنبه ضروری برای ایجاد سیستم های هوش مصنوعی قابل اعتماد است. قابل درک بودن چنین مدلهایی به دو ویژگی اساسی بستگی دارد: توضیح پذیری و تفسیر پذیری. اولی به این موضوع اشاره دارد که چقدر می‌توانیم «جرات» یک مدل را توصیف کنیم (یعنی چگونه کار می‌کند و چگونه به نظر می‌رسد)، در حالی که دومی به این موضوع مربوط می‌شود که چگونه انسان‌ها به راحتی می‌توانند روابط ثبت شده بین ویژگی‌های ورودی و خروجی‌های پیش‌بینی‌شده را درک کنند. همانطور که می بینیم، تفاوت بین آنها ظریف است، اما یک پل قدرتمند وجود دارد که این دو را به هم متصل می کند: اهمیت ویژگی ها.

این مقاله 10 تک لاینر ساده اما مؤثر پایتون را برای محاسبه اهمیت ویژگی‌های مدل از زوایای مختلف نشان می‌دهد – به شما کمک می‌کند نه تنها نحوه رفتار مدل یادگیری ماشین خود، بلکه همچنین چرایی پیش‌بینی (های) آن را درک کنید.

1. اهمیت ویژگی های ساخته شده در مدل های مبتنی بر درخت تصمیم

مدل های مبتنی بر درخت مانند جنگل های تصادفی و XGBoost مجموعه‌ها به شما امکان می‌دهند با استفاده از ویژگی‌هایی مانند:

توجه داشته باشید که model باید شامل یک مدل آموزش قبلی باشد. نتیجه یک جدول حاوی اهمیت ویژگی است، اما اگر می‌خواهید نسخه واضح‌تری داشته باشید، این کد با ترکیب نام ویژگی‌ها برای مجموعه داده‌ای مانند عنبیه، همه در یک خط، بر روی خط قبلی بهبود می‌یابد.

2. ضرایب در مدل های خطی

مدل‌های خطی ساده‌تر مانند رگرسیون خطی و رگرسیون لجستیک نیز وزن ویژگی‌ها را از طریق ضرایب آموخته شده نشان می‌دهند. این راهی است که اولین آنها را مستقیماً و تمیز به دست آورید (شاخص موقعیت را برای بدست آوردن همه وزن ها بردارید):

3. مرتب سازی ویژگی ها بر اساس اهمیت

مشابه نسخه بهبودیافته شماره 1 در بالا، از این یک خط مفید می‌توان برای رتبه‌بندی ویژگی‌ها بر اساس مقادیر اهمیت آنها به ترتیب نزولی استفاده کرد: یک نمای کلی از این که کدام ویژگی بیشترین یا بیشترین تأثیر را در پیش‌بینی‌های مدل دارد.

4. اهمیت جایگشت مستقل از مدل

اهمیت جایگشت یک رویکرد اضافی برای اندازه‌گیری اهمیت یک ویژگی است، از جمله به هم زدن مقادیر آن و تجزیه و تحلیل اینکه چگونه یک معیار مورد استفاده برای اندازه‌گیری عملکرد مدل (به عنوان مثال، دقت یا خطا) کاهش می‌یابد. در نتیجه، این یک لاینر مستقل از مدل scikit-یادگیری برای اندازه گیری افت عملکرد ناشی از مخلوط کردن تصادفی مقادیر یک ویژگی استفاده می شود.

5. میانگین از دست دادن دقت در جایگشت های اعتبار سنجی متقاطع

این یک راه حل ساده و مؤثر برای آزمایش جایگشت ها در زمینه فرآیندهای اعتبارسنجی متقابل است که تأثیر مخلوط کردن هر ویژگی را بر عملکرد مدل تجزیه و تحلیل می کند. ک چین خورده است.

6. تجسم اهمیت جایگشت با Eli5

الی 5 – یک شکل کوتاه از “توضیح دهید مثل من 5 هستم” – در زمینه یادگیری ماشین پایتون، کتابخانه ای برای توضیح واضح است. این یک نمای HTML تعاملی سبک از اهمیت ویژگی ها را ارائه می دهد، که آن را به ویژه برای لپ تاپ ها راحت می کند و برای هر دو مدل خطی یا درختی آموزش دیده مناسب است.

7. اهمیت جهانی ویژگی های SHAP

شکل یک کتابخانه محبوب و قدرتمند برای توضیح بیشتر اهمیت ویژگی های مدل است. می‌توان از آن برای محاسبه میانگین مقادیر مطلق SHAP (شاخص‌های اهمیت ویژگی در SHAP) برای هر ویژگی، همه در یک رویکرد اندازه‌گیری مستقل از مدل و نظریه محور استفاده کرد.

8. نمودار خلاصه مقادیر SHAP

برخلاف اهمیت کلی ویژگی‌های SHAP، نمودار خلاصه نه تنها اهمیت کلی ویژگی‌ها را در یک مدل، بلکه جهت‌های آن‌ها را نیز ارائه می‌کند، و از نظر بصری به درک اینکه چگونه مقادیر ویژگی‌ها پیش‌بینی‌ها را بالا یا پایین می‌برند، کمک می‌کند.

بیایید به یک مثال تصویری از نتیجه به دست آمده نگاه کنیم:

شکل-خلاصه-طرح

9. توضیحات تک پیش بینی با SHAP

یکی از جنبه‌های جالب SHAP این است که نه تنها به توضیح رفتار کلی مدل و اهمیت ویژگی کمک می‌کند، بلکه به توضیح اینکه چگونه ویژگی‌ها به طور خاص بر یک پیش‌بینی واحد تأثیر می‌گذارند نیز کمک می‌کند. به عبارت دیگر، می‌توانیم یک پیش‌بینی فردی را آشکار یا تجزیه کنیم و توضیح دهیم که چگونه و چرا مدل آن نتیجه خاص را ایجاد کرده است.

10. اهمیت ویژگی های مستقل از مدل با LIME

آهک یک کتابخانه جایگزین برای SHAP است که توضیحات جایگزین محلی را تولید می کند. به جای استفاده از یکی یا دیگری، این دو کتابخانه به خوبی یکدیگر را تکمیل می‌کنند و امکان برآورد بهتر اهمیت ویژگی را حول پیش‌بینی‌های فردی فراهم می‌کنند. این مثال این کار را برای یک مدل رگرسیون لجستیک آموزش دیده قبلی انجام می دهد.

نتیجه گیری

این مقاله 10 عبارت موثر پایتون را برای کمک به درک بهتر، توضیح و تفسیر مدل‌های یادگیری ماشین با تمرکز بر اهمیت ویژگی‌ها نشان داده است. درک اینکه چگونه مدل شما از داخل کار می کند، به لطف این ابزارها دیگر یک جعبه سیاه مرموز نیست.



منبع:aitoolsclub.com/