نکاتی برای انتخاب ویژگی موثر در یادگیری ماشینی


نکاتی برای انتخاب ویژگی موثر در یادگیری ماشینی

نکاتی برای انتخاب ویژگی موثر در یادگیری ماشینی
تصویر نویسنده | ایجاد شده در Canva

هنگام آموزش یک مدل یادگیری ماشینی، ممکن است گاهی اوقات با مجموعه داده هایی کار کنید که تعداد زیادی ویژگی دارند. با این حال، تنها یک زیرمجموعه کوچک از این ویژگی‌ها در واقع برای مدل برای پیش‌بینی مهم هستند. به همین دلیل است که برای شناسایی آن ویژگی‌های مفید، باید ویژگی‌ها را نمایش دهید.

در این مقاله نکات مفیدی برای انتخاب ویژگی ارائه شده است. ما تکنیک های انتخاب ویژگی را به طور عمیق بررسی نخواهیم کرد. با این حال، ما نکات ساده اما موثری را برای درک مرتبط‌ترین ویژگی‌های مجموعه داده شما پوشش خواهیم داد. ما با مجموعه داده خاصی کار نخواهیم کرد. اما می‌توانید آن‌ها را روی یک مجموعه داده نمونه به انتخاب خود امتحان کنید.

بیایید شروع کنیم.

1. اطلاعات را درک کنید

احتمالا از خواندن این نکته خسته شده اید. اما هیچ راهی بهتر از درک مشکلی که می‌خواهید حل کنید و داده‌هایی که با آنها کار می‌کنید، برای نزدیک شدن به یک مشکل وجود ندارد.

بنابراین درک داده های شما اولین و مهمترین مرحله در انتخاب ویژگی است. این شامل کاوش مجموعه داده برای درک بهتر توزیع متغیرها، درک روابط بین ویژگی ها، شناسایی ناهنجاری های بالقوه و ویژگی های مرتبط است.

وظایف کلیدی در داده کاوی شامل بررسی مقادیر از دست رفته، ارزیابی انواع داده ها و تولید آمار خلاصه برای ویژگی های عددی است.

این قطعه کد مجموعه داده را بارگیری می کند، خلاصه ای از انواع داده ها و مقادیر غیر صفر را ارائه می دهد، آمار توصیفی اولیه را برای ستون های عددی تولید می کند و مقادیر از دست رفته را بررسی می کند.

این مراحل به شما کمک می‌کند تا ویژگی‌های داده‌های خود و مشکلات بالقوه کیفیت داده‌ها را که باید قبل از انتخاب ویژگی بررسی شوند، بهتر درک کنید.

2. ویژگی های نامربوط را حذف کنید

مجموعه داده شما ممکن است دارای تعداد زیادی ویژگی باشد. اما همه آنها به قدرت پیش بینی مدل شما کمک نمی کنند.

چنین ویژگی‌های نامربوطی می‌توانند نویز اضافه کنند و پیچیدگی مدل را افزایش دهند بدون اینکه آن را بسیار کارآمد کنند. حذف این ویژگی ها قبل از آموزش مدل ضروری است. و اگر مجموعه داده را با جزئیات درک کرده باشید و کاوش کرده باشید، باید ساده باشد.

برای مثال، می‌توانید زیرمجموعه‌ای از ویژگی‌های نامربوط را به صورت زیر حذف کنید:

در کد خود، «feature1»، «feature2» و «feature3» را با نام واقعی ویژگی‌های نامربوطی که می‌خواهید حذف کنید، جایگزین کنید.

این مرحله با حذف اطلاعات غیر ضروری، مجموعه داده را ساده می کند، که می تواند عملکرد و تفسیرپذیری مدل را بهبود بخشد.

3. از ماتریس همبستگی برای شناسایی ویژگی های اضافی استفاده کنید

گاهی اوقات برخی از ویژگی ها به شدت با هم مرتبط هستند. یک ماتریس همبستگی ضرایب همبستگی بین جفت ویژگی را نشان می دهد.

ویژگی های بسیار همبسته اغلب می توانند زائد باشند و اطلاعات مشابهی را به مدل ارائه دهند. در چنین مواردی، می توانید هر یک از ویژگی های مرتبط را حذف کنید.

در اینجا کدی برای شناسایی جفت ویژگی های بسیار همبسته در مجموعه داده آمده است:

اساساً، هدف کد بالا شناسایی جفت‌های ویژگی با همبستگی بالا (آنهایی که مقدار همبستگی مطلق آنها بیشتر از 0.8 است)، به استثنای همبستگی‌های خودکار است. این جفت‌های ویژگی بسیار مرتبط برای تجزیه و تحلیل بیشتر در فهرستی ذخیره می‌شوند. سپس می‌توانید ویژگی‌هایی را که می‌خواهید برای مراحل بعدی حفظ کنید، بررسی و انتخاب کنید.

4. از آزمون های آماری استفاده کنید

می توانید از آزمون های آماری برای کمک به تعیین اهمیت ویژگی ها نسبت به متغیر هدف استفاده کنید. و برای انجام این کار می توانید از قابلیت scikit-learn استفاده کنید feature_selection ماژول

قطعه زیر از آزمون خی دو برای ارزیابی اهمیت هر ویژگی برای متغیر هدف استفاده می کند. KBest را انتخاب کنید این روش برای انتخاب ویژگی های اصلی با بالاترین امتیاز استفاده می شود.

این امر مجموعه ویژگی را به مرتبط ترین متغیرها کاهش می دهد که می تواند عملکرد مدل را به طور قابل توجهی بهبود بخشد.

5. از حذف ویژگی بازگشتی (RFE) استفاده کنید

حذف ویژگی بازگشتی (RFE) این یک تکنیک انتخاب ویژگی است که به صورت بازگشتی کم اهمیت ترین ویژگی ها را حذف می کند و مدل را با ویژگی های باقی مانده می سازد. این کار تا رسیدن به تعداد مشخص شده ادامه می یابد.

در اینجا نحوه استفاده از RFE برای یافتن پنج ویژگی مرتبط هنگام ساخت یک مدل رگرسیون لجستیک آورده شده است.

بنابراین می‌توانید از RFE برای انتخاب مهم‌ترین ویژگی‌ها با حذف بازگشتی موارد کمتر مهم استفاده کنید.

برای نتیجه گیری

انتخاب ویژگی موثر برای ساخت مدل‌های یادگیری ماشینی قوی مهم است. به طور خلاصه: باید داده‌های خود را درک کنید، ویژگی‌های نامربوط را حذف کنید، ویژگی‌های اضافی را با استفاده از همبستگی شناسایی کنید، آزمایش‌های آماری را اعمال کنید و در صورت نیاز برای عملکرد مدل خود از حذف ویژگی بازگشتی (RFE) استفاده کنید.

انتخاب خوبی از ویژگی ها! و اگر به دنبال نکاتی در مورد مهندسی ویژگی هستید، بخوانید نکاتی برای مهندسی ویژگی موثر در یادگیری ماشین.

بالا پریا سیبالا پریا سی

درباره بالا پریا سی

Bala Priya C یک توسعه دهنده و نویسنده فنی هندی است. او از کار در تقاطع ریاضیات، برنامه نویسی، علم داده و تولید محتوا لذت می برد. زمینه های مورد علاقه و تخصص او شامل DevOps، علم داده و پردازش زبان طبیعی است. او عاشق خواندن، نوشتن، کدنویسی و نوشیدن قهوه است! در حال حاضر، او روی یادگیری و به اشتراک گذاری دانش خود با جامعه توسعه دهندگان با نوشتن آموزش ها، راهنماهای نحوه کار، نظرات و موارد دیگر کار می کند. Bala همچنین مروری بر منابع جذاب و آموزش های کدنویسی ایجاد می کند.



منبع:aitoolsclub.com/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *