مجموعه داده های رایگان زیادی به صورت آنلاین وجود دارد که به شما کمک می کند تمرین کنید و یاد بگیرید. این مجموعه داده ها به شما امکان می دهد تکنیک های مختلف یادگیری ماشینی را امتحان کنید و مهارت های خود را بهبود بخشید. شما می توانید این مجموعه داده ها را در پلتفرم هایی مانند Kaggle و UCI Machine Learning Repository پیدا کنید. در اینجا پنج مجموعه داده رایگان وجود دارد که می تواند به شما کمک کند تا پروژه های یادگیری ماشینی خود را شروع کنید.
1. مجموعه داده عنبیه
توضیحات: مجموعه داده زنبق حاوی اطلاعاتی در مورد سه نوع گل زنبق است: Setosa، Versicolor و Virginica. مجموعه داده از چهار ویژگی تشکیل شده است: طول کاسبرگ، عرض کاسبرگ، طول گلبرگ و عرض گلبرگ.
موارد استفاده کنید:
- آموزش الگوریتمهای یادگیری تحت نظارت مانند درختهای تصمیم، k-نزدیکترین همسایهها و ماشینهای بردار پشتیبان.
- تجزیه و تحلیل داده های اکتشافی (EDA) و تجسم هایی مانند نمودارهای پراکنده و نمودارهای زوجی را انجام دهید.
- مقیاس بندی و تکنیک های انتخاب ویژگی را تمرین کنید.
پیوند: مجموعه داده Iris در مخزن یادگیری ماشین UCI
2. اعداد دست نویس MNIST
توضیحات: مجموعه داده MNIST شامل 70000 تصویر از اعداد دست نویس از 0 تا 9 است. هر تصویر یک تصویر در مقیاس خاکستری با اندازه 28 x 28 پیکسل است.
موارد استفاده کنید:
- آموزش مدل های یادگیری عمیق برای طبقه بندی ارقام دست نویس.
- با تکنیک های پردازش تصویر مانند عادی سازی و تقویت تصویر آشنا شوید.
- درک نحوه ایجاد مدل هایی که می توانند تصاویر را در دسته های مختلف طبقه بندی کنند.
پیوند: مجموعه داده های MNIST در وب سایت Yann LeCun
3. مجموعه داده مسکن بوستون
توضیحات: این مجموعه داده حاوی اطلاعاتی در مورد قیمت مسکن در حومه بوستون است. این شامل ویژگی هایی مانند میزان جرم و جنایت، سن ملک و تعداد اتاق است.
موارد استفاده کنید:
- پیش بینی قیمت مسکن با استفاده از رگرسیون خطی یا سایر مدل های رگرسیون.
- مهندسی ویژگی، مانند تبدیل متغیرها یا مدیریت چند خطی را انجام دهید.
- اعتبار سنجی متقاطع و تنظیم هایپرپارامتر را برای وظایف رگرسیونی تمرین کنید.
پیوند: مجموعه داده مسکن بوستون در Kaggle
4. مجموعه داده های کیفیت شراب
توضیحات: این مجموعه داده حاوی اطلاعاتی در مورد شراب های قرمز و سفید است. این شامل خواص شیمیایی و رتبه بندی کیفیت آنها است. حاوی ویژگی هایی مانند اسیدیته، محتوای قند و سطح الکل است.
موارد استفاده کنید:
- تعیین کیفیت استفاده از خصوصیات شیمیایی آن.
- طبقه بندی قطار و مدل های رگرسیون، بسته به ماهیت پیش بینی.
- روش هایی برای مقیاس بندی ویژگی و کاهش ابعاد پیدا کنید.
پیوند: مجموعه داده کیفیت شراب در مخزن یادگیری ماشین UCI
5. مجموعه داده تایتانیک
توضیحات: مجموعه داده تایتانیک شامل جزئیاتی در مورد مسافران تایتانیک است، مانند سن، جنسیت، کلاس و اینکه آیا آنها از فاجعه جان سالم به در برده اند یا خیر.
موارد استفاده کنید:
- پیش بینی کنید که آیا یک مسافر از فاجعه تایتانیک با استفاده از الگوریتم های طبقه بندی مانند رگرسیون لجستیک یا جنگل های تصادفی جان سالم به در برده است یا خیر.
- وظایف پیش پردازش داده ها مانند رمزگذاری متغیرهای طبقه بندی شده و عادی سازی ویژگی های عددی را تمرین کنید.
- داده های از دست رفته را مدیریت کنید و مهندسی ویژگی را روی داده های واقعی انجام دهید.
پیوند: مجموعه داده تایتانیک در Kaggle
نتیجه گیری
در نتیجه، این پنج مجموعه داده رایگان برای شروع پروژه های یادگیری ماشین شما عالی هستند. آنها چندین کار را پوشش می دهند، از طبقه بندی تا رگرسیون. از این مجموعه دادهها برای کشف تکنیکهای یادگیری ماشین و ساختن نمونه کارها استفاده کنید.