5 مجموعه داده رایگان برای شروع پروژه های یادگیری ماشینی امروز

جدول محتوا

5 مجموعه داده رایگان برای شروع پروژه های یادگیری ماشینی امروز
تصویر ویرایشگر | نیمه راه

مجموعه داده های رایگان زیادی به صورت آنلاین وجود دارد که به شما کمک می کند تمرین کنید و یاد بگیرید. این مجموعه داده ها به شما امکان می دهد تکنیک های مختلف یادگیری ماشینی را امتحان کنید و مهارت های خود را بهبود بخشید. شما می توانید این مجموعه داده ها را در پلتفرم هایی مانند Kaggle و UCI Machine Learning Repository پیدا کنید. در اینجا پنج مجموعه داده رایگان وجود دارد که می تواند به شما کمک کند تا پروژه های یادگیری ماشینی خود را شروع کنید.

1. مجموعه داده عنبیه

توضیحات: مجموعه داده زنبق حاوی اطلاعاتی در مورد سه نوع گل زنبق است: Setosa، Versicolor و Virginica. مجموعه داده شامل چهار ویژگی است: طول کاسبرگ، عرض کاسبرگ، طول گلبرگ و عرض گلبرگ.

موارد استفاده کنید:

آموزش الگوریتم‌های یادگیری تحت نظارت مانند درخت‌های تصمیم، k-نزدیک‌ترین همسایه‌ها و ماشین‌های بردار پشتیبان.
تجزیه و تحلیل داده های اکتشافی (EDA) و تجسم هایی مانند نمودارهای پراکنده و نمودارهای زوجی را انجام دهید.
مقیاس بندی و تکنیک های انتخاب ویژگی را تمرین کنید.

پیوند: مجموعه داده Iris در مخزن یادگیری ماشین UCI

2. اعداد دست نویس MNIST

توضیحات: مجموعه داده MNIST شامل 70000 تصویر از اعداد دست نویس از 0 تا 9 است. هر تصویر یک تصویر در مقیاس خاکستری با اندازه 28 x 28 پیکسل است.

موارد استفاده کنید:

آموزش مدل های یادگیری عمیق برای طبقه بندی ارقام دست نویس.
با تکنیک های پردازش تصویر مانند عادی سازی و تقویت تصویر آشنا شوید.
درک نحوه ایجاد مدل هایی که می توانند تصاویر را در دسته های مختلف طبقه بندی کنند.

پیوند: مجموعه داده های MNIST در وب سایت Yann LeCun

3. مجموعه داده مسکن بوستون

توضیحات: این مجموعه داده حاوی اطلاعاتی در مورد قیمت مسکن در حومه بوستون است. این شامل ویژگی هایی مانند میزان جرم و جنایت، سن ملک و تعداد اتاق است.

موارد استفاده کنید:

پیش بینی قیمت مسکن با استفاده از رگرسیون خطی یا سایر مدل های رگرسیون.
مهندسی ویژگی، مانند تبدیل متغیرها یا مدیریت چند خطی را انجام دهید.
اعتبار سنجی متقاطع و تنظیم هایپرپارامتر را برای وظایف رگرسیونی تمرین کنید.

پیوند: مجموعه داده مسکن بوستون در Kaggle

4. مجموعه داده های کیفیت شراب

توضیحات: این مجموعه داده حاوی اطلاعاتی در مورد شراب های قرمز و سفید است. این شامل خواص شیمیایی و رتبه بندی کیفیت آنها است. حاوی ویژگی هایی مانند اسیدیته، محتوای قند و سطح الکل است.

موارد استفاده کنید:

تعیین کیفیت استفاده از خصوصیات شیمیایی آن.
طبقه بندی قطار و مدل های رگرسیون، بسته به ماهیت پیش بینی.
روش هایی برای مقیاس بندی ویژگی و کاهش ابعاد پیدا کنید.

پیوند: مجموعه داده کیفیت شراب در مخزن یادگیری ماشین UCI

5. مجموعه داده تایتانیک

توضیحات: مجموعه داده تایتانیک شامل جزئیاتی در مورد مسافران تایتانیک، مانند سن، جنسیت، کلاس و اینکه آیا آنها از فاجعه جان سالم به در برده اند یا خیر.

موارد استفاده کنید:

پیش بینی کنید که آیا یک مسافر از فاجعه تایتانیک با استفاده از الگوریتم های طبقه بندی مانند رگرسیون لجستیک یا جنگل های تصادفی جان سالم به در برده است یا خیر.
وظایف پیش پردازش داده ها مانند رمزگذاری متغیرهای طبقه بندی و عادی سازی ویژگی های عددی را تمرین کنید.
داده های از دست رفته را مدیریت کنید و مهندسی ویژگی را روی داده های واقعی انجام دهید.

پیوند: مجموعه داده تایتانیک در Kaggle

نتیجه گیری

در نتیجه، این پنج مجموعه داده رایگان برای شروع پروژه های یادگیری ماشین شما عالی هستند. آنها چندین کار را پوشش می دهند، از طبقه بندی تا رگرسیون. از این مجموعه داده‌ها برای کشف تکنیک‌های یادگیری ماشین و ساختن نمونه کارها استفاده کنید.

درباره جایتا گولاتی

Jayita Gulati یک علاقه‌مند به یادگیری ماشین و نویسنده فنی است که با اشتیاق خود به ساخت مدل‌های یادگیری ماشینی هدایت می‌شود. او دارای مدرک کارشناسی ارشد در رشته علوم کامپیوتر از دانشگاه لیورپول است.

منبع:aitoolsclub.com/

1. مجموعه داده عنبیه

2. اعداد دست نویس MNIST

3. مجموعه داده مسکن بوستون

4. مجموعه داده های کیفیت شراب

5. مجموعه داده تایتانیک

نتیجه گیری

درباره جایتا گولاتی

پست های مرتبط

یک راهنمای عملی برای مدیریت داده های خارج از حافظه در پایتون

7 نکته پاندا برای بهبود توسعه مدل یادگیری خودکار شما

تصاویر را از چشم درختان تصمیم گیری مشاهده کنید