مقدمه
تجزیه و تحلیل آماری در علم داده مهم است. به ما در درک بهتر داده ها کمک می کند. NumPy یک کتابخانه ضروری پایتون برای عملیات عددی است. این فرآیند را ساده و سرعت می بخشد. در این مقاله، چندین تابع تحلیل آماری پایه ارائه شده توسط NumPy را بررسی خواهیم کرد.
NumPy یک کتابخانه پایتون برای محاسبات عددی است. این به شما امکان می دهد روی جداول و توابع ریاضی کار کنید. محاسبات را سریعتر و آسان تر می کند. NumPy برای تجزیه و تحلیل داده ها و کار علمی در پایتون ضروری است.
برای شروع، ابتدا باید NumPy را وارد کنید تا تجزیه و تحلیل آماری انجام شود.
طبق قرارداد، ما استفاده می کنیم np
به عنوان نام مستعار برای NumPy. این امر فراخوانی توابع آن را آسان تر می کند.
حال بیایید به چندین تابع آماری کلیدی برای تجزیه و تحلیل آماری پایه در NumPy نگاه کنیم.
میانگین
میانگین معیار گرایش مرکزی است. مجموع تمام مقادیر تقسیم بر تعداد مقادیر است. ما استفاده می کنیم میانگین () تابع محاسبه میانگین
نحو: np.mean(data)
# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه میانگین میانگین = np.mean(data) # چاپ نتیجه چاپ (f”Mean: {mean}”) # میانگین: 3.0
#داده های نمونه داده ها = n.p..نقاشی([1, 2, 3, 4, 5]) # میانگین را محاسبه کنید معنی = n.p..معنی(داده ها) # نتیجه را چاپ کنید چاپ کنید(f«متوسط: {متوسط}») # میانگین: 3.0 |
میانگین
میانگین اغلب به جای میانگین استفاده می شود. این مجموع همه مقادیر تقسیم بر تعداد مقادیر است. استفاده می کنیم متوسط () تابع محاسبه میانگین. این تابع به این دلیل مفید است که به شما امکان می دهد وزن ها را برای محاسبه میانگین وزنی لحاظ کنید.
نحو: np.average(data)
، np.average(data, weights=weights)
# داده نمونه = np.array([1, 2, 3, 4, 5]) وزن = np.array([1, 2, 3, 4, 5]) # محاسبه میانگین وزنی = np.average(data) # محاسبه میانگین وزنی weighted_average = np.average(data, weights=weights) # چاپ نتایج print(f”Average: {Average}”) print(f”Weighted میانگین: {weighted_average}”) # میانگین: 3.0 # میانگین وزنی: 3.6666666666666665
#داده های نمونه داده ها = n.p..نقاشی([1, 2, 3, 4, 5]) وزن = n.p..نقاشی([1, 2, 3, 4, 5]) # میانگین را محاسبه کنید متوسط = n.p..متوسط(داده ها) # میانگین وزنی را محاسبه کنید میانگین وزنی = n.p..متوسط(داده ها، وزن=وزن) # نتایج را چاپ کنید چاپ کنید(f«متوسط: {متوسط}») چاپ کنید(f«میانگین وزنی: {weighted_average}») # میانگین: 3.0 # میانگین وزنی: 3.6666666666666665 |
میانه
میانه مقدار متوسط یک مجموعه داده مرتب شده است. زمانی که مجموعه داده دارای تعداد فرد باشد، میانه مقدار میانی است. زمانی که مجموعه داده دارای تعداد زوج باشد، میانه میانگین دو مقدار میانی است. ما استفاده می کنیم میانه () تابع محاسبه میانه
نحو: np.median(data)
# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه میانه = np.median(data) # چاپ نتیجه چاپ (f”Median: {median}”) # Median: 3.0
#داده های نمونه داده ها = n.p..نقاشی([1, 2, 3, 4, 5]) # میانه را محاسبه کنید میانه = n.p..میانه(داده ها) # نتیجه را چاپ کنید چاپ کنید(f«میانگین: {میانگین}») # میانه: 3.0 |
واریانس
واریانس پراکندگی اعداد را از میانگین اندازه گیری می کند. این نشان می دهد که مقادیر در یک مجموعه داده چقدر با میانگین متفاوت است. واریانس بالاتر به معنای پراکندگی بیشتر است. ما استفاده می کنیم var() تابع برای محاسبه واریانس
نحو: np.var(data)
# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه واریانس واریانس = np.var(data) # چاپ نتیجه چاپ (f”Variance: {variance}”) # Variance: 2.0
#داده های نمونه داده ها = n.p..نقاشی([1, 2, 3, 4, 5]) # محاسبه واریانس واریانس = n.p..var(داده ها) # نتیجه را چاپ کنید چاپ کنید(f«واریانس: {variance}») # واریانس: 2.0 |
انحراف معیار
انحراف معیار نشان می دهد که اعداد چقدر از میانگین متفاوت هستند. این جذر واریانس است. انحراف استاندارد بالاتر به معنای پراکندگی بیشتر است. درک آن آسان تر است زیرا از واحدهای مشابه داده استفاده می کند. ما استفاده می کنیم std() تابع برای محاسبه انحراف استاندارد.
نحو: np.std(data)
# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه انحراف استاندارد std_dev = np.std(data) # چاپ نتیجه چاپ (f”انحراف استاندارد: {std_dev}”) # انحراف استاندارد: 1.4142135623730951
#داده های نمونه داده ها = n.p..نقاشی([1, 2, 3, 4, 5]) # انحراف معیار را محاسبه کنید std_dev = n.p..استاندارد(داده ها) # نتیجه را چاپ کنید چاپ کنید(f«انحراف استاندارد: {std_dev}») # انحراف استاندارد: 1.4142135623730951 |
حداقل و حداکثر
توابع حداقل و حداکثر به شما امکان می دهد به ترتیب کوچکترین و بزرگترین مقادیر را در مجموعه ای از داده ها شناسایی کنید. ما استفاده می کنیم دقیقه () و حداکثر () توابع برای محاسبه این مقادیر.
نحو: np.min(data)
، np.max(data)
# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه حداقل و حداکثر حداقل = np.min(داده) حداکثر = np.max(داده) # نتایج چاپ چاپ(f”حداقل: {حداقل}”) print(f”حداکثر: {حداکثر}”) # حداقل: 1 # حداکثر: 5
#داده های نمونه داده ها = n.p..نقاشی([1, 2, 3, 4, 5]) # حداقل و حداکثر را محاسبه کنید حداقل = n.p..دقیقه(داده ها) حداکثر = n.p..حداکثر(داده ها) # نتایج را چاپ کنید چاپ کنید(f«حداقل: {حداقل}») چاپ کنید(f«حداکثر: {حداکثر}») # حداقل: 1 #حداکثر: 5 |
درصدها
صدک ها نشان می دهد که یک مقدار در یک مجموعه داده کجا قرار می گیرد. به عنوان مثال، صدک 25 مقداری است که 25 درصد داده ها زیر آن قرار می گیرند. درصدها به ما کمک می کنند تا توزیع داده ها را درک کنیم. ما استفاده می کنیم صدک () تابع برای محاسبه صدک
نحو: np.percentile(data, percentile_value)
# داده نمونه = np.array([1, 2, 3, 4, 5]) # صدک 25 و 75 را محاسبه کنید = np.percentile(data, [25, 75]) # چاپ نتایج چاپ (f”25 صدک: {percentiles[0]}”) print(f”75th صدک: {percentiles[1]}”) # صدک 25: 2.0 # صدک 75: 4.0
#داده های نمونه داده ها = n.p..نقاشی([1, 2, 3, 4, 5]) # صدک 25 و 75 را محاسبه کنید صدک ها = n.p..صدک(داده ها، [25, 75]) # نتایج را چاپ کنید چاپ کنید(f«صدک 25: {درصد[0]}”) چاپ کنید(f«صدک 75: {درصد[1]}”) صدک #25: 2.0 صدک #75: 4.0 |
ضریب همبستگی
ضریب همبستگی نشان می دهد که چگونه دو متغیر به صورت خطی مرتبط هستند. از -1 تا 1 متغیر است. مقدار 1 به معنای رابطه مثبت است. مقدار -1 به معنای رابطه منفی است. مقدار 0 به این معنی است که هیچ رابطه خطی وجود ندارد. ما استفاده می کنیم corrcoef() تابعی برای محاسبه ضریب همبستگی
نحو: correlation_matrix = np.corrcoef(data1, data2)
، correlation_coefficient = correlation_matrix[0, 1]
# داده نمونه 1 = np.array([1, 2, 3, 4, 5]) data2 = np.array([5, 4, 3, 2, 1]) # محاسبه ضریب همبستگی ماتریس correlation_matrix = np.corrcoef(data1, data2) # استخراج ضریب همبستگی بین data1 و data2 همبستگی_ضریب = همبستگی_ماتریس[0, 1]print(f”ضریب همبستگی: {ضریب_همبستگی}”) # ضریب همبستگی: -1.0
#داده های نمونه داده 1 = n.p..نقاشی([1, 2, 3, 4, 5]) داده 2 = n.p..نقاشی([5, 4, 3, 2, 1]) # ماتریس ضریب همبستگی را محاسبه کنید همبستگی_ماتریس = n.p..تصحیح(داده 1، داده 2) # ضریب همبستگی بین داده های 1 و 2 را استخراج کنید ضریب همبستگی = همبستگی_ماتریس[0, 1] چاپ کنید(f«ضریب همبستگی: {corelation_coefficient}») # ضریب همبستگی: -1.0 |
محدوده (اوج به اوج)
محدوده (اوج به اوج) پراکندگی داده ها را اندازه گیری می کند. این تفاوت بین بالاترین و کمترین مقدار است. این به ما کمک می کند تا ببینیم داده ها چقدر پراکنده هستند. ما استفاده می کنیم ptp() تابع برای محاسبه محدوده
نحو: range = np.ptp(data)
# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه محدوده محدوده = np.ptp(data) # چاپ نتیجه چاپ (f”Range: {range}”) # Range: 4
#داده های نمونه داده ها = n.p..نقاشی([1, 2, 3, 4, 5]) # محاسبه محدوده محدوده = n.p..ptp(داده ها) # نتیجه را چاپ کنید چاپ کنید(f“Beach: {Beach}”) # برد: 4 |
نتیجه گیری
NumPy به شما امکان می دهد تا تجزیه و تحلیل های آماری اولیه را انجام دهید. برای آمارهای پیچیده تر، می توان از کتابخانه های دیگری مانند SciPy استفاده کرد. دانستن این اصول به بهبود تجزیه و تحلیل داده ها کمک می کند.