
7 مفهوم آماری که برای موفقیت به عنوان یک مهندس یادگیری ماشین نیاز دارید
تصویر توسط ناشر
مقدمه
وقتی از خود این سوال را می پرسیم:داخل سیستم های یادگیری ماشین چیست؟بسیاری از ما چارچوبها و مدلهایی را تصور میکنیم که پیشبینی میکنند یا وظایفی را انجام میدهند. تعداد کمتری از ما به آنچه واقعاً در هسته آنها نهفته است فکر میکنیم: آمار – جعبه ابزاری از مدلها، مفاهیم و روشهایی که سیستمها را قادر میسازد از دادهها بیاموزند و وظایف خود را به طور قابل اعتماد انجام دهند.
درک ایدههای آماری کلیدی برای مهندسین و متخصصان یادگیری ماشین ضروری است: برای تفسیر دادههای مورد استفاده در کنار سیستمهای یادگیری ماشین، اعتبارسنجی مفروضات در مورد ورودیها و پیشبینیها، و در نهایت ایجاد اطمینان در این مدلها.
با توجه به نقش آمار بهعنوان قطبنمای ارزشمندی برای مهندسین یادگیری ماشین، این مقاله هفت رکن اساسی را پوشش میدهد که هر کسی در این نقش باید بداند: نه تنها برای مصاحبهها، بلکه برای ایجاد سیستمهای یادگیری ماشینی قابل اعتماد و قوی در کارهای روزمره.
7 مفهوم کلیدی آماری برای مهندسان یادگیری ماشین
بدون هیچ مقدمه ای، در اینجا هفت مفهوم آماری اساسی وجود دارد که باید بخشی از دانش و مهارت های اصلی شما باشد.
1. مبانی احتمال
تقریباً همه مدلهای یادگیری ماشین – از طبقهبندیکنندههای ساده مبتنی بر رگرسیون لجستیک تا مدلهای زبانی پیشرفته – بر پایههای احتمالی متکی هستند. بنابراین، ایجاد درک کاملی از متغیرهای تصادفی، احتمال شرطی، قضیه بیز، استقلال، توزیع های مشترک و ایده های مرتبط ضروری است. مدل هایی که به طور گسترده از این مفاهیم استفاده می کنند شامل طبقه بندی کننده های Naive Bayes برای کارهایی مانند تشخیص هرزنامه، مدل های پنهان مارکوف برای پیش بینی توالی و تشخیص گفتارو مولفه های استدلال احتمالی مدل های ترانسفورماتور که تخمین احتمالات و تولید متن منسجم.
قضیه بیز در سراسر گردش کار یادگیری ماشین – از تلفیق دادهها گرفته تا استراتژیهای کالیبراسیون مدل – ظاهر میشود، بنابراین مکانی طبیعی برای شروع سفر یادگیری شما است.
2. آمار توصیفی و استنباطی
آمار توصیفی معیارهای اساسی برای خلاصه کردن ویژگیهای دادههای شما، از جمله معیارهای رایج مانند میانگین و واریانس، و همچنین سایر معیارهای مهم برای کارهای فشرده داده، مانند چولگی و کشیدگی، که به مشخص کردن شکل توزیع کمک میکند، ارائه میکند. در این بین، آمار استنباطی شامل روش هایی برای آزمون فرضیه ها و نتیجه گیری در مورد جمعیت ها بر اساس نمونه است.
استفاده عملی از این دو زیرشاخه در مهندسی یادگیری ماشین همه جا وجود دارد: تست فرضیه، فواصل اطمینان، مقادیر p و تست A/B برای ارزیابی مدلها و سیستمهای تولید و تفسیر اثرات ویژگیها بر پیشبینیها استفاده میشود. این دلیل خوبی برای مهندسان یادگیری ماشینی است که آنها را عمیقاً درک کنند.
3. توزیع و نمونه برداری
مجموعه داده های مختلف ویژگی های متفاوتی را نشان می دهند و مدل ها یا فرم های آماری متمایز. درک و تمایز توزیع ها – مانند نرمال، برنولی، دو جمله ای، پواسون، یکنواخت و نمایی – و تشخیص اینکه کدام یک برای آن مناسب است. مدل سازی یا شبیه سازی دادههای شما برای کارهایی مانند راهاندازی، اعتبارسنجی متقابل و تخمین عدم قطعیت مهم هستند. مفاهیم نزدیک به هم مانند قضیه حد مرکزی (CLT) و قانون اعداد بزرگ اساسی هستند برای ارزیابی قابلیت اطمینان و همگرایی برآوردهای مدل.
برای راهنمایی بیشتر، درک کاملی از دم و عدم تقارن در توزیع ها – این امر تشخیص مشکلات، نقاط پرت و عدم تعادل داده ها را بسیار آسان تر و کارآمدتر می کند.
4. همبستگی، کوواریانس و روابط بین ویژگی ها
این مفاهیم آشکار می شود چگونه متغیرها با هم حرکت می کنند – وقتی متغیر دیگر افزایش یا کاهش می یابد، چه اتفاقی برای یک متغیر می افتد. در مهندسی یادگیری ماشین روزمره، آنها انتخاب ویژگی، بررسی چند خطی، و تکنیکهای کاهش ابعاد مانند تجزیه و تحلیل اجزای اصلی (PCA) را اطلاعرسانی میکنند.
همه روابط خطی نیستند، بنابراین ابزارهای اضافی مورد نیاز است، برای مثال ضریب رتبه اسپیرمن برای روابط یکنواخت و روشهایی برای شناسایی وابستگیهای غیرخطی. تمرین خوب یادگیری ماشین با درک واضح اینکه کدام ویژگی در مجموعه داده شما واقعاً برای مدل شما مهم است شروع می شود.
5. مدل سازی و برآورد آماری
مدل های آماری با تجزیه و تحلیل داده ها جنبه هایی از واقعیت را تقریب و نشان می دهند. مفاهیم اصلی مدلسازی و تخمین، مانند مبادله بایاس واریانس، تخمین حداکثر احتمال (MLE) و حداقل مربعات معمولی (OLS)، بسیار مهم هستند. مدل های آموزشی (برازش)، تنظیم هایپرپارامتر برای بهینه سازی عملکرد و جلوگیری از مشکلاتی مانند بیش از حد. درک این ایده ها چگونگی ساخت و آموزش مدل ها را روشن می کند و شباهت های شگفت انگیزی را بین مدل های ساده مانند رگرسیورهای خطی و مدل های پیچیده مانند شبکه های عصبی آشکار می کند.
6. طراحی آزمایشی و آزمون فرضیه
ارتباط نزدیک با آمار استنباطی، اما یک قدم جلوتر، طراحی آزمایشی و آزمایش فرضیه تضمین میکند که بهبودها از یک سیگنال واقعی به جای شانس حاصل میشوند. روشهای دقیق عملکرد مدل را تأیید میکنند، از جمله گروههای کنترل، مقادیر p، نرخهای کشف نادرست و تحلیل توان.
یک مثال بسیار رایج این است تست A/Bبه طور گسترده در سیستم های توصیه برای مقایسه یک الگوریتم توصیه جدید با نسخه تولیدی و تصمیم گیری در مورد استقرار یا عدم استفاده از آن استفاده می شود. از ابتدا به طور آماری فکر کنید – قبل از جمع آوری داده ها برای آزمایش ها و آزمایش ها، نه بعد از آن.
7. نمونه گیری مجدد و آمار ارزیابی
رکن نهایی شامل روشهای نمونهگیری مجدد و ارزیابی مانند آزمایش جایگشت و مجدداً اعتبارسنجی متقابل و راهاندازی است. این تکنیکها با معیارهای خاص مدل مانند دقت، دقت و امتیاز F1 استفاده میشوند و نتایج آنها باید بهعنوان تخمینهای آماری به جای مقادیر ثابت تفسیر شوند.
ایده اصلی این است که اندازه گیری ها متفاوت است. رویکردهایی مانند فواصل اطمینان اغلب درک بهتری از رفتار مدل نسبت به نمرات تک رقمی ارائه می دهند.
نتیجه گیری
هنگامی که مهندسان یادگیری ماشین درک عمیقی از مفاهیم، روشها و ایدههای آماری فهرستشده در این مقاله داشته باشند، بیشتر از مدلها انجام میدهند: آنها میتوانند نتایج را تفسیر کنند، مشکلات را تشخیص دهند، رفتار، پیشبینیها و مشکلات احتمالی را توضیح دهند. این مهارت ها گام بزرگی به سوی سیستم های هوش مصنوعی قابل اعتماد هستند. این مفاهیم را با آزمایشهای کوچک پایتون و کاوشهای بصری تقویت کنید تا شهود خود را تقویت کنید.
