ماتریس تصمیم گیری برای مدل های پیش بینی سری های زمانی


در این مقاله، نحوه انتخاب یک مدل پیش‌بینی سری زمانی مناسب با استفاده از یک ماتریس تصمیم چهار ربعی واضح بر اساس پیچیدگی داده‌ها و ابعاد ورودی را خواهید آموخت.

موضوعاتی که به آنها خواهیم پرداخت عبارتند از:

  • تفاوت بین سری های زمانی تک متغیره و چند متغیره و چرایی اهمیت آن.
  • کدام مدل‌های کلاسیک و مدرن برای داده‌های با پیچیدگی کم یا زیاد مناسب‌تر هستند؟
  • معاوضه بین تفسیرپذیری، مقیاس پذیری و دقت در خانواده های مدل.

بیش از این زمان را تلف نکنیم.

ماتریس تصمیم گیری برای مدل های پیش بینی سری های زمانی

ماتریس تصمیم گیری برای مدل های پیش بینی سری های زمانی
تصویر توسط ناشر

مقدمه

داده های سری زمانی دارای پیچیدگی اضافی وابستگی های زمانی، فصلی و غیر ثابت بودن احتمالی است.

مسلماً رایج‌ترین مشکل پیش‌بینی برای حل با داده‌های سری زمانی پیش‌بینی است، یعنی پیش‌بینی ارزش‌های آتی یک متغیر مانند دما یا قیمت سهام، بر اساس مشاهدات تاریخی تا کنون. با بسیاری از مدل‌های مختلف برای پیش‌بینی سری‌های زمانی، پزشکان گاهی اوقات برای انتخاب مناسب‌ترین رویکرد دچار مشکل می‌شوند.

این مقاله به منظور کمک به استفاده از یک ماتریس تصمیم همراه با توضیحات مربوط به زمان و چرایی، به استفاده از مدل های مختلف بسته به ویژگی های داده ها و نوع مسئله طراحی شده است.

ماتریس تصمیم گیری

ابتدا، ماتریس بصری را معرفی می‌کنیم که مجموعه‌ای از مدل‌های پیش‌بینی سری‌های زمانی رایج را بر اساس دو معیار یا بعد طبقه‌بندی می‌کند.

ماتریس تصمیم گیری برای مدل های پیش بینی سری های زمانی

ماتریس تصمیم گیری برای مدل های پیش بینی سری های زمانی
تصویر توسط نویسنده

پیچیدگی و ساختار داده ها به پیچیدگی کلی مجموعه داده سری زمانی مورد استفاده، از نظر جنبه هایی مانند وجود یا عدم وجود الگوهای ثابت، فصلی، نویز محدود یا قابل توجه در داده ها، غیر خطی بودن و غیره اشاره دارد.

ابعاد ورودی به این واقعیت اشاره دارد که بر اساس ابعاد داده های ورودی، سری های زمانی می توانند تک متغیره یا چند متغیره باشند، یعنی به ترتیب بدون یا با ویژگی های ورودی برون زا. به عنوان مثال، مجموعه داده ای که سفر روزانه را در یک سیستم حمل و نقل عمومی توصیف می کند، نمونه ای از یک سری زمانی تک متغیره خواهد بود، در حالی که رکوردهای آب و هوای روزانه یا ساعتی شامل سرعت باد، دما و رطوبت نمونه ای از یک سری زمانی چند متغیره است.

سری زمانی تک متغیره یا چند متغیره

سری زمانی تک متغیره یا چند متغیره
تصویر توسط نویسنده

این دو معیار طبقه بندی ما را به a طبقه بندی مدل های پیش بینی سری های زمانی با ماتریس نمایش داده شده در بالا تراز شده است.

اکنون به بررسی هر یک از آنها می پردازیم چهار ربع با جزئیات بیشتر

1. سری زمانی تک متغیره با پیچیدگی کم (پایین سمت چپ)

این ربع شامل مسائل پیش‌بینی می‌شود که سری‌های زمانی تاریخی برای آنها خیلی پیچیده نیست: برای مثال، به دلیل کوتاه بودن، تقاضای پایدار (نسبتاً ثابت در طول زمان)، یا دارای روندها، الگوها یا ساختار فصلی ساده است. به طور معمول، این نوع سری های زمانی نیز ایستایی تقریبی را نشان می دهند.

مدل‌های مناسب و ساده‌ای که معمولاً برای این مشکلات کفایت می‌کنند عبارتند از Naïve (برای داده‌های سری زمانی بسیار ساده)، یا الگوریتم‌ها یا تکنیک‌های کمی پیچیده‌تر مانند میانگین‌های متحرک و انواع آن‌ها (میانگین متحرک ساده، میانگین متحرک وزنی)، کلاسیک در میان کلاسیک‌ها. میانگین متحرک یکپارچه اتورگرسیو (ARIMA)و Holt-Winters. همه اینها مدل های قوی برای مجموعه داده های سری زمانی ساده هستند، در حالی که قابلیت تفسیر و کارایی پیش بینی را حفظ می کنند. در عین حال، به دلیل سادگی در مقایسه با سایر رویکردهای پیشرفته، سازگاری آنها با مشکلاتی مانند گسیختگی سازه یا عوامل خارجی بسیار محدود است.

2. سری زمانی چند متغیره کم پیچیدگی (پایین سمت راست)

هنگامی که سری زمانی هنوز الگوهای ساده را نشان می دهد اما چند متغیره است – یا تحت تأثیر چندین عامل خارجی یا پیش بینی کننده های رگرسیون قرار می گیرد – ترجیح داده می شود به مدل هایی با پیچیدگی متوسط ​​مانند رگرسیون پویا متوسل شوید. ARIMA با متغیرهای برون زا (ARIMAX)، خودرگرسیون برداری (VAR)یا پیامبر این مدل‌های پیش‌بینی می‌توانند مستقیماً عوامل شناخته‌شده (مانند تبلیغات یا اثرات قیمت در داده‌های رفتار مشتری تاریخی) را در پیش‌بینی‌ها بگنجانند، بنابراین به عنوان ترکیبی بین مدل‌های پیش‌بینی صرفاً زمانی و مدل‌های رگرسیونی عمل می‌کنند.

این رویکردها عموماً به راحتی قابل تفسیر و پیاده‌سازی هستند و زمانی که دینامیک زیربنایی مجموعه داده نسبتاً ساده باقی می‌ماند، پیش‌بینی‌های قابل اعتمادی را ایجاد می‌کنند. از سوی دیگر، اگرچه آنها قادر به ترکیب متغیرهای خارجی هستند، اما هنوز الگوها و روابط نسبتاً ساده ای را در نظر می گیرند و ممکن است با غیرخطی بودن یا تعاملات غیرقابل درک بین متغیرها مشکل داشته باشند.

3. سری زمانی تک متغیره با پیچیدگی بالا (بالا سمت چپ)

سری های زمانی تک متغیره با الگوهای پیچیده، مانند روندهای نامنظم یا چرخه های فصلی متعدد، نیاز به استفاده از مدل های تخصصی مانند TBATS دارند.مثلثاتی، تبدیل جعبه-کاکس، خطاهای ARMA، روند و اجزای فصلی) ARIMA فصلی (SARIMA)یا روش های فضایی مانند رویکردهای مبتنی بر فیلتر کالمن. جنبه‌هایی مانند غیرایستایی، یعنی تکامل ویژگی‌های آماری داده‌ها در طول زمان، و رفتارهای فصلی پیچیده را می‌توان توسط این مدل‌ها ثبت کرد، که آنها را برای پیش‌بینی در سناریوهایی با سری‌های بلندمدت یا نامنظم با دینامیک تا حدودی «غیرقابل پیش‌بینی» مناسب می‌سازد.

اگرچه در برخورد با پیچیدگی‌های داخلی از سایر مدل‌ها بهتر عمل می‌کنند، اما این روش‌ها از نظر محاسباتی فشرده‌تر هستند، و در عمل اغلب به تنظیم دقیق برای دقیق و قابل تعمیم نیاز دارند.

4. سری زمانی چند متغیره با پیچیدگی بالا (بالا سمت راست)

آخرین سناریو از چهار سناریو، ما زمینه‌هایی با سری‌های زمانی بزرگ داریم که حاوی چندین متغیر زمانی و/یا خارجی هستند و وابستگی‌های پیچیده یا غیرخطی را نشان می‌دهند. این سناریوهای چالش برانگیز به تکنیک های پیشرفته از یادگیری ماشین و چشم انداز یادگیری عمیق نیاز دارند – برای مثال، روش های مجموعه ای مانند جنگل های تصادفی و XGBoost، شبکه های عصبی تکراری مانند حافظه بلند مدت و کوتاه مدت (LSTM) شبکه ها یا حتی معماری های یادگیری عمیق مانند ترانسفورماتورها. با این حال، استفاده از رویکردهای ترکیبی اغلب در این زمینه ها انتخاب عاقلانه ای است.

این مدل های فشرده داده در ثبت تعاملات پیچیده بین متغیرها عالی هستند و برای مجموعه داده های بسیار بزرگ مقیاس پذیر هستند. اما از جنبه منفی، نیازمندی‌های آن‌ها سخت‌تر است و قابلیت تفسیر آن‌ها پایین‌تر است، در صورتی که داده‌های باکیفیت کافی برای آموزش آن‌ها ارائه نشود، با خطری بیش از حد برازش می‌شوند.

نتیجه گیری

این مقاله به بررسی مدل ها و روش های پیش بینی سری های زمانی از دیدگاه انتخاب عملی پرداخته است. بر اساس یک ماتریس تصمیم چهار ربعی، ما روش‌های ترجیحی را برای استفاده در چهار نوع سناریوهای مختلف پیش‌بینی تعریف کردیم، زمان استفاده از هر گروه از مدل‌ها را برجسته می‌کنیم و مزایا و معایب هر کدام را برجسته می‌کنیم.



منبع:aitoolsclub.com/