در این مقاله، نحوه انتخاب یک مدل پیشبینی سری زمانی مناسب با استفاده از یک ماتریس تصمیم چهار ربعی واضح بر اساس پیچیدگی دادهها و ابعاد ورودی را خواهید آموخت.
موضوعاتی که به آنها خواهیم پرداخت عبارتند از:
- تفاوت بین سری های زمانی تک متغیره و چند متغیره و چرایی اهمیت آن.
- کدام مدلهای کلاسیک و مدرن برای دادههای با پیچیدگی کم یا زیاد مناسبتر هستند؟
- معاوضه بین تفسیرپذیری، مقیاس پذیری و دقت در خانواده های مدل.
بیش از این زمان را تلف نکنیم.

ماتریس تصمیم گیری برای مدل های پیش بینی سری های زمانی
تصویر توسط ناشر
مقدمه
داده های سری زمانی دارای پیچیدگی اضافی وابستگی های زمانی، فصلی و غیر ثابت بودن احتمالی است.
مسلماً رایجترین مشکل پیشبینی برای حل با دادههای سری زمانی پیشبینی است، یعنی پیشبینی ارزشهای آتی یک متغیر مانند دما یا قیمت سهام، بر اساس مشاهدات تاریخی تا کنون. با بسیاری از مدلهای مختلف برای پیشبینی سریهای زمانی، پزشکان گاهی اوقات برای انتخاب مناسبترین رویکرد دچار مشکل میشوند.
این مقاله به منظور کمک به استفاده از یک ماتریس تصمیم همراه با توضیحات مربوط به زمان و چرایی، به استفاده از مدل های مختلف بسته به ویژگی های داده ها و نوع مسئله طراحی شده است.
ماتریس تصمیم گیری
ابتدا، ماتریس بصری را معرفی میکنیم که مجموعهای از مدلهای پیشبینی سریهای زمانی رایج را بر اساس دو معیار یا بعد طبقهبندی میکند.

ماتریس تصمیم گیری برای مدل های پیش بینی سری های زمانی
تصویر توسط نویسنده
پیچیدگی و ساختار داده ها به پیچیدگی کلی مجموعه داده سری زمانی مورد استفاده، از نظر جنبه هایی مانند وجود یا عدم وجود الگوهای ثابت، فصلی، نویز محدود یا قابل توجه در داده ها، غیر خطی بودن و غیره اشاره دارد.
ابعاد ورودی به این واقعیت اشاره دارد که بر اساس ابعاد داده های ورودی، سری های زمانی می توانند تک متغیره یا چند متغیره باشند، یعنی به ترتیب بدون یا با ویژگی های ورودی برون زا. به عنوان مثال، مجموعه داده ای که سفر روزانه را در یک سیستم حمل و نقل عمومی توصیف می کند، نمونه ای از یک سری زمانی تک متغیره خواهد بود، در حالی که رکوردهای آب و هوای روزانه یا ساعتی شامل سرعت باد، دما و رطوبت نمونه ای از یک سری زمانی چند متغیره است.

سری زمانی تک متغیره یا چند متغیره
تصویر توسط نویسنده
این دو معیار طبقه بندی ما را به a طبقه بندی مدل های پیش بینی سری های زمانی با ماتریس نمایش داده شده در بالا تراز شده است.
اکنون به بررسی هر یک از آنها می پردازیم چهار ربع با جزئیات بیشتر
1. سری زمانی تک متغیره با پیچیدگی کم (پایین سمت چپ)
این ربع شامل مسائل پیشبینی میشود که سریهای زمانی تاریخی برای آنها خیلی پیچیده نیست: برای مثال، به دلیل کوتاه بودن، تقاضای پایدار (نسبتاً ثابت در طول زمان)، یا دارای روندها، الگوها یا ساختار فصلی ساده است. به طور معمول، این نوع سری های زمانی نیز ایستایی تقریبی را نشان می دهند.
مدلهای مناسب و سادهای که معمولاً برای این مشکلات کفایت میکنند عبارتند از Naïve (برای دادههای سری زمانی بسیار ساده)، یا الگوریتمها یا تکنیکهای کمی پیچیدهتر مانند میانگینهای متحرک و انواع آنها (میانگین متحرک ساده، میانگین متحرک وزنی)، کلاسیک در میان کلاسیکها. میانگین متحرک یکپارچه اتورگرسیو (ARIMA)و Holt-Winters. همه اینها مدل های قوی برای مجموعه داده های سری زمانی ساده هستند، در حالی که قابلیت تفسیر و کارایی پیش بینی را حفظ می کنند. در عین حال، به دلیل سادگی در مقایسه با سایر رویکردهای پیشرفته، سازگاری آنها با مشکلاتی مانند گسیختگی سازه یا عوامل خارجی بسیار محدود است.
2. سری زمانی چند متغیره کم پیچیدگی (پایین سمت راست)
هنگامی که سری زمانی هنوز الگوهای ساده را نشان می دهد اما چند متغیره است – یا تحت تأثیر چندین عامل خارجی یا پیش بینی کننده های رگرسیون قرار می گیرد – ترجیح داده می شود به مدل هایی با پیچیدگی متوسط مانند رگرسیون پویا متوسل شوید. ARIMA با متغیرهای برون زا (ARIMAX)، خودرگرسیون برداری (VAR)یا پیامبر این مدلهای پیشبینی میتوانند مستقیماً عوامل شناختهشده (مانند تبلیغات یا اثرات قیمت در دادههای رفتار مشتری تاریخی) را در پیشبینیها بگنجانند، بنابراین به عنوان ترکیبی بین مدلهای پیشبینی صرفاً زمانی و مدلهای رگرسیونی عمل میکنند.
این رویکردها عموماً به راحتی قابل تفسیر و پیادهسازی هستند و زمانی که دینامیک زیربنایی مجموعه داده نسبتاً ساده باقی میماند، پیشبینیهای قابل اعتمادی را ایجاد میکنند. از سوی دیگر، اگرچه آنها قادر به ترکیب متغیرهای خارجی هستند، اما هنوز الگوها و روابط نسبتاً ساده ای را در نظر می گیرند و ممکن است با غیرخطی بودن یا تعاملات غیرقابل درک بین متغیرها مشکل داشته باشند.
3. سری زمانی تک متغیره با پیچیدگی بالا (بالا سمت چپ)
سری های زمانی تک متغیره با الگوهای پیچیده، مانند روندهای نامنظم یا چرخه های فصلی متعدد، نیاز به استفاده از مدل های تخصصی مانند TBATS دارند.مثلثاتی، تبدیل جعبه-کاکس، خطاهای ARMA، روند و اجزای فصلی) ARIMA فصلی (SARIMA)یا روش های فضایی مانند رویکردهای مبتنی بر فیلتر کالمن. جنبههایی مانند غیرایستایی، یعنی تکامل ویژگیهای آماری دادهها در طول زمان، و رفتارهای فصلی پیچیده را میتوان توسط این مدلها ثبت کرد، که آنها را برای پیشبینی در سناریوهایی با سریهای بلندمدت یا نامنظم با دینامیک تا حدودی «غیرقابل پیشبینی» مناسب میسازد.
اگرچه در برخورد با پیچیدگیهای داخلی از سایر مدلها بهتر عمل میکنند، اما این روشها از نظر محاسباتی فشردهتر هستند، و در عمل اغلب به تنظیم دقیق برای دقیق و قابل تعمیم نیاز دارند.
4. سری زمانی چند متغیره با پیچیدگی بالا (بالا سمت راست)
آخرین سناریو از چهار سناریو، ما زمینههایی با سریهای زمانی بزرگ داریم که حاوی چندین متغیر زمانی و/یا خارجی هستند و وابستگیهای پیچیده یا غیرخطی را نشان میدهند. این سناریوهای چالش برانگیز به تکنیک های پیشرفته از یادگیری ماشین و چشم انداز یادگیری عمیق نیاز دارند – برای مثال، روش های مجموعه ای مانند جنگل های تصادفی و XGBoost، شبکه های عصبی تکراری مانند حافظه بلند مدت و کوتاه مدت (LSTM) شبکه ها یا حتی معماری های یادگیری عمیق مانند ترانسفورماتورها. با این حال، استفاده از رویکردهای ترکیبی اغلب در این زمینه ها انتخاب عاقلانه ای است.
این مدل های فشرده داده در ثبت تعاملات پیچیده بین متغیرها عالی هستند و برای مجموعه داده های بسیار بزرگ مقیاس پذیر هستند. اما از جنبه منفی، نیازمندیهای آنها سختتر است و قابلیت تفسیر آنها پایینتر است، در صورتی که دادههای باکیفیت کافی برای آموزش آنها ارائه نشود، با خطری بیش از حد برازش میشوند.
نتیجه گیری
این مقاله به بررسی مدل ها و روش های پیش بینی سری های زمانی از دیدگاه انتخاب عملی پرداخته است. بر اساس یک ماتریس تصمیم چهار ربعی، ما روشهای ترجیحی را برای استفاده در چهار نوع سناریوهای مختلف پیشبینی تعریف کردیم، زمان استفاده از هر گروه از مدلها را برجسته میکنیم و مزایا و معایب هر کدام را برجسته میکنیم.
