Anais Dotis-Georgiou یک مدافع توسعه دهنده InfluxData است که علاقه زیادی به زیباسازی داده ها با استفاده از تجزیه و تحلیل داده، هوش مصنوعی و یادگیری ماشین دارد. او دادههایی را که جمعآوری میکند میگیرد، ترکیبی از تحقیق، اکتشاف و مهندسی را انجام میدهد تا دادهها را به چیزی با عملکرد، ارزش و زیبایی تبدیل کند. وقتی او پشت صفحه نیست، می توانید او را در بیرون از خانه در حال کشیدن نقاشی، کشش، سوار شدن یا تعقیب توپ فوتبال بیابید.
InfluxData ساختمان شرکت است InfluxDB، پایگاه داده سری زمانی متن باز است که توسط بیش از یک میلیون توسعه دهنده در سراسر جهان استفاده می شود. ماموریت آنها کمک به توسعه دهندگان برای ساخت سیستم های هوشمند و بلادرنگ با داده های سری زمانی است.
آیا می توانید کمی در مورد سفر خود از دستیار تحقیقاتی تا تبدیل شدن به یک مدافع اصلی توسعه دهنده در InfluxData به اشتراک بگذارید؟ پیشینه شما در تجزیه و تحلیل داده ها و یادگیری ماشین چگونه نقش فعلی شما را شکل داده است؟
من مدرک کارشناسی خود را در رشته مهندسی شیمی با تمرکز بر مهندسی زیست پزشکی به دست آوردم و در نهایت در آزمایشگاه هایی کار کردم که ساخت واکسن و تشخیص اوتیسم پیش از تولد را انجام می دادند. از آنجا، من شروع به برنامه نویسی ربات های جابجایی مایعات کردم و به دانشمندان داده کمک کردم تا پارامترهای تشخیص ناهنجاری را درک کنند، که باعث شد بیشتر به برنامه نویسی علاقه مند شوم.
سپس نماینده توسعه فروش در Oracle شدم و متوجه شدم که واقعاً باید روی کدنویسی تمرکز کنم. من در دانشگاه تگزاس در زمینه تجزیه و تحلیل داده ها در یک اردوی راه اندازی برنامه نویسی شرکت کردم و توانستم به فناوری، به ویژه روابط توسعه دهندگان نفوذ کنم.
من از یک پیشینه فنی آمدم، بنابراین این به شکل گیری نقش فعلی من کمک کرد. با وجود اینکه تجربه توسعه نداشتم، میتوانستم با افرادی که سابقه و ذهن مهندسی داشتند، اما سعی میکردند نرمافزار را هم یاد بگیرند، ارتباط برقرار کرده و با آنها همدلی کنم. بنابراین، وقتی محتوا یا آموزشهای فنی ایجاد میکردم، میتوانم به کاربران جدید کمک کنم تا بر چالشهای فنی غلبه کنند، در حالی که مکالمه را در زمینهای قرار میدادم که برای آنها مرتبط و جالب بود.
به نظر می رسد کار شما خلاقیت را با تخصص فنی ترکیب می کند. چگونه میتوانید اشتیاق خود به «زیبا کردن» دادهها را در کار روزانه خود در InfluxData بگنجانید؟
اخیراً بیشتر بر مهندسی داده متمرکز شده ام تا تجزیه و تحلیل داده ها. در حالی که من به اندازه گذشته روی تجزیه و تحلیل داده ها تمرکز نمی کنم، هنوز هم از ریاضیات لذت می برم – فکر می کنم ریاضی زیباست و در فرصتی برای توضیح ریاضیات پشت یک الگوریتم تلاش خواهم کرد.
InfluxDB سنگ بنای فضای داده سری زمانی بوده است. جامعه منبع باز را چگونه بر توسعه و تکامل InfluxDB تأثیر می گذارد؟
InfluxData به معماری داده باز و اکوسیستم آپاچی بسیار متعهد است. سال گذشته ما InfluxDB 3.0 را معرفی کردیم، هسته جدید InfluxDB که به زبان Rust نوشته شده و با Apache Flight، DataFusion، Arrow و Parket ساخته شده است – چیزی که ما آن را پشته FDAP می نامیم. همانطور که مهندسان InfluxData به مشارکت در پروژههای بالادستی ادامه میدهند، جامعه همچنان به رشد خود ادامه میدهد و مجموعه پروژههای Apache Arrow با ویژگیها و عملکردهای بیشتر و قابلیت همکاری گستردهتر، آسانتر میشود.
برخی از هیجانانگیزترین پروژههای منبع باز یا مشارکتهایی که اخیراً در زمینه دادههای سری زمانی و هوش مصنوعی دیدهاید، کداماند؟
دیدن اضافه شدن LLMها که برای پیشبینی صفر شات تغییر کاربری داده یا در سریهای زمانی اعمال میشوند، بسیار جالب است. Autolab مجموعه ای از مدل های زبان سری زمانی باز دارد و TimeGPT نمونه عالی دیگری است.
علاوه بر این، کتابخانه های مختلف پردازش جریان متن باز، از جمله بایت واکس و Mage.ai، که به کاربران اجازه می دهد از مدل های Hugging Face استفاده کنند و آنها را ترکیب کنند بسیار هیجان انگیز هستند.
چگونه InfluxData اطمینان حاصل می کند که ابتکارات منبع باز خود برای جامعه توسعه دهندگان مرتبط و مفید باقی می مانند، به ویژه با پیشرفت های سریع در هوش مصنوعی و یادگیری ماشین؟
ابتکارات InfluxData با تمرکز بر مشارکت در پروژههای منبع باز که شرکتهای ویژه هوش مصنوعی نیز از آن بهره میبرند، مرتبط و سودمند باقی میمانند. برای مثال، هر بار که InfluxDB به Apache Arrow، Parquet یا DataFusion کمک میکند، از دیگر فناوریها و شرکتهای هوش مصنوعی که از آن استفاده میکنند، بهره میبرد، از جمله Apache Spark، DataBricks، Rapids.ai، Snowflake، BigQuery، HuggingFace و غیره.
مدلهای زبان سری زمانی به طور فزایندهای در تحلیلهای پیشبینی حیاتی میشوند. آیا می توانید توضیح دهید که چگونه این مدل ها پیش بینی سری های زمانی و تشخیص ناهنجاری را تغییر می دهند؟
سری های زمانی LM از مدل های خطی و آماری بهتر عمل می کنند و در عین حال پیش بینی شات صفر را نیز ارائه می دهند. این بدان معنی است که شما نیازی به آموزش مدل قبل از استفاده از داده های خود ندارید. همچنین نیازی به تنظیم یک مدل آماری نیست، که نیاز به تخصص عمیق در آمار سری های زمانی دارد.
با این حال، برخلاف پردازش زبان طبیعی، فیلد سری زمانی فاقد مجموعه دادههای مقیاس بزرگ در دسترس عموم است. اکثر مدل های از پیش آموزش دیده موجود برای سری های زمانی بر روی اندازه های نمونه کوچک آموزش داده می شوند که فقط شامل چند هزار – یا شاید حتی صدها – نمونه هستند. اگرچه این مجموعه دادههای معیار در پیشرفت جامعه سریهای زمانی مؤثر بودهاند، حجم نمونه محدود و عدم کلیت آنها چالشهایی را برای مدلهای یادگیری عمیق پیش از آموزش ایجاد میکند.
با این اوصاف، این همان چیزی است که به اعتقاد من، دستیابی به LM های سری زمانی منبع باز را سخت می کند. TimesFM گوگل و Tiny Time Mixers IBM بر روی مجموعه داده های عظیم با صدها میلیارد نقطه داده آموزش دیده اند. برای مثال، با TimesFM، فرآیند پیشآموزش با استفاده از Google Cloud TPU v3–256 انجام میشود که از 256 هسته TPU با مجموع 2 ترابایت حافظه تشکیل شده است. فرآیند پیشآموزشی تقریباً ده روز طول میکشد و به مدلی با 1.2 میلیارد پارامتر منجر میشود. سپس مدل از پیش آموزشدیده شده با استفاده از نرخ یادگیری پایینتر و دورههای کمتر، روی وظایف و مجموعه دادههای پاییندستی خاص تنظیم میشود.
امیدواریم که این تغییر به این معنا باشد که افراد بیشتری می توانند بدون دانش عمیق دامنه، پیش بینی های دقیقی انجام دهند. با این حال، ارزیابی مزایا و معایب استفاده از مدلهای محاسباتی گرانقیمت مانند LMهای سری زمانی از منظر هزینه مالی و زیستمحیطی، کار زیادی میطلبد.
این پست بلاگ صورت در آغوش گرفتن مثال عالی دیگری از پیش بینی سری های زمانی را شرح می دهد.
مزایای کلیدی استفاده از LM های سری زمانی نسبت به روش های سنتی، به ویژه از نظر مدیریت الگوهای پیچیده و عملکرد صفر شات چیست؟
مزیت حیاتی این است که نیازی به آموزش و بازآموزی یک مدل بر روی داده های سری زمانی شما نیست. این امیدواریم مشکل یادگیری ماشین آنلاین نظارت بر رانش مدل شما و شروع آموزش مجدد را از بین ببرد و در حالت ایده آل پیچیدگی خط لوله پیش بینی شما را از بین ببرد.
همچنین برای تخمین همبستگی ها یا روابط متقاطع برای مدل های آماری چند متغیره نیازی به تقلا نیست. واریانس اضافی اضافه شده توسط تخمین ها اغلب به پیش بینی های حاصل آسیب می زند و می تواند باعث شود مدل همبستگی های جعلی را بیاموزد.
آیا میتوانید چند مثال عملی از نحوه پیادهسازی مدلهایی مانند TimesFM Google، TinyTimeMixer IBM و AutoLab’s MOMENT در سناریوهای دنیای واقعی ارائه دهید؟
پاسخ به این مشکل است؛ از آنجایی که این مدل ها در مراحل ابتدایی نسبی خود هستند، اطلاعات کمی در مورد نحوه استفاده شرکت ها از آنها در سناریوهای دنیای واقعی وجود دارد.
طبق تجربه شما، سازمان ها معمولاً هنگام ادغام LM های سری زمانی در زیرساخت داده موجود خود با چه چالش هایی مواجه هستند و چگونه می توانند بر آنها غلبه کنند؟
LM های سری زمانی آنقدر جدید هستند که نمی دانم سازمان ها با چه چالش های خاصی روبرو هستند. با این حال، تصور میکنم که آنها با همان چالشهایی که هنگام ترکیب هر مدل GenAI در خط لوله دادههای شما با آن مواجه هستند، مواجه خواهند شد. این چالش ها عبارتند از:
- مسائل مربوط به سازگاری و ادغام داده ها: LMهای سری زمانی اغلب به قالبهای داده خاص، مهر زمانی ثابت و فواصل منظم نیاز دارند، اما زیرساخت دادههای موجود ممکن است شامل دادههای سری زمانی بدون ساختار یا ناسازگار باشد که در سیستمهای مختلف پخش شدهاند، مانند پایگاههای داده قدیمی، ذخیرهسازی ابری یا جریانهای زمان واقعی. برای رفع این مشکل، تیم ها باید خطوط لوله قوی ETL (استخراج، تبدیل، بارگذاری) را برای پیش پردازش، تمیز کردن و تراز کردن داده های سری زمانی پیاده سازی کنند.
- مقیاس پذیری و عملکرد مدل: LM های سری زمانی، به ویژه مدل های یادگیری عمیق مانند ترانسفورماتورها، می توانند منابع فشرده ای داشته باشند و به منابع محاسباتی و حافظه قابل توجهی برای پردازش حجم زیادی از داده های سری زمانی در زمان واقعی یا تقریباً واقعی نیاز دارند. این امر مستلزم استقرار مدلها بر روی پلتفرمهای مقیاسپذیر مانند Kubernetes یا سرویسهای ML با مدیریت ابری، در صورت نیاز از شتاب GPU و استفاده از چارچوبهای پردازش توزیعشده مانند Dask یا Ray برای موازی کردن استنتاج مدل است.
- قابل تفسیر و قابل اعتماد بودن: مدلهای سری زمانی، بهویژه LMهای پیچیده، بهعنوان «جعبههای سیاه» دیده میشوند که تفسیر پیشبینیها را دشوار میکند. این می تواند به ویژه در صنایع تحت نظارت مانند مالی یا مراقبت های بهداشتی مشکل ساز باشد.
- حریم خصوصی و امنیت داده ها: مدیریت دادههای سری زمانی اغلب شامل اطلاعات حساسی مانند دادههای حسگر IoT یا دادههای تراکنش مالی است، بنابراین اطمینان از امنیت و انطباق دادهها هنگام یکپارچهسازی LMها حیاتی است. سازمانها باید اطمینان حاصل کنند که خطوط و مدلهای داده با بهترین شیوههای امنیتی، از جمله رمزگذاری و کنترل دسترسی، مطابقت دارند و مدلها را در محیطهای ایمن و ایزوله مستقر میکنند.
با نگاه به آینده، نقش LM های سری زمانی را در حال تکامل در زمینه تجزیه و تحلیل پیش بینی و هوش مصنوعی چگونه تصور می کنید؟ آیا روندها یا فناوری های نوظهوری وجود دارد که شما را به طور خاص هیجان زده کند؟
گام بعدی احتمالی در تکامل LMهای سری زمانی میتواند معرفی ابزارهایی باشد که کاربران را قادر میسازد تا آسانتر از آنها استفاده کنند، به آنها دسترسی داشته باشند. بسیاری از LM های سری زمانی که من استفاده کرده ام به محیط های بسیار خاصی نیاز دارند و فاقد وسعت آموزش و مستندات هستند. در نهایت، این پروژه ها در مراحل اولیه خود هستند، اما دیدن چگونگی تکامل آنها در ماه ها و سال های آینده هیجان انگیز خواهد بود.
با تشکر از شما برای مصاحبه عالی، خوانندگانی که مایل به کسب اطلاعات بیشتر هستند باید از آن بازدید کنند InfluxData.