Anais Dotis-Georgiou، مدافع توسعه دهنده در InfluxData – سری مصاحبه


Anais Dotis-Georgiou یک مدافع توسعه دهنده InfluxData است که علاقه زیادی به زیباسازی داده ها با استفاده از تجزیه و تحلیل داده، هوش مصنوعی و یادگیری ماشین دارد. او داده‌هایی را که جمع‌آوری می‌کند می‌گیرد، ترکیبی از تحقیق، اکتشاف و مهندسی را انجام می‌دهد تا داده‌ها را به چیزی با عملکرد، ارزش و زیبایی تبدیل کند. وقتی او پشت صفحه نیست، می توانید او را در بیرون از خانه در حال کشیدن نقاشی، کشش، سوار شدن یا تعقیب توپ فوتبال بیابید.

InfluxData ساختمان شرکت است InfluxDB، پایگاه داده سری زمانی متن باز است که توسط بیش از یک میلیون توسعه دهنده در سراسر جهان استفاده می شود. ماموریت آنها کمک به توسعه دهندگان برای ساخت سیستم های هوشمند و بلادرنگ با داده های سری زمانی است.

آیا می توانید کمی در مورد سفر خود از دستیار تحقیقاتی تا تبدیل شدن به یک مدافع اصلی توسعه دهنده در InfluxData به اشتراک بگذارید؟ پیشینه شما در تجزیه و تحلیل داده ها و یادگیری ماشین چگونه نقش فعلی شما را شکل داده است؟

من مدرک کارشناسی خود را در رشته مهندسی شیمی با تمرکز بر مهندسی زیست پزشکی به دست آوردم و در نهایت در آزمایشگاه هایی کار کردم که ساخت واکسن و تشخیص اوتیسم پیش از تولد را انجام می دادند. از آنجا، من شروع به برنامه نویسی ربات های جابجایی مایعات کردم و به دانشمندان داده کمک کردم تا پارامترهای تشخیص ناهنجاری را درک کنند، که باعث شد بیشتر به برنامه نویسی علاقه مند شوم.

سپس نماینده توسعه فروش در Oracle شدم و متوجه شدم که واقعاً باید روی کدنویسی تمرکز کنم. من در دانشگاه تگزاس در زمینه تجزیه و تحلیل داده ها در یک اردوی راه اندازی برنامه نویسی شرکت کردم و توانستم به فناوری، به ویژه روابط توسعه دهندگان نفوذ کنم.

من از یک پیشینه فنی آمدم، بنابراین این به شکل گیری نقش فعلی من کمک کرد. با وجود اینکه تجربه توسعه نداشتم، می‌توانستم با افرادی که سابقه و ذهن مهندسی داشتند، اما سعی می‌کردند نرم‌افزار را هم یاد بگیرند، ارتباط برقرار کرده و با آنها همدلی کنم. بنابراین، وقتی محتوا یا آموزش‌های فنی ایجاد می‌کردم، می‌توانم به کاربران جدید کمک کنم تا بر چالش‌های فنی غلبه کنند، در حالی که مکالمه را در زمینه‌ای قرار می‌دادم که برای آنها مرتبط و جالب بود.

به نظر می رسد کار شما خلاقیت را با تخصص فنی ترکیب می کند. چگونه می‌توانید اشتیاق خود به «زیبا کردن» داده‌ها را در کار روزانه خود در InfluxData بگنجانید؟

اخیراً بیشتر بر مهندسی داده متمرکز شده ام تا تجزیه و تحلیل داده ها. در حالی که من به اندازه گذشته روی تجزیه و تحلیل داده ها تمرکز نمی کنم، هنوز هم از ریاضیات لذت می برم – فکر می کنم ریاضی زیباست و در فرصتی برای توضیح ریاضیات پشت یک الگوریتم تلاش خواهم کرد.

InfluxDB سنگ بنای فضای داده سری زمانی بوده است. جامعه منبع باز را چگونه بر توسعه و تکامل InfluxDB تأثیر می گذارد؟

InfluxData به معماری داده باز و اکوسیستم آپاچی بسیار متعهد است. سال گذشته ما InfluxDB 3.0 را معرفی کردیم، هسته جدید InfluxDB که به زبان Rust نوشته شده و با Apache Flight، DataFusion، Arrow و Parket ساخته شده است – چیزی که ما آن را پشته FDAP می نامیم. همانطور که مهندسان InfluxData به مشارکت در پروژه‌های بالادستی ادامه می‌دهند، جامعه همچنان به رشد خود ادامه می‌دهد و مجموعه پروژه‌های Apache Arrow با ویژگی‌ها و عملکردهای بیشتر و قابلیت همکاری گسترده‌تر، آسان‌تر می‌شود.

برخی از هیجان‌انگیزترین پروژه‌های منبع باز یا مشارکت‌هایی که اخیراً در زمینه داده‌های سری زمانی و هوش مصنوعی دیده‌اید، کدام‌اند؟

دیدن اضافه شدن LLMها که برای پیش‌بینی صفر شات تغییر کاربری داده یا در سری‌های زمانی اعمال می‌شوند، بسیار جالب است. Autolab مجموعه ای از مدل های زبان سری زمانی باز دارد و TimeGPT نمونه عالی دیگری است.

علاوه بر این، کتابخانه های مختلف پردازش جریان متن باز، از جمله بایت واکس و Mage.ai، که به کاربران اجازه می دهد از مدل های Hugging Face استفاده کنند و آنها را ترکیب کنند بسیار هیجان انگیز هستند.

چگونه InfluxData اطمینان حاصل می کند که ابتکارات منبع باز خود برای جامعه توسعه دهندگان مرتبط و مفید باقی می مانند، به ویژه با پیشرفت های سریع در هوش مصنوعی و یادگیری ماشین؟

ابتکارات InfluxData با تمرکز بر مشارکت در پروژه‌های منبع باز که شرکت‌های ویژه هوش مصنوعی نیز از آن بهره می‌برند، مرتبط و سودمند باقی می‌مانند. برای مثال، هر بار که InfluxDB به Apache Arrow، Parquet یا DataFusion کمک می‌کند، از دیگر فناوری‌ها و شرکت‌های هوش مصنوعی که از آن استفاده می‌کنند، بهره می‌برد، از جمله Apache Spark، DataBricks، Rapids.ai، Snowflake، BigQuery، HuggingFace و غیره.

مدل‌های زبان سری زمانی به طور فزاینده‌ای در تحلیل‌های پیش‌بینی حیاتی می‌شوند. آیا می توانید توضیح دهید که چگونه این مدل ها پیش بینی سری های زمانی و تشخیص ناهنجاری را تغییر می دهند؟

سری های زمانی LM از مدل های خطی و آماری بهتر عمل می کنند و در عین حال پیش بینی شات صفر را نیز ارائه می دهند. این بدان معنی است که شما نیازی به آموزش مدل قبل از استفاده از داده های خود ندارید. همچنین نیازی به تنظیم یک مدل آماری نیست، که نیاز به تخصص عمیق در آمار سری های زمانی دارد.

با این حال، برخلاف پردازش زبان طبیعی، فیلد سری زمانی فاقد مجموعه داده‌های مقیاس بزرگ در دسترس عموم است. اکثر مدل های از پیش آموزش دیده موجود برای سری های زمانی بر روی اندازه های نمونه کوچک آموزش داده می شوند که فقط شامل چند هزار – یا شاید حتی صدها – نمونه هستند. اگرچه این مجموعه داده‌های معیار در پیشرفت جامعه سری‌های زمانی مؤثر بوده‌اند، حجم نمونه محدود و عدم کلیت آن‌ها چالش‌هایی را برای مدل‌های یادگیری عمیق پیش از آموزش ایجاد می‌کند.

با این اوصاف، این همان چیزی است که به اعتقاد من، دستیابی به LM های سری زمانی منبع باز را سخت می کند. TimesFM گوگل و Tiny Time Mixers IBM بر روی مجموعه داده های عظیم با صدها میلیارد نقطه داده آموزش دیده اند. برای مثال، با TimesFM، فرآیند پیش‌آموزش با استفاده از Google Cloud TPU v3–256 انجام می‌شود که از 256 هسته TPU با مجموع 2 ترابایت حافظه تشکیل شده است. فرآیند پیش‌آموزشی تقریباً ده روز طول می‌کشد و به مدلی با 1.2 میلیارد پارامتر منجر می‌شود. سپس مدل از پیش آموزش‌دیده شده با استفاده از نرخ یادگیری پایین‌تر و دوره‌های کمتر، روی وظایف و مجموعه داده‌های پایین‌دستی خاص تنظیم می‌شود.

امیدواریم که این تغییر به این معنا باشد که افراد بیشتری می توانند بدون دانش عمیق دامنه، پیش بینی های دقیقی انجام دهند. با این حال، ارزیابی مزایا و معایب استفاده از مدل‌های محاسباتی گران‌قیمت مانند LM‌های سری زمانی از منظر هزینه مالی و زیست‌محیطی، کار زیادی می‌طلبد.

این پست بلاگ صورت در آغوش گرفتن مثال عالی دیگری از پیش بینی سری های زمانی را شرح می دهد.

مزایای کلیدی استفاده از LM های سری زمانی نسبت به روش های سنتی، به ویژه از نظر مدیریت الگوهای پیچیده و عملکرد صفر شات چیست؟

مزیت حیاتی این است که نیازی به آموزش و بازآموزی یک مدل بر روی داده های سری زمانی شما نیست. این امیدواریم مشکل یادگیری ماشین آنلاین نظارت بر رانش مدل شما و شروع آموزش مجدد را از بین ببرد و در حالت ایده آل پیچیدگی خط لوله پیش بینی شما را از بین ببرد.

همچنین برای تخمین همبستگی ها یا روابط متقاطع برای مدل های آماری چند متغیره نیازی به تقلا نیست. واریانس اضافی اضافه شده توسط تخمین ها اغلب به پیش بینی های حاصل آسیب می زند و می تواند باعث شود مدل همبستگی های جعلی را بیاموزد.

آیا می‌توانید چند مثال عملی از نحوه پیاده‌سازی مدل‌هایی مانند TimesFM Google، TinyTimeMixer IBM و AutoLab’s MOMENT در سناریوهای دنیای واقعی ارائه دهید؟

پاسخ به این مشکل است؛ از آنجایی که این مدل ها در مراحل ابتدایی نسبی خود هستند، اطلاعات کمی در مورد نحوه استفاده شرکت ها از آنها در سناریوهای دنیای واقعی وجود دارد.

طبق تجربه شما، سازمان ها معمولاً هنگام ادغام LM های سری زمانی در زیرساخت داده موجود خود با چه چالش هایی مواجه هستند و چگونه می توانند بر آنها غلبه کنند؟

LM های سری زمانی آنقدر جدید هستند که نمی دانم سازمان ها با چه چالش های خاصی روبرو هستند. با این حال، تصور می‌کنم که آنها با همان چالش‌هایی که هنگام ترکیب هر مدل GenAI در خط لوله داده‌های شما با آن مواجه هستند، مواجه خواهند شد. این چالش ها عبارتند از:

  • مسائل مربوط به سازگاری و ادغام داده ها: LMهای سری زمانی اغلب به قالب‌های داده خاص، مهر زمانی ثابت و فواصل منظم نیاز دارند، اما زیرساخت داده‌های موجود ممکن است شامل داده‌های سری زمانی بدون ساختار یا ناسازگار باشد که در سیستم‌های مختلف پخش شده‌اند، مانند پایگاه‌های داده قدیمی، ذخیره‌سازی ابری یا جریان‌های زمان واقعی. برای رفع این مشکل، تیم ها باید خطوط لوله قوی ETL (استخراج، تبدیل، بارگذاری) را برای پیش پردازش، تمیز کردن و تراز کردن داده های سری زمانی پیاده سازی کنند.
  • مقیاس پذیری و عملکرد مدل: LM های سری زمانی، به ویژه مدل های یادگیری عمیق مانند ترانسفورماتورها، می توانند منابع فشرده ای داشته باشند و به منابع محاسباتی و حافظه قابل توجهی برای پردازش حجم زیادی از داده های سری زمانی در زمان واقعی یا تقریباً واقعی نیاز دارند. این امر مستلزم استقرار مدل‌ها بر روی پلتفرم‌های مقیاس‌پذیر مانند Kubernetes یا سرویس‌های ML با مدیریت ابری، در صورت نیاز از شتاب GPU و استفاده از چارچوب‌های پردازش توزیع‌شده مانند Dask یا Ray برای موازی کردن استنتاج مدل است.
  • قابل تفسیر و قابل اعتماد بودن: مدل‌های سری زمانی، به‌ویژه LM‌های پیچیده، به‌عنوان «جعبه‌های سیاه» دیده می‌شوند که تفسیر پیش‌بینی‌ها را دشوار می‌کند. این می تواند به ویژه در صنایع تحت نظارت مانند مالی یا مراقبت های بهداشتی مشکل ساز باشد.
  • حریم خصوصی و امنیت داده ها: مدیریت داده‌های سری زمانی اغلب شامل اطلاعات حساسی مانند داده‌های حسگر IoT یا داده‌های تراکنش مالی است، بنابراین اطمینان از امنیت و انطباق داده‌ها هنگام یکپارچه‌سازی LM‌ها حیاتی است. سازمان‌ها باید اطمینان حاصل کنند که خطوط و مدل‌های داده با بهترین شیوه‌های امنیتی، از جمله رمزگذاری و کنترل دسترسی، مطابقت دارند و مدل‌ها را در محیط‌های ایمن و ایزوله مستقر می‌کنند.

با نگاه به آینده، نقش LM های سری زمانی را در حال تکامل در زمینه تجزیه و تحلیل پیش بینی و هوش مصنوعی چگونه تصور می کنید؟ آیا روندها یا فناوری های نوظهوری وجود دارد که شما را به طور خاص هیجان زده کند؟

گام بعدی احتمالی در تکامل LMهای سری زمانی می‌تواند معرفی ابزارهایی باشد که کاربران را قادر می‌سازد تا آسان‌تر از آنها استفاده کنند، به آنها دسترسی داشته باشند. بسیاری از LM های سری زمانی که من استفاده کرده ام به محیط های بسیار خاصی نیاز دارند و فاقد وسعت آموزش و مستندات هستند. در نهایت، این پروژه ها در مراحل اولیه خود هستند، اما دیدن چگونگی تکامل آنها در ماه ها و سال های آینده هیجان انگیز خواهد بود.

با تشکر از شما برای مصاحبه عالی، خوانندگانی که مایل به کسب اطلاعات بیشتر هستند باید از آن بازدید کنند InfluxData.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *