اریک لاندو، یکی از بنیانگذاران و مدیر عامل Encord - سری مصاحبه

اریک لاندو مدیرعامل و یکی از بنیانگذاران ثبت کنید، یک پلت فرم یادگیری فعال برای بینایی کامپیوتر. اریک محقق کمی در یک میز سهام جهانی دلتا وان بود که هزاران مدل را به تولید رساند. قبل از Encord، او نزدیک به یک دهه را در تجارت با فرکانس بالا در DRW گذراند. او دارای مدرک SM در فیزیک کاربردی از دانشگاه هاروارد، کارشناسی ارشد در مهندسی برق و لیسانس فیزیک از دانشگاه استنفورد است.

اریک در اوقات فراغت خود از بازی با ChatGPT و مدل های زبان بزرگ و کوکتل سازی صنایع دستی لذت می برد.

چه چیزی الهام بخش شما برای تأسیس Encord شد و چگونه تجربه شما در فیزیک ذرات و امور مالی کمی رویکرد شما را برای حل “مشکل داده” در هوش مصنوعی شکل داد؟

من اولین بار در زمان کار در مرکز شتاب دهنده خطی استنفورد (SLAC) در حین کار در فیزیک ذرات و برخورد با مجموعه داده های بسیار بزرگ به یادگیری ماشین فکر کردم. من از نرم‌افزاری استفاده می‌کردم که توسط فیزیکدانان برای فیزیکدانان طراحی شده بود، یعنی از نظر تجربه کاربری دلپذیر چیزهای زیادی وجود داشت. با ابزارهای ساده تر، می توانستم تحلیل ها را خیلی سریعتر اجرا کنم.

بعداً، با کار در بخش مالی کمی در DRW، مسئولیت ایجاد هزاران مدل را بر عهده گرفتم که در تولید مستقر شدند. مشابه تجربه‌ام در فیزیک، دریافتم که داده‌های با کیفیت بالا در ساخت مدل‌های دقیق بسیار مهم است و مدیریت داده‌های پیچیده و در مقیاس بزرگ دشوار است. اولریک تجربه مشابهی در تجسم مجموعه داده های تصویری بزرگ برای بینایی کامپیوتر داشت.

وقتی در مورد ایده اولیه او برای Encord شنیدم، بلافاصله متوجه شدم و اهمیت آن را درک کردم. من و اولریک با هم فرصت بزرگی برای ایجاد یک پلتفرم برای خودکارسازی و ساده‌سازی فرآیند توسعه داده‌های هوش مصنوعی دیدیم، که این کار را برای تیم‌ها آسان‌تر می‌کند تا بهترین داده‌ها را در مدل‌ها دریافت کنند و سیستم‌های هوش مصنوعی قابل اعتماد بسازند.

آیا می توانید در مورد چشم انداز پشت Encord و مقایسه آن با روزهای اولیه محاسبات یا اینترنت از نظر پتانسیل و چالش توضیح دهید؟

چشم انداز Encord این است که پلتفرم اساسی باشد که شرکت ها برای تبدیل داده های خود به مدل های هوش مصنوعی کاربردی به آن تکیه می کنند. ما لایه ای بین داده های یک شرکت و هوش مصنوعی آنها هستیم.

از بسیاری جهات، هوش مصنوعی منعکس کننده تغییرات پارادایم قبلی مانند محاسبات شخصی و اینترنت است، به طوری که در جریان کار برای هر فرد، کسب و کار، ملت و صنعت تبدیل می شود. برخلاف انقلاب‌های تکنولوژیک قبلی که تا حد زیادی با تنگنا مواجه شده‌اند قانون مور با رشد ترکیبی محاسباتی 30 برابری هر 10 سال، توسعه هوش مصنوعی از نوآوری‌های همزمان بهره برده است. بنابراین با سرعت بسیار بیشتری در حال حرکت است. به قول جنسن هوانگ از NVIDIA: “برای اولین بار، ما شاهد نمایی ترکیبی هستیم… ما هر ده سال یک میلیون بار ترکیب می‌شویم. نه صد بار، نه هزار بار، نه یک میلیون بار.» بدون هذل، ما شاهد سریع ترین تکنولوژی در تاریخ بشر هستیم.

پتانسیل در اینجا بسیار زیاد است: با خودکارسازی و مقیاس‌بندی مدیریت داده‌های باکیفیت برای هوش مصنوعی، در حال رفع تنگنا هستیم که مانع از پذیرش گسترده‌تر هوش مصنوعی می‌شود. چالش‌ها یادآور موانع اولیه در دوره‌های فناوری قبلی هستند: سیلوها، فقدان بهترین شیوه‌ها، محدودیت‌ها برای کاربران غیر فنی، و کمبود انتزاع‌های کاملاً تعریف‌شده.

Encord Index به عنوان یک ابزار کلیدی برای مدیریت و مدیریت داده های هوش مصنوعی قرار گرفته است. چگونه خود را از سایر پلتفرم های مدیریت داده موجود در حال حاضر متمایز می کند؟

چند راه وجود دارد که Encord Index متمایز می شود:

شاخص مقیاس پذیر است: به کاربران اجازه می دهد تا میلیاردها و نه میلیون ها نقطه داده را مدیریت کنند. ابزارهای دیگر با مشکلات مقیاس پذیری برای داده های بدون ساختار مواجه هستند و در ادغام تمام داده های مرتبط در یک سازمان محدود هستند.

شاخص انعطاف پذیر است: به طور مستقیم با ذخیره سازی داده های خصوصی و ارائه دهندگان ذخیره سازی ابری مانند AWS، GCP و Azure ادغام می شود. برخلاف سایر ابزارهایی که به یک ارائه دهنده ابری یا سیستم ذخیره سازی داخلی محدود می شوند، Index نسبت به جایی که داده ها قرار دارند، آگنوستیک است. این به شما امکان می‌دهد داده‌ها را از منابع بسیاری با نظارت و کنترل‌های دسترسی مناسب مدیریت کنید که به آن‌ها اجازه می‌دهد برنامه‌های هوش مصنوعی ایمن و سازگار را توسعه دهند.

شاخص چندوجهی است: از هوش مصنوعی چندوجهی، مدیریت داده ها در قالب تصاویر، فیلم ها، صدا، متن، اسناد و موارد دیگر پشتیبانی می کند. ایندکس مانند بسیاری از ابزارهای LLM امروزی به یک نوع داده محدود نمی شود. شناخت انسان چندوجهی است و ما معتقدیم هوش مصنوعی چندوجهی در قلب موج بعدی پیشرفت‌های هوش مصنوعی خواهد بود که جایگزین چت‌بات‌ها و LLM‌ها خواهد شد.

Encord Index از چه راه‌هایی فرآیند انتخاب داده‌های مناسب برای مدل‌های هوش مصنوعی را بهبود می‌بخشد و این چه تأثیری بر عملکرد مدل دارد؟

Encord Index انتخاب داده‌ها را با خودکارسازی مجموعه داده‌های بزرگ افزایش می‌دهد و به تیم‌ها کمک می‌کند تا تنها مرتبط‌ترین داده‌ها را شناسایی و حفظ کنند و در عین حال داده‌های غیر اطلاعاتی یا مغرضانه را حذف کنند. این فرآیند نه تنها اندازه مجموعه داده‌ها را کاهش می‌دهد، بلکه کیفیت داده‌های مورد استفاده برای آموزش مدل‌های هوش مصنوعی را نیز به میزان قابل توجهی بهبود می‌بخشد. مشتریان ما تا 20 درصد بهبود در مدل‌های خود دیده‌اند و در عین حال به کاهش 35 درصدی اندازه مجموعه داده‌ها و صرفه‌جویی صدها هزار دلاری در هزینه‌های محاسباتی و حاشیه‌نویسی انسانی دست یافته‌اند.

با ادغام سریع فناوری‌های پیشرفته مانند مدل Meta’s Segment Anything، چگونه Encord در چشم انداز هوش مصنوعی که به سرعت در حال تکامل است، پیشتاز است؟

ما عمداً این پلتفرم را ساختیم تا بتوانیم به سرعت با فناوری‌های جدید سازگار شویم. ما بر روی ارائه یک رویکرد مقیاس‌پذیر و نرم‌افزار تمرکز می‌کنیم که به راحتی پیشرفت‌هایی مانند SAM را در بر می‌گیرد و تضمین می‌کند که کاربران ما همیشه به جدیدترین ابزارها برای رقابتی ماندن مجهز هستند.

ما قصد داریم با تمرکز بر هوش مصنوعی چندوجهی جلوتر بمانیم. پلت فرم Encord از قبل می تواند انواع داده های پیچیده مانند تصاویر، ویدئوها و متن را مدیریت کند، بنابراین با پیشرفت های بیشتر در هوش مصنوعی چندوجهی، ما آماده هستیم.

رایج‌ترین چالش‌هایی که شرکت‌ها هنگام مدیریت داده‌های هوش مصنوعی با آن مواجه هستند، چیست و Encord چگونه به رفع این مشکلات کمک می‌کند؟

شرکت ها با 3 چالش اصلی روبرو هستند:

سازماندهی و کنترل داده ضعیف: وقتی شرکت‌ها برای پیاده‌سازی راه‌حل‌های هوش مصنوعی آماده می‌شوند، اغلب با واقعیت داده‌های مخفی و سازمان‌دهی نشده مواجه می‌شوند که برای هوش مصنوعی آماده نیستند. این داده ها اغلب فاقد حاکمیت قوی در مورد آن هستند و استفاده از بسیاری از آن ها را در سیستم های هوش مصنوعی محدود می کند.
کمبود متخصص انسانی: از آنجایی که مدل‌های هوش مصنوعی با مشکلات پیچیده‌تر مقابله می‌کنند، به زودی کمبود متخصصان حوزه انسانی برای تهیه و اعتبارسنجی داده‌ها وجود خواهد داشت. با افزایش تقاضای هوش مصنوعی یک شرکت، افزایش نیروی انسانی چالش برانگیز و پرهزینه است.
ابزار غیر مقیاس پذیر: مدل‌های هوش مصنوعی کارآمد از نظر داده‌های مورد نیاز برای تنظیم دقیق، اعتبارسنجی، RAG و سایر گردش‌های کاری، بسیار تشنه داده هستند. نسل قبلی ابزارها برای مدیریت میزان داده ها و انواع داده های مورد نیاز برای مدل های درجه تولید امروزی مجهز نیستند.

Encord این مشکلات را با خودکار کردن فرآیند تنظیم داده‌ها در مقیاس برطرف می‌کند، شناسایی داده‌های تأثیرگذار از داده‌های مشکل‌ساز را آسان می‌کند و از ایجاد مجموعه داده‌های آموزشی و اعتبارسنجی مؤثر اطمینان می‌دهد. از یک رویکرد نرم‌افزاری استفاده می‌کند که با تغییر نیازهای مدیریت داده‌ها، به آسانی قابل افزایش یا کاهش است. ابزارهای حاشیه نویسی ما به کمک هوش مصنوعی به متخصصان حوزه انسان در حلقه قدرت می دهد تا کارایی گردش کار را به حداکثر برسانند. این فرآیند به ویژه در صنایعی مانند خدمات مالی و مراقبت های بهداشتی، که در آن مربیان هوش مصنوعی گران هستند، بسیار مهم است. ما مدیریت و درک تمام داده های بدون ساختار سازمان را آسان می کنیم و نیاز به کار دستی را کاهش می دهیم.

چگونه Encord با موضوع سوگیری داده‌ها و مناطقی که در مجموعه داده‌ها نشان داده نشده‌اند مقابله می‌کند تا از مدل‌های هوش مصنوعی منصفانه و متعادل اطمینان حاصل کند؟

مقابله با سوگیری داده ها برای ما در Encord یک تمرکز حیاتی است. پلتفرم ما به طور خودکار مناطقی را که ممکن است داده‌ها در آن‌ها مغرضانه باشد، شناسایی و نمایان می‌کند و به تیم‌های هوش مصنوعی این امکان را می‌دهد تا قبل از اینکه بر عملکرد مدل تأثیر بگذارند، به این مسائل بپردازند. ما همچنین اطمینان می‌دهیم که مناطقی که کمتر در مجموعه داده‌ها ارائه شده‌اند به درستی گنجانده شده‌اند، که به توسعه مدل‌های هوش مصنوعی منصفانه‌تر و متعادل‌تر کمک می‌کند. با استفاده از ابزارهای نظارت ما، تیم ها می توانند مطمئن باشند که مدل های آنها بر اساس داده های متنوع و نماینده آموزش دیده اند.

Encord اخیراً 30 میلیون دلار بودجه سری B را تأمین کرده است. چگونه این بودجه به نقشه راه و برنامه های توسعه محصول شما سرعت می بخشد؟

بودجه 30 میلیون دلاری سری B برای افزایش چشمگیر اندازه تیم‌های تحقیقاتی محصول، مهندسی و هوش مصنوعی ما طی شش ماه آینده و تسریع توسعه Encord Index و سایر ویژگی‌های جدید استفاده خواهد شد. ما همچنین در حال گسترش حضور خود در سانفرانسیسکو با یک دفتر جدید هستیم و این بودجه به ما کمک می کند تا عملیات خود را برای حمایت از پایگاه مشتریان رو به رشد خود افزایش دهیم.

به‌عنوان جوان‌ترین شرکت هوش مصنوعی از Y Combinator که سری B ایجاد کرده است، رشد و موفقیت سریع Encord را چه نسبت می‌دهید؟

یکی از دلایلی که توانسته ایم به سرعت رشد کنیم این است که تمرکز بسیار مشتری مداری را در تمام زمینه های شرکت اتخاذ کرده ایم. ما دائماً با مشتریان در ارتباط هستیم، از نزدیک به مشکلات آنها گوش می‌دهیم و آنها را در آغوش می‌گیریم تا به راه‌حل‌ها برسیم. با تمرکز بیش از حد بر نیازهای مشتری به جای تبلیغات، پلتفرمی ایجاد کرده ایم که با تیم های برتر هوش مصنوعی در صنایع مختلف طنین انداز می شود. مشتریان ما در رساندن ما به جایگاه امروزی ما نقش مهمی داشتند. توانایی ما برای مدیریت سریع و موثر پیچیدگی داده های هوش مصنوعی ما را به یک راه حل جذاب برای شرکت ها تبدیل کرده است.

ما همچنین بیشتر موفقیت خود را مدیون هم تیمی ها، شرکا و سرمایه گذاران خود هستیم که همگی برای قهرمانی در Encord تلاش خستگی ناپذیری کرده اند. کار با محصولات در سطح جهانی، تیم های مهندسی و عرضه به بازار در رشد ما بسیار تأثیرگذار بوده است.

با توجه به اهمیت روزافزون داده ها در هوش مصنوعی، نقش پلتفرم های داده هوش مصنوعی مانند Encord را در پنج سال آینده چگونه می بینید؟

با افزایش پیچیدگی برنامه های هوش مصنوعی، نیاز به راه حل های مدیریت داده کارآمد و مقیاس پذیر افزایش می یابد. من معتقدم که هر شرکتی در نهایت یک بخش هوش مصنوعی خواهد داشت، دقیقاً مانند آنچه که بخش های فناوری اطلاعات امروز وجود دارند. Encord تنها پلتفرمی خواهد بود که آنها برای مدیریت حجم عظیمی از داده های مورد نیاز برای هوش مصنوعی و رساندن سریع مدل ها به تولید نیاز دارند.

با تشکر از شما برای مصاحبه عالی، خوانندگانی که مایل به کسب اطلاعات بیشتر هستند باید از آن بازدید کنند ثبت کنید.