اریک لاندو مدیرعامل و یکی از بنیانگذاران ثبت کنید، یک پلت فرم یادگیری فعال برای بینایی کامپیوتر. اریک محقق کمی در یک میز سهام جهانی دلتا وان بود که هزاران مدل را به تولید رساند. قبل از Encord، او نزدیک به یک دهه را در تجارت با فرکانس بالا در DRW گذراند. او دارای مدرک SM در فیزیک کاربردی از دانشگاه هاروارد، کارشناسی ارشد در مهندسی برق و لیسانس فیزیک از دانشگاه استنفورد است.
اریک در اوقات فراغت خود از بازی با ChatGPT و مدل های زبان بزرگ و کوکتل سازی صنایع دستی لذت می برد.
چه چیزی الهام بخش شما برای تأسیس Encord شد و چگونه تجربه شما در فیزیک ذرات و امور مالی کمی رویکرد شما را برای حل “مشکل داده” در هوش مصنوعی شکل داد؟
من اولین بار در زمان کار در مرکز شتاب دهنده خطی استنفورد (SLAC) در حین کار در فیزیک ذرات و برخورد با مجموعه داده های بسیار بزرگ به یادگیری ماشین فکر کردم. من از نرمافزاری استفاده میکردم که توسط فیزیکدانان برای فیزیکدانان طراحی شده بود، یعنی از نظر تجربه کاربری دلپذیر چیزهای زیادی وجود داشت. با ابزارهای ساده تر، می توانستم تحلیل ها را خیلی سریعتر اجرا کنم.
بعداً، با کار در بخش مالی کمی در DRW، مسئولیت ایجاد هزاران مدل را بر عهده گرفتم که در تولید مستقر شدند. مشابه تجربهام در فیزیک، دریافتم که دادههای با کیفیت بالا در ساخت مدلهای دقیق بسیار مهم است و مدیریت دادههای پیچیده و در مقیاس بزرگ دشوار است. اولریک تجربه مشابهی در تجسم مجموعه داده های تصویری بزرگ برای بینایی کامپیوتر داشت.
وقتی در مورد ایده اولیه او برای Encord شنیدم، بلافاصله متوجه شدم و اهمیت آن را درک کردم. من و اولریک با هم فرصت بزرگی برای ایجاد یک پلتفرم برای خودکارسازی و سادهسازی فرآیند توسعه دادههای هوش مصنوعی دیدیم، که این کار را برای تیمها آسانتر میکند تا بهترین دادهها را در مدلها دریافت کنند و سیستمهای هوش مصنوعی قابل اعتماد بسازند.
آیا می توانید در مورد چشم انداز پشت Encord و مقایسه آن با روزهای اولیه محاسبات یا اینترنت از نظر پتانسیل و چالش توضیح دهید؟
چشم انداز Encord این است که پلتفرم اساسی باشد که شرکت ها برای تبدیل داده های خود به مدل های هوش مصنوعی کاربردی به آن تکیه می کنند. ما لایه ای بین داده های یک شرکت و هوش مصنوعی آنها هستیم.
از بسیاری جهات، هوش مصنوعی منعکس کننده تغییرات پارادایم قبلی مانند محاسبات شخصی و اینترنت است، به طوری که در جریان کار برای هر فرد، کسب و کار، ملت و صنعت تبدیل می شود. برخلاف انقلابهای تکنولوژیک قبلی که تا حد زیادی با تنگنا مواجه شدهاند قانون مور با رشد ترکیبی محاسباتی 30 برابری هر 10 سال، توسعه هوش مصنوعی از نوآوریهای همزمان بهره برده است. بنابراین با سرعت بسیار بیشتری در حال حرکت است. به قول جنسن هوانگ از NVIDIA: “برای اولین بار، ما شاهد نمایی ترکیبی هستیم… ما هر ده سال یک میلیون بار ترکیب میشویم. نه صد بار، نه هزار بار، نه یک میلیون بار.» بدون هذل، ما شاهد سریع ترین تکنولوژی در تاریخ بشر هستیم.
پتانسیل در اینجا بسیار زیاد است: با خودکارسازی و مقیاسبندی مدیریت دادههای باکیفیت برای هوش مصنوعی، در حال رفع تنگنا هستیم که مانع از پذیرش گستردهتر هوش مصنوعی میشود. چالشها یادآور موانع اولیه در دورههای فناوری قبلی هستند: سیلوها، فقدان بهترین شیوهها، محدودیتها برای کاربران غیر فنی، و کمبود انتزاعهای کاملاً تعریفشده.
Encord Index به عنوان یک ابزار کلیدی برای مدیریت و مدیریت داده های هوش مصنوعی قرار گرفته است. چگونه خود را از سایر پلتفرم های مدیریت داده موجود در حال حاضر متمایز می کند؟
چند راه وجود دارد که Encord Index متمایز می شود:
شاخص مقیاس پذیر است: به کاربران اجازه می دهد تا میلیاردها و نه میلیون ها نقطه داده را مدیریت کنند. ابزارهای دیگر با مشکلات مقیاس پذیری برای داده های بدون ساختار مواجه هستند و در ادغام تمام داده های مرتبط در یک سازمان محدود هستند.
شاخص انعطاف پذیر است: به طور مستقیم با ذخیره سازی داده های خصوصی و ارائه دهندگان ذخیره سازی ابری مانند AWS، GCP و Azure ادغام می شود. برخلاف سایر ابزارهایی که به یک ارائه دهنده ابری یا سیستم ذخیره سازی داخلی محدود می شوند، Index نسبت به جایی که داده ها قرار دارند، آگنوستیک است. این به شما امکان میدهد دادهها را از منابع بسیاری با نظارت و کنترلهای دسترسی مناسب مدیریت کنید که به آنها اجازه میدهد برنامههای هوش مصنوعی ایمن و سازگار را توسعه دهند.
شاخص چندوجهی است: از هوش مصنوعی چندوجهی، مدیریت داده ها در قالب تصاویر، فیلم ها، صدا، متن، اسناد و موارد دیگر پشتیبانی می کند. ایندکس مانند بسیاری از ابزارهای LLM امروزی به یک نوع داده محدود نمی شود. شناخت انسان چندوجهی است و ما معتقدیم هوش مصنوعی چندوجهی در قلب موج بعدی پیشرفتهای هوش مصنوعی خواهد بود که جایگزین چتباتها و LLMها خواهد شد.
Encord Index از چه راههایی فرآیند انتخاب دادههای مناسب برای مدلهای هوش مصنوعی را بهبود میبخشد و این چه تأثیری بر عملکرد مدل دارد؟
Encord Index انتخاب دادهها را با خودکارسازی مجموعه دادههای بزرگ افزایش میدهد و به تیمها کمک میکند تا تنها مرتبطترین دادهها را شناسایی و حفظ کنند و در عین حال دادههای غیر اطلاعاتی یا مغرضانه را حذف کنند. این فرآیند نه تنها اندازه مجموعه دادهها را کاهش میدهد، بلکه کیفیت دادههای مورد استفاده برای آموزش مدلهای هوش مصنوعی را نیز به میزان قابل توجهی بهبود میبخشد. مشتریان ما تا 20 درصد بهبود در مدلهای خود دیدهاند و در عین حال به کاهش 35 درصدی اندازه مجموعه دادهها و صرفهجویی صدها هزار دلاری در هزینههای محاسباتی و حاشیهنویسی انسانی دست یافتهاند.
با ادغام سریع فناوریهای پیشرفته مانند مدل Meta’s Segment Anything، چگونه Encord در چشم انداز هوش مصنوعی که به سرعت در حال تکامل است، پیشتاز است؟
ما عمداً این پلتفرم را ساختیم تا بتوانیم به سرعت با فناوریهای جدید سازگار شویم. ما بر روی ارائه یک رویکرد مقیاسپذیر و نرمافزار تمرکز میکنیم که به راحتی پیشرفتهایی مانند SAM را در بر میگیرد و تضمین میکند که کاربران ما همیشه به جدیدترین ابزارها برای رقابتی ماندن مجهز هستند.
ما قصد داریم با تمرکز بر هوش مصنوعی چندوجهی جلوتر بمانیم. پلت فرم Encord از قبل می تواند انواع داده های پیچیده مانند تصاویر، ویدئوها و متن را مدیریت کند، بنابراین با پیشرفت های بیشتر در هوش مصنوعی چندوجهی، ما آماده هستیم.
رایجترین چالشهایی که شرکتها هنگام مدیریت دادههای هوش مصنوعی با آن مواجه هستند، چیست و Encord چگونه به رفع این مشکلات کمک میکند؟
شرکت ها با 3 چالش اصلی روبرو هستند:
- سازماندهی و کنترل داده ضعیف: وقتی شرکتها برای پیادهسازی راهحلهای هوش مصنوعی آماده میشوند، اغلب با واقعیت دادههای مخفی و سازماندهی نشده مواجه میشوند که برای هوش مصنوعی آماده نیستند. این داده ها اغلب فاقد حاکمیت قوی در مورد آن هستند و استفاده از بسیاری از آن ها را در سیستم های هوش مصنوعی محدود می کند.
- کمبود متخصص انسانی: از آنجایی که مدلهای هوش مصنوعی با مشکلات پیچیدهتر مقابله میکنند، به زودی کمبود متخصصان حوزه انسانی برای تهیه و اعتبارسنجی دادهها وجود خواهد داشت. با افزایش تقاضای هوش مصنوعی یک شرکت، افزایش نیروی انسانی چالش برانگیز و پرهزینه است.
- ابزار غیر مقیاس پذیر: مدلهای هوش مصنوعی کارآمد از نظر دادههای مورد نیاز برای تنظیم دقیق، اعتبارسنجی، RAG و سایر گردشهای کاری، بسیار تشنه داده هستند. نسل قبلی ابزارها برای مدیریت میزان داده ها و انواع داده های مورد نیاز برای مدل های درجه تولید امروزی مجهز نیستند.
Encord این مشکلات را با خودکار کردن فرآیند تنظیم دادهها در مقیاس برطرف میکند، شناسایی دادههای تأثیرگذار از دادههای مشکلساز را آسان میکند و از ایجاد مجموعه دادههای آموزشی و اعتبارسنجی مؤثر اطمینان میدهد. از یک رویکرد نرمافزاری استفاده میکند که با تغییر نیازهای مدیریت دادهها، به آسانی قابل افزایش یا کاهش است. ابزارهای حاشیه نویسی ما به کمک هوش مصنوعی به متخصصان حوزه انسان در حلقه قدرت می دهد تا کارایی گردش کار را به حداکثر برسانند. این فرآیند به ویژه در صنایعی مانند خدمات مالی و مراقبت های بهداشتی، که در آن مربیان هوش مصنوعی گران هستند، بسیار مهم است. ما مدیریت و درک تمام داده های بدون ساختار سازمان را آسان می کنیم و نیاز به کار دستی را کاهش می دهیم.
چگونه Encord با موضوع سوگیری دادهها و مناطقی که در مجموعه دادهها نشان داده نشدهاند مقابله میکند تا از مدلهای هوش مصنوعی منصفانه و متعادل اطمینان حاصل کند؟
مقابله با سوگیری داده ها برای ما در Encord یک تمرکز حیاتی است. پلتفرم ما به طور خودکار مناطقی را که ممکن است دادهها در آنها مغرضانه باشد، شناسایی و نمایان میکند و به تیمهای هوش مصنوعی این امکان را میدهد تا قبل از اینکه بر عملکرد مدل تأثیر بگذارند، به این مسائل بپردازند. ما همچنین اطمینان میدهیم که مناطقی که کمتر در مجموعه دادهها ارائه شدهاند به درستی گنجانده شدهاند، که به توسعه مدلهای هوش مصنوعی منصفانهتر و متعادلتر کمک میکند. با استفاده از ابزارهای نظارت ما، تیم ها می توانند مطمئن باشند که مدل های آنها بر اساس داده های متنوع و نماینده آموزش دیده اند.
Encord اخیراً 30 میلیون دلار بودجه سری B را تأمین کرده است. چگونه این بودجه به نقشه راه و برنامه های توسعه محصول شما سرعت می بخشد؟
بودجه 30 میلیون دلاری سری B برای افزایش چشمگیر اندازه تیمهای تحقیقاتی محصول، مهندسی و هوش مصنوعی ما طی شش ماه آینده و تسریع توسعه Encord Index و سایر ویژگیهای جدید استفاده خواهد شد. ما همچنین در حال گسترش حضور خود در سانفرانسیسکو با یک دفتر جدید هستیم و این بودجه به ما کمک می کند تا عملیات خود را برای حمایت از پایگاه مشتریان رو به رشد خود افزایش دهیم.
بهعنوان جوانترین شرکت هوش مصنوعی از Y Combinator که سری B ایجاد کرده است، رشد و موفقیت سریع Encord را چه نسبت میدهید؟
یکی از دلایلی که توانسته ایم به سرعت رشد کنیم این است که تمرکز بسیار مشتری مداری را در تمام زمینه های شرکت اتخاذ کرده ایم. ما دائماً با مشتریان در ارتباط هستیم، از نزدیک به مشکلات آنها گوش میدهیم و آنها را در آغوش میگیریم تا به راهحلها برسیم. با تمرکز بیش از حد بر نیازهای مشتری به جای تبلیغات، پلتفرمی ایجاد کرده ایم که با تیم های برتر هوش مصنوعی در صنایع مختلف طنین انداز می شود. مشتریان ما در رساندن ما به جایگاه امروزی ما نقش مهمی داشتند. توانایی ما برای مدیریت سریع و موثر پیچیدگی داده های هوش مصنوعی ما را به یک راه حل جذاب برای شرکت ها تبدیل کرده است.
ما همچنین بیشتر موفقیت خود را مدیون هم تیمی ها، شرکا و سرمایه گذاران خود هستیم که همگی برای قهرمانی در Encord تلاش خستگی ناپذیری کرده اند. کار با محصولات در سطح جهانی، تیم های مهندسی و عرضه به بازار در رشد ما بسیار تأثیرگذار بوده است.
با توجه به اهمیت روزافزون داده ها در هوش مصنوعی، نقش پلتفرم های داده هوش مصنوعی مانند Encord را در پنج سال آینده چگونه می بینید؟
با افزایش پیچیدگی برنامه های هوش مصنوعی، نیاز به راه حل های مدیریت داده کارآمد و مقیاس پذیر افزایش می یابد. من معتقدم که هر شرکتی در نهایت یک بخش هوش مصنوعی خواهد داشت، دقیقاً مانند آنچه که بخش های فناوری اطلاعات امروز وجود دارند. Encord تنها پلتفرمی خواهد بود که آنها برای مدیریت حجم عظیمی از داده های مورد نیاز برای هوش مصنوعی و رساندن سریع مدل ها به تولید نیاز دارند.
با تشکر از شما برای مصاحبه عالی، خوانندگانی که مایل به کسب اطلاعات بیشتر هستند باید از آن بازدید کنند ثبت کنید.