یک مطالعه جدید پیشگامانه از راه اندازی چشم انداز رایانه وکسل 51 نشان می دهد که مدل حاشیه نویسی داده های سنتی در حال افزایش است. در تحقیقات منتشر شده امروز ، این شرکت گزارش می دهد که سیستم جدید برچسب زدن خودکار آن به دست می آید 95 ٪ از دقت در سطح انسان در حالی که 5000 برابر سریعتر و تا 100،000x ارزانتر از برچسب زدن دستی.
این مطالعه مدلهای بنیادی مانند Yolo-World و Grounding Dino را در مجموعه داده های مشهور از جمله CoCo ، Lvis ، BDD100K و VOC معیار می کند. نکته قابل توجه ، در بسیاری از سناریوهای دنیای واقعی ، مدلهایی که منحصراً روی برچسب های تولید شده توسط AI آموزش دیده اند که به صورت همزمان با یا حتی بهتر از آن-که روی برچسب های انسانی آموزش داده می شود ، آموزش داده می شوند. برای شرکتهای ساختمانی چشم انداز کامپیوتر سیستم ها ، پیامدها بسیار زیاد است: میلیون ها دلار هزینه حاشیه نویسی می تواند پس انداز شود و چرخه های توسعه مدل می توانند از هفته ها به ساعت کاهش یابد.
دوره جدید حاشیه نویسی: از کار دستی گرفته تا خطوط لوله به رهبری مدل
برای چندین دهه ، حاشیه نویسی داده ها یک تنگنا دردناک در توسعه هوش مصنوعی بوده است. از ImageNet گرفته تا مجموعه داده های خودروهای خودمختار ، تیم ها به ارتش های وسیع کارگران انسانی اعتماد کرده اند تا جعبه های محدود و اشیاء بخش را ترسیم کنند – تلاش هر دو پرهزینه و کند.
منطق غالب ساده بود: داده های دارای برچسب بیشتر = AI بهتر. اما تحقیقات Voxel51 فرض بر سر آن است.
رویکرد آنها از مدلهای بنیاد از پیش آموزش استفاده می کند-بعضی از آنها صفر قابلیت ها – و آنها را در خط لوله ای ادغام می کند که ضمن استفاده از یادگیری فعال برای پرچم گذاری موارد نامشخص یا پیچیده برای بررسی انسان ، برچسب زدن روتین را خودکار می کند. این روش به طور چشمگیری هم زمان و هم هزینه را کاهش می دهد.
در یک آزمایش ، برچسب زدن 3.4 میلیون اشیاء با استفاده از GPU NVIDIA L40S بیش از یک ساعت طول کشید و 1.18 دلار هزینه داشت. انجام دستی با AWS Sagemaker نزدیک به 7000 ساعت طول می کشد و بیش از 124،000 دلار هزینه دارد. در موارد به ویژه چالش برانگیز-از جمله شناسایی دسته های نادر در مجموعه داده های Coco یا LVIS-مدل های دارای خودکار گاهی اوقات فراتر همتایان دارای برچسب انسانی آنها. این نتیجه غافلگیرکننده ممکن است ناشی از الگوهای برچسب زدن مداوم مدلهای بنیاد و آموزش آنها در مورد داده های اینترنتی در مقیاس بزرگ باشد.
در داخل Voxel51: تیم در حال تغییر شکل گردش کار AI AI
در سال 2016 توسط پروفسور جیسون کورسو وت برایان مور در دانشگاه میشیگان ، Voxel51 در ابتدا به عنوان مشاوره ای با محوریت تجزیه و تحلیل ویدیویی آغاز شد. کورسو ، جانباز در چشم انداز رایانه و روباتیک ، بیش از 150 مقاله دانشگاهی منتشر کرده و کد گسترده منبع باز را به جامعه هوش مصنوعی کمک می کند. مور ، دکتری سابق دانشجوی کورسو ، به عنوان مدیرعامل فعالیت می کند.
نقطه عطف زمانی پیش آمد که تیم تشخیص داد که بیشتر تنگناهای هوش مصنوعی در طراحی مدل نیستند – بلکه در داده ها. این بینش باعث ایجاد آنها شد تا ایجاد کنند پنجاه، سکویی که برای توانمندسازی مهندسان برای کشف ، اصلاح و بهینه سازی مجموعه داده های بصری کارآمدتر طراحی شده است.
با گذشت سالها ، این شرکت بیش از 45 میلیون دلار، از جمله الف سری 12.5 میلیون دلار A و الف 30 میلیون دلار سری B به رهبری Bessemer Venture Partners. Adoption Enterprise ، با مشتری های اصلی مانند LG Electronics ، Bosch ، Berkshire Gray ، Clanting Precision و Rios که ابزارهای Voxel51 را در گردش کار هوش مصنوعی خود ادغام می کنند ، دنبال کرد.
از ابزار به پلتفرم: نقش در حال گسترش Fiftyone
Fiftyone از یک ابزار ساده سازی مجموعه داده به یک پلت فرم جامع و محور AI رشد کرده است. این مجموعه از طیف گسترده ای از قالب ها و طرح های برچسب زدن – COCO ، PASCAL VOC ، LVIS ، BDD100K ، تصاویر باز – پشتیبانی می کند و یکپارچه با چارچوب هایی مانند Tensorflow و Pytorch ادغام می شود.
بیش از یک ابزار تجسم ، Fiftyone عملیات پیشرفته را امکان پذیر می کند: پیدا کردن تصاویر تکراری ، شناسایی نمونه های گمراه شده ، فضای بیرون از سطح و اندازه گیری حالت های شکست مدل. اکوسیستم افزونه آن از ماژول های سفارشی برای تشخیص شخصیت نوری ، Q&A ویدیو و تجزیه و تحلیل مبتنی بر جاسازی پشتیبانی می کند.
نسخه سازمانی ، تیم های Fiftyone ، ویژگی های مشترک مانند کنترل نسخه ، مجوزهای دسترسی و ادغام با ذخیره ابری (به عنوان مثال ، S3) و همچنین ابزارهای حاشیه نویسی مانند Labelbox و CVAT را معرفی می کند. قابل ذکر است ، Voxel51 نیز با آزمایشگاه های V7 همکاری کرد برای ساده تر کردن جریان بین مجموعه داده ها و حاشیه نویسی دستی.
تجدید نظر در صنعت حاشیه نویسی
تحقیقات برچسب زدن خودکار Voxel51 فرضیات زیربنای صنعت حاشیه نویسی نزدیک به 1B دلاری را به چالش می کشد. در گردش کار سنتی ، هر تصویر باید توسط یک انسان – یک فرآیند گران و غالباً زائد ، لمس شود. Voxel51 استدلال می کند که اکنون بیشتر این کار می تواند از بین برود.
با سیستم آنها ، اکثر تصاویر توسط AI برچسب گذاری می شوند ، در حالی که فقط موارد لبه به انسان افزایش می یابد. این استراتژی ترکیبی نه تنها هزینه ها را کاهش می دهد بلکه کیفیت کلی داده ها را نیز تضمین می کند ، زیرا تلاش انسان برای سخت ترین یا ارزشمندترین حاشیه نویسی محفوظ است.
این تغییر موازی با روندهای گسترده تر در زمینه هوش مصنوعی به سمت هوش مصنوعی داده های محور– روش شناسی که به جای تنظیم بی پایان معماری های مدل ، بر بهینه سازی داده های آموزش متمرکز است.
چشم انداز رقابتی و پذیرش صنعت
سرمایه گذاران مانند Bessemer Voxel51 را به عنوان “لایه ارکستراسیون داده” برای AI – آکین در مورد چگونه مشاهده می کنند فحش ابزارها توسعه نرم افزار را تبدیل کردند. ابزار منبع باز آنها میلیون ها بار بارگیری را بدست آورده است و جامعه آنها شامل هزاران توسعه دهنده و تیم ML در سراسر جهان است.
در حالی که سایر راه اندازی ها مانند Snorkel AI ، Roboflow و ActiveLoop نیز روی گردش داده های داده تمرکز می کنند ، Voxel51 از وسعت ، اخلاق منبع باز و زیرساخت های درجه سازمانی آن استفاده می کند. پلت فرم Voxel51 به جای رقابت با ارائه دهندگان حاشیه نویسی ، آنها را تکمیل می کند – ایجاد خدمات موجود از طریق انتخاب انتخابی کارآمدتر است.
پیامدهای آینده
پیامدهای بلند مدت عمیق است. اگر به طور گسترده اتخاذ شود ، وکسل 51روش شناسی می تواند مانع ورود به چشم انداز رایانه را به طرز چشمگیری کاهش دهد ، دموکراتیک کردن این زمینه برای استارتاپ ها و محققانی که فاقد بودجه برچسب زدن گسترده هستند.
فراتر از صرفه جویی در هزینه ها ، این رویکرد پایه و اساس را نیز فراهم می کند سیستم های یادگیری مداوم، جایی که مدل های موجود در تولید به طور خودکار شکست های پرچم ، که سپس بررسی می شوند ، مجدداً مورد بررسی قرار می گیرند و دوباره به داده های آموزش می رسند – همه در همان خط لوله ارکستر.
دید گسترده تر این شرکت با نحوه تحول هوش مصنوعی هماهنگ است: نه فقط مدل های باهوش تر بلکه گردش کار باهوش تر. در این دیدگاه ، حاشیه نویسی مرده نیست ، اما دیگر دامنه نیروی کار بی رحمانه نیست. این استراتژیک ، انتخابی است و توسط اتوماسیون هدایت می شود.