یا Lenchner ، مدیرعامل داده های روشن - سری مصاحبه

یا لانچنر، مدیرعامل Bright Data ، از سال 2018 پلت فرم جمع آوری داده های وب پیشرو در بازار را هدایت کرده و گسترش ، نوآوری و رشد خود را به بیش از 100 میلیون دلار درآمد سالانه هدایت می کند. داده های روشن شرکت های Fortune 500 ، مشاغل پیشرو ، دانشگاه های مشهور و نهادهای بخش دولتی را قادر می سازد تا به داده های وب عمومی در زمان واقعی و در مقیاس دسترسی پیدا کنند. لنچنر یک طرفدار قوی برای باز و در دسترس بودن داده های وب عمومی است و بر نقش مهم آن در نوآوری رانندگی تأکید می کند.

چه چیزی باعث سفر شما به دنیای داده ها و هوش مصنوعی شد و از زمان تبدیل شدن به مدیرعامل در سال 2018 ، چگونه مأموریت و دید داده های روشن را شکل داده اید؟

من همیشه مجذوب قدرت داده ها شده ام ، به ویژه با نحوه تصمیم گیری و نوآوری سوخت. در صورت استفاده درست ، داده ها همچنین می توانند شفافیت در تجارت را ایجاد کنند. تبدیل شدن به مدیرعامل داده های روشن در سال 2018 فرصتی برای من فراهم کرد تا به شکل گیری چگونگی تحقیق و استفاده از محققان و مشاغل هوش مصنوعی در مورد منابع و استفاده از داده های وب عمومی کمک کنم.

چالش های اساسی تیم های هوش مصنوعی در تهیه اطلاعات وب در مقیاس بزرگ با آن روبرو هستند و داده های روشن چگونه به آنها می پردازند؟

مقیاس پذیری یکی از بزرگترین چالش های تیم های هوش مصنوعی است. از آنجا که مدل های AI به داده های گسترده ای نیاز دارند ، جمع آوری کارآمد کار کوچکی نیست. و از آنجا که مدل های هوش مصنوعی فقط به اندازه داده هایی که در آنها آموزش داده شده خوب هستند ، اطمینان حاصل می کنند که تیم ها به داده های تازه و با کیفیت بالا دسترسی دارند ، یک چالش ثابت است. این امر به ویژه با تکامل وب در زمان واقعی صادق است.

یکی دیگر از نگرانی های مهم انطباق است. قوانین و الزامات حریم خصوصی داده ها به طور مداوم در حال تحول هستند ، بنابراین تیم های هوش مصنوعی همیشه باید از این تغییرات آگاه باشند. آنها همچنین باید درک کنند که چگونه با وب سایت هایی که مکانیسم های ضد بوته را اجرا می کنند ، برخورد کنند ، که می تواند روند جمع آوری داده ها را پیچیده کند.

سکویی که ما در داده های روشن ساخته ایم ، از این چالش ها مراقبت می کند. ما جمع آوری داده های مقیاس پذیر و مقیاس پذیر را ارائه می دهیم که داده های ساختاری در زمان واقعی را ارائه می دهد. ابزارهای هوش مصنوعی ما برای اطمینان از صحت داده ها را تمیز و تأیید می کنند. ما اقدامات سختی برای اطمینان از جمع آوری داده های حقوقی و اخلاقی برای انطباق انجام داده ایم. ایده این است که تیم های هوش مصنوعی را توانمند کنیم تا روی ساخت مدلهای عالی تمرکز کنند ، در حالی که ما از پیچیدگی های تهیه اطلاعات استفاده می کنیم.

چگونه داده های وب با کیفیت بالا به عملکرد مدل AI کمک می کند و بهترین روشها برای اطمینان از صحت داده ها چیست؟

داده های با کیفیت بالا به معنای داده های کامل ، عاری از تعصب و از همه مهمتر دقیق است. اگر داده ها در عدم تناقض و اشتباهات فاقد یا از بین بروند ، مدل AI حاصل مطابق انتظارات انجام نمی شود.

برای دستیابی به دقت ، بهتر است داده های مختلف منابع عمومی را که قابلیت اطمینان را ایجاد کرده اند ، تهیه کنید. با استفاده از تنها چند منبع داده ، یک منبع داده واحد منجر به مشکلاتی مانند ناقص بودن می شود. داشتن منابع متعدد امکان ایجاد داده های مرجع متقابل و ساختن یک مجموعه داده متعادل تر و با نمایندگی را فراهم می کند. علاوه بر این ، سازمانها باید اعتبار سنجی و پاکسازی داده های خودکار را در نظر بگیرند تا به طور مؤثر از داده های نادرست و متناقض خلاص شوند.

در داده های روشن ، همه این عوامل را در نظر می گیریم. ما داده های ساخت یافته و در زمان واقعی را به تیم های هوش مصنوعی ارائه می دهیم که برای صحت اعتبار دارند. به این ترتیب ، آنها می توانند مدل ها را با اطمینان آموزش دهند.

بزرگترین نگرانی های اخلاقی در جمع آوری داده های وب عمومی امروز چیست؟

حریم خصوصی همچنان یکی از بزرگترین نگرانی ها در جمع آوری داده های وب عمومی است. مردم نگران این هستند که داده های خود را در معرض سوءاستفاده و سوء استفاده قرار دهند. برای اطمینان از اینکه داده ها خصوصی باقی مانده است ، تأکید بر شفافیت بسیار مهم است. سازمانهایی که داده ها را جمع می کنند باید نسبت به داده های جمع آوری شده مقدم باشند. این مهم است که به مردم اطمینان دهیم که از داده های آنها تحت دستورالعمل های اخلاقی دقیق استفاده می شود.

یکی دیگر از نگرانی های مهم دیگر انحصاری است. برخی از شرکت های بزرگ بر تعداد زیادی از داده ها کنترل دارند ، که یک زمین بازی ناهموار را ایجاد می کند که در آن فقط تعداد معدودی از انتخاب ها به اطلاعات لازم برای آموزش مدل های AI و هدایت نوآوری دسترسی دارند. اینگونه نیست که اوضاع چگونه باشد. داده های وب عمومی باید در دسترس مشاغل ، محققان و توسعه دهندگان باشد. به این ترتیب ، توسعه هوش مصنوعی فقط در دست چند بازیکن اصلی متمرکز نیست.

اخلاق در مورد داده های روشن پس از کار نیست. آنها در هر تصمیمی که می گیریم تعبیه شده اند. ما فقط از استانداردهای صنعت پیروی نمی کنیم – آنها را تنظیم می کنیم. ما در تعیین استانداردهای اخلاقی مناسب در صنعت جمع آوری داده ها رهبری می کنیم. ما می خواهیم اطمینان حاصل کنیم که به داده های وب عمومی با مسئولیت پذیری ، شفاف و مطابق با مقررات جهانی دسترسی پیدا می کند.

چگونه داده های روشن در حالی که هنوز هم جمع آوری داده های در مقیاس بزرگ را فعال می کنند ، از رعایت مقررات حریم خصوصی داده های جهانی اطمینان می دهند؟

سازمان ما متعهد است كه به الزامات حقوقی و نظارتی جهانی در مورد جمع آوری و استفاده از داده ها رعایت كند. ما به آن می بینیم که ما الزامات GDPR ، CPRA ، CCPA و سایر مقررات مربوط را رعایت می کنیم. نکته مهم ، ما به طور جدی از پروتکل های مشتری شما (KYC) می شناسیم تا اطمینان حاصل کنیم که فقط کاربران مشروع برای دسترسی به پلتفرم ما دسترسی پیدا می کنند. راه حل های داده ما فقط توسط مشاغل و محققان مشروع قابل دسترسی است.

خط مشی استفاده قابل قبول ما نیز در تعریف آنچه داده ها می توانند و نمی توانند جمع آوری شوند ، مشخص است. این شامل استفاده مسئولانه است. ما یک تیم انطباق اختصاصی داریم که مسئول نظارت مستمر مقررات است تا مشخص کنیم که با آخرین الزامات قانونی و نظارتی به روز هستیم.

صرف نظر از این ، ما هنوز معتقدیم که داده های وب عمومی باید در دسترس باشند. هدف ما ارائه داده های مورد نیاز تیم های هوش مصنوعی در ضمن تضمین رعایت حریم خصوصی و استانداردهای قانونی است.

چگونه رشد تجارت را با حفظ شیوه های جمع آوری داده های اخلاقی متعادل می کنید؟

ما همیشه به اخلاق و رشد فکر می کنیم که منحصر به فرد نیست. اعتماد مشتریان و رابطه ای که با آنها برقرار می کنیم نگرانی های مهم است. ما می دانیم که فقط در صورت جمع آوری داده ها با شرایط شفاف و مطابق با قوانین قابل اجرا ، ممکن است به موفقیت طولانی مدت دست یابیم.

بنابراین ، ما یک پروتکل بررسی دقیق را برای کاربران خود قرار داده ایم. این به منظور اطمینان از استفاده از داده هایی که از نظر اخلاقی استفاده می کنیم ، طراحی شده است. ما زمان ، تلاش و منابع را به سمت انطباق و امنیت برای محافظت از مشتریان و عموم مردم اختصاص می دهیم. با مشاهده جمع آوری داده های اخلاقی ، ما ضمن کمک به ایجاد یک اکوسیستم شفاف و مسئول هوش مصنوعی ، موفق به کسب و کار هستیم.

چگونه داده های روشن از تغییرات نظارتی در حریم خصوصی داده ها جلوتر باقی می مانند؟

ما می دانیم که فرآیندها و سیاست های استفاده از داده های ما به ناچار باید تغییر کنند تا تغییرات در قوانین و مقررات مربوطه را منعکس کنند. به همین ترتیب ، ما مرتباً با متخصصان حقوقی مشورت می کنیم و با نهادهای نظارتی ارتباط برقرار می کنیم. ما همچنین با قانونگذاران و سایر افراد درگیر در ایجاد سیاست ، بحث و گفتگو می کنیم و در تهیه مقررات داده های معنی دار ارائه می دهیم. هدف ما این است که بین نوآوری و حریم خصوصی داده ها تعادل برقرار کنیم.

با صدور قوانین جدید و اصلاح مقررات ، چارچوب جمع آوری داده ها و استفاده ما تکامل می یابد. ما یک تیم انطباق داریم که به طور فعال خط مشی های استفاده از داده های ما را به روز می کند تا اطمینان حاصل کنیم که پلتفرم ما همیشه کاملاً سازگار است. علاوه بر این ، ما ابتکارات آموزش مشتری را برای ارتقاء استفاده از داده های اخلاقی انجام می دهیم.

روندهای نوظهور در جمع آوری داده های هوش مصنوعی که شرکت ها باید از آن آگاه باشند چیست؟

جمع آوری داده های زمان واقعی برای مدل های هوش مصنوعی امروز به یک ضروری تبدیل می شود. دسترسی به آخرین یا تازه ترین داده ها برای ارائه سطح بالایی از دقت و ارائه تجربیات بهتر کاربر برای آنها بسیار مهم است.

یکی دیگر از روند قابل توجه ، اعتماد به داده های مصنوعی مورد استفاده برای تقویت داده ها است ، که در آن AI داده هایی را تولید می کند که مجموعه داده های جمع آوری شده از سناریوهای دنیای واقعی را تکمیل می کند.

من همچنین علاقه زیادی به پیگیری هوش مصنوعی قابل توضیح دارم. بیشتر مدل های هوش مصنوعی در حال حاضر از اثر جعبه سیاه یا عدم شفافیت در فرآیندهای تصمیم گیری خود رنج می برند. شرکت ها به دنبال تغییر این الگوی با ایجاد مدل های هوش مصنوعی هستند که می توانند جزئیات نحوه ورود به خروجی ها یا تصمیماتی را که می گیرند ، توضیح دهند.

سرانجام ، شرکت ها از افزایش نگرانی های حریم خصوصی داده ها آگاه هستند. به همین دلیل تکنیک های هوش مصنوعی با هدف حفظ حریم خصوصی داده ها ، مانند یادگیری فدرال ، تقاضا می شوند. سازمان ها می خواهند آموزش مدل AI را بدون هیچ گونه سازش حریم خصوصی داده های کاربر به حداکثر برسانند.

ما اطمینان حاصل می کنیم که در صدر این روندها قرار داریم ، بنابراین می توانیم راه حل هایی بسازیم که به تیم های AI اجازه می دهد تا یک رقابت رقابتی را حفظ کنند.

چگونه می بینید که عوامل دارای هوش مصنوعی و اتوماسیون در حال تغییر چشم انداز جمع آوری داده ها است؟

در حال حاضر ، مدل های هوش مصنوعی از مجموعه داده های ساختاری استفاده می کنند که بیشتر به صورت دستی جمع آوری می شوند. این مجموعه داده ها همچنین از پیش پردازش ، پاکسازی و روشهای دیگر که معمولاً شامل مداخله انسان است ، می روند. این قرار است در آینده نزدیک با ظهور عوامل هوش مصنوعی برای جمع آوری خودمختار و پردازش داده ها برای آموزش AI تغییر کند. آنها امکان یادگیری خودکار از داده های وب در زمان واقعی را در مقیاس بی سابقه ای فراهم می کنند.

ما زیرساخت هایی ایجاد کرده ایم که از استقرار و تکامل عوامل هوش مصنوعی پشتیبانی می کند و امکان دسترسی صاف به داده های با کیفیت بالا و در زمان واقعی را در وب فراهم می کند. این فناوری به سیستم های پیشرفته هوش مصنوعی اجازه می دهد تا به طور مداوم با داده های وب پویا ارتباط برقرار کنند ، از آن بیاموزند و بزرگتر و بهتر شوند.

عوامل هوش مصنوعی می توانند صنایع را تغییر دهند زیرا به سیستم های AI اجازه می دهند به جای تکیه بر داده های استاتیک و پردازش شده دستی ، از تغییر داده های مداوم در وب استفاده کنند و یاد بگیرند. به عنوان مثال ، این می تواند منجر به بانکداری یا امنیت سایبری AI شود ، که قادر به تصمیماتی هستند که منعکس کننده جدیدترین واقعیت ها هستند. این منجر به پیشرفت گسترده کارایی و زمینه های بیشتر برای اتوماسیون می شود.

در داده های روشن ، ما نه تنها این تحول را در چشم انداز جمع آوری داده ها فعال می کنیم. ما معتقدیم که در صدر قرار داریم و فناوری ای را معرفی می کنیم که نسل بعدی هوش مصنوعی را به خود اختصاص می دهد. ما از کمک به مشاغل و تیم های هوش مصنوعی هیجان زده هستیم زیرا آنها از پتانسیل کامل عوامل هوش مصنوعی برای عملیات خود استفاده می کنند.

با تشکر از شما برای مصاحبه عالی ، خوانندگانی که مایل به کسب اطلاعات بیشتر هستند باید بازدید کنند داده های روشنبشر

منبع:unite.ai

یا Lenchner ، مدیرعامل داده های روشن – سری مصاحبه

دیدگاهتان را بنویسید لغو پاسخ

پست های مرتبط

مقدمه ای شیرین از توجه نهفته چند سر (MLA)

XGBOOST و ترکیب انتگرال: درختان تحریک شده هیبرید معنایی؟

10 اصطلاحات اصلی یادگیری خودکار توضیح داده شده است

دیدگاهتان را بنویسید لغو پاسخ