چگونه داده های مصنوعی بر توهم AI تأثیر می گذارد؟


اگرچه داده های مصنوعی ابزاری قدرتمند است ، اما فقط می تواند توهم هوش مصنوعی را در شرایط خاص کاهش دهد. تقریباً در هر مورد دیگر ، آنها را تقویت می کند. چرا این است؟ این پدیده برای کسانی که در آن سرمایه گذاری کرده اند چه معنی دارد؟

داده های مصنوعی با داده های واقعی چگونه متفاوت است؟

داده های مصنوعی اطلاعاتی است که توسط AI تولید می شود. به جای جمع آوری از وقایع یا مشاهدات در دنیای واقعی ، به صورت مصنوعی تولید می شود. با این حال ، این شبیه به اصل به اندازه کافی برای تولید خروجی دقیق و مرتبط است. به هر حال این ایده است.

برای ایجاد یک مجموعه داده مصنوعی ، مهندسان هوش مصنوعی یک الگوریتم تولیدی را در یک پایگاه داده رابطه واقعی آموزش می دهند. هنگامی که از آنها خواسته شد ، مجموعه دوم را تولید می کند که از نزدیک اولین مورد را آینه می کند اما هیچ اطلاعات واقعی ندارد. در حالی که روندهای کلی و خصوصیات ریاضی دست نخورده باقی مانده است ، سر و صدای کافی برای ماسک روابط اصلی وجود دارد.

یک مجموعه داده تولید شده توسط AI فراتر از شناسایی است و به جای جایگزینی زمینه ها با گزینه های معادل ، منطق اساسی روابط بین زمینه ها را تکرار می کند. از آنجا که حاوی جزئیات مشخصی نیست ، شرکت ها می توانند از آن برای دامن زدن به مقررات مربوط به حریم خصوصی و حق چاپ استفاده کنند. مهمتر از همه ، آنها می توانند بدون ترس از نقض ، آزادانه آن را به اشتراک بگذارند یا توزیع کنند.

با این حال ، اطلاعات جعلی بیشتر برای مکمل استفاده می شود. مشاغل می توانند از آن برای غنی سازی یا گسترش اندازه نمونه هایی که بسیار کوچک هستند استفاده کنند و آنها را به اندازه کافی بزرگ برای آموزش سیستم های AI به طور موثر می کند.

آیا داده های مصنوعی توهمات هوش مصنوعی را به حداقل می رساند؟

گاهی اوقات ، الگوریتم ها وقایع وجود ندارد یا پیشنهادات منطقی را غیرممکن می کنند. این توهم ها اغلب مزخرف ، گمراه کننده یا نادرست هستند. به عنوان مثال ، یک مدل بزرگ زبان ممکن است مقاله ای را در مورد شیرهای داخلی یا پزشک در سن 6 سالگی بنویسد. با این حال ، آنها این همه افراطی نیستند ، که می تواند شناخت آنها را به چالش بکشد.

در صورت مناسب بودن ، داده های مصنوعی می توانند این حوادث را کاهش دهند. یک پایگاه داده آموزش معتبر و معتبر پایه و اساس هر مدل است ، بنابراین به این دلیل استدلال می کند که هرچه جزئیات بیشتر شخص داشته باشد ، خروجی مدل آنها دقیق تر خواهد بود. یک مجموعه داده تکمیلی حتی برای برنامه های طاقچه با اطلاعات عمومی محدود ، مقیاس پذیری را امکان پذیر می کند.

Debiasing روش دیگری است که یک پایگاه داده مصنوعی می تواند توهم AI را به حداقل برساند. طبق دانشکده مدیریت MIT Sloan ، آن می تواند به تعصب آدرس کمک کند زیرا محدود به اندازه نمونه اصلی نیست. متخصصان می توانند از جزئیات واقع بینانه برای پر کردن شکاف هایی که در آن زیر مجموعه های انتخابی تحت عنوان یا نمایش بیش از حد قرار دارند ، استفاده کنند.

چگونه داده های مصنوعی توهم را بدتر می کند

از آنجا که الگوریتم های هوشمند نمی تواند اطلاعات را استدلال کند یا متناسب باشد، آنها مستعد توهم هستند. مدل های تولیدی – به ویژه مدل های بزرگ زبان – به ویژه آسیب پذیر هستند. از بعضی جهات ، حقایق مصنوعی مشکل را تشکیل می دهند.

تقویت تعصب

مانند انسان ، هوش مصنوعی می تواند تعصبات را بیاموزد و تولید کند. اگر یک بانک اطلاعاتی مصنوعی برخی از گروه ها را در حالی که دیگران را کم نشان می دهد-که انجام آن به طور تصادفی آسان است-بیش از حد ارزش می کند-منطق تصمیم گیری آن کمرنگ خواهد شد و بر دقت خروجی تأثیر می گذارد.

یک مشکل مشابه ممکن است ایجاد شود که شرکت ها از داده های جعلی برای از بین بردن تعصبات در دنیای واقعی استفاده کنند زیرا ممکن است دیگر واقعیت را منعکس کند. به عنوان مثال ، از آنجا بیش از 99 ٪ سرطانهای پستان در زنان رخ می دهد ، با استفاده از اطلاعات تکمیلی برای تعادل نمایندگی می تواند تشخیص های کمتری داشته باشد.

توهم تقاطع

تقاطع یک چارچوب جامعه شناختی است که توصیف می کند که چگونه جمعیت شناسی مانند سن ، جنس ، نژاد ، شغل و تقاطع طبقاتی. این تحلیل می کند که چگونه هویت های اجتماعی همپوشانی گروه ها منجر به ترکیب های منحصر به فرد تبعیض و امتیاز می شوند.

هنگامی که از یک مدل تولیدی خواسته می شود جزئیات مصنوعی را بر اساس آنچه که در آن آموزش دیده است ، تولید کند ، ممکن است ترکیبی ایجاد کند که در اصل وجود نداشته باشد یا از نظر منطقی غیرممکن باشد.

اریکا جانسون ، استاد جنسیت و جامعه در دانشگاه Linköping ، با یک دانشمند یادگیری ماشین کار کرد تا این پدیده را نشان دهد. آنها از یک شبکه مخالف مولد استفاده کردند برای ایجاد نسخه های مصنوعی آمار سرشماری ایالات متحده از سال 1990.

بلافاصله ، آنها متوجه یک مشکل درخشان شدند. نسخه مصنوعی دارای دسته هایی با عنوان “همسر و مجرد” و “همسران هرگز ازدواج نشده” بود که هر دو توهم تقاطع بودند.

بدون مراقبت مناسب ، بانک اطلاعاتی ماکت همیشه در حالی که گروه های کم نماینده را نمایندگی می کنند – در حالی که کمتر نماینده هستند – یا حتی به استثنای آنها ، زیر مجموعه های غالب در مجموعه داده ها را بیش از حد نشان می دهند. موارد لبه و دور از دسترس ممکن است کاملاً به نفع روندهای غالب نادیده گرفته شود.

سقوط مدل

عدم اعتماد به نفس در الگوهای و روندهای مصنوعی منجر به فروپاشی مدل می شود-جایی که عملکرد یک الگوریتم به طرز چشمگیری خراب می شود زیرا با مشاهدات و رویدادهای دنیای واقعی سازگار می شود.

این پدیده به ویژه در AI تولید کننده نسل بعدی مشهود است. به طور مکرر با استفاده از یک نسخه مصنوعی برای آموزش آنها منجر به یک حلقه خود نشانگر می شود. یک مطالعه نشان داد که آنها کاهش کیفیت و فراخوان به تدریج بدون ارقام واقعی و واقعی در هر نسل.

بیش از حد

بیش از حد اعتماد به نفس بیش از حد در داده های آموزش است. این الگوریتم در ابتدا عملکرد خوبی دارد اما در صورت ارائه نقاط داده جدید توهم می شود. اطلاعات مصنوعی اگر واقعیت را منعکس نکند ، می تواند این مشکل را پیچیده کند.

پیامدهای ادامه استفاده از داده های مصنوعی

بازار داده های مصنوعی رونق دارد. شرکت های این صنعت طاقچه حدود 328 میلیون دلار جمع آوری کرد در سال 2022 ، نسبت به 53 میلیون دلار در سال 2020 – 518 ٪ افزایش در 18 ماه. شایان ذکر است که این بودجه صرفاً شناخته شده عمومی است ، به این معنی که ممکن است رقم واقعی حتی بیشتر باشد. به جرات می توان گفت شرکت ها به طرز باورنکردنی در این راه حل سرمایه گذاری شده اند.

اگر بنگاهها به استفاده از یک بانک اطلاعاتی مصنوعی بدون استفاده از درمان مناسب و مبهم ادامه دهند ، عملکرد مدل آنها به تدریج کاهش می یابد و سرمایه گذاری های هوش مصنوعی خود را تأمین می کند. بسته به کاربرد ، نتایج ممکن است شدیدتر باشد. به عنوان مثال ، در مراقبت های بهداشتی ، افزایش توهم می تواند منجر به تشخیص نادرست یا برنامه های درمانی نادرست شود و منجر به نتایج ضعیف تر بیمار شود.

راه حل شامل بازگشت به داده های واقعی نخواهد بود

سیستم های هوش مصنوعی برای آموزش به میلیون ها دلار ، اگر نه میلیارد ها ، از تصاویر ، متن و فیلم نیاز دارند ، که بخش اعظم آن از وب سایت های عمومی جدا شده و در مجموعه داده های عظیم و باز گردآوری می شود. متأسفانه ، الگوریتم ها این اطلاعات را سریعتر از آنکه انسان بتواند آن را تولید کند ، مصرف می کنند. چه اتفاقی می افتد که آنها همه چیز را یاد بگیرند؟

رهبران مشاغل نگران برخورد به دیوار داده هستند – نقطه ای که تمام اطلاعات عمومی در اینترنت خسته شده است. ممکن است سریعتر از آنچه فکر می کنند نزدیک شود.

حتی اگر هر دو مقدار متن ساده در صفحه متوسط ​​خزیدن مشترک و تعداد کاربران اینترنت 2 ٪ تا 4 ٪ در حال رشد هستند سالانه ، الگوریتم ها از داده های با کیفیت بالا خارج می شوند. فقط 10 تا 40 ٪ می تواند برای آموزش بدون به خطر انداختن عملکرد استفاده شود. در صورت ادامه روند ، سهام اطلاعات عمومی تولید شده توسط انسان می تواند تا سال 2026 تمام شود.

از همه احتمال ، بخش هوش مصنوعی ممکن است حتی زودتر به دیوار داده برخورد کند. رونق مولد هوش مصنوعی چند سال گذشته باعث افزایش تنش در مورد مالکیت اطلاعات و نقض حق چاپ شده است. صاحبان وب سایت بیشتر از پروتکل محرومیت از روبات ها استفاده می کنند-استانداردی که از یک فایل Robots.txt برای مسدود کردن خزنده های وب استفاده می کند-یا اینکه این سایت را پاک می کند ، خارج از محدوده است.

یک مطالعه 2024 که توسط یک گروه تحقیقاتی MIT به رهبری منتشر شده است ، نشان داد که مجموعه داده های Crowl Crawl (C4) تمیز شده-یک جسد خزنده وب در مقیاس بزرگ-محدودیت هایی در حال افزایش است. بیش از 28 ٪ از فعال ترین و مهمترین منابع در C4 کاملاً محدود شد. علاوه بر این ، 45 ٪ از C4 اکنون با شرایط خدمات خارج از محدوده تعیین شده است.

اگر بنگاهها به این محدودیت ها احترام بگذارند ، طراوت ، ارتباط و صحت واقعیت های عمومی در دنیای واقعی کاهش می یابد و آنها را مجبور می کنند به پایگاه داده های مصنوعی اعتماد کنند. اگر دادگاهها حكم كنند كه هرگونه جایگزین نقض حق چاپ است ، آنها ممکن است انتخاب زیادی نداشته باشند.

آینده داده های مصنوعی و توهم هوش مصنوعی

از آنجا که قوانین کپی رایت مدرن می شود و صاحبان وب سایت بیشتر محتوای خود را از خزنده های وب پنهان می کنند ، تولید مجموعه داده های مصنوعی به طور فزاینده ای محبوب می شوند. سازمان ها باید برای مقابله با تهدید توهم آماده شوند.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *