تحقیقات کسب درآمد برای آموزش هوش مصنوعی: خطرات و بهترین شیوه ها


با افزایش تقاضا برای هوش مصنوعی مولد، میل به داده های با کیفیت بالا برای آموزش این سیستم ها نیز افزایش می یابد. ناشران علمی شروع به کسب درآمد از محتوای تحقیقاتی خود برای ارائه داده های آموزشی برای مدل های زبان بزرگ (LLM) کرده اند. در حالی که این توسعه جریان درآمد جدیدی را برای ناشران ایجاد می کند و هوش مصنوعی مولد را برای اکتشافات علمی تقویت می کند، سؤالات مهمی در مورد یکپارچگی و قابلیت اطمینان تحقیقات مورد استفاده ایجاد می کند. این یک سوال مهم را ایجاد می کند: آیا مجموعه داده ها قابل اعتماد هستند و این عمل چه پیامدهایی برای جامعه علمی و مدل های هوش مصنوعی مولد دارد؟

ظهور معاملات تحقیقاتی پولی

ناشران بزرگ دانشگاهی، از جمله Wiley، Taylor & Francis، و دیگران، این کار را انجام داده اند گزارش شده است درآمد قابل توجهی از صدور مجوز محتوای آنها به شرکت های فناوری که مدل های هوش مصنوعی تولیدی را توسعه می دهند. به عنوان مثال، وایلی تنها در سال جاری بیش از 40 میلیون دلار درآمد از چنین معاملاتی را فاش کرد. این قراردادها شرکت‌های هوش مصنوعی را قادر می‌سازد تا به مجموعه داده‌های علمی متنوع و گسترده دسترسی داشته باشند که احتمالاً کیفیت ابزارهای هوش مصنوعی خود را بهبود می‌بخشد.

پیشنهاد ناشران ساده است: صدور مجوز مدل‌های هوش مصنوعی بهتر را تضمین می‌کند و به نفع جامعه است و در عین حال به نویسندگان حق امتیاز می‌دهد. این مدل کسب و کار هم برای شرکت های فناوری و هم برای ناشران سودمند است. با این حال، روند فزاینده کسب درآمد از دانش علمی خطراتی دارد، عمدتاً زمانی که تحقیقات مشکوک به این مجموعه داده های آموزشی هوش مصنوعی نفوذ می کند.

سایه تحقیقات ساختگی

جامعه علمی با مسائل مربوط به تحقیقات تقلبی بیگانه نیست. مطالعات نشان می دهد که بسیاری از یافته های منتشر شده ناقص، مغرضانه یا غیرقابل اعتماد هستند. یک نظرسنجی در سال 2020 نشان داد که تقریباً نیمی از محققان مسائلی مانند گزارش دهی انتخابی یا مطالعات میدانی با طراحی ضعیف را گزارش کردند. در سال 2023، بیش از 10000 مقاله به دلیل نتایج جعلی یا غیرقابل اعتماد پس گرفته شدند، عددی که سالانه به افزایش خود ادامه می دهد. کارشناسان بر این باورند که این رقم نشان دهنده نوک یک کوه یخ است، با مطالعات مشکوک بیشماری که در پایگاه های داده علمی در گردش است.

بحران در درجه اول ناشی از “کارخانه های کاغذسازمان‌های سایه‌ای که اغلب در پاسخ به فشارهای دانشگاهی در مناطقی مانند چین، هند و اروپای شرقی، مطالعات ساختگی تولید می‌کنند. تخمین زده می شود که حدود 2% مقالات ارسالی مجلات در سطح جهان از کارخانه های کاغذ می آید. این مقالات ساختگی می توانند شبیه تحقیقات مشروع باشند، اما مملو از داده های ساختگی و نتیجه گیری های بی اساس هستند. به طرز نگران کننده ای، چنین مقالاتی از طریق بررسی همتایان می گذرند و به مجلات معتبر ختم می شوند و اعتبار بینش های علمی را به خطر می اندازند. به عنوان مثال، در طول همه گیری COVID-19، مطالعات ناقص بر روی ایورمکتین به اشتباه اثربخشی آن را به عنوان یک درمان پیشنهاد کرد، که باعث سردرگمی و تأخیر پاسخ‌های مؤثر بهداشت عمومی می‌شود. این مثال مضرات بالقوه انتشار تحقیقات غیرقابل اعتماد را نشان می دهد، جایی که نتایج ناقص می تواند تأثیر قابل توجهی داشته باشد.

پیامدهای آموزش هوش مصنوعی و اعتماد

هنگامی که LLM ها بر روی پایگاه های داده حاوی تحقیقات جعلی یا با کیفیت پایین آموزش می بینند، پیامدها عمیق هستند. مدل‌های هوش مصنوعی از الگوها و روابط درون داده‌های آموزشی خود برای تولید خروجی‌ها استفاده می‌کنند. اگر داده های ورودی خراب باشد، خروجی ها ممکن است نادرستی ها را تداوم بخشند یا حتی آنها را تقویت کنند. این خطر به‌ویژه در زمینه‌هایی مانند پزشکی زیاد است، جایی که بینش‌های نادرست ایجاد شده توسط هوش مصنوعی می‌تواند عواقب تهدیدکننده زندگی داشته باشد.
علاوه بر این، این موضوع اعتماد عمومی به دانشگاه و هوش مصنوعی را تهدید می کند. از آنجایی که ناشران به توافقات ادامه می دهند، باید نگرانی های مربوط به کیفیت داده های فروخته شده را برطرف کنند. عدم انجام این کار می تواند به اعتبار جامعه علمی آسیب برساند و مزایای بالقوه اجتماعی هوش مصنوعی را تضعیف کند.

اطمینان از داده های قابل اعتماد برای هوش مصنوعی

کاهش خطرات ناشی از تحقیقات ناقص که باعث اختلال در آموزش هوش مصنوعی می شود، نیازمند تلاش مشترک ناشران، شرکت های هوش مصنوعی، توسعه دهندگان، محققان و جامعه گسترده تر است. ناشران باید فرآیند بررسی همتایان خود را بهبود بخشند تا مطالعات غیرقابل اعتماد را قبل از اینکه وارد مجموعه داده های آموزشی شوند، پیدا کنند. ارائه جوایز بهتر برای بازبینان و تعیین استانداردهای بالاتر می تواند کمک کند. یک فرآیند بازبینی باز در اینجا حیاتی است. این امر شفافیت و مسئولیت پذیری بیشتری را به ارمغان می آورد و به ایجاد اعتماد در تحقیق کمک می کند.
شرکت‌های هوش مصنوعی باید در هنگام جستجوی منابع تحقیقاتی برای آموزش هوش مصنوعی مراقب باشند که با چه کسانی کار می‌کنند. انتخاب ناشران و مجلات با شهرت قوی برای تحقیقات با کیفیت بالا و بررسی خوب، کلیدی است. در این زمینه، ارزش دارد به سوابق یک ناشر از نزدیک نگاهی بیندازید – مانند اینکه چقدر مقالات را پس می گیرند یا چقدر در مورد روند بررسی خود باز هستند. انتخابی بودن، قابلیت اطمینان داده ها را بهبود می بخشد و باعث ایجاد اعتماد در بین هوش مصنوعی و جوامع تحقیقاتی می شود.

توسعه دهندگان هوش مصنوعی باید مسئولیت داده هایی را که استفاده می کنند بپذیرند. این به معنای کار با کارشناسان، بررسی دقیق تحقیقات و مقایسه نتایج حاصل از مطالعات متعدد است. خود ابزارهای هوش مصنوعی نیز می توانند برای شناسایی داده های مشکوک و کاهش خطرات گسترش تحقیقات مشکوک طراحی شوند.

شفافیت نیز یک عامل اساسی است. ناشران و شرکت‌های هوش مصنوعی باید علناً جزئیات مربوط به نحوه استفاده از تحقیقات و هزینه‌های حق امتیاز را به اشتراک بگذارند. ابزارهایی مانند ردیاب توافق نامه مجوز هوش مصنوعی وعده می دهد اما نیاز به پذیرش گسترده تری دارد. محققان همچنین باید در مورد نحوه استفاده از کار خود نظر داشته باشند. سیاست‌های انتخاب، مانند کسانی که از انتشارات دانشگاه کمبریج، به نویسندگان اجازه کنترل بر مشارکت های خود را می دهد. این اعتماد ایجاد می کند، انصاف را تضمین می کند و باعث می شود نویسندگان به طور فعال در این فرآیند مشارکت کنند.

علاوه بر این، برای اطمینان از دسترسی آزاد به تحقیقات با کیفیت بالا باید تشویق شود فراگیری و انصاف در توسعه هوش مصنوعی دولت‌ها، سازمان‌های غیرانتفاعی، و بازیگران صنعت می‌توانند ابتکارات دسترسی آزاد را تأمین مالی کنند و اتکا به ناشران تجاری برای مجموعه داده‌های آموزشی حیاتی را کاهش دهند. علاوه بر این، صنعت هوش مصنوعی به قوانین روشنی برای منبع یابی داده ها از نظر اخلاقی نیاز دارد. با تمرکز بر تحقیقات قابل اعتماد و بررسی شده، می توانیم ابزارهای هوش مصنوعی بهتری بسازیم، از یکپارچگی علمی محافظت کنیم و اعتماد عمومی به علم و فناوری را حفظ کنیم.

خط پایین

کسب درآمد از تحقیقات برای آموزش هوش مصنوعی هم فرصت ها و هم چالش ها را ارائه می دهد. در حالی که صدور مجوز برای محتوای آکادمیک امکان توسعه مدل‌های هوش مصنوعی قوی‌تر را فراهم می‌کند، اما نگرانی‌هایی را در مورد یکپارچگی و قابلیت اطمینان داده‌های مورد استفاده ایجاد می‌کند. تحقیقات ناقص، از جمله تحقیقات «کارخانه‌های کاغذ»، می‌تواند مجموعه داده‌های آموزشی هوش مصنوعی را خراب کند و منجر به نادرستی شود که ممکن است اعتماد عمومی و مزایای بالقوه هوش مصنوعی را تضعیف کند. برای اطمینان از اینکه مدل‌های هوش مصنوعی بر اساس داده‌های قابل اعتماد ساخته شده‌اند، ناشران، شرکت‌های هوش مصنوعی و توسعه‌دهندگان باید با یکدیگر همکاری کنند تا فرآیندهای بررسی همتایان را بهبود بخشند، شفافیت را افزایش دهند و تحقیقات با کیفیت بالا و به خوبی بررسی شده را در اولویت قرار دهند. با انجام این کار، می توانیم از آینده هوش مصنوعی محافظت کنیم و از یکپارچگی جامعه علمی حمایت کنیم.



منبع:unite.ai

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *