با افزایش تقاضا برای هوش مصنوعی مولد، میل به داده های با کیفیت بالا برای آموزش این سیستم ها نیز افزایش می یابد. ناشران علمی شروع به کسب درآمد از محتوای تحقیقاتی خود برای ارائه داده های آموزشی برای مدل های زبان بزرگ (LLM) کرده اند. در حالی که این توسعه جریان درآمد جدیدی را برای ناشران ایجاد می کند و هوش مصنوعی مولد را برای اکتشافات علمی تقویت می کند، سؤالات مهمی در مورد یکپارچگی و قابلیت اطمینان تحقیقات مورد استفاده ایجاد می کند. این یک سوال مهم را ایجاد می کند: آیا مجموعه داده ها قابل اعتماد هستند و این عمل چه پیامدهایی برای جامعه علمی و مدل های هوش مصنوعی مولد دارد؟
ظهور معاملات تحقیقاتی پولی
ناشران بزرگ دانشگاهی، از جمله Wiley، Taylor & Francis، و دیگران، این کار را انجام داده اند گزارش شده است درآمد قابل توجهی از صدور مجوز محتوای آنها به شرکت های فناوری که مدل های هوش مصنوعی تولیدی را توسعه می دهند. به عنوان مثال، وایلی تنها در سال جاری بیش از 40 میلیون دلار درآمد از چنین معاملاتی را فاش کرد. این قراردادها شرکتهای هوش مصنوعی را قادر میسازد تا به مجموعه دادههای علمی متنوع و گسترده دسترسی داشته باشند که احتمالاً کیفیت ابزارهای هوش مصنوعی خود را بهبود میبخشد.
پیشنهاد ناشران ساده است: صدور مجوز مدلهای هوش مصنوعی بهتر را تضمین میکند و به نفع جامعه است و در عین حال به نویسندگان حق امتیاز میدهد. این مدل کسب و کار هم برای شرکت های فناوری و هم برای ناشران سودمند است. با این حال، روند فزاینده کسب درآمد از دانش علمی خطراتی دارد، عمدتاً زمانی که تحقیقات مشکوک به این مجموعه داده های آموزشی هوش مصنوعی نفوذ می کند.
سایه تحقیقات ساختگی
جامعه علمی با مسائل مربوط به تحقیقات تقلبی بیگانه نیست. مطالعات نشان می دهد که بسیاری از یافته های منتشر شده ناقص، مغرضانه یا غیرقابل اعتماد هستند. یک نظرسنجی در سال 2020 نشان داد که تقریباً نیمی از محققان مسائلی مانند گزارش دهی انتخابی یا مطالعات میدانی با طراحی ضعیف را گزارش کردند. در سال 2023، بیش از 10000 مقاله به دلیل نتایج جعلی یا غیرقابل اعتماد پس گرفته شدند، عددی که سالانه به افزایش خود ادامه می دهد. کارشناسان بر این باورند که این رقم نشان دهنده نوک یک کوه یخ است، با مطالعات مشکوک بیشماری که در پایگاه های داده علمی در گردش است.
بحران در درجه اول ناشی از “کارخانه های کاغذسازمانهای سایهای که اغلب در پاسخ به فشارهای دانشگاهی در مناطقی مانند چین، هند و اروپای شرقی، مطالعات ساختگی تولید میکنند. تخمین زده می شود که حدود 2% مقالات ارسالی مجلات در سطح جهان از کارخانه های کاغذ می آید. این مقالات ساختگی می توانند شبیه تحقیقات مشروع باشند، اما مملو از داده های ساختگی و نتیجه گیری های بی اساس هستند. به طرز نگران کننده ای، چنین مقالاتی از طریق بررسی همتایان می گذرند و به مجلات معتبر ختم می شوند و اعتبار بینش های علمی را به خطر می اندازند. به عنوان مثال، در طول همه گیری COVID-19، مطالعات ناقص بر روی ایورمکتین به اشتباه اثربخشی آن را به عنوان یک درمان پیشنهاد کرد، که باعث سردرگمی و تأخیر پاسخهای مؤثر بهداشت عمومی میشود. این مثال مضرات بالقوه انتشار تحقیقات غیرقابل اعتماد را نشان می دهد، جایی که نتایج ناقص می تواند تأثیر قابل توجهی داشته باشد.
پیامدهای آموزش هوش مصنوعی و اعتماد
هنگامی که LLM ها بر روی پایگاه های داده حاوی تحقیقات جعلی یا با کیفیت پایین آموزش می بینند، پیامدها عمیق هستند. مدلهای هوش مصنوعی از الگوها و روابط درون دادههای آموزشی خود برای تولید خروجیها استفاده میکنند. اگر داده های ورودی خراب باشد، خروجی ها ممکن است نادرستی ها را تداوم بخشند یا حتی آنها را تقویت کنند. این خطر بهویژه در زمینههایی مانند پزشکی زیاد است، جایی که بینشهای نادرست ایجاد شده توسط هوش مصنوعی میتواند عواقب تهدیدکننده زندگی داشته باشد.
علاوه بر این، این موضوع اعتماد عمومی به دانشگاه و هوش مصنوعی را تهدید می کند. از آنجایی که ناشران به توافقات ادامه می دهند، باید نگرانی های مربوط به کیفیت داده های فروخته شده را برطرف کنند. عدم انجام این کار می تواند به اعتبار جامعه علمی آسیب برساند و مزایای بالقوه اجتماعی هوش مصنوعی را تضعیف کند.
اطمینان از داده های قابل اعتماد برای هوش مصنوعی
کاهش خطرات ناشی از تحقیقات ناقص که باعث اختلال در آموزش هوش مصنوعی می شود، نیازمند تلاش مشترک ناشران، شرکت های هوش مصنوعی، توسعه دهندگان، محققان و جامعه گسترده تر است. ناشران باید فرآیند بررسی همتایان خود را بهبود بخشند تا مطالعات غیرقابل اعتماد را قبل از اینکه وارد مجموعه داده های آموزشی شوند، پیدا کنند. ارائه جوایز بهتر برای بازبینان و تعیین استانداردهای بالاتر می تواند کمک کند. یک فرآیند بازبینی باز در اینجا حیاتی است. این امر شفافیت و مسئولیت پذیری بیشتری را به ارمغان می آورد و به ایجاد اعتماد در تحقیق کمک می کند.
شرکتهای هوش مصنوعی باید در هنگام جستجوی منابع تحقیقاتی برای آموزش هوش مصنوعی مراقب باشند که با چه کسانی کار میکنند. انتخاب ناشران و مجلات با شهرت قوی برای تحقیقات با کیفیت بالا و بررسی خوب، کلیدی است. در این زمینه، ارزش دارد به سوابق یک ناشر از نزدیک نگاهی بیندازید – مانند اینکه چقدر مقالات را پس می گیرند یا چقدر در مورد روند بررسی خود باز هستند. انتخابی بودن، قابلیت اطمینان داده ها را بهبود می بخشد و باعث ایجاد اعتماد در بین هوش مصنوعی و جوامع تحقیقاتی می شود.
توسعه دهندگان هوش مصنوعی باید مسئولیت داده هایی را که استفاده می کنند بپذیرند. این به معنای کار با کارشناسان، بررسی دقیق تحقیقات و مقایسه نتایج حاصل از مطالعات متعدد است. خود ابزارهای هوش مصنوعی نیز می توانند برای شناسایی داده های مشکوک و کاهش خطرات گسترش تحقیقات مشکوک طراحی شوند.
شفافیت نیز یک عامل اساسی است. ناشران و شرکتهای هوش مصنوعی باید علناً جزئیات مربوط به نحوه استفاده از تحقیقات و هزینههای حق امتیاز را به اشتراک بگذارند. ابزارهایی مانند ردیاب توافق نامه مجوز هوش مصنوعی وعده می دهد اما نیاز به پذیرش گسترده تری دارد. محققان همچنین باید در مورد نحوه استفاده از کار خود نظر داشته باشند. سیاستهای انتخاب، مانند کسانی که از انتشارات دانشگاه کمبریج، به نویسندگان اجازه کنترل بر مشارکت های خود را می دهد. این اعتماد ایجاد می کند، انصاف را تضمین می کند و باعث می شود نویسندگان به طور فعال در این فرآیند مشارکت کنند.
علاوه بر این، برای اطمینان از دسترسی آزاد به تحقیقات با کیفیت بالا باید تشویق شود فراگیری و انصاف در توسعه هوش مصنوعی دولتها، سازمانهای غیرانتفاعی، و بازیگران صنعت میتوانند ابتکارات دسترسی آزاد را تأمین مالی کنند و اتکا به ناشران تجاری برای مجموعه دادههای آموزشی حیاتی را کاهش دهند. علاوه بر این، صنعت هوش مصنوعی به قوانین روشنی برای منبع یابی داده ها از نظر اخلاقی نیاز دارد. با تمرکز بر تحقیقات قابل اعتماد و بررسی شده، می توانیم ابزارهای هوش مصنوعی بهتری بسازیم، از یکپارچگی علمی محافظت کنیم و اعتماد عمومی به علم و فناوری را حفظ کنیم.
خط پایین
کسب درآمد از تحقیقات برای آموزش هوش مصنوعی هم فرصت ها و هم چالش ها را ارائه می دهد. در حالی که صدور مجوز برای محتوای آکادمیک امکان توسعه مدلهای هوش مصنوعی قویتر را فراهم میکند، اما نگرانیهایی را در مورد یکپارچگی و قابلیت اطمینان دادههای مورد استفاده ایجاد میکند. تحقیقات ناقص، از جمله تحقیقات «کارخانههای کاغذ»، میتواند مجموعه دادههای آموزشی هوش مصنوعی را خراب کند و منجر به نادرستی شود که ممکن است اعتماد عمومی و مزایای بالقوه هوش مصنوعی را تضعیف کند. برای اطمینان از اینکه مدلهای هوش مصنوعی بر اساس دادههای قابل اعتماد ساخته شدهاند، ناشران، شرکتهای هوش مصنوعی و توسعهدهندگان باید با یکدیگر همکاری کنند تا فرآیندهای بررسی همتایان را بهبود بخشند، شفافیت را افزایش دهند و تحقیقات با کیفیت بالا و به خوبی بررسی شده را در اولویت قرار دهند. با انجام این کار، می توانیم از آینده هوش مصنوعی محافظت کنیم و از یکپارچگی جامعه علمی حمایت کنیم.