روزگاری ، تماس کلاریون فنی بود “تلفن های همراه برای همه “ – و در واقع ارتباطات متحرک باعث تحول در تجارت (و جهان) شده است. امروز ، معادل آن تماس دسترسی به همه است به هوش مصنوعی برنامه ها اما قدرت واقعی هوش مصنوعی در استفاده از آن برای نیازهای خاص مشاغل و سازمان ها است. مسیری که توسط استارتاپ چینی Deepseek مورد توجه قرار گرفته است ، نشان می دهد که چگونه AI می تواند توسط همه ، به ویژه مواردی که بودجه محدود دارند ، مورد استفاده قرار گیرد تا نیازهای خاص خود را برآورده کند. در واقع ظهور AI با هزینه پایین وعده می دهد که الگوی عمیقاً راه حل های هوش مصنوعی را تغییر دهد که اغلب به دلیل نیاز به هزینه برای بسیاری از مشاغل و سازمان های کوچک از دید خارج می شود.
LLM ها – یا بودند – تلاش گران قیمت، نیاز به دسترسی به مقادیر گسترده داده ها ، تعداد زیادی از رایانه های قدرتمند برای پردازش داده ها و زمان و منابع سرمایه گذاری شده در آموزش مدل. اما این قوانین در حال تغییر هستند. Deepseek با استفاده از بودجه کفش ، LLM خود را توسعه داد ، و یک برنامه Chatgpt از نوع برای نمایش داده شد-با سرمایه گذاری به مراتب کوچکتر از سیستم های مشابه ساخته شده توسط شرکت های آمریکایی و اروپایی. رویکرد Deepseek پنجره ای را برای توسعه LLM برای سازمانهای کوچکتر که میلیارد دلار برای خرج ندارند ، باز می کند. در حقیقت ، ممکن است روز دور نباشد که بیشتر سازمان های کوچک بتوانند LLM های خود را برای ارائه اهداف خاص خود توسعه دهند ، معمولاً یک راه حل مؤثرتر از LLM های عمومی مانند ChatGPT ارائه می دهند.
در حالی که بحث بیش از هزینه واقعی Deepseek باقی مانده است ، این فقط هزینه ای نیست که آن را از هم جدا می کند و مدل های مشابه را از هم جدا می کند: این واقعیت است که به تراشه های کم پیشرفته و رویکرد متمرکز تر برای آموزش اعتماد داشت. Deepseek به عنوان یک شرکت چینی مشمول محدودیت های صادراتی ایالات متحده ، قادر به دسترسی به آن نبود تراشه های پیشرفته Nvidia که به طور کلی برای محاسبات سنگین مورد نیاز برای توسعه LLM استفاده می شود و بنابراین مجبور به استفاده شد تراشه های NVIDIA H-800 کمتر قدرتمند، که نمی توانند داده ها را به سرعت یا کارآمد پردازش کنند.
برای جبران این فقدان قدرت ، Deepseek رویکردی متفاوت ، متمرکزتر و مستقیم به توسعه LLM خود انجام داد. به جای پرتاب کوههای داده در یک مدل و تکیه بر استحکام محاسبات برای برچسب زدن و استفاده از داده ها ، Deepseek آموزش را محدود کرد ، با استفاده از مقدار کمی از داده های “شروع سرد” با کیفیت بالا و استفاده از IRL (یادگیری تقویت کننده تکراری، با الگوریتم استفاده از داده ها در سناریوهای مختلف و یادگیری از آن). این رویکرد متمرکز به مدل اجازه می دهد تا سریعتر بیاموزد ، با اشتباهات کمتری و قدرت محاسبات کمتری.
مشابه چگونگی والدین ممکن است حرکات خاص کودک را راهنمایی کند ، و به او کمک می کند تا برای اولین بار با موفقیت در جریان باشد-به جای اینکه کودک را به تنهایی بفهمد ، یا به کودک آموزش طیف گسترده تری از حرکات را آموزش دهد که در تئوری می تواند به چرخش کمک کند-دانشمندان داده ای که این مدل های متمرکز تر را آموزش می دهند ، آنچه را که بیشترین نیاز را برای برخی از کارهای و پیامدهای مورد نیاز دارند ، بزرگنمایی کنند. چنین مدل هایی به احتمال زیاد به اندازه LLM های بزرگتر مانند ChatGPT از یک برنامه قابل اعتماد برخوردار نیستند ، اما می توان آنها را برای کاربردهای خاص اعتماد کرد و آنها را با دقت و کارآیی حمل کرد. حتی منتقدین Deepseek اعتراف می کنند که رویکرد ساده آن برای توسعه به طور قابل توجهی باعث افزایش کارایی می شود و این امکان را می دهد تا با بسیار کمتری انجام دهد.
این رویکرد در مورد ارائه بهترین ورودی های هوش مصنوعی است تا بتواند در هوشمندانه ترین ، کارآمدترین روش ممکن به نقاط عطف خود برسد و می تواند برای هر سازمانی که می خواهد LLM را برای نیازها و وظایف خاص خود توسعه دهد ، ارزشمند باشد. چنین رویکردی برای مشاغل و سازمان های کوچک به طور فزاینده ای ارزشمند است. مرحله اول با داده های مناسب شروع می شود. به عنوان مثال ، شرکتی که می خواهد از AI برای کمک به تیم های فروش و بازاریابی خود استفاده کند ، باید مدل خود را بر روی یک مجموعه داده با دقت انتخاب شده که در مکالمات فروش ، استراتژی ها و معیارها قرار دارد ، آموزش دهد. این باعث می شود مدل از هدر رفتن زمان و محاسبه قدرت بر روی اطلاعات بی ربط جلوگیری کند. علاوه بر این ، آموزش باید در مراحل ساختار یافته باشد ، و قبل از حرکت به وظیفه بعدی ، هر وظیفه یا مفهوم را از آن استفاده می کند.
این نیز در بزرگ کردن نوزاد موازی است ، زیرا من از زمان مادر شدن چند ماه پیش خودم را یاد گرفته ام. در هر دو سناریو ، یک رویکرد گام به گام و گام به گام از هدر رفتن منابع جلوگیری می کند و اصطکاک را کاهش می دهد. سرانجام ، چنین رویکردی با هر دو مدل کودک و مدل های هوش مصنوعی منجر به بهبود تکراری می شود. با رشد کودک ، یا مدل بیشتر می آموزد ، توانایی های آن بهبود می یابد. این بدان معنی است که مدل ها می توانند تصفیه و بهبود یابند تا شرایط بهتر در دنیای واقعی انجام شود.
این رویکرد هزینه ها را کاهش می دهد و از پروژه های هوش مصنوعی جلوگیری می کند و باعث می شود که آنها به تیم ها و سازمان های کوچکتر دسترسی پیدا کنند. همچنین منجر به عملکرد بهتر مدل های هوش مصنوعی می شود. و از آنجا که مدل ها با داده های بیرونی بیش از حد بارگیری نمی شوند ، می توانند برای سازگاری با اطلاعات جدید و تغییر نیازهای تجاری – کلید در بازارهای رقابتی – تنظیم شوند.
ورود Deepseek و دنیای کم هزینه و کارآمدتر AI – اگرچه در ابتدا وحشت را در سراسر جهان هوش مصنوعی و بازارهای سهام گسترش می دهد – در کل یک پیشرفت مثبت برای بخش هوش مصنوعی است. راندمان بیشتر و هزینه های پایین تر هوش مصنوعی ، حداقل برای برخی از برنامه های متمرکز ، در نهایت منجر به استفاده بیشتر از هوش مصنوعی ، که باعث رشد برای همه می شود ، از توسعه دهندگان گرفته تا تراشه ها گرفته تا کاربران نهایی. در واقع ، Deepseek نشان می دهد پارادوکس – جایی که احتمالاً راندمان بیشتر منجر به استفاده بیشتر از یک منبع خواهد شد ، نه کمتر. با ادامه این روند ، مشاغل كوچك كه بر استفاده از هوش مصنوعی برای تأمین نیازهای خاص خود تمرکز می كنند نیز بهتر برای رشد و موفقیت تعیین می شوند.