أحدثت شركة DeepSeek الصينية الناشئة ضجة كبيرة في مجال الذكاء الاصطناعي العالمي بإطلاقها نموذج لغة كبير (LLM) جديد تفوق في اختبارات الأداء على نماذج منافسة من شركات عملاقة مثل Meta Platforms و OpenAI، مبتكرة ChatGPT، حيث أعلنت الشركة التي تتخذ من هانغتشو مقراً لها، في منشور على WeChat يوم الخميس، أن نموذج اللغة الكبير DeepSeek V3 الخاص بها يأتي مع 671 مليار معيار، وقد تم تدريبه في غضون شهرين بتكلفة 5.58 مليون دولار أمريكي، باستخدام موارد حوسبة أقل بكثير من النماذج التي طورتها شركات التكنولوجيا الكبرى.
DeepSeek V3 نموذج لغة كبير بتكلفة منخفضة
يشير LLM إلى التكنولوجيا التي تدعم خدمات الذكاء الاصطناعي التوليدية مثل ChatGPT، في مجال الذكاء الاصطناعي، يعد العدد الكبير من المعايير أمرًا بالغ الأهمية في تمكين نموذج اللغة الكبير من التكيف مع أنماط البيانات الأكثر تعقيدًا وإجراء تنبؤات دقيقة.
DeepSeek V3 يتفوق على نماذج اللغة من Meta و Alibaba
أثار التقرير الفني للشركة الناشئة الصينية حول نموذج الذكاء الاصطناعي الجديد ردود فعل واسعة، حيث قال عالم الكمبيوتر أندريه كارباثي، أحد الأعضاء المؤسسين في OpenAI، في منشور على منصة التواصل الاجتماعي X: “DeepSeek تجعل الأمر يبدو سهلاً… مع إصدار أوزان مفتوحة لنموذج LLM متطور تم تدريبه بميزانية زهيدة.”
يشير مصطلح “الأوزان المفتوحة” إلى إصدار المعايير المدربة مسبقًا فقط، أو أوزان نموذج الذكاء الاصطناعي، مما يسمح لأطراف ثالثة باستخدام النموذج للاستدلال والضبط الدقيق فقط، ولا يتم توفير كود تدريب النموذج أو مجموعة البيانات الأصلية أو تفاصيل البنية أو منهجية التدريب.
DeepSeek V3 تحدي العقوبات الأمريكية
يظهر تطوير DeepSeek لنموذج LLM قوي – بجزء بسيط من رأس المال الذي تستثمره عادةً شركات أكبر مثل Meta و OpenAI – مدى التقدم الذي أحرزته شركات الذكاء الاصطناعي الصينية، على الرغم من العقوبات الأمريكية التي حظرت وصولها إلى أشباه الموصلات المتقدمة المستخدمة في تدريب النماذج، بالاستفادة من بنية جديدة مصممة لتحقيق تدريب فعال من حيث التكلفة، تطلب DeepSeek 2.78 مليون ساعة GPU فقط – إجمالي الوقت الذي تستخدم فيه وحدة معالجة الرسومات لتدريب نموذج LLM – لنموذج V3 الخاص بها، استخدمت عملية التدريب الخاصة بالشركة الناشئة وحدات معالجة الرسومات H800 من Nvidia المصممة خصيصًا للصين.
قد يهمك ايضًا:
- مقارنة بين أداة Perplexity وChatGPT ومميزات وعيوب كل أداة
- جميع أدوات الذكاء الاصطناعي في مكان واحد | حصاد 2024
كانت هذه العملية أقل بكثير من 30.8 مليون ساعة GPU التي احتاجتها Meta، الشركة الأم لـ Facebook، لتدريب نموذج Llama 3.1 الخاص بها على شرائح H100 الأكثر تقدمًا من Nvidia، والتي لا يسمح بتصديرها إلى الصين، كتب كارباثي في منشوره على X: “يبدو أن DeepSeek V3 هو نموذج أقوى بـ 2.8 مليون ساعة GPU فقط”، حيث أظهر التقرير الفني حول V3 الذي نشرته DeepSeek أن نموذج اللغة الكبير الخاص بها تفوق على Llama 3.1 من Meta و Qwen 2.5 من Alibaba Group Holding في سلسلة من اختبارات قياس الأداء التي تقيم قدرات نظام الذكاء الاصطناعي من فهم النص وتوليده، ومعرفة خبراء المجال، وترميز وحل مسائل الرياضيات، تمتلك Alibaba صحيفة South China Morning Post.
DeepSeek V3 منافس قوي لـ GPT-4 و Claude 3.5 Sonnet
أظهرت اختبارات قياس الأداء نفسها أن نتائج V3 تطابقت مع نتائج GPT-4o من OpenAI و Claude 3.5 Sonnet من Anthropic المدعومة من Amazon.com، انبثقت DeepSeek في يوليو من العام الماضي عن High-Flyer Quant، التي تستخدم الذكاء الاصطناعي لتشغيل أحد أكبر صناديق التحوط الكمية في البر الرئيسي للصين، أنفقت High-Flyer 200 مليون يوان (27.4 مليون دولار أمريكي) لتطوير مجموعة الذكاء الاصطناعي Fire Flyer I بين عامي 2019 و 2020، ثم أنفقت مليار يوان أخرى لبناء Fire-Flyer II، وفقًا لموقع الشركة على الإنترنت ومقرها هانغتشو.
في إعلان في أبريل الماضي، قالت High-Flyer إن هدف تطوير DeepSeek هو إنشاء “الذكاء الاصطناعي الذي سيفيد البشرية جمعاء”، أطلقت DeepSeek في وقت سابق سلسلة من نماذج الذكاء الاصطناعي، والتي يستخدمها المطورون لبناء تطبيقات الطرف الثالث، بالإضافة إلى روبوت الدردشة الخاص بها.
قد يهمك ايضًا: وداعًا للطرق التقليدية |محركات بحث بالذكاء الاصطناعي تقدم تجربة بحث ثورية