تقرير جديد ينصح بتدريب DeepSeek على بيانات ChatGPT
كشف تقرير جديد صادر عن Copyleaks، وهي شركة متخصصة في تحليل نص الذكاء الاصطناعي والكشف عن السرقات الأدبية، أن نموذج الذكاء الاصطناعي المنشور حديثًا DeepSeek-R1 ربما تم تدريبه باستخدام مخرجات روبوت OpenAI's ChatGPT ؛ تتطابق بصمتها الأسلوبية مع أسلوب OpenAI بنسبة تصل إلى 74.2٪.
وفقًا لـ Copyleaks، أظهرت دراستها الأخيرة أن DeepSeek-R1 يعتمد بشكل كبير على أسلوب OpenAI في الصياغة وهيكل اللغة واختيار المفردات.
استند البحث إلى ثلاث مجموعات متقدمة للذكاء الاصطناعي (AI) تم تدريبها على نصوص من أربعة نماذج رئيسية، وهي كلود وجوزاء ولاما وأوبن إيه آي.
مصنفات الذكاء الاصطناعي هي نماذج أو خوارزميات تستخدم لتصنيف البيانات وفقًا لأنماط معينة. يمكن لهذه المصنفات تحليل النصوص أو الصور أو البيانات الأخرى، ثم تصنيفها بناءً على معايير محددة.
أظهرت النتائج أن طريقة الكتابة DeepSeek-R1 تطابق OpenAI بنسبة 74.2٪، مما يعزز احتمالية الاعتماد على مخرجات ChatGPT لتدريبها، خاصة مع إعلان DeepSeek سابقًا أنها استخدمت التقطير لتقليل تكاليف التدريب، وهو نهج يعتمد على استخدام مخرجات الذكاء الاصطناعي من نموذج تدريب متقدم آخر.
تأتي هذه الاكتشافات بعد إطلاق طرازات DeepSeek التي تسببت في اضطراب كبير في سوق الذكاء الاصطناعي، مما أدى إلى خسائر تقدر بتريليون دولار في سوق الأسهم الأمريكية، حيث يراهن المستثمرون على أن تدريب طرازات الذكاء الاصطناعي لم يعد يتطلب مليارات الدولارات.
ونتيجة لذلك، انخفضت أسهم شركات مثل Infidia، التي تعتمد على بيع الأعتدة المستخدمة في تطوير الذكاء الاصطناعي، وتكبدت Infidia الجزء الأكبر من خسائر شركات التكنولوجيا.
لم تقدم DeepSeek الصينية تفاصيل واضحة حول مصادر بيانات التدريب الخاصة بها، مما أثار تساؤلات حول شرعية النموذج وموثوقية إجاباته. من وجهة نظر الخبراء، قد يمنح هذا الشركة ميزة غير عادلة، نظرًا للآلية غير الواضحة لتدريب نماذجها مقارنة بمنافسيها.
اتهمت OpenAI سابقًا DeepSeek باستخدام مخرجات ChatGPT لتدريب نماذجها، ولكن دون تقديم دليل واضح على ذلك. يتوقع بعض الخبراء أن DeepSeek الصينية ونماذجها المتطورة قد تواجه حظرًا أمريكيًا في المستقبل.