اخر الاخبار

“تشات بوت أرينا” توقع “ديب سيك” قبل أن يباغت العالم

بدا لمعظمنا أن “ديب سيك” ظهر في يناير دون سابق إنذار يصاحبه برنامج ذكاء اصطناعي مفتوح المصدر ينافس نماذج من “أوبن إيه آي” و”جوجل”، كما قيل إن إنتاجه تطلب كلفة أدنى بشدة مما أُنفق على النماذج المنافسة. 

لكن متابعي موقع “تشات بوت أرينا” (Chatbot Arena) كانوا يتوقعونه، فقد تتبعوا وقيّموا على مدى أشهر تقدم النماذج التي تبنيها الشركة الصينية التي أنتجت “ديب سيك”.

تأسس موقع “تشات بوت أرينا” مطلع 2023 إثر الجلبة التي صاحبت إصدار “أوبن إيه آي” لنموذج “تشات جي بي تي” قبل بضعة أشهر من ذلك. 

مشروع تصينف بحثي

بدأ الموقع كمشروع بحثي لمختبر “سكاي كومبيوتينغ” (Sky Computing) في جامعة كاليفورنيا في بيركلي، وهو يستضيف مجموعة من أحدث نماذج الذكاء الاصطناعي، ويمكن للزوار تجربة روبوتات الدردشة المدعومة بهذه النماذج والتصويت على أدائها، وبالتالي تحديد ترتيبها على قائمة التصنيفات.

اقرأ أيضاً: أحدثها “ديب سيك”.. لماذا تواصل التكنولوجيا الصينية مفاجأة الغرب؟

قال وي- لين شيانغ، أحد رواد “تشات بوت أرينا”، وهو باحث في مرحلة ما بعد الدكتوراه في جامعة كاليفورنيا – بيركلي: “إن وجود جهة مستقلة تقيس التقدم في الذكاء الاصطناعي بموضوعية بالغ الأهمية… يزعم الجميع أن نموذجهم هو الأفضل، لذا تساعد الشفافية والاستقلالية بقوة”.

سرعان ما اكتسب موقع “تشات بوت أرينا” رواجاً بين المستخدمين الأوائل للنماذج المطروحة، وغدا أحد أهم الأدوات في مجال قياس أداء الذكاء الاصطناعي سريع التطور، وهو يستقطب مليون زائر شهرياً. 

تتجه كبرى شركات الذكاء الاصطناعي والمشاريع مفتوحة المصدر الجديدة إلى الموقع من أجل اختبار نماذجها الجديدة. حتى أن بعض الشركات تنشر نماذجها عليه قبل طرحها للجمهور (كما فعلت “أوبن إيه آي” مع نموذجها “جي بي تي- 4o” في ربيع 2024).

منصة تفاخر وبوابة شهرة

حين تحقق النماذج نتائج مميزة، يصبح الموقع منصة للتفاخر، وأحياناً بوابة إلى شهرة عالمية، كما أثبت “ديب سيك”. لقد اختبر مستخدمو “تشات بوت أرينا” عدة نماذج مفتوحة المصدر من “ديب سيك”، تفوقت كل نسخة جديدة منها على سابقتها في تصنيفات الموقع.

أحدث إصدارات الشركة هو نموذج “V3” اللغوي الضخم المشابه للنموذج الداعم “تشات جي بي تي” و نموذج “R1” الذي يأخذ وقتاً أطول في معالجة الأوامر قبل تقديم الإجابات. وقد أُتيحا عبر موقع “تشات بوت أرينا” في نهاية ديسمبر ونهاية يناير على التوالي، وسريعاً ما تصدرا التصنيف. 

قفز “R1” إلى المرتبة الثالثة في يوم جمعة بعد بضعة أيام على انطلاقته، متفوقاً على نموذج “o1” المشابه، وهما يستندان إلى نوع من التفكير المنطقي. بدأ تطبيق الدردشة من “ديب سيك” يتصدر قوائم متاجر التطبيقات، ومنها متجر تطبيقات “أبل” في الولايات المتحدة في عطلة نهاية الأسبوع تلك، ثم تصدر متجر “جوجل بلاي” بعد أيام من ذلك. 

لقي النموذج إشادة من شخصيات بارزة، بينها المستثمر الرأسمالي مارك أندرسن ورئيس “أوبن إيه آي” التنفيذي سام ألتمان. بحلول الإثنين، خسرت أسهم شركات التقنية الأميركية والأوروبية نحو تريليون دولار من قيمتها، بعدما أثار “ديب سيك” تساؤلات حول إذا ما كان قطاع التقنية أفرط في الإنفاق على البنية التحتية للذكاء الاصطناعي.

اقرأ أيضاً: “DeepSeek” يُكبد أثرياء العالم 108 مليارات دولار في يوم واحد

إلا أن قائدا “تشات بوت أرينا”، تشيانغ وأنستاسيوس أنجيلوبولوس، وهو أيضاً باحث في مرحلة ما بعد الدكتوراه في جامعة بيركلي، لم يندهشا. قال أنجيلوبولو “بصراحة، ليس مفاجئاً جداً أن يصل نموذج كهذا إلى الصدارة. هذه البيئة ستستمر في التطور، وبعد شهر لن يعود (ديب سيك R1) في الصدارة، بل نموذج آخر”.

لا معايير موحدة

“تشات بوت أرينا” ليست المشروع الوحيد الذي يوفر معايير أداء علنية لنماذج الذكاء الاصطناعي. فهناك مبادرات أخرى، مثل “إس دبليو إي- بنش”(SWE-Bench) و”هيومانيتيز لاست إكزام” (Humanity’s Last Exam) تختبر مدى كفاءة النماذج المتطورة في إنجاز مهام متنوعة مثل حل المسائل الرياضية والإجابة على أسئلة متعلقة بالبرمجة ومعالجة بعض أعقد المشكلات التي يواجهها البشر.

لكن المجال يفتقر إلى معايير موحدة، ولا توجد جهة رسمية تشرف على أساليب اختبار النماذج. كما أن التطور المتسارع في الذكاء الاصطناعي يُفقد التقييمات الحالية صلاحيتها خلال مدة وجيزة. (هل تذكرون اختبار تورينغ؟)

يقيّم “تشات بوت أرينا” الشعور الذي يمنحه استخدام كل منتج. قال تشيانغ: “يجوز وصف ذلك بالانطباع العام، أو الاختبار من خلال الاستخدام في العالم الحقيقي… إذا كنت مكان (أوبن إيه آي) وكنت تنتج (تشات جي بي تي)، فسيهمك رأي المستخدمين”.

استضاف “تشات بوت أرينا” حتى بداية فبراير، أكثر من 200 نموذج ذكاء اصطناعي إجمالاً، بينها نماذج من “أنثروبيك” و”جوجل” و”ميتا بلاتفورمز” و”أوبن إيه آي” و”إكس إيه آي”، وما تزال 90 منها متوفرة ليجربها المستخدمون. 

تمويل من منح خارجية

تتعاون الشركات عادةً مع “تشات بوت أرينا” لإدراج نماذجها على المنصة، ثم تتحمل تكاليف تجربة المستخدمين لها. المنصة مفتوحة المصدر، أي أن بياناتها وشيفرتها البرمجية متوفرة ليستخدمها الآخرون، وتُموَّل جزئياً من منح خارجية، مثل تلك المقدمة من شركتي الاستثمار الرأسمالي “أندرسن هورويتز” (Andreessen Horowitz) و”سيكويا كابيتال”(Sequoia Capital). 

نظراً لأن الموقع هو مشروع بحثي أكاديمي في الأساس، يعتمد تشغيل “تشات بوت أرينا” في المقام الأول على طلاب جامعة كاليفورنيا في بيركلي.    

عند دخول الزوار إلى الموقع، يظهر لهم إشعار يوضح أن المنصة مشروع بحثي، ثم. يُطلب منهم طرح سؤال على روبوتَي دردشة مجهولين، و اختيار الإجابة الأفضل من وجهة نظرهم. بعد التصويت، يُكشف عن اسم كل روبوت دردشة.

يُستخدم هذا التصويت لإنشاء تصنيف يقدّر قوة كل نموذج، في ما يشبه نسخة معدلة من نظام “إيلو” (Elo) المعتمد في تصنيف لاعبي الشطرنج، إذ تُحدد التقييمات بناءً على نتائج المواجهات المباشرة.

اقرأ أيضاً: ما هو “DeepSeek” الصيني ولماذا يقلق عمالقة الذكاء الاصطناعي؟

خطر تزوير التصويت

أدلى المستخدمون حتى الآن بأكثر من 2.6 مليون صوت لصالح نماذجهم اللغوية المفضلة. ولأن الموقع لا يتطلب تسجيل دخول، لا يعرف فريق “تشات بوت أرينا” هوية المستخدمين فردياً، لكنه يصنّف بشكل عام أنواع الأسئلة التي يفضلون طرحها على روبوتات الدردشة.

تحظى البرمجة الحاسوبية والكتابة الإبداعية بشعبية خاصة، ومن الأمثلة على ذلك طلب من قبيل: “اكتب قصيدة على شكل أبيات مزدوجة، مستخدماً تقطيعات الأسطر لخلق إحساس بالحركة والتشويق، موضوعها التفاح”.

توحي تصنيفات “تشات بوت أرينا” بطابع حاسم، فهي في الواقع تقيس أمراً محدداً، ألا وهو تفاعل جمهور المنصة المكوّن في الأغلب من أشخاص ميالين إلى البحث الأكاديمي، تهمهم موضوعات مثل تعلم الآلة.

قال نيك فروست، الشريك المؤسس لشركة “كوهير” (Cohere) التي تطور نماذج ذكاء اصطناعي مخصصة للشركات إن الموقع “رائع حقاً، ونحب المشاركة فيه، لكنه لا يعكس بالضرورة مدى ملاءمة النموذج للاستخدام العملي أو سهولة تبنيه لدى الشركات”.

تبرز أيضاً بعض المخاوف من احتمال التلاعب بالتصنيفات. فقد نشر بعض الخبراء ورقة بحثية تتناول محاكاة لتزوير الأصوات من أجل الإضاءة على مكامن الضعف المحتملة في “تشات بوت أرينا” على منصة “أركسيف” (Arxiv) وهي أرشيف مفتوح يحتوي دراسات لم تخضع لمراجعة النظراء. 

في المقابل، أكد أنجيلوبولوس وتشيانغ أن الموقع مزوّد بإجراءات حماية لمنع أي سوء استخدام. وأشار أنجيلوبولوس إلى أنهم لم يرصدوا حتى الآن أي دليل على وقوع هجوم ناجح على الموقع.

يعمل تشيانغ وأنجيلوبولوس وزملاؤهم على تحسين مجتمع “تشات بوت أرينا”، وتوسيع أنواع الاختبارات لديهم. وقد بدؤوا بدعم أنواع أخرى من نماذج الذكاء الاصطناعي، بينها نماذج توليد الصور. 

بالنظر إلى الاهتمام الذي ناله الموقع، لا يستبعد الباحثون إمكانية تحويل المشروع إلى فرصة تجارية، وقال تشيانغ: “بالتأكيد، نحن نفكر بهذا”.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *