الذكاء الاصطناعي في ورطة.. ألغاز الراديو تُحرج DeepSeek وChatGPT

02:07 م | الخميس 06 فبراير 2025

في خطوة جريئة نحو فهم قدرات الذكاء الاصطناعي، اختبرت قدرة نموذجين متطورين، هما «O1» من «OpenAI» و«R1» من «DeepSeek»، على حل تحديات عقلية معقدة تتطلب استدلالًا منطقيًا عميقًا، وكانت النتائج مفاجئة، وفقاً لما ورد على موقع «techcrunch» التقني.

«لغز الأحد» معيار جديد لتحدي الذكاء الاصطناعي

لجأ الباحثون في خطوة مفاجئة وغير تقليدية، إلى ألغاز برنامج «لغز الأحد» الشهير على إذاعة NPR البريطانية، لاختبار قدرات الذكاء الاصطناعي في التفكير المنطقي.

برنامج «لغز الأحد» بمثابة تحديًا ممتعًا ومثيرًا للعقل لمستمعي الإذاعة، إذ يتنافسون من خلاله في حل الألغاز المعقدة، لكن الآن، أصبحت هذه الألغاز بمثابة معيار جديد لاختبار قدرات الذكاء الاصطناعي في التفكير المنطقي.

دراسة تكشف نتائج غير متوقعة

أجرى باحثون من عدة جامعات أمريكية، بالتعاون مع شركة Cursor الناشئة، دراسة حديثة استخدموا فيها ألغاز البرنامج لتقييم أداء نماذج الذكاء الاصطناعي المتقدمة، مثل «O1» من «OpenAI» و«R1» من «DeepSeek»، وقد كانت النتائج مفاجئة، إذ لم تكتفِ بعض النماذج بإعطاء إجابات خاطئة فحسب، بل استسلمت في بعض الأحيان، معلنة عجزها عن الحل قبل تقديم إجابة غير صحيحة عشوائية.

صعوبات وتحديات تواجه الذكاء الاصطناعي

تتميز هذه الألغاز بأنها لا تعتمد على المعرفة الموسوعية، بل تعتمد على التفكير المنطقي والقدرة على التحليل والاستنتاج ما يجعلها اختبارًا مثاليًا لقدرات الذكاء الاصطناعي في التفكير المنطقي، بدلًا من مجرد استرجاع المعلومات المخزنة.

على الرغم من ذلك، لا تزال نماذج الذكاء الاصطناعي تواجه صعوبات كبيرة في التعامل مع هذه الألغاز، فقد أظهرت سلوكيات غريبة، مثل تقديم إجابة خاطئة ثم التراجع عنها، أو حتى التفكير بلا نهاية دون الوصول إلى حل.

ترتيب النماذج بحسب الأداء

حاليًا، يتصدر نموذج «O1» القائمة بأفضل أداء بنسبة 59%، يليه «O3-mini» بنسبة 47%، بينما حصل «R1» على 35% فقط، ويخطط الباحثون لتوسيع نطاق التجربة، بإضافة مزيد من النماذج لتحسين قدرتها على التفكير، وحل المشكلات بشكل أكثر كفاءة.

وتظهر هذه الدراسة أن الذكاء الاصطناعي ما يزال يواجه تحديات كبيرة في مجال التفكير المنطقي وحل المشكلات المعقدة، ورغم التقدم الكبير الذي تم تحقيقه، لا يزال هناك الكثير من العمل الذي يتعين القيام به لتحسين قدرة هذه النماذج على التفكير بشكل مشابه للبشر.