دراسة تكشف مفاجأة.. الذكاء الاصطناعي يفشل في تعويض البشر بهذا المجال

دراسة تكشف مفاجأة.. الذكاء الاصطناعي يفشل في  تعويض البشر بهذا المجال

دراسة تكشف مفاجأة.. الذكاء الاصطناعي يفشل في تعويض البشر بهذا المجال

في الوقت الذي تتسارع فيه وتيرة استخدام نماذج الذكاء الاصطناعي في مجالات متعددة، وعلى رأسها تطوير البرمجيات، تتزايد التساؤلات حول مدى كفاءة هذه النماذج في أداء المهام المعقدة التي يتقنها المبرمجون البشر، ورغم الوعود الكبيرة التي تطلقها الشركات الرائدة مثل «أوبن إيه آي» و«أنثروبيك»، فإن الواقع يكشف فجوة لا تزال قائمة بين قدرات الذكاء الاصطناعي والطبيعة الدقيقة والمعقدة للبرمجة.

دراسة «مايكروسوفت ريسيرش» تكشف مفاجآت غير متوقعة

كشفت دراسة حديثة أجراها قسم الأبحاث والتطوير في «مايكروسوفت» أن بعضًا من أقوى نماذج الذكاء الاصطناعي الحالية لا تزال تعاني من صعوبة في تصحيح أخطاء برمجية بسيطة، قد لا تشكل تحديًا يُذكر للمطورين ذوي الخبرة.

الذكاء الاصطناعي يفشل في تنفيذ بعض المهام

وبحسب الدراسة، التي نقل تفاصيلها موقع «TechCrunch»، فشلت النماذج الشهيرة مثل «Claude 3.7 Sonnet» في التعامل مع عدد كبير من المهام البرمجية ضمن معيار التقييم المعروف باسم «SWE-bench Lite»، وهو معيار يستخدم لاختبار كفاءة الأدوات في تصحيح أخطاء البرمجة.

وخلال الاختبارات، كلف الباحثون تسعة نماذج مختلفة بمهام تصحيحية ضمن بيئة وكيل ذكاء اصطناعي مدعوم بأدوات متعددة، منها مصحح أخطاء «بايثون»، وجرى اختبار أدائها في تنفيذ 300 مهمة متنوعة ورغم استخدام نماذج متقدمة، لم ينجح الوكيل المدعوم بهذه النماذج في إكمال أكثر من نصف المهام.

ويعزو الباحثون هذا الأداء الضعيف إلى سببين رئيسيين، أولهما أن بعض النماذج لم تحسن استخدام أدوات التصحيح المتاحة لها، والثاني والأهم هو نقص البيانات النوعية في تدريب هذه النماذج، تحديدًا البيانات التي تعكس عمليات اتخاذ القرار المتسلسل، وهي الطريقة التي يتبعها المبرمجون البشر لتحديد الخطأ ومعالجته خطوة بخطوة.

وأكد الباحثون أن تحسين أداء هذه النماذج يتطلب توفير بيانات متخصصة وتدريبات دقيقة تجعلها قادرة على محاكاة التفكير البشري في البرمجة، وهو أمر لم يتحقق بعد.

ورغم أن نتائج الدراسة قد تبدو مفاجئة للبعض، فإنها تتماشى مع تقييمات سابقة، أظهرت أن أدوات الذكاء الاصطناعي المنتجة للأكواد البرمجية غالبًا ما تفتقر إلى الدقة، بل وتُدخل ثغرات أمنية نتيجة ضعفها في فهم منطق الأكواد.

ومن أبرز الأمثلة على ذلك، التقييم الأخير لأداة «Devin»، وهي إحدى أدوات البرمجة بالذكاء الاصطناعي التي أثارت الكثير من الجدل، إذ لم تنجح سوى في إتمام 3 مهام من أصل 20 اختبارًا برمجيًا.