كيف تحمي نفسك من هجمات تسميم البيانات؟.. راقب نماذج الذكاء الاصطناعي

كتب: سارة أشرف

كيف تحمي نفسك من هجمات تسميم البيانات؟.. راقب نماذج الذكاء الاصطناعي

كيف تحمي نفسك من هجمات تسميم البيانات؟.. راقب نماذج الذكاء الاصطناعي

زاد الاعتماد في الآونة الأخيرة، على التكنولوجيا بشكلقق كبير، وتداخلت في كل مناحي الحياة، ورغم المميزات العديدة التي تقدمها، فإنها لا تخلو أيضا من العيوب، لذا يجب أن تفكر مرتين قبل أن تثق في مساعد الذكاء الاصطناعي الخاص بك.

ما المقصود بـ«تسميم البيانات - Data Poisoning»؟

بحسب موقع «welivesecurity» التقني، فإن تسميم البيانات هو نوع من الهجمات الإلكترونية، حيث يقوم الخصم عمدًا باختراق مجموعة بيانات التدريب التي يستخدمها نموذج الذكاء الاصطناعي أو التعلم الآلي (ML) للتأثير على تشغيل هذا النموذج أو التلاعب به، إذ تعتمد نماذج الذكاء الاصطناعي على مجموعات بيانات التدريب الأساسية التي يتم تحديثها باستمرار من خلال التعلم الذي يخضع للإشراف أو غير الخاضع.

ويتيح التعلم الآلي التعلم العميق، وكلما كانت البيانات أكثر تنوعًا وموثوقية، كلما كانت مخرجات النموذج أكثر دقة وفائدة، ولذلك في وقت التدريب تحتاج هذه النماذج إلى الوصول إلى كميات هائلة من البيانات، ومن ناحية أخرى فإن الاعتماد على كميات كبيرة من المعلومات التي تحتوي على مخاطر، يزيد مجموعات البيانات غير المؤكدة أو التي لم تخضع لفحص دقيق.

ومن المعروف أن الذكاء الاصطناعي التوليدي معرض بشكل خاص للهجمات التي تتلاعب بالنماذج لأغراض خبيثة، ومن أكثر هذه التهديدات تسميم البيانات، حيث يسعى الخصوم إلى تغيير سلوك النموذج، والتسبب في توليد مخرجات غير صحيحة أو متحيزة أو حتى ضارة.

ما أنواع التسميم بالبيانات؟

تتعدد أنواع مختلفة من هجمات تسميم البيانات، وهي:

النوع الأول حقن البيانات: يقوم المهاجمون خلاله بحقن نقاط بيانات ضارة في بيانات التدريب، من أجل جعل نموذج الذكاء الاصطناعي يغير سلوكه، ودليل على ذلك عندما غير المستخدمون عبر الإنترنت روبوت تويتر تاي ببطء لنشر تغريدات مسيئة.

النوع الثاني الهجمات الداخلية: يمكن للموظفين إساءة استخدام وصولهم لتغيير مجموعة تدريب النموذج، لتعديل سلوكه، كما أن الهجمات الداخلية خبيثة بشكل خاص، لأنها تستغل إمكانية الوصول المشروع.

النوع الثالث حقن المحفز: يقوم هذا الهجوم بحقن البيانات في مجموعة تدريب نموذج الذكاء الاصطناعي، لإنشاء محفز، ما يتيح للمهاجمين تجاوز أمان النموذج والتلاعب بمخرجاته في المواقف وفقًا للمحفز المحدد، والتحدي في اكتشاف هذا الهجوم، هو أن المحفز قد يكون من الصعب اكتشافه، فضلاً عن أن التهديد يظل كامنًا حتى يتم تنشيط المحفز.

النوع الرابع هجمات سلسلة التوريد: يمكن أن تكون تأثيرات هذه الهجمات الإلكترونية كبيرة، نظرًا لأن نماذج الذكاء الاصطناعي تستخدم غالبًا مكونات تابعة لجهات خارجية، والثغرات الأمنية التي تظهر وقت عملية سلسلة التوريد يمكن أن تعرض أمن النموذج للخطر، في النهاية وتتركه مفتوحًا للاستغلال.

 كيف يتم تسميم البيانات؟

يقول الدكتور مهندس محمد مغربي، استشاري التأمين والذكاء الاصطناعي والخبير التكنولوجي، لـ«الوطن»، إنّ الهجمات تحدث بطرق مختلفة، منها:

1- تعديل البيانات أثناء النقل (Data Tampering in Transit): «لو البيانات بتتنقل بين الأقسام أو السيرفرات، ممكن حد يتلاعب بيها قبل ما توصل لوجهتها».

2- إدخال بيانات مضللة (Injecting Malicious Data): «المهاجم يقدر يضيف معلومات غير صحيحة في قواعد البيانات بحيث تخدع أنظمة التحليل».

3- استهداف الذكاء الاصطناعي (AI Model Poisoning): «لو الشركة بتعتمد على التعلم الآلي (Machine Learning) في اتخاذ القرارات، ممكن المهاجم يضيف بيانات غير صحيحة أثناء تدريب النموذج، فيبدأ الذكاء الاصطناعي يطلع نتايج غلط».

تأثير تلك العمليات على المؤسسات

بحسب مغربي، يمكن أن يسبب تسميم البيانات كوارث حقيقية للمؤسسات، مثل:

قرارات مالية وإدارية خاطئة (Misguided Business Decisions): «لو التحليل المالي مبني على بيانات مضللة، الشركة ممكن تاخد قرارات استثمارية خاطئة».

التلاعب في سوق الأسهم (Stock Market Manipulation): «بعض المهاجمين بيستخدموا التسميم عشان يغيروا بيانات التداول أو التوقعات المالية، مما يؤدي لخسائر ضخمة».

أداء ضعيف لأنظمة الذكاء الاصطناعي (AI Performance Degradation): «أي نظام بيعتمد على Big Data (البيانات الضخمة) ممكن يتأثر بشكل كارثي لو تم تسميم البيانات اللي بيتعلم منها».

 كيف تحمي نفسك من هجمات تسميم البيانات؟ 

أوضح مغربي طرق حماية أنفسنا من تسميم البيانات، قائلا: «لحماية المؤسسات من الهجوم ده، لازم يكون فيه استراتيجيات قوية لمراقبة البيانات، زي التشفير أثناء النقل (Data Encryption in Transit) عشان يمنع أي تعديل غير مصرح بيه، وأنظمة اكتشاف التلاعب (Anomaly Detection Systems) تقدر ترصد أي بيانات مش طبيعية أو غير متسقة، وتحليل مصدر البيانات (Data Provenance Analysis) بحيث أي تغيير يحصل في البيانات يكون معروف مصدره، والتدريب المستمر للموظفين (Employee Awareness Training) لأن بعض الهجمات بتتم بسبب أخطاء بشرية زي إدخال بيانات غلط بدون قصد».

ونصح بضرورة التحقق من صحة البيانات، للمساعدة في اكتشاف وإزالة نقاط البيانات المشبوهة قبل دمجها في مجموعة التدريب، مؤكدا ضرورة المراقبة والكشف والتدقيق، إذ تتطلب أنظمة الذكاء الاصطناعي والتعلم الآلي مراقبة مستمرة للكشف السريع عن المخاطر المحتملة والاستجابة لها، وينبغي للشركات الاستفادة من منصات الأمن السيبراني من خلال المراقبة المستمرة واكتشاف الاختراق وحماية بيانات موظفيها.

- التدريب التنافسي

التدريب المعادي هو خوارزمية دفاعية تتبناها بعض المؤسسات لحماية نماذجها بشكل استباقي من خلال تعليم نموذج التعلم الآلي التعرف على محاولات التلاعب ببيانات التدريب الخاصة به، يمكنك تدريب النموذج على رؤية نفسه كهدف والدفاع ضد الهجمات مثل تسميم النموذج.


مواضيع متعلقة