هو مصطلح يشير إلى تقديم بيانات خالية من المعنى أو مؤذية بهدف التأثير على أداء نماذج التعلم الآلي وخوارزميات الذكاء الاصطناعي المختلفة التي تعتمد بشكل أساسي على جودة البيانات. يتم تسميم البيانات في مرحلة عمل النموذج عن طريق التلاعب بالبيانات المدخلة إليه لكي تؤثر على نتائجه ومخرجاته بطريقة معينة. أو في مرحلة تدريب ذلك النموذج عن طريق تخريب بيانات التدريب، أو إضافة بيانات خاطئة أو موسومة بشكل غير صحيح إليها.
يؤدي تسميم البيانات إلى تخفيض أداء وجودة نماذج التعلم الآلي وخوارزميات الذكاء الاصطناعي الأخرى، لكن ذلك يتم لتحقيق هدفين أساسيين هما:
تخفيض الدقة التنبؤية للنموذج المستهدف من أجل أي قيمة دخل معطاة بهدف تعطيل الخدمة التي يقدمها.
إجبار النموذج المستهدف على إعطاء نتائج أو تنبؤات خاطئة من أجل قيمة واحدة أو مجموعة من قيم الدخل المطلوبة، والحفاظ على الدقة من أجل أي قيمة أخرى لأغراض مختلفة.
وعلى الرغم من كون عملية تسميم البيانات مؤذية في معظم الحالات، لكن يمكن الاستفادة منها للضغط على الشركات التكنولوجية العملاقة لتحديد كيفية تعاملها مع بيانات المستخدمين وخصوصيتهم.