التنقيب في البيانات
تمثل البيانات Data مرحلة هامة من مراحل تطور نظم وتقنية المعلومات والإتصالات، وهي تعبر في مفهومها المبسط عن كمية هائلة من البيانات المعقدة التي يفوق حجمها قدرة البرمجيات والآليات الحاسوبية التقليدية على خزنها ومعالجتها وتوزيعها، الأمر الذي حدا بالأخصائيين إلى وضع حلول بديلة متطورة تمكن من التحكم في تدفقها والسيطرة عليها.
بالإضافة إلى ما سبق فإن تقنيات البيانات تمتلك إمكانية تحليل بيانات مواقع الإنترنت وأجهزة الإستشعار، وبيانات شبكات التواصل الاجتماعي، حيث إن تحليل هذه البيانات يسمح باستكشاف ارتباطات بين مجموعة من البيانات المستقلة لكشف جوانب عديدة، ومنها على سبيل المثال التنبؤ للإتجاهات التجارية للشركات كافحة الجريمة. كما توفر هذه التنبؤات لصانع القرار أدوات مبتكرة لفهم أفضل للظروف والمعطيات وبالتالي اتخاذ قرارات صحيحة تحقق الأهداف المطلوبة.
من هنا ظهر ما يسمى باستخراج البيانات Data Mining كتقنية تهدف إلى استنتاج المعرفة من كميات هائلة من البيانات، تعتمد على الخوارزميات الرياضية والتي تعتبر أساس التنقيب عن البيانات وهي مستمدة من العديد من العلوم مثل علم الإحصاء والرياضيات والمنطق وعلم التعلم، والذكاء الاصطناعي والنظم الخبيرة، وعلم التعرف على الأنماط، وعلم الآلة. وغيرها من العلوم والتي تعتبر من العلوم الذكية وغير التقليدية.
ظهر التنقيب في البيانات (Data mining) في أواخر الثمانيات وأثبت وجوده كأحد الحلول الناجحة لتحليل كميات ضخمة من البيانات، وذلك بتحويلها من مجرد معلومات متراكمة وغير مفهومة (بيانات) إلى معلومات قيِّمة يمكن استغلالها و الاستفادة منها بعد ذلك.
وقد اجتذبت مرحلة التنقيب في البيانات الكثير من الاهتمام في الأوساط البحثية على مدي العقد الماضي، في محاولة لتطوير خوارزميات قابلة للتوسع والتكيف مع كميات متزايدة من البيانات في البحث عن أنماط معرفية ذات معنى. وقد نمت حزم من الخوارزميات والبرمجيات و بشكل كبير خلال العقد الماضي، إلى حد أن التوسع قد جعل من الصعب على العاملين في هذا الحقل تتبع التقنيات المتاحة لحل مهمة معينة.