تفاوت آمار و دادهکاوی:
روشهای آماری ازجمله مدلسازی و خصوصاً
کاهش داده در
مراحل پیشپردازش دادههای اولیه و ارزیابی و تفسیر خروجی مزایای قابلملاحظهای
دارند. دادهکاوی با آمار از چند جنبه روابط بسیار نزدیکی دارند. (Zhao and
Luan, 2006).
ویژگی مشترک دادهکاوی و آمار "یادگیری از داده
است Ganesh, 2002)) و یا" تبدیل داده به اطلاعات "است (Kuonen, 2004).
معنای دادهها در هر دو روش به تجزیه و حل مسئله
میپردازد. هر دو ابزار برای غلبه بر عدم قطعیت (ابهام) و ارائه اطلاعات در مورد رویدادهای
آینده ایجادشدهاند. دادهکاوی و آمار هر دو، عوامل مهم تأثیرگذار بر یک رویداد را
شناسایی و با مدلهای بهدستآمده، پیشبینی بهتری از حوادث آینده ارائه میدهند.
در کنار بسیاری از جنبههای مشابه آمار و
دادهکاوی از جهاتی نیز متفاوتاند (Jano, 2006 &. (Luen
چهار تفاوت اساسی عبارتاند از: نقش تئوری،
تعمیم، آزمون فرضیه و سطح اطمینان است. نظریه آمار در یک رابطهی بینابین قرار
دارد.
بدون هدایت شدن نظریه، تمامی مشاهدات و
وقایع میتواند به شکست منجر شود. تجزیهوتحلیل آماری بر اساس اطلاعات APRIORI شروع میشود و برای تأیید و یا رد این نظریه
به جستجوی شواهد میپردازد. طبیعت آمار یک فرآیند اثباتی است. از سوی دیگر، نظریههای
دادهکاوی بر روی تأیید صحت (راستی آزمایی) متمرکز نیست. این به این معنا نیست که کامپیوتر
بهطور خودکار الگوها را پیدا میکند و یا پیشبینی صورت میگیرد. بلکه دقیقاً
برخلاف آن از تحلیلگران دادهکاوی انتظار دستورالعمل روشن میرود. دادهکاوی در مقایسه
با آمار در مورد روابط بین متغیرها کمتر با فرضیات محدود شده است. آمار برخلاف
دادهکاوی تماماً بر این اساس است.
تحقیقات آماری بهندرت متوجه خود نمونه است.
محققان صرفاً در مورد هرگونه نمونه گرفتهشده، استنباط مجموعه اصلی را مدنظر قرار
میدهند. آمار برای یافتن شباهت بین موضوعات طراحیشده است. هدف از دادهکاوی جمعآوری
اطلاعات دقیقتر، بسیار خاص و محلی است.
- تفاوت اصلی بین برنامههای کاربردی کلاسیک
آماری و دادهکاوی، حجم مجموعه دادهها است
. (Oğuzlar, 2004)
کارایی روش های تحلیل آماری در مواجهه با پایگاه داده های بزرگ با اطلاعات کم، به میزان چشمگیری کاهش می یابد .از طرفی استفاده از آزمون های آماری در شرایطی که فرض اولیه ای وجود نداشته و یا فرضیاتی مانند استقلال داده ها و نرمال بودن توزیع خطا معنی دار نباشد؛ با محدودیت جدی رو به رو است. این در
حالیست که تکنیک های داده کاوی جهت کشف روابط بین داده ها با محدودیت های مذکورمواجه نیست.