Statistiken für Data Mining

In Unternehmen fallen durch die kontinuierliche Erfassung von Informationen große Datenmengen an. Diese zu analysierne und im Hinblick auf bestimmte Fragestellungen auszuwerten ist Aufgabe des Data Minings. Kausale Beziehungen (Ursache-Wirkungs-Beziehungen), Zusammenhänge (Korrelationen) und systematische Unterschiede können hierbei mit statistischen Methoden berechnet werden. Hierbei sind die großen Datenmengen von Vorteil, denn sie erlauben sehr differenzierte Aussagen und die Anwendung statistischer Verfahren mit einer hohen Güte. Ob die Voraussetzungen dieser Analyse-Verfahren gegeben sind, wird etwa mit einem Test auf Normalverteilung geprüft. Danach können Korrelationsanalysen, Varianzanalysen (ANOVA) oder t-Tests bei abhängigen Stichproben (Zeitverläufe) geprüft werden.