Humboldt-Universität zu Berlin - Wirtschaftswissenschaftliche Fakultät

Data Mining und Web Mining

Data Mining ist der Prozess der nicht-trivialen Entdeckung von impliziter, vorher unbekannter und potenziell nützlicher Information. Damit ist Data Mining ein Kernelement der Wissensentdeckung (Knowledge Discovery), die mit der Integration, Reinigung und Auswahl der relevanten Daten beginnt. Sie beinhaltet die Präsentation des entdeckten Wissens in einer Form, die nicht nur für den Data-Mining-Analysten verständlich ist, sondern auch für den Domänenexperten, der aus den Mining-Resultaten Handlungsempfehlungen ableiten soll. Zu den erfolgreichen Anwendungen des Data Mining zählen die Analyse von Gen-Mustern, das Graphen-Mining im Finanzwesen oder auch die Analyse von Kundenverhalten im Marketing.

Das Institut für Wirtschaftsinformatik entwickelt und erforscht ein breites Spektrum von Data-Mining-Anwendungen mit Schwerpunkten auf Web-Applikationen in Bildung, B2C-Handel und Wissensmanagement. Insbesondere entwickeln und analysieren wir Mining-Methoden und -Werkzeuge für die explorative Analyse von Verhaltensdaten. Ein anderer Fokus ist der Übergang von der (derzeit noch dominanten) zeitpunktgebundenen Datenanalyse, die implizit eine Stationarität der beschriebenen Domänen voraussetzt, zur Analyse der Dynamik solcher Daten (die i.d.R. zu komplex sind, um mit Standardverfahren zur Zeitreihenanalyse untersucht zu werden).

Web Mining bezeichnet die Anwendung traditioneller Data-Mining-Techniken auf Web-Ressourcen sowie die Weiterentwicklung dieser Techniken zur Berücksichtigung der spezifischen Strukturen von Webdaten. Die analysierten Web-Ressourcen beinhalten (1) die eigentlichen Webseiten, (2) die diese Seiten verbindenden Hyperlinks sowie (3) die Wege, die Online-Nutzer durch das Web nehmen. Web Usage Mining ist die Ableitung nützlichen Wissens aus diesen Inputdaten. Dies erfordert zum einen ein Verständnis und eine formale Modellierung des Verhaltens in der untersuchten Domäne, zum anderen eine Abbildung der Inputdaten in diese Modelle. Methoden und Techniken des Semantic Web liefern hier interessante Impulse, des Weiteren steht die Entwicklung von Visualisierungen als wichtigem Design-Element nutzerorientierter Mining-Systeme im Vordergrund unserer Bemühungen.

Nutzerverhalten und Datenverfügbarkeit ändern sich im Laufe der Zeit. Daher ist die Dynamik einer Domäne eine wichtige Frage in jeder Mining-Analyse und in jeder Präsentation von Mining-Resultaten für den Domänen-Experten. Bei Aktualisierungen erscheint es ausreichend, auch die bisher entdeckten Muster zu aktualisieren. Die Datensammlung über eine längere Zeitdauer schafft eine andere Situation. Die Daten erfahren hierbei nur eine Art von Änderung: Einfügungen, da ausschließlich Daten hinzugefügt werden. Die Verteilung der Entitäten im Datensatz kann sich aufgrund externer und/oder interner Faktoren ändern. Aufgrund dieser Änderungen können sich auch die in den Daten entdeckten Muster über die Zeit ändern (Muster-Evolution). Es gibt zwei Arten von Muster-Änderung: Änderungen im Inhalt eines Musters, also in der Beziehung in den Daten, die dieses Muster reflektiert, und Änderungen in den statistischen Maßen eines Musters. Beide Arten von Änderungen können einen starken Einfluss auf den Entscheidungsprozess haben und sollten daher überwacht werden. Die Muster-Überwachung benötigt zunächst ein Datenmodell, welches explizit eine zeitliche Komponente beinhaltet, die ein spezifisches Muster auf die entsprechende Zeit-Einheit abbildet. Eine zweite Frage ist die Auswahl der zu überwachenden Muster. Selbst bei kleineren Datenmengen ist die Zahl der entdeckten Muster häufig sehr groß. In diesen Fällen muss der Analyst eine handhabbare Untermenge der Muster auswählen. Unsere Forschung konzentriert sich derzeit auf die formale Beschreibung von Musterevolution und -Überwachung, die Entwicklung effizienter Algorithmen für diese Aufgaben sowie die Implementierung geeigneter Werkzeuge.

Enge Verbindungen gibt es zu den Forschungsschwerpunkten "Wissensmanagement" und "Datenschutz und Sicherheit". Insbesondere Fragen des Wissensmanagements sind relevant, da die Webnutzung in der Regel den Zugriff auf Informationen und somit den Aufbau von Wissen impliziert.

Beteiligte Personen

Dipl.-Kfm. Steffan Baron
Prof. Dr. Bettina Berendt
Prof. Oliver Günther, Ph.D.
Dipl.-Wi.-Ing. Maximilian Teltzrow

Ausgewählte Publikationen

Baron, S., Spiliopoulou, M., Günther, O.: Efficient Monitoring of Patterns in Data Mining Environments. In Proc. Seventh East-European Conference on Advance in Databases and Information Systems (ADBIS 2003), Dresden, Germany. Springer 2003

Berendt, B.: Using site semantics to analyze, visualize, and support navigation. Data Mining and Knowledge Discovery, 6, 37-59, 2002

Berendt, B., Brenstein, E.: Visualizing Individual Differences in Web Navigation: STRATDYN, a Tool for Analyzing Navigation Patterns. Behavior Research Methods, Instruments, & Computers, 33, 243-257, 2001

Berendt, B., Spiliopoulou, M.: Analyzing navigation behaviour in web sites integrating multiple information systems. The VLDB Journal, 9, 56-75, 2000

Spiliopoulou, M., Pohle, C., Teltzrow, M.: Modelling Web Site Usage with Sequences of Goal-Oriented Tasks, In Proc. Multikonferenz Wirtschaftsinformatik, in: E-Commerce - Netze, Märkte, Technologien, Physica-Verlag, Heidelberg, 2002.