17 Data Mining in:

Heinrich Holland

Direktmarketing, page 230 - 252

Im Dialog mit dem Kunden

3. Edition 2009, ISBN print: 978-3-8006-3609-9, ISBN online: 978-3-8006-4415-5, https://doi.org/10.15358/9783800644155_230

Bibliographic information
17 Data Mining 17.1 Begriff Data Mining stellt eine Ergänzung zu den bisher dargestellten Verfahren der Datenanalyse dar und beinhaltet Verfahren des induktiven maschinellen Lernens (Krahl, Windheuser, 1998, S. 59). Während mit Hilfe von SQL-Abfragen und OLAP Hypothesen verifiziert werden, die der Anwender aufstellt, decken Data Mining Verfahren als induktive Verfahren des maschinellen Lernens autonom Beziehungsmuster in den vorhandenen Daten auf. Data Mining wird daher auch als „entdeckungsgetriebenes“ System verstanden. Unter Data Mining wird in Analogie zum Gold Mining das Schürfen oder Graben in Daten nach Informationen bzw. Wissen verstanden. Aus der unüberschaubaren Menge von Daten soll Wissen generiert werden. Durch die Identifizierung von Mustern in Daten werden Marketing-Maßnahmen angestoßen. Statt Gold Nuggets sucht man Knowledge Nuggets. Das Data Mining basiert auf unterschiedlichen Wissenschaften: Statistik• Die Statistik liefert Methoden zur Datenexploration, -auswahl und -transformation sowie zur Mustererkennung. Datenbankforschung• Die Datenbankforschung liefert Methoden, um Daten effizient zu speichern, zu prüfen, etc. Künstliche Intelligenz• Die Künstliche Intelligenz liefert Verfahren für das Data Mining, wie Neuronale Netze oder Genetische Algorithmen. Mathematik• Informatik• Marketing• Vi sua li sie rung: His to gramm, Streu ungs dia gramm, … Klas si fi ka ti on: Zu ord nung von Ob jek ten zu Klas sen Seg men tie rung: Zu sam men fas sung von Ob jek ten in Grup pen, die vor her nicht be kannt sind Prog no se: Vor her sa ge un be kann ter Merk mals wer te auf Ba sis an de rer Merk ma le Ab hän gig keits ana ly se: Be zie hun gen zw. Merk ma len ei nes Ob jek tes Ab wei chungs ana ly se: Iden ti fi zie rung von Ob jek ten, die den Re gel mä ßig kei ten der meis ten an de ren Ob jek te nicht fol gen, Ur sa chen er for schen Ab bil dung 113: Me tho den des Da ta Mi ning Buch_Direktmarketing.indb 219 23.12.2008 10:29:18 Uhr 17 Data Mining220 Beispiel: Mit Data Mining Tools wurden die Kaufgewohnheiten in einem conveniencestore in den USA analysiert. Als Ergebnis stellte sich heraus, dass der Kauf von Bier und Windeln am Freitag Abend sehr stark korrelierte. Eltern (Väter?) kaufen zum Wochenende ein Six- Pack Bier für sich und Windeln für die Kinder. Folglich wurden Bier und Windeln am Freitag zusammen im Laden positioniert (Zweitplatzierung), der Einkauf wurde erleichtert und die Verkaufszahlen gesteigert. Beispiel: Typische Fragestellungen des Data Mining: Welche Produkte werden kombiniert gekauft?• (z. B. Rentenpapiere mit offenen Investmentfonds, hochwertiger Käse mit teurem Wein) → Cross-Selling Wie lassen sich Kunden segmentieren?• (z. B. Hinsichtlich welcher Eigenschaften gleichen sich Kunden, die zur Konkurrenz abgewandert sind? Welche Eigenschaften haben die besonders profitablen Kunden?) Wie verhalten sich die Kunden?• (z. B. Wie verhalten sich die Kunden einer Bank, deren Kontostand steigt? Wie reagieren Versandhandelskunden, die bereits dreimal gemahnt wurden?) Welche Kunden weichen vom typischen Schema ab?• (z. B. Welche Kunden kündigen unerwartet?) 17.2 Data Mining Prozess Data Mining wird im Allgemeinen als Prozess verstanden. Das CRISP-DM (Cross- Industry Standard Process for Data Mining) Referenz Modell verschafft einen Überblick über den Ablauf eines Data Mining Projekts (Chapman, 2000, S. 13–68). Es beinhaltet die relevanten Phasen mit ihren Aufgaben und den Beziehungen zwischen den Phasen. Der Lebenszyklus besteht aus folgenden sechs Phasen, wobei nicht alle möglichen Beziehungen zwischen den Phasen beschrieben werden, weil dies mit den Zielen, Hintergrundinteressen und vor allem mit dem jeweiligen Datenmaterial zusammenhängt. Der Data Mining Prozess läuft nicht strikt in eine Richtung, sondern enthält Rückkoppelungen zwischen den Phasen, falls das ermittelte Ergebnis einer Phase nicht zufriedenstellend ist. Buch_Direktmarketing.indb 220 23.12.2008 10:29:19 Uhr 17.2 Data Mining Prozess 221 Die Phasen des Lebenszyklus werden im CRISP-DM Modell wie folgt zusammengefasst: Business understanding• Im ersten Schritt der Startphase geht es darum, die Ziele und Erfordernisse des Projekts aus der geschäftlichen Perspektive der Anwender zu untersuchen und festzulegen. Beispiel: Im Fall einer Bank ist das geschäftliche Ziel, die Anzahl aller Bausparkunden zu erhöhen. Daraufhin werden alle wichtigen Faktoren wie Ressourcen, Notwendigkeiten und Annahmen eingeschätzt, um daraus eine Data Mining Problemdefinition und einen detaillierten einleitenden Plan abzuleiten, der alle Stufen des weiteren Vorgehens mit geschätzter Dauer, Data Mining Tools und Verfahren, Inputs, Outputs und Abhängigkeiten zwischen den Stufen beinhaltet. Im Fall der Bank ergibt sich die Data Mining Problemdefinition: Es ist einzuschätzen, nach welchen soziodemografischen Merkmalen sich welche möglichen Zielgruppen ergeben, die mit größter Wahrscheinlichkeit einen Bausparvertrag abschließen. Data understanding• An Hand der Problemdefinition werden ausgehend von dem Datenbestand die benötigten Daten in einem Datenaudit festgelegt. Darin geht es zunächst darum, mit den Daten vertraut zu werden und die möglichen relevanten Daten zu sammeln und zu beschreiben, um daraufhin die einzelnen Datenfelder hinsichtlich ihres Lösungsbeitrags zur Problemdefinition und der Datenqualität zu überprüfen. Dafür können die bereits vorgestellten Verfahren der Decision Support Systeme benutzt werden. Zusätzlich sind Hypothesen zu formulieren, um bereits versteckte Informationen in den Daten aufzudecken. Falls kein zentraler Datenbestand für Data Mining existieren sollte, müssen die relevanten Daten aus den verschiedenen Quellsystemen beschafft oder komplett durch Marktforschung erhoben werden. Data preparation• Nachdem die relevanten Daten selektiert wurden, wird daraus ein geeigneter Datensatz erstellt. Zuerst werden die selektierten Daten bereinigt, um beispielsweise fehlende Werte, statistische Ausreißer usw. herauszunehmen. Daraufhin ist die Datenbasis aufzubauen, indem zusätzlich benötigte Attribute, die sich aus den bisherigen Attributen ergeben, hinzugefügt werden. Im nächsten Schritt werden die Daten, falls sie sich in verschiedenen Tabellen befinden, in eine einzige Tabelle für die Auswertungszwecke integriert. Häufig werden dazu auch Aggregationsprozesse vorgenommen, da viele Detailinformationen nur in der kumulierten Höhe für die Weiterverarbeitung im Data Mining Prozess benötigt werden. Danach sind die Daten Buch_Direktmarketing.indb 221 23.12.2008 10:29:19 Uhr 17 Data Mining222 in das benötigte Format des jeweiligen Verfahrens zu überführen, denn Data Mining Verfahren stellen unterschiedliche Anforderungen an die einzelnen Merkmale und deren Skaleniveau. Modelling• In dieser Phase werden die einzusetzenden speziellen Data Mining Techniken ausgewählt, für die bereits im Business Understanding Verfahren und Tools bestimmt wurden. Bevor die eigentliche Analyse durchgeführt wird, sind die Parameter der speziellen Verfahren zu untersuchen und festzulegen. Dazu wird zunächst ein Test Design angelegt, aus dem in verschiedenen Schritten durch Überprüfung der Qualität und Validität das endgültige Modell abgeleitet wird. Beispiel: Im Fall des CHAID-Verfahrens einer Bank sind vorab viele „kleine“ Entscheidungsbäume erstellt worden, um überhaupt festzustellen, welche Variablen signifikant sind. Dabei wurden die Variablen, die sich als nicht signifikant erwiesen, für die Weiterverarbeitung außer Acht gelassen. Nach Durchführung der Verfahren werden die Ergebnisse hinsichtlich der Data Mining Problemdefinition interpretiert. Dafür wird auch altes Datenmaterial verwendet, dessen reale Ergebnisse bekannt sind, um sie mit den prognostizierten Ergebnissen der Data Mining Lösung zu vergleichen. Falls die Ergebnisse nicht zufriedenstellend sind, müssen vorangegangene Schritte revidiert werden. Evaluation• Nachdem das Data Mining Verfahren vom technischen Blickwinkel aus betrachtet zufriedenstellend durchgeführt ist, werden in einem Rückblick auf die bisherigen Schritte zusammen mit den Anwendern des Modells die ermittelten Ergebnisse hinsichtlich der geschäftlichen Ziele und Erfordernisse nach Genauigkeit und Allgemeingültigkeit überprüft. Eine wichtige Aufgabe dabei ist es festzustellen, ob noch geschäftliche Sachverhalte vorliegen, die nicht ausreichend geklärt sind. Am Ende dieser Phase wird eine Entscheidung über den Gebrauch der Data Mining- Ergebnisse erzielt. Deployment• Auf Basis der Ergebnisse und Erkenntnisse der Evalutations-Phase wird in der Deployment-Phase die Umsetzung der Data Mining Lösung mit allen notwendigen Maßnahmen in den einzelnen Schritten im Unternehmen geplant und daraus ein Bericht erstellt. Falls es sich bei der Data Mining-Lösung um einen sich wiederholenden unternehmensweiten Geschäftsprozess handelt, werden auch die notwendigen Schritte der Überwachung und Aufrechterhaltung des Systems, sowie deren Durchführung in die Planung mit einbezogen. Zu berücksichtigen ist in der Berichterstellung, dass die Anwender häufig keine Data Mining Experten sind und daher die Ergebnisse in einer leicht verständlichen Form benötigen. Buch_Direktmarketing.indb 222 23.12.2008 10:29:19 Uhr 17.2 Data Mining Prozess 223 Die Abbildung 114 zeigt ein weiteres Schema für die Vorgehensweise bei Data Mining-Projekten. 1. Ziel for mu lie rung 2. Ope ra tio na li sie rung des Ziels → Da ta Mi ning-Auf ga be 3. Da ten- und Ana ly se ba sis 4. Er stel lung des Mo dells → Me tho de aus wäh len, Trans for ma ti on der Da ten 5. Mi ning 6. Va li die rung, Si mu la ti on, In ter pre ta ti on, Im ple men tie rung 7. Über prü fung, Sen si ti vi täts ana ly se Ab bil dung 114: Pha sen des Da ta Mi ning Angoss Software • Infor CRM Epiphany • Portrait Software • SAS • G-Stat • SPSS • ThinkAnalytics • Unica • Viscovery • Abbildung 115: Beispiele für Data Mining-Tools Die Phasen bei einer Data Mining Aufgabe (Knowledge Solution) nach der Vorgehensweise des Software-Unternehmens SAS sind in der Abbildung 116 dargestellt. Ab bil dung 116: Pha sen ei ner Know led ge-So lu ti on Quel le: SAS Data Mining S Stichprobe Datensätze auswählen E Exploration Variablen auswählen M Modifikation Daten zur Modellentwicklung vorbereiten M Modellentwicklung Modell(e) trainieren A Auswertung Performance überprüfen Scoring der Gesamtdaten Operativer Einsatz des Modells Zielgruppenselektion und Reporting Know -how Transfer Schulungspaket Projektdokumentation Know-how über den Gesamtprozess Kick-off Workshop Installation Grundlagenschulung Ja Datenmanagement Erforderliche Daten abschätzen Datenzugriff Daten verdichten, zusammenführen, bereinigen, validieren Nein Sind die Voraussetzungen für eine KS gegeben? Stop Buch_Direktmarketing.indb 223 23.12.2008 10:29:20 Uhr 17 Data Mining224 17.3 Data Mining Verfahren 17.3.1 Übersicht Die Abbildung 117 gibt einen Überblick über Data Mining Verfahren, wobei OLAP nicht zu den Data Mining Verfahren im engeren Sinne gehört, aber in der Praxis häufig nicht von diesen abgegrenzt wird. Die einzelnen Methoden werden in den folgenden Kapiteln erläutert. 17.3.2 Clusteranalyse Die Custeranalyse wird zu Segmentierungszwecken eingesetzt und ist ein multivariates iteratives Verfahren, das an Hand von Merkmalen Gruppen (Profile, Cluster) erstellt, deren Mitglieder sich innerhalb der Gruppen in ihren Merkmalsausprägungen weitgehend gleichen, während sich die Gruppen untereinander möglichst stark unterscheiden. Zu der Berechnung der verschiedenen Gruppen können verschiedene Ähnlichkeitsmaße herangezogen werden; ein weit verbreitetes Ähnlichkeitsmaß für die Clusteranalyse ist die euklidische Distanz. Clus ter ana ly se: Er stellt Grup pen (Clus ter), de ren Mit glie der in tern ho mo gen und ex tern he te ro gen sind. Ent schei dungs baum: Lei tet aus Da ten men gen bei vor ge ge be nen Klas sen Re geln ab, um un be kann te Ob jek te zu klas si fi zie ren. Re gres si ons ana ly se: Un ter su chung des funk tio na len Zu sam men hangs zwi schen Va ria blen. Neu ro na le Net ze: Selbst stän dig ler nen de Sys te me, die in Ana lo gie zum mensch li chen Ge hirn Sy nap sen (Ver bin dun gen) und Ner ven kno ten (Kno ten) dar stel len. Fuz zy-Lo gic: Ge ne riert aus un schar fen In for ma tio nen Aus sa gen. Ge ne ti sche Al go rith men: Nut zen Evo lu ti ons stra te gien und ent stam men der Bio lo gie. OL AP: Gra fi sche Dar stel lung von Da ten in drei Di men sio nen. Ab bil dung 117: Über blick über Da ta Mi ning Ver fah ren Grundsätzlich wird zwischen partionierenden und hierarchischen Clusteranalyse- Verfahren unterschieden. Buch_Direktmarketing.indb 224 23.12.2008 10:29:20 Uhr 17.3 Data Mining Verfahren 225 Bei den hierarchischen Verfahren wird im ersten Schritt des Algorithmus jedes Objekt als ein Cluster betrachtet und im Laufe des Verfahrens werden sukzessive diejenigen Gruppen wiederum zu Clustern zusammengefasst, die sich am ähnlichsten sind, bis die vorgegebene Anzahl Cluster erreicht ist. Dies hat den Vorteil, dass die Klassenbildung nachvollzogen werden kann. Der Nachteil ist allerdings, dass das Verfahren sehr umfangreiche Berechnungen erfordert, indem in jedem Schritt des Verfahrens sämtliche Kombinationen der Clusteranordnungen berechnet werden, deren Ausmaß mit zunehmender Anzahl von Objekten überproportional ansteigt. Bei den partitionierenden Verfahren hingegen wird eine Anfangszuordnung der Objekte auf eine vorgegebene Anzahl Cluster so lange iterativ verbessert, bis die Zielfunktion, in der die zulässige Heterogenität der gebildeten Gruppen berechnet wird, erfüllt ist. Mit dem k-means-Algorithmus können dabei auch größere Stichproben untersucht werden. Das Verfahren basiert auf der Annahme, dass eine Partition optimal ist, wenn die euklidische Distanz der Objekte Xi eines Clusters Ci von ihrem Zentrum vi minimal ist. Ausgehend von einer vorgegebenen Anzahl k Clustern, die jeweils nur eines der n zu klassifizierenden Objekte enthalten, werden in einem iterativen Prozess die verbleibenden n-k Objekte den Clustern zugeordnet, zu deren Zentrum sie den geringsten Abstand haben (Chamoni, 1998, S. 308). Nach jeder Zuordnung Xk zu einem Cluster Ci wird das Zentrum vi als Mittelwert der Objekte neu berechnet. Nachdem alle Objekte eingefügt wurden, wird überprüft, ob alle Objekte im Cluster mit den ähnlichsten Merkmalsausprägungen liegen, und gegebenenfalls verbessert. Nachteilig ist es, dass die Anzahl Cluster fest vorgegeben ist. Daher müssen mehrere Durchgänge für k durchgeführt werden und die Ergebnisse miteinander verglichen werden. Beispiel: Neckermann untersuchte, in welche Gruppen sich Kunden einteilen lassen, die bis zu einem bestimmten Zeitpunkt bestellt haben und dann abgesprungen sind, an Hand eines Samples von ca. 300.000 Kunden. Für die Clusteranalyse wurden soziodemografische Daten, Serviceorientierung (beispielsweise Ratennutzung, Schnelllieferservice), Bestellverhalten (Preissensibilität, wer wie oft bestellt hat) und Fulfillment Daten („Verärgerungsparameter“ wie Lieferdauer, Pannen …) eingesetzt. Das Ergebnis stellte vier Hauptcluster dar, wobei die Gruppen der älteren Kunden und der Bedarfsbesteller dominierten, wie die Abbildung 118 zeigt. Dies veranlasste Neckermann ein Seniorenmailing zu verschicken, das sich an alle Kunden richtete, die zu Cluster 1 gehören und gleichzeitig in der Bestellwahrscheinlichkeit gering waren. Buch_Direktmarketing.indb 225 23.12.2008 10:29:21 Uhr 17 Data Mining226 Der Erfolg dieser Aktion war durchaus zufriedenstellend. Im Ergebnis konnten wesentlich mehr Kunden aktiviert werden, als im Durchschnitt zu den anderen Kunden. 17.3.3 Entscheidungsbäume Entscheidungsbäume sind Verfahren des induktiven maschinellen Lernens, die aus gegebenen Datenmengen Regeln ableiten, bei denen die Klassen der Elemente vorgegeben sind, um unbekannte Objekte zu klassifizieren (Shaghaghi, 1996, S. 95). Sie werden für Segmentierungen und Prognosemodelle eingesetzt. In einem iterativen Prozess wird in jedem Knoten des Entscheidungsbaums das Attribut abgefragt, welches allein die Klassifikation der Daten hinsichtlich der Klassen einer Zielvariablen am besten erklärt. Dieses Attribut wird dann zur Aufteilung der Daten in Untermengen verwendet, und die Untermengen werden separat betrachtet. Die Aufteilung in Unterklassen wird mittels eines errechneten Schwellenwertes, der die Datensätze den Klassen der Zielvariablen zuordnet, durchgeführt. Clus ter Kun den typ An teil 1 Äl te re Kun den (we sent lich äl ter als im Durch schnitt der an de ren Clus ter) 34 % 2 Be darfs be stel ler (Nut zen Ver sand schie ne um Be darf zu de cken, sind aber kei ne ty pi schen Ver sand han dels kun den) 43 % 3 „Der ver är ger te An spruchs vol le“ (län ge re Lie fer zei ten, hö he rer An teil ge stri che ner Po si tio nen, hö he res An spruchs ni veau) 6 % 4 Rest grup pe (in di vi du el le Grün de des Ab sprun ges) 17 % Ab bil dung 118: Clus ter ana ly se zur Seg men tie rung ab ge sprun ge ner Kun den Quel le: Ne cker mann Die bekanntesten Verfahren zur Aufteilung in Unterklassen sind die Trennung nach dem Informationsgehalt für CART-Bäume und nach dem Chi-Quadrat-Unabhängigkeitstest für CHAID-Bäume. Bei CHAID-Bäumen wird der Chi-Quadrat-Abstand genutzt, um die Variable auszuwählen, welche die größte Abhängigkeit zur Zielvariablen aufweist. Je größer der Chi-Quadrat-Abstand, desto stärker ist die Abhängigkeit der betrachtenden Variable zur Zielvariablen. Nachdem die Variable mit dem größten Chi-Quadrat- Abstand berücksichtigt wurde, werden ebenso mittels Chi-Quadrat-Test die Unterteilungen in Klassen der Variablen errechnet. Dazu werden alle möglichen Kombinationen der Klasseneinteilung zu benachbarten Ausprägungen ausgewertet. Dies ermöglicht im Gegensatz zum CART-Verfahren auch eine Aufteilung des Attributs in mehr als zwei Unterklassen und daher eine kompaktere Form der Darstellung. Buch_Direktmarketing.indb 226 23.12.2008 10:29:21 Uhr 17.3 Data Mining Verfahren 227 In der Praxis sind Entscheidungsbäume weit verbreitet, weil die Generierung eines Entscheidungsbaums relativ schnell durchgeführt werden kann und die Darstellung der Ergebnisse in einer intuitiv verständlichen Form erfolgt. Beispiel: Die Dresdner Bank erstellte mit Answer Tree 2.0 von SPSS eine CHAID-Analyse zur Segmentierung ihrer bestehenden Kunden hinsichtlich eines Bausparvertrages. Darin wurde untersucht, nach welchen Merkmalen sich Kunden mit Bausparvertrag von Kunden ohne Bausparvertrag unterscheiden. Die Zielvariable enthält daher die Klassen der Kunden mit und ohne Bausparvertrag. Für die Analyse wurden externe Marktforschungsdaten von Claritas verwandt. Zunächst wurden die externen Daten bereinigt, indem die nicht relevanten Daten eliminiert wurden, nachdem eine Häufigkeitsauswertung der einzelnen Variablen durchgeführt wurde. Danach wurden für die übrig gebliebenen Merkmale mit „kleinen Entscheidungsbäumen“ Klassen gebildet, indem jedes Merkmal einzeln der Zielvariable nach dem Chi-Quadrat-Unabhängigkeitstest gegenüber gestellt wurde. Daraufhin wurden die einzelnen Variablen entsprechend umkodiert beispielsweise in Altersklassen, damit das CHAID Verfahren nicht zu viele Kombinationen der Merkmalsausprägungen errechnet, da diese das Verfahren wegen starker Beanspruchung an die Rechenleistung verlangsamen. Dabei erwiesen sich viele Merkmale als nicht geeignet, die Zielvariable zu erklären und wurden daher für den endgültigen Entscheidungsbaum nicht mehr berücksichtigt, oder es wurden beispielsweise bei dem Merkmal Entfernung zum Arbeitsplatz nach dem Median Klassen gebildet. Der endgültige Entscheidungsbaum lieferte überraschende Erkenntnisse für das Database Management der Dresdner Bank. Als beste Kundengruppe wurden Bild-Leser im Alter bis 50 Jahren, die auch den Kicker lesen, identifiziert, von denen 20,8 Prozent einen Bausparvertrag abgeschlossen haben. Die nächstbeste Kundengruppe sind hauptberufliche Angestellte des öffentlichen Dienst, die in einem Haushalt mit vier bis fünf Personen leben, mit einem Anteil von 12,6 Prozent an Bausparern. Daraufhin wurde die Anzahl der Fälle derjenigen Gruppen, die eine überdurchschnittliche Wahrscheinlichkeit haben, einen Bausparvertrag abzuschließen, aufsummiert und der Grundgesamtheit gegenübergestellt. Das Ergebnis war, dass bei einer Ansprache an 55,6 Prozent der bestehenden Kunden 30 Prozent mehr Abschlüsse getätigt werden konnten als im Durchschnitt aller Kunden. Eine Life-Style-Analyse soll nun detaillierter Auskunft über diese Kunden geben. Zur Verbesserung der Methode der Entscheidungsbäume wurden die „Random Forests“ entwickelt (Breiman, 2001, S. 5 ff.). Hierbei handelt es sich um eine Sammlung von Bäumen, die mit N Trainingsbeispielen aus einem Datenset gespeist werden. Es wird jedes Datenbeispiel für jeden Baum verwendet. M stellt dabei die Zahl der Buch_Direktmarketing.indb 227 23.12.2008 10:29:21 Uhr 17 Data Mining228 Faktoren dar, die insgesamt die Klassifikation (churner/no-churner) beeinflussen. m wiederum ist die Anzahl der verwendeten Variablen, die an einem Entscheidungsknoten zum Tragen kommen, wobei stets gilt, dass m viel kleiner als M sein muss. Die Auswahl von m aus M erfolgt nach dem Zufallsprinzip. Lässt man nun ein Datenbeispiel N durch alle Bäume durchlaufen, erhält man am Ende eine Klassifikation des Beispiels von jedem Baum. Addiert man diese später auf, hat man eine „Mehrheitsabstimmung“ für eine Klassifikation (Strobl u. a., 2008, S. 3). Bei zunehmender Korrelation der Bäume untereinander nimmt die Fehlerrate zu. Die besten Bäume zur Klassifizierung werden als „strong classifier“ bezeichnet, je mehr von diesen Bäumen vorhanden sind, umso geringer ist die Fehlerrate. Die Reduktion von m führt zur Reduktion von Korrelation und Klassifizierungsstärke, wohingegen die Erhöhung von m das umgekehrte Ergebnis zur Folge hat. Es gilt somit einen optimalen Mittelwert zu finden. Mit Hilfe des Trainingsdatenpools, dessen Klassifikation bekannt ist, lassen sich die Qualitäten des Random Forest überprüfen, dabei werden etwa ein Drittel der zur Verfügung stehenden Daten aus der Berechnung des Modells ausgeschlossen. 17.3.4 Regressionsanalysen Die Regressionsanalyse untersucht den funktionalen Zusammenhang zwischen der zu erklärenden Variable bzw. den zu erklärenden Variablen (bei multipler Regression) Abbildung 119: Vereinfachte Darstellung eines Random Forests m N1 N2 N3 Nx M m m m mm m m m Output classes: Churner No-Churner Buch_Direktmarketing.indb 228 23.12.2008 10:29:22 Uhr 17.3 Data Mining Verfahren 229 und der unabhängigen Variable bzw. den unabhängigen Variablen (bei multivariater Regressionsanalyse). Im einfachsten Fall der linearen Regression wird eine Gerade der Form y = ax + b gesucht, die der Menge der Beobachtungswerte am nächsten kommt. Die Parameter a und b werden dann so bestimmt, dass für die vorliegenden Werte x der Wert y optimal durch die Funktion beschrieben wird. Abweichungen von der Funktion werden pauschal einer unbekannten und nicht näher definierten Störvariablen zugerechnet, die den angenommenen funktionalen Zusammenhang überlagert. Die Berechnung erfolgt dabei meist durch die Methode der kleinsten Quadrate, die auf der Summe der quadrierten Abweichungen zwischen der jeweiligen Merkmalsausprägungen y und der Funktion basiert. Beispiel: Die Dresdner Bank untersuchte zum Vergleich externer Daten von Claritas und GfK Reaktionsdaten eines Mailings zum Kauf einer Kreditkarte und externe Daten von Claritas und GFK hinsichtlich aussagekräftiger Variablen zur Kreditkartenaffinität. Zur Regressionsanalyse wurde das Data Mining Tool Scorexpert eingesetzt. Scorexpert sucht sich die jeweils aussagekräftigsten Variablen eines Datensatzes selbstständig heraus und gewichtet diese. In einem ersten Schritt wurden die externen Daten ohne interne Daten miteinander verglichen. Daraus konnte wegen einer schlechten Erkennung der Reagierer (jeweils unter 50 Prozent) kein aussagekräftiges Modell abgeleitet werden. In einem zweiten Schritt wurden nicht nur die externen Daten betrachtet und miteinander verglichen, sondern diese jeweils in Kombination mit den verfügbaren internen Daten (Kundenbindungsdauer, Kundenalter, Nationalität und Umsatz). Es fiel dabei auf, dass die externen Daten im Vergleich zu den internen Daten nur schwach in das Modell eingehen. Die Qualität der Alternativen gleicht sich daher an. In den oberen 10 Prozent ist allerdings wiederum die Qualität bei Benutzung der Claritas-Variablen besser. Die logistische Regression ist eine robuste Methode, die besonders im Marketing Anwendung findet. Unter der Annahme, dass ein Kunde entweder geht (0) oder bleibt (1) bzw. reagiert (1) oder nicht reagiert (0), wird die größte Wahrscheinlichkeit (log likelihood) berechnet, mit der sich ein Kunde diesen beiden Zuständen annähert. Die Wahrscheinlichkeit wird hierbei von den definierten Einflussfaktoren bestimmt. Eine schrittweise Regression der Einflussfaktoren steigert häufig die Qualität der Vorhersage (Van den Poel, Buckinx, 2004, S. 256 f.). 17.3.5 Neuronale Netze und Kohonen Netze Neuronale Netze sind selbstständig lernende Systeme, die in Analogie zum menschlichen Gehirn Synapsen (Verbindungen) und Nervenknoten (Knoten) herstellen. Auf Buch_Direktmarketing.indb 229 23.12.2008 10:29:22 Uhr 17 Data Mining230 Grund bestimmter Algorithmen decken sie Strukturmuster auf und interpretieren diese selbstständig. Daraufhin passt sich das neuronale Netz in einem fortlaufenden Prozess automatisch an die ermittelten Ursache-Wirkungs-Zusammenhänge an. Sie werden daher häufig in der Prognoseplanung, in Scoring Modellen, als Segmentierungsverfahren und in verschiedenen Optimierungsmodellen angewandt. Ein neuronales Netz besteht dabei aus einer großen Anzahl unabhängiger kleiner Einheiten, den Neuronen, die (theoretisch) alle miteinander verbunden sind. Jedes Neuron reagiert dabei gemäß seiner Aktivierungsfunktion auf die eingehenden Signale anderer Neuronen und erzeugt selbst ein Ausgangssignal, das wiederum theoretisch an alle anderen Neuronen verschickt wird (Wieken, 1999, S. 104). In der Praxis kommen fast ausschließlich vorwärtsbetriebene Netze (feed forward) zum Einsatz. Dabei werden die Neuronen in Schichten (Layer) angeordnet und die Verbindungen laufen ausschließlich von einer Schicht zur darauf folgenden Schicht. Ein solches Netz verfügt dann über eine Eingangsschicht, gegebenenfalls mehrere interne Schichten (= Hidden-Schichten) und eine Ausgangsschicht. Wesentliche Aktivierungsfunktionen sind die Sigmoid Funktion und die Radiale Basis Funktion (Krahl, Windheuser, 1998, S. 65). Während bei der Sigmoid Funktion ein Neuron dann zu einer Reaktion veranlasst wird, wenn der im ersten Schritt ermittelte (Reiz-)Wert einen bestimmten Schwellenwert übersteigt, wird bei der Radial Basis Funktion das Neuron bereits eine Reaktion veranlassen, wenn sich der Input in der Nähe eines bestimmten Schwerpunktes befindet. Während bisher in der Biologie kein Typ der Radial Basis Funktion entdeckt werden konnte, ist die Verwendung aus mathematischer Sicht sinnvoll, denn sie führt bei bestimmten Aufgaben zu besseren Ergebnissen. Die Trainingsphase eines neuronalen Netzes entspricht dem Lernprozess. Lernen findet durch ständige Anpassung der ursprünglichen Trainingswerte an die Realität statt an Hand eines errechneten Fehlers. Das Verfahren der Backpropagation- Lernregel ermittelt das Fehlersignal durch Fehlerrückmeldung ausgehend von der Ausgabeschicht durch die inneren Schichten. Dabei errechnet jedes innere Neuron an Hand seines Ausgabesignals und des bei ihm ankommenden Fehlersignals seinen eigenen Fehler. Dieses Verfahren wird so oft wiederholt, bis entweder das Netz seinen gewünschten Zustand erreicht hat oder grundsätzliche Änderungen in der Topologie des Netzes vorgenommen werden. Abschließend wird das Netz noch mit „frischem Prüfungsmaterial“ getestet, um sicherzustellen, dass das Netz auch auf neue Eingaben zufriedenstellend reagiert (Wieken, 1999, S. 107). Neuronale Netze werden dem subsymbolischen Ansatz der Wissensverarbeitung zugeordnet. Dieser beinhaltet vielfältige Verknüpfungen und unscharfe Beziehungen mit beliebigen Gewichten zwischen den Neuronen. Wissen über die Zusammenhänge im Netz wird daher lediglich implizit dargestellt, während symbolische Ansätze wie beispielsweise Entscheidungsbäume Wissen explizit durch Regeln und Verarbeitung durch klare Regelketten darstellen (Krahl, Windheuser, 1998, S. 68). Buch_Direktmarketing.indb 230 23.12.2008 10:29:23 Uhr 17.3 Data Mining Verfahren 231 Vorteilhaft für neuronale Netze ist die dadurch bedingte große modellbedingte Flexibilität in der Modellbildung und ein hoher Freiheitsgrad an Lernkapazität durch eine sehr allgemein formulierte mathematische Darstellung, da weniger Einschränkungen bezüglich der internen Darstellung des Modells gegeben sind. Neuronale Netze eignen sich daher besonders für die Verarbeitung von verrauschten, lückenhaften oder sogar widersprüchlichen Daten, weil in der Trainingsphase neuronale Netze die Fähigkeit erlernen, die wesentlichen Strukturen zu erkennen und die zufälligen Phänomene herauszufiltern. Der subsymbolische Ansatz birgt aber auch Nachteile. Die Trainingsphase ist recht kompliziert, denn je mehr Freiheit in einem System steckt, desto mehr potenzielle Fehlerquellen im Sinne eines schlechten Modellbaus sind zu beachten (Krahl, Windheuser, 1998, S. 69). Um den Modellbau überprüfen zu können, müssen Indikatoren gesetzt werden, die allerdings den Sinn der neuronalen Netze als Black Box Modelle in Frage stellen. Die Ergebnisse sind zudem schwer zu überprüfen und nachzuvollziehen. Bei Kohonen-Netzen handelt es sich um Segmentierungsverfahren, die auf den Prinzipien der neuronalen Netze basieren und selbstständig Cluster innerhalb eines Datensatzes bilden. Im Unterschied zu den bisher betrachteten neuronalen Netzen bestehen neuronale Netze in der Regel lediglich aus einer Input- und einer meist zweidimensionalen Outputschicht. Ein Neuron besitzt dabei weder Aktivierungsfunktion noch Schwellenwert und repräsentiert die Ähnlichkeit der zugehörigen Gewichte zum Input. In der Trainingsphase passt das Output-Neuron mit dem höchsten Ähnlichkeitswert zum Input seine Gewichte an den Input an. Daraufhin werden die umliegenden Neuronen in der Nachbarschaft des ermittelten Neurons adaptiert, um eine automatische Anordnung (= Cluster) ähnlich reagierender Neuronen zu erreichen (Krahl, Windheuser, 1998, S. 83). Beispiel: Neckermann untersuchte in einer Pilotstudie zur Bonitätsprüfung neuronale Netze im Vergleich zu bisher eingesetzten modernen Varianten klassischer Verfahren der multivariaten Statistik (lineare Regression, logistische Regression und Diskriminanzanalyse). Als Vergleichsgröße wurde bei einer repräsentativ geschichteten Stichprobe von ca. 6.000 Kunden der Prozentsatz richtig klassifizierter Kunden herangezogen. Die Stichprobe teilt sich auf in 2.953 „gute“ Kunden und 2.915 „schlechte“ Kunden. Die Daten umfassten Kundenstamminformationen, Kontokorrentbuchungen, Salden, Fälligkeiten der Einzelbestellungen und Auftragsdaten. Von insgesamt 1.000 Merkmalen in der Kundendatenbank wurden 150 Merkmale ausgesucht. Zur Analyse der klassischen Verfahren wurde SAS/STAT Release 6.08/6.10/6.11 und zur Berechnung neuronaler Netze SAS Neural Network Add-On Version 3.5, NeuralWorks Professional II, Fast Version 2.02 und Pattern Recognition Workbench Version 2.0 eingesetzt. Buch_Direktmarketing.indb 231 23.12.2008 10:29:23 Uhr 17 Data Mining232 Zur Ergebnisermittlung wurden bei den künstlichen neuronalen Netzen verschiedene Netzwerktypen, Aktivierungsfunktionen, Algorithmen zur Optimierung der Parameter, Kombinationsfunktionen, Fehlerfunktionen und verschiedene Zusammensetzungen in der inneren Schicht getestet. Im Ergebnis wurde bei den bisherigen eingesetzten klassischen Verfahren eine zu 80 Prozent richtige Zuordnung ermittelt und bei neuronalen Netzen mit dem RBF-Netz 81 Prozent. Die Interpretation der Ergebnisse in Zusammenhang mit großen Schwierigkeiten bei der operativen Umsetzung bewirkte ein vernichtendes Urteil über den Einsatz neuronaler Netze. Es wurde entschlossen neuronale Netze nicht in der Praxis einzusetzen, denn hochentwickelte klassische Scoring-Verfahren ergeben bessere, prognostisch robuste Kundenprognosen. Als Begründung wurde der hohe technische Aufwand neuronaler Netze (Trainingsphase, Rechenaufwand), die Voraussetzung fundierterstatistischer Kenntnisse zur Ergebnisinterpretation der Anwender, eine aufwendige Datenvorbereitung und eine nicht automatisierbare Netzstruktur angegeben. Beispiel: Der Versender „Atelier Goldner Schnitt“ hat sich auf Damenmode für die Altersgruppe der über 60jährigen spezialisiert und ist in acht europäischen Ländern aktiv. Er versendet in jeder Saison über 50 verschiedene Basis-Werbemittel, deren Einsatz mit Data Mining optimiert wird. Als Ziele des Einsatzes von Neuronalen Netzen gelten: Optimale Werbemittelstreuung • Cross- und Up-Selling-Analysen • Prognose der Kundenabwanderung • Bonitätsprüfung• Üblicherweise werden 500 bis 1.000 Variablen pro Kunde für die Analyse ausgewählt, für spezifische Auswertungen sind auch bis zu 10.000 Variablen möglich. Typischerweise ermittelt das Unternehmen ca. 1.000 Kundensegmente mit einem Scorewert für jedes Segment, der beispielsweise eine Response- oder Umsatzprognose ermöglicht. Neuronale Netze sind dabei in der Lage, Kennzahlen, die für die Segmentierung wichtig sind, automatisch zu erkennen und höher zu gewichten. Aus der Segmentierung ergibt sich eine Klassifizierung für die differenzierte Ansprache der einzelnen Kunden. Wenn die Zielgröße beispielsweise die Umsatzprognose für ein bestimmtes Werbemittel ist, lassen sich durch die Zuordnung der Werbekosten solche Kundengruppen ausgrenzen, für die der Werbeaufwand nicht rentabel ist. Der Versender kombiniert den Einsatz der Neuronalen Netze mit herkömmlichen statistischen Verfahren, um die Transparenz der Analysen sicherzustellen. Buch_Direktmarketing.indb 232 23.12.2008 10:29:23 Uhr 17.3 Data Mining Verfahren 233 Im Idealfall wird eine Genauigkeit von 99,9 Prozent über alle Segmente erreicht, in einzelnen Segmenten liegt sie bei 98 Prozent. (Brändli, Imhoff, 2005, S. 4 – 6) 17.3.6 Fuzzy Logic Die Verfahren der Fuzzy Logic sind ebenfalls dem subsymbolischen Ansatz zuzuordnen. An Hand eines Expertenwissens, das beispielsweise von verschiedenen Fachleuten bereit gestellt wird, werden sogenannte Fuzzy-Regeln bestimmt, die aus unscharfen Informationen Aussagen ableiten, zum Beispiel: „WENN das Alter ist jung UND der Kopf ist kahl, DANN liegt ein potenzieller Kunde für das neue Haarwuchsmittel vor“. Sie erlauben damit eine realistische Abbildung menschlicher Auffassungsgabe und Verhaltens (Krahl, Windheuser, 1998, S. 83). Das Unternehmen FUZZY! Informatik GmbH stellt in seinem Firmenprospekt den Grundgedanken von Fuzzy Logic durch eine einfache Headline dar: „W knn mr FZZY hlfn?“ Obwohl (außer dem y) alle Vokale fehlen, ist der Leser in der Lage, den unscharfen Text zu entschlüsseln. Durch Fuzzy Logic wird auch eine Software in die Lage versetzt, mit unscharfen Informationen, die häufig dem menschlichen Denken entsprechen, zurechtzukommen. Um aus unscharfen Informationen durch eine logische Verknüpfung Aussagen fällen zu können, werden zuerst an Hand des Expertenwissens (= Fuzzy Control) Zugehörigkeitsfunktionen für die vorliegenden unscharfen Eigenschaften (Informationen) bestimmt (Wieken, 1999, S. 109). Die Abbildung 120 zeigt mögliche sich überlagernde Zugehörigkeitsfunktionen für die Variable Alter von „sehr jung“ bis „sehr alt“. Abbildung 120: Fuzzy Zugehörigkeitsfunktionen für das Alter Quelle: Haussecker, 2000 1 0.85 0.5 0.15 alt jung nicht jungsehr jung sehr alt Alter605030180 Buch_Direktmarketing.indb 233 23.12.2008 10:29:24 Uhr 17 Data Mining234 Denkbar ist aus den verschiedenen unscharfen Informationen ein Regelwerk aufzubauen. Im ersten Schritt werden die Messwerte aus dem Datensatz entnommen, um sie zu „fuzzifizieren“, das heißt zu Eingangswerten der Zugehörigkeitsfunktionen zu transformieren. Danach wird ermittelt, welche Zugehörigkeitsgrade von „sehr jung“ bis „sehr alt“ und „kahl“ bis „haarig“ vorliegen und daraufhin mittels „Defuzzyfizierung“ eine Stellgröße für den Regler oder die Steuerung errechnet, die beispielsweise angibt, inwieweit ein potenzieller Kunde vorliegt. Fuzzy Logik eignet sich im Data Mining zum Training neuronaler Netze, da die Radiale Basis Funktion (RBF) neuronaler Netze der Darstellung unscharfer numerischer Informationen ähnelt. Der Vorteil ist es, dass das Training eines neuronalen Netzes nicht mit zufälligen Initialisierungen startet, sondern dafür bereits bestehendes Expertenwissen genutzt werden kann (Krahl, Windheuser, 1998, S. 92). Ansonsten ist Fuzzy Logik als deduktives Verfahren nicht dem Data Mining zuzuordnen. Die Abbildung 121 zeigt einige weitere Anwendungen von Fuzzy Logic. Im Direktund Databasemarketing ist Fuzzy Logic wichtig bei der Recherche von Adressen und dem Abgleich von Dubletten. Auch für die Belieferung von Kunden, deren Bestellung fehlerhaft („Pritti Wummen“) oder unvollständig („Wommack, Revolution“) ist, leistet das Programm wertvolle Dienste. 17.3.7 Genetische Algorithmen Genetische Algorithmen gehören den Evolutionsstrategien an, die aus der Biologie entstammen. Dabei geht es darum, aus einem Fundus zufällig bereitgestellter Anfangslösungen eine (zumindest nahezu) optimale Lösung zu entwickeln (Krahl, Windheuser, 1998, S. 93). Ausgehend von einer Anfangspopulation an Individuen besitzt jedes Individuum Eigenschaften, die binär kodiert sind. Mit Hilfe nachfolgender Verfahren werden daraus neue Generationen mit neuen Populationen gewonnen: Sie suchen FUZZY! findet Personen Schepanski, M., Wiesmeier Szczepanski, Martina Wießmayer Artikel: 4-kant Schraube gehärtet Tschio Schips Pritti Wummen DVD Gehärtete Vierkantschraube Chio Chips DVD Pretty Woman Buchtitel: Wommack, Revolution Die zweite Revolution in der Automobilindustrie, Roos, Womack, Jones Buch_Direktmarketing.indb 234 23.12.2008 10:29:24 Uhr 17.3 Data Mining Verfahren 235 Sie suchen FUZZY! findet Anschriften, Telefonnummern: Prissella Wouldsworth Frittham Castle Gwyneth & Priscilla Molesworth Nether Addlethorpe Middle Fritham Thrumpton Castle, LU 70 LL South Thoresby Abbildung 121: Beispiele für die Anwendung von Fuzzy Logic Quelle: FUZZY! Informatik GmbH Selektion:• Aus einer vorgegebenen Palette an Lösungsvorschlägen werden die besten ausgelesen. Kreuzung (= Cross Over):• Ihre Kenngrößen werden kombiniert und als neue Generation von Basislösungen aufgefasst. Mutation:• Die Kenngrößen werden zufälligen Abänderungen unterworfen, um sicherzustellen, dass die Suche nach der optimalen Lösung nicht auf den anfänglichen Vorrat der Kenndaten beschränkt bleibt („Inzucht Gefahr“). Wenn die Elterngeneration mehr „paarungsreife“ Kinder als Eltern produziert, werden die „fittesten“ selektiert beispielsweise unter Berücksichtigung der Überlebenswahrscheinlichkeit. Je „fitter“ ein Individuum ist, umso mehr „Kinder“ kann es produzieren. 17.3.8 Support Vector Machines (SVM) SVMs beschreiben eine computergestützte Mustererkennung. Basis dieser Methode ist eine Menge von Daten (Trainingsobjekten), deren Klasse bekannt ist (z. B. churner/no-churner). In Abbildung 122 sind die churner durch rote Punkte und die no-churner durch grüne Quadrate repräsentiert. Diese werden dann durch einen Vektor in einem Vektorraum ausgedrückt (siehe Abbildung 122 D). Aufgabe der SVM ist es dann dem Vektorraum eine mehrdimensionale Hyperebene hinzuzufügen, die die Vektoren in zwei Klassen teilt (siehe Abbildung 122 C), wobei der Abstand jener Vektoren, die der Hyperebene am nächsten liegen, auch Support-Vektoren genannt, maximiert wird (Abbildung 122 B). Mehrdimensionale Hyperebenen können von zwei bis theoretisch unendlich vielen Dimensionen reichen, im dreidimensionalen Raum ist eine Hyperebene zweidimensional (siehe Abbildung 122 C), wohingegen im zweidimensionalen Raum Hyperebenen nur eine Linie sind (eine Dimension, Abbildung 122 A), was eine Einteilung in zwei Klassen schwierig machen kann. Daher ist die Mehrdimensionalität von Hyperebenen für die SVM entscheidend. Buch_Direktmarketing.indb 235 23.12.2008 10:29:24 Uhr 17 Data Mining236 Im Gegensatz dazu sind in Abbildung 122 A auch Beispiele für nicht akzeptable eindimensionale Hyperebenen gezeigt. Dieses Vorgehen stellt sicher, dass später auch Werte, die stark von den Trainingsvektoren abweichen, eindeutig klassifiziert werden können. Hierbei ist die Trennung der Vektoren im zweidimensionalen Raum oft schwierig, weshalb es sinnvoll erscheint, die Analyse in einen mehrdimensionalen Raum zu verlagern (Abbildung 122 C). Dies geschieht mit Hilfe der so genannten Kernel-Funktion (Kernel-Trick). Nach Trennung der Vektoren im mehrdimensionalen Raum durch eine Hyperebene kann dann eine Rücktransformation stattfinden (Verwendung geeigneter Kernel-Funktionen), was zu einer nicht linearen oder sogar nicht zusammenhängenden Hyperebene führen kann (Hsu, Chang, Lin, 2004, o. S.). Beispiel zum Data Mining: Die Quelle AG nutzt ein dynamisches Prozessmodell, das den Nachteil klassischer Scoring-Systeme umgeht. Diese berücksichtigen ausschließlich Vergangenheitsdaten und berücksichtigen keine aktuellen Informationen mehr sobald das Scoring-Modell einmal definiert ist. Das „Realtime Dynamic Modeling“ basiert unter anderem auf genetischen Algorithmen und Neuronalen Netzen und beschränkt die Analyse nicht auf einige wenige Variablen sondern kann beliebig viele, beispielsweise 200-dimensionale, Zusammenhänge erkennen. Abbildung 122: Darstellung von Vektoren und Hyperebenen innerhalb einer SVM Quelle: Vgl. http://lectures.molgen.mpg.de/statistik03/docs/Kapitel_16.pdf A DC B Buch_Direktmarketing.indb 236 23.12.2008 10:29:25 Uhr 17.4 Multivariate statistische Verfahren 237 Bei Quelle konnte durch den Einsatz des Verfahrens die Abschlussquote im Outbound-Telefonmarketing um 26 Prozent erhöht werden, der durchschnittliche Umsatz pro Kundengespräch steigerte sich um 42 Prozent. Dabei führt jedes einzelne Gesprächsergebnis zu einer automatischen Neuanalyse und in einem Closed Loop zu einem weiter optimierten Prognosemodell (Osterholt, 2005, S. 8–11). Beispiel zum Data Mining: Der Meister Verlag (München) ist die deutsche Tochtergesellschaft der international operierenden IMP Gruppe (International Masters Publisher). Kerngeschäft ist das Vermarkten von Sammelprodukten durch Mailings. Meister nutzt statistische Verfahren zur Responseoptimierung und zur Prognose dauerhafter Kundenbeziehungen. Die Vorhersagegenauigkeit und -sicherheit für den Absatz einer Direktmarketing-Kampagne konnte durch den Einsatz von Data-Mining (Neuronale Netze) deutlich erhöht werden. Dadurch war es möglich, ca. 150.000 Euro in einer einzigen Mailing-Aktion einzusparen (Zipser, 2006, S. 15). 17.4 Multivariate statistische Verfahren Die Statistik stellt eine Reihe von Verfahren zur Verfügung, die dazu dienen, aus Marktforschungs- oder Kundendaten homogene Marktsegmente zu errechnen (Holland, 1995, S. 28 ff.). Umfangreiche Befragungen von Konsumenten zu bestimmten Themen und Produkten werden mit Hilfe dieser Verfahren analysiert, um Segmente nach den oben beschriebenen Kriterien ermitteln zu können. Die multivariaten statistischen Verfahren unterscheiden sich von den einfachen statistischen Verfahren (uni- oder bivariate) dadurch, dass sie an einer Vielzahl von Untersuchungsobjekten (z. B. Personen) mehrere Variablen (z. B. Fragestellungen, Verhaltensweisen) messen und diese gleichzeitig auswerten. Faktorenanalyse• Die Faktorenanalyse verfolgt das Ziel, aus einer großen Anzahl von Merkmalen einige Hintergrundfaktoren herauszufinden, die die Zusammenhänge zwischen den Merkmalen (Interkorrelationen) berücksichtigen. In einer Marktforschungsstudie werden beispielsweise Kunden über das Image eines Produktes befragt, das an Hand von sehr vielen Merkmalen erhoben wird. Ein Teil dieser Merkmale wird dann im Allgemeinen von vielen Interviewten in die gleiche Richtung gehend bewertet. Buch_Direktmarketing.indb 237 23.12.2008 10:29:26 Uhr 17 Data Mining238 Beispiel: Beispielsweise gehen bei einer Imageerhebung über Automobile vermutlich die Bewertungen der Merkmale „Länge der Wartungsintervalle“, „Reparaturanfälligkeit“, „Verbrauch“ und „Versicherungskosten“ in die gleiche Richtung. Das heißt, diese Merkmale sind miteinander korreliert. Ein Faktor, der im Hintergrund diese Merkmale beschreibt, könnte als „Wirtschaftlichkeit“ bezeichnet werden. Auch die Bewertung der Merkmale „Leistung“, „Höchstgeschwindigkeit“ und „Zylinderzahl“ wird durch starke Korrelationen geprägt sein. Hier würde die Faktorenanalyse einen Hintergrundfaktor herausfinden, der sich als „Sportlichkeit“ interpretieren ließe (vgl. Abbildung 123). Die Verfahren der Faktorenanalyse untersuchen somit, ob der Vielzahl von Merkmalen einige wenige Faktoren zu Grunde liegen, mit deren Hilfe eine anschaulichere Beschreibung der Fragestellung (z. B. Image) möglich ist. Die Faktorenanalyse zeigt die Korrelationen zwischen den Merkmalen auf und gibt Faktoren mit der Stärke ihrer Beziehung zu den Merkmalen an. Die Interpretation und Bezeichnung der Faktoren muss vom Bearbeiter gefunden werden. Abbildung 123: Faktorenanalyse Wartungsintervalle Reparaturanfälligkeit Antriebsart Preis Sitzpolsterung Höchstgeschwindigkeit Gepäckraum Leistung (PS) Hubraum (ccm) Verbrauch Eigenschaften eines Autos Wirtschaftlichkeit Sportlichkeit/Komfort Zuverlässigkeit Eigenschaftsdimensionen Buch_Direktmarketing.indb 238 23.12.2008 10:29:27 Uhr 17.4 Multivariate statistische Verfahren 239 Clusteranalyse• Die Clusteranalyse wird vor allem bei der Zielgruppensegmentierung genutzt. Sie hat die Aufgabe, eine Vielzahl von unterschiedlichen Elementen in Gruppen oder Cluster zusammenzufassen, die mit einem differenzierten Marketing angesprochen werden. Die einzelnen Cluster sollen so gebildet werden, dass sich die Elemente in einer Gruppe möglichst ähnlich sind und sich von den anderen Clustern möglichst stark unterscheiden; es wird eine interne Homogenität und externe Heterogenität angestrebt. Faktorenanalyse: Kann man die Vielzahl von Eigenschaften, die die Kunden mit bestimmten Marken • verbinden, auf wenige Faktoren reduzieren? Wie lassen sich die unterschiedlichen Marken mit diesen Faktoren beschreiben?• Clusteranalyse: Lässt sich die Bevölkerung eines Landes nach ihrem Lifestyle in Typen einteilen?• Lassen sich die Kunden eines Versandhauses nach ihrem Kaufverhalten in Typen einteilen • (Mode-, Hartwaren-, Gelegenheitskäufer)? Diskriminanzanalyse: Die in einer Database gespeicherten Kundendaten werden darauf untersucht, ob sich die • besonders guten Stammkunden von den Gelegenheitskäufern durch beispielsweise das Alter oder regionale Kriterien unterscheiden. In welcher Hinsicht unterscheiden sich Abonnenten einer Zeitschrift von den Kioskkäu-• fern? Multidimensionale Skalierung: Welches Image besitzen die Produkte in einem Markt?• Entspricht das eigene Produkt oder das eigene Unternehmen den Idealvorstellungen • der Konsumenten? Abbildung 124: Typische Fragestellungen multivariater statistischer Verfahren Beispiel: Die Bildung von Käufertypologien basiert auf der Clusteranalyse. Eine repräsentative, genügend große Stichprobe von Konsumenten wird mit Hilfe eines Fragebogens zu zahlreichen Fragestellungen zur Soziodemografie, zum Kaufverhalten, zur Psychografie und anderen Themen interviewt. Die Daten werden dann mit Hilfe der Clusteranalyse daraufhin geprüft, ob es möglich ist, auf Grund der im Fragebogen gemachten Antworten Ähnlichkeiten bei den Interviewten festzustellen, die eine Typenbildung erlauben. Diskriminanzanalyse• Mit der Diskriminanzanalyse lassen sich die Unterschiede zwischen definierten Gruppen von Untersuchungseinheiten analysieren. Das Verfahren sucht Unterschiede zwischen den Gruppen und ermittelt die unabhängigen Variablen, die möglichst Buch_Direktmarketing.indb 239 23.12.2008 10:29:27 Uhr 17 Data Mining240 viel zur optimalen Trennung der Gruppen beitragen. Die Diskriminanzanalyse kann in Verbindung mit der Clusteranalyse zur Abgrenzung der Segmente genutzt werden. Sie legt die Grundlage für die Beschreibung der Cluster oder Personentypen. Multidimensionale Skalierung• Die multidimensionale Skalierung (MDS) verfolgt das Ziel, die festgestellten Beziehungen zwischen Objekten grafisch im Koordinatensystem darzustellen. Durch eine Befragung werden Daten über Objekte (z. B. Marken, Zeitschriften) erhoben. Die multidimensionale Skalierung stellt dann die relevanten Eigenschaften oder Nutzendimensionen der Objekte in einem Koordinatensystem dar. Die Objekte werden so in das System positioniert, dass ähnlich beurteilte nah zusammen liegen. Das Ergebnis ist ein Positionierungsmodell, das beispielsweise zur Identifikation psychologischer Marktlücken dienen kann. Conjoint Analyse• Der Begriff Conjoint setzt sich aus CONsidered JOINTly („ganzheitlich betrachtet“) zusammen. Conjoint-Analyse (auch Conjoint Measurement) ist eine Methode, die in der Psychologie entwickelt wurde. Der Begriff bezeichnet eine Vorgehensweise zur Messung der Bewertung eines Gutes. Dazu werden bestimmte Eigenschaften des Gutes (Stimuli) mit bestimmten Bedeutungsgewichten versehen, um daraus ein möglichst allgemein gültiges Gesamt-Präferenzurteil der Verbraucher über das Gut ableiten zu können. Die Conjoint-Analyse ist die heute am häufigsten eingesetzte Analysemethode zur Erhebung der Präferenzen von Konsumenten. Mit Hilfe der Conjoint-Analyse wird untersucht, in welchem Maß einzelne Merkmale bzw. Merkmalskombinationen, die ein bestimmtes Produkt auszeichnen, vom Nutzer bevorzugt werden. Beispiel: Für einen Automobilhersteller wäre es beispielsweise wichtig festzustellen, welche Bedeutung die Merkmale „Hersteller“, „PS-Zahl“ und „Wagenfarbe“ für die Kaufentscheidung des Nutzers haben. Im Rahmen einer Conjoint-Analyse würden aus diesen Merkmalen eine Reihe von Gesamtprodukten kombiniert werden (beispielsweise ein roter Audi mit 170 PS, grauer Mercedes mit 160 PS und ein blauer BMW mit 190 PS, usw.). Der Befragte gibt nun zu diesen Gesamtkonzepten jeweils ein Votum ab. Im Rahmen des Conjoint-Verfahrens ist es möglich, aus den Angaben des Nutzers auf dessen Präferenzen bezüglich der einzelnen Merkmale und Merkmalsausprägungen zu schließen. Im Beispiel könnte sich beispielsweise ergeben, dass sich die Probanden beim Kauf eines Neuwagens in erster Linie am Hersteller orientieren, wobei der Hersteller BMW bevorzugt wird. Da jedes Gut als Kombination von Produkteigenschaften mit bestimmten Merkmalsausprägungen aufgefasst werden kann, hat das Verfahren Conjoint eine sehr weite Verbreitung gefunden. Buch_Direktmarketing.indb 240 23.12.2008 10:29:28 Uhr 17.4 Multivariate statistische Verfahren 241 Wesentlich für die Conjoint-Analyse ist das so genannte dekompositionelle Prinzip dieses Verfahrens: Die Bewertungen der Befragten beziehen sich zunächst auf ganzheitliche Produktkombinationen, die bei der Auswertung zerlegt und auf diejenigen Merkmale und deren Ausprägungen umgerechnet werden, die in die Bewertung mit eingeflossen sind. Durch diese Vorgehensweise entspricht die Conjoint-Analyse in hohem Maße dem tatsächlichen Bewertungsprozess einer realen Kaufsituation, in der der Konsument ebenfalls mit ganzheitlichen Produkten konfrontiert ist. Da diese Produkte aus Befragtensicht sowohl gewisse Vor- als auch gewisse Nachteile haben, wird er dazu gebracht, die Bedeutung der verschiedenen Eigenschaften relativ zueinander abzuwägen und sich die tatsächliche Bedeutung der einzelnen Merkmale bewusst zu machen. Buch_Direktmarketing.indb 241 23.12.2008 10:29:28 Uhr

Chapter Preview

References

Zusammenfassung

Das Direktmarketing hat in den letzten Jahren eine rasante Entwicklung mit beträchtlichen Zuwachsraten erlebt. Immer mehr Unternehmen aus den unterschiedlichsten Branchen haben den direkten Dialog mit ihren Kunden in ihr Marketing-Instrumentarium übernommen und damit bewirkt, dass nach einer Studie der Deutschen Post AG bereits zwei Drittel der Kommunikationsausgaben deutscher Unternehmen in den Dialog fließen.

Der Übergang vom Transaktions- zum Beziehungsmarketing stellt die langfristige Kundenbeziehung und Kundenbindung in den Fokus, die durch die Instrumente des Direktmarketings gepflegt werden.

Die Trends zum CRM (Customer Relationship Management) und zum Online-Marketing haben die Bedeutung des Direktmarketings weiter verstärkt.

Neue Techniken der Segmentierung, wie Data Warehouse und Data Mining, erlauben eine immer feinere Selektion für die direkte Kundenansprache.

Auch die akademische Lehre hat sich in den letzten Jahren mit diesem Thema stärker beschäftigt. Allerdings wird in vielen klassischen Marketing-Lehrbüchern das Direktmarketing immer noch allenfalls im Rahmen der Kommunikationspolitik behandelt.

Diese 3. Auflage gibt einen Überblick über alle wichtigen Bereiche des Direktmarketings. Das Buch ist bewusst pragmatisch ausgerichtet, zeigt den aktuellen Stand und gibt an Hand zahlreicher Beispiele aus den unterschiedlichsten Branchen Anregungen für die praktische Umsetzung.

- Grundlagen des Direktmarketings

- Erfolgsfaktoren und Aufgaben des Direktmarketings

- Medien des Direktmarketings

- Online-Direktmarketing

- E-Mails im Direktmarketing

- Mobile Marketing

- Web 2.0 und Direktmarketing

- Planung von DirektmarketingAktionen

- Wahl der Zielgruppe

- Database-Marketing

- Einsatz des Database-Marketing

- Beziehungsmanagement und Customer Relationship Management

- Kundenzufriedenheit und Kundenbindung

- Kampagnenmanagement

- Kundenclubs und Kundenkarten

- Beilage und Anzeige

- Katalog

Prof. Dr. Heinrich Holland lehrt an der Fachhochschule (University of Applied Sciences) Mainz. Er ist Akademieleiter der Deutschen Dialogmarketing Akademie (DDA) und Mitglied zahlreicher Beiräte und Jurys. Im Jahr 2004 wurde er in die Hall of Fame des Direktmarketings aufgenommen. Er hält Vorträge im In- und Ausland und berät namhafte Unternehmen. Mit der Holland Consulting betreut er Beratungs-Projekte in den Bereichen Direktmarketing, Integrierte Kommunikation, CRM und Marktforschung

Für Dozenten und Studierende des Marketings, Marketingfachleute in Unternehmen sowie für Werbeagenturen.