Björn Christensen, Dominik Papies, Dennis Proppe, Michel Clement, Gütemaße der logistischen Regression bei unbalancierten Stichproben in:

WiSt - Wirtschaftswissenschaftliches Studium, page 211 - 213

WIST, Volume 43 (2014), Issue 4, ISSN: 0340-1650, ISSN online: 0340-1650, https://doi.org/10.15358/0340-1650_2014_4_211

Browse Volumes and Issues: WiSt - Wirtschaftswissenschaftliches Studium

Bibliographic information
Gesetze, Effekte, Theoreme Gütemaße der logistischen Regression bei unbalancierten Stichproben Björn Christensen, Kiel, Dominik Papies, Tübingen, Dennis Proppe, Norderstedt, und Michel Clement, Hamburg Prof. Dr. Björn Christensen, Professur für Statistik und Mathematik, Fachbereich Wirtschaft, Fachhochschule Kiel, Sokratesplatz 2, 24149 Kiel. Prof. Dr. Dominik Papies, Lehrstuhl für Marketing, Wirtschafts- und Sozialwissenschaftliche Fakultät, Universität Tübingen, Nauklerstr. 47, 72074 Tübingen. Dr. Dennis Proppe, G|PREDICTIVE Gradient GmbH, Gutenbergring 67b, 22848 Norderstedt. Prof. Dr. Michel Clement, Lehrstuhl für Marketing & Medienmanagement, Institut für Marketing und Medien, Universität Hamburg, Welckerstr. 8, 20146 Hamburg. 1. Logistische Regressionen als Instrument in der empirischen Forschung Die logistische Regression stellt heute ein etabliertes Instrument zur Untersuchung des Einflusses von mehreren unabhängigen Variablen auf eine dichotome abhängige Variable dar. Diese Methode wird beispielsweise im Marketing eingesetzt, um Einflüsse auf das Kündigungsverhalten zu untersuchen. Neben der Interpretation der Modellparameter schließen empirische Untersuchungen in der Regel auch die Beurteilung der Modellgüte mit Hilfe geeigneter Gütemaße (in der linearen Regression z. B. das R2) ein, die eine Prüfung erlauben sollen, ob ein Modell ein hinreichend großes Erklärungspotenzial besitzt oder ob es verworfen werden sollte. Bei der Gütebeurteilung eines Modells in der logistischen Regression kann das etablierte Bestimmtheitsmaß R2 der linearen Regression (OLS) nicht herangezogen werden. Daher werden in der Literatur zahlreiche Gütemaße vorgeschlagen, deren Konstruktion und Interpretation an das OLS-basierte R2 angelehnt sind. Als die prominentesten Vertreter gelten die Pseudo-R2-Statistiken nach McFadden, Cox&Snell und Nagelkerke (Backhaus et al., 2011). Diese Gütemaße sind auch in den gängigen Softwarepaketen (z. B. SPSS oder Stata) für die multivariate Datenauswertung enthalten, welches zu einer breiten Anwendung insbesondere der Pseudo-R2-Statistiken geführt hat. 2. Einfluss von unbalancierten Stichproben auf die Ergebnisse der logistischen Regression Während sich in der Literatur eine substanzielle Anzahl von Artikeln finden lässt, die die Gütemaße der logistischen Regression auf ihre generelle Eignung und die Vergleichbarkeit zum OLS-basierten R2 hin untersuchen (Veall, Zimmermann, 1996), ist nur wenig darüber bekannt, dass die Balanciertheit der Stichprobe, d. h. die Verteilung der Nullen und Einsen der abhängigen Variablen, einen elementaren Einfluss auf die Ausprägungen der Gütemaße hat. Dabei finden sich unbalancierte Stichproben in vielen Bereichen, so beispielsweise in der Diffusionstheorie: Hier ist eine per se unbalancierte Stichprobe von sehr wenigen Innovatoren und sehr vielen Imitatoren zu erwarten. Auch bei der Ermittlung von Kreditausfallswahrscheinlichkeiten werden logistische Regressionen genutzt, in denen wenige Ausfälle einer vielfach größeren Zahl an regulären Krediten gegenüber stehen (Cramer, 2003). In der Literatur wird die unbalancierte Stichprobe mindestens als ein häufig auftretender, wenn nicht sogar als der Regelfall angesehen (Cramer, 1999 sowie Winkelmann, Boes, 2006). Während unbalancierte Stichproben in der statistischen Fachliteratur schon seit längerem diskutiert und analysiert werden WiSt Heft 4 · April 2014 211 (King, Zeng, 2001 und Menard, 2000), scheint das Wissen darüber, dass die Aussagekraft etablierter Gütemaße durch Unbalanciertheit betroffen ist, auf wenige, methodisch orientierte Fachartikel beschränkt zu sein. Christensen et al. (2008) zeigen mit Hilfe von Simulationen, in deren Rahmen die Balanciertheit unter Kontrolle aller anderen Faktoren variiert wird, den Effekt der Balanciertheit auf die Ausprägungen der Gütemaße. Sie analysieren (1) Likelihood-basierte Maße und (2) Vorhersage-basierte Gütema- ße auf ihre Sensitivität hinsichtlich der Unbalanciertheit. 2.1. Likelihood-basierte Gütemaße Die gängigen Pseudo-R2-Statistiken nutzen den zu maximierenden Likelihood, der Ausdruck der Wahrscheinlichkeit ist, für die vorliegenden Beobachtungen die wahren Werte zu prognostizieren und der im Falle der perfekten Anpassung den Wert 1 annimmt. Die Pseudo-R2-Statistiken setzen die Anpassung des endgültigen Modells in Beziehung zum Nullmodell, das nur eine Konstante enthält. LL1 (LL0) symbolisiert dabei den logLikelihood des endgültigen Modells (Nullmodells): Cox&Snell McFadden Nagelkerke RMF2 = 1 –   LL1 LL0   (1) RCS 2 = 1 –   LL0 LL1   2 N (2) RNK2 = RCS2 1 – (LL0) 2 N (3) Da das RCS2 auch bei perfekter Anpassung den Wert 1 nicht erreichen kann, wurde eine modifizierte Fassung (R2 nach Nagelkerke) etabliert, die ebenfalls die Stichprobengröße berücksichtigt und deren obere Schranke durch die Skalierung auf 1 gesetzt wird (Backhaus et al., 2011). 2.2. Vorhersage-basierte Gütemaße In der Literatur werden zudem Vorhersage-basierte Gütemaße diskutiert, die die Fähigkeit eines Modells bewerten, den beobachteten Wert der abhängigen Variable für die einzelnen Beobachtungen korrekt zu prognostizieren. Drei populäre Maße werden hier aufgegriffen. Zum einen liefert die im Output von typischen Statistik- Programmen ausgewiesene Klassifikationsmatrix Informationen darüber, wie viele Beobachtungen aufgrund des geschätzten Modells richtig und falsch zugeordnet werden. Bei stark unbalancierten Stichproben kann eine hohe Klassifikationsgüte trotz schlechten Modellfits jedoch dadurch erreicht werden, dass alle Beobachtungen in die stärker vertretene Gruppe klassifiziert werden, was dazu führt, dass kein Mitglied der kleineren Gruppe korrekt klassifiziert wird. Um diese naive Klassifikation zu umgehen, wurde von Cramer (1999) eine Korrektur vorgeschlagen, die das Mischungsverhältnis über eine Balance-abhängige Schwelle zur Klassifikation der prognostizierten Werte explizit berücksichtigt. Zum anderen kann als alternatives Vorhersage-basiertes Gütemaß die Receiver-Operator-Characteristic (ROC) genutzt werden (Hosmer, Lemeshow, 2000). Dieses Maß erweitert die kreuztabellenbasierten Klassifikationsmaße dahingehend, dass die Klassifikationsgüte nicht nur für eine Balance-abhängige Schwelle wie bei dem Cramer-korrigierten Maß bestimmt wird, sondern für ein Kontinuum möglicher Schwellenwerte. Für jede Schwelle wird ein Wert für die Sensitivität (dies ist der Anteil der richtigerweise als positiv klassifizierten Beobachtungen an den gesamten Beobachtungen) und ein Wert für die Spezifität (dies ist 1 abzüglich des Anteils der inkorrekt als positiv klassifizierten Beobachtungen) ermittelt (Fawcett, 2006). Die ROC-Kurve ist die daraus resultierende grafische Darstellung der Wertepaare „Sensitivität“ und „1-Spezifität“ über alle Schwellenwerte. Das Diagramm stellt also die richtig als positiv und die fälschlich als positiv klassifizierten Werte in Abhängigkeit voneinander dar. Das aus dem Zusammenhang zwischen Sensitivität und Spezifität resultierende Gütemaß ist die Fläche unter der ROC-Kurve, die im Optimum den Wert 1 und im schlechtesten Fall den Wert 0,5 annimmt. Als drittes Vorhersage-basiertes Gütemaß kann ein OLSbasiertes Gütemaß ermittelt werden, indem eine Hilfsregression gerechnet wird, die die vorhergesagten Wahrscheinlichkeiten auf die beobachtete Gruppenzugehörigkeit regressiert. Dieses ROLS2 bietet den Vorteil, dass es inhaltlich mit dem R2 ähnlicher OLS-Modelle vergleichbar ist (Menard, 2002). 2.3. Einfluss der Balanciertheit auf die Gütemaße Wie oben angesprochen wird in der Literatur kaum beachtet, dass die etablierten Gütemaße der logistischen Regression stark von der Balanciertheit der Stichprobe abhängen. Dabei deutet bereits die Tatsache, dass LL0 in die Berechnung der meisten Pseudo-R2-Statistiken eingeht, auf eine Abhängigkeit der Statistiken von dem Mischungsverhältnis hin, da der Likelihood des Nullmodells allein von der Anzahl der Beobachtungen abhängt, in denen die abhängige Variable den Wert 1 bzw. 0 aufweist (Menard, 2002). Christensen et al. (2008) untersuchen diese Sensibilität empirisch mit Hilfe eines Simulationsexperiments (Kasten 1), bei dem die Balanciertheit der Datensätze kontrolliert variiert wird, während die Anpassung des Modells an die Daten konstant gehalten wird. Wenn nun die Balance keinen Einfluss auf die Gütekriterien hätte, müssten für jede Balancestufe die gleichen Werte für die Gütemaße resultieren. Es wurden vier verschiedene Ausprägungen (0,5; 0,75; 0,95 und 0,99) des Balance-Faktors, also des Anteils an Einsen, gewählt, um das gesamte Kontinuum der in der Realität auftretenden Konstellationen abdecken zu können. Tab. 1 zeigt die Abweichungen der ausgewiesenen Erklärungsgüte von der tatsächlich zugrundeliegenden Erklärungsgüte bei unterschiedlichen Ausprägungen des Mischungsverhältnisses. Die Ergebnisse zeigen deutlich, dass alle Likelihood-basierten Gütemaße stark auf die Balanciertheit reagieren: Die Abweichung steigt dabei mit der Unbalanciertheit. Insbesondere das RCS2 verschlechtert sich drastisch, aber auch das RNK2 und das RMF2 weisen bei unbalancierten Stichproben eine deutlich schlechtere Modellgüte aus. Auch das ROLS2 ist sehr stark von der Balanciertheit abhän- Gesetze, Effekte, Theoreme 212 WiSt Heft 4 · April 2014 Mittlere Abweichungen der Gütemaße in Abhängigkeit von der Balance Balance 2 MF R 2 CS R 2 NK R 2 OLS R Cramer (0) Cramer (1) ROC -5,55% -18,27% -9,22% -12,58% -2,50% 2,35% -0,15% 75% (3,58%) (4,14%) (4,61%) (6,35%) (1,03%) (1,34%) (0,57%) -23,49% -72,14% -36,29% -54,57% -3,14% 4,19% -0,05% 95% (9,82%) (6,12%) (14,00%) (20,06%) (2,17%) (2,27%) (1,28%) -37,83% -93,14% -51,65% -81,48% -2,48% 5,49% 0,38% 99% (12,56%) (2,13%) (15,15%) (15,48%) (3,10%) (4,65%) (2,45%) Standardabweichung in Klammern. Cramer (0) bzw. Cramer (1) spiegelt den Anteil der richtig klassifizierten Fälle für yi=0 bzw yi=1 für die Cramerkorrigierte Klassifikationsmatrix wider. Gemittelte Werte über verschiedene Erklärungsgütewerte im simulierten Datensatz. Quelle: Christensen et al. (2008) Tab. 1: Mittlere Abweichung der Gütemaße vom Referenzwert Kasten 1: Simulationen Simulationsstudien sind empirische Untersuchungen von Daten, die durch einen spezifischen Algorithmus durch die Forscher selbst generiert werden und daher nicht aus einer empirischen Erhebung stammen. In erhobenen Daten (z B. Feld- oder Befragungsdaten) können andere, nicht kontrollierbare und unerwünschte Einflüsse den zu untersuchenden Effekt überlagen. Bei einer Simulationsstudie hingegen können die Effekte „unter Laborbedingungen“ untersucht und somit isoliert werden. Simulationsstudien werden in der Forschung in jüngeren Publikationen häufig angewendet, meist um die Einflüsse von bestimmten Dateneigenschaften auf die Schätzung von relevanten Effekten zu untersuchen. gig, sodass es bei einer stark unbalancierten Stichprobe um ca. 80 % unter dem der balancierten Stichprobe liegt. Der zentrale Befund der Analysen von Christensen et al. (2008) ist also, dass Likelihood-basierte Gütemaße eine nur sehr geringe Aussagekraft bei unbalancierten Stichproben haben, da sie die tatsächliche Modellgüte stark unterschätzen. Die auf der Vorhersagequalität basierenden Maße der Cramer-korrigierten Gruppenzuordnung sowie das ROC-Maß weisen hingegen kaum Sensibilität gegen- über der Balanciertheit auf. Daher eignen sich diese Maße auch bei unbalancierten Stichproben gut für die Überprüfung der Modellgüte, wobei insbesondere das ROC-Maß eine sehr hohe Stabilität aufweist. 3. Implikationen Für die Anwendung der logistischen Regression in der empirischen Forschung ergibt sich somit, dass bei stark unbalancierten Stichproben die Pseudo-R2-Statistiken und das ROLS2 aufgrund starker Verzerrungen hin zu einer zu niedrigen Erklärungsgüte nicht aussagekräftig interpretierbar sind. Dies kann zu einer fälschlichen Ablehnung des Modells führen, sodass diese etablierten Maße nur bei balancierten Daten eingesetzt werden sollten. Hingegen sind die Cramer-korrigierte Klassifikationsgüte und insbesondere das ROC-Maß geeignet, um die Modellgüte unabhängig von der Balanciertheit zu beurteilen. Aus diesem Grunde erscheint es als sinnvoll, diese in der wirtschaftswissenschaftlichen Forschung eher selten verwendeten Gütemaße speziell bei unbalancierten Stichproben vermehrt anzuwenden. Literatur Backhaus, K., Erichson, B., Plinke, W., Weiber, R., Multivariate Analysemethoden – Eine anwendungsorientierte Einführung, 13. Auflage, Berlin 2011. Christensen, B., Papies, D., Proppe, D., Clement, M., Stichproben Goodness-of-Fit-Statistics of the Logistic Regression in Unbalanced Samples (Gütemaße der logistischen Regression bei unbalancierten Stichproben), 2008, Online im Internet: http://ssrn.com/abstract=1282675 or http://dx.doi.org/10.2139/ ssrn.1282675, (Abrufdatum: 03. Juni 2013). Cramer, J. S., Predictive performance of the binary logit model in unbalanced samples, in: The Statistician, 48. Jg. (1999), Heft Part 1, S. 85–94. Cramer, J. S., Logit Models from Economics and Other Fields, Cambridge 2003. Fawcett, T., An introduction to ROC analysis, in: Pattern Recognition Letters, 26. Jg. (2006), S. 861–874. Hosmer, D. W., Lemeshow, S., Applied logistic regression, New York 2000. King, G., Zeng, L., Logistic Regression in Rare Events Data, in: Political Analysis, 9. Jg. (2001), Heft 2, S. 137–163. Menard, S., Coefficients of Determination for Multiple Logistic Regression Analysis, in: The American Statistician, 54. Jg. (2000), Heft 1, S. 17–24. Menard, S., Applied Logistic Regression Analysis, 2. Thousand Oaks 2002. Veall, M. R., Zimmermann, K. F., Pseudo-R2 Measures for some Common Limited Dependent Variable Models, in: Journal of Economic Surveys, 10. Jg. (1996), Heft 3, S. 241–258. Winkelmann, R., Boes, S., Analysis of Microdata, Berlin, Heidelberg, New York 2006. Christensen/Papies/Proppe/Clement, Gütemaße der logistischen Regression bei unbalancierten Stichproben WiSt Heft 4 · April 2014 213

Zusammenfassung

Die logistische Regression stellt heute ein etabliertes Instrument zur Untersuchung des Einflusses von mehreren unabhängigen Variablen auf eine dichotome abhänge Variable dar. Diese Methode wird beispielsweise im Marketing eingesetzt, um Einflüsse auf das Kündigungsverhalten zu untersuchen. Neben der Interpretation der Modellparameter schließen empirische Untersuchungen in der Regel auch die Beurteilung der Modellgüte mit Hilfe geeigneter Gütemaße (in der linearen Regression z. B. das R2) ein, die eine Prüfung erlauben sollen, ob ein Modell ein hinreichend großes Erklärungspotenzial besitzt oder ob es verworfen werden sollte.

References

Abstract

Up-to-date knowlegde of the main topics and proven methods in business and economics research is the key factor for success in both academia and business. Month by month, WiSt delivers this knowledge by presenting and discussing latest trends and current topics on the basis of models from the business and economics sciences.

Language: German.

For more information for authors and subscribers, see http://rsw.beck.de/cms/main?site=WiSt.

Zusammenfassung

Für den Erfolg in Studium und Beruf ist aktuelles und methodisches Wirtschaftswissen das A und O. Die Zeitschrift WiSt liefert dieses Wissen Monat für Monat. Hochaktuelle Wirtschaftsthemen werden vor dem Hintergrund der volks- und betriebswirtschaftlichen Modelle erörtert und diskutiert. So bleiben Sie up-to-date, kennen die brisanten Details und durchschauen schnell komplexe Wirtschaftsstrukturen.

Die Erfolgs-Rubriken der WiSt

  • IM VISIER: Der Leitartikel auf der ersten Inhaltsseite greift ein aktuelles Thema aus dem polit-ökonomischen Bereich auf und analysiert es messerscharf.

  • Fünf wissenschaftliche Beiträge vermitteln Wissen, das so in keinem Lehrbuch zu finden ist.

  • Meinungen können und sollen polarisieren. In der wechselnden Rubrik Standpunkte finden Sie Standpunkte von Experten in Form von Interviews, Kommentaren und Pro-/Contra-Beiträgen.

  • Gesetze, Effekte und Theoreme mit kurzgefassten Erläuterungen schaffen den Durchblick für die Klausuren.

  • Das aktuelle Stichwort erläutert neue Themen und wichtige Wirtschaftsbegriffe.

  • Mit den Informationen für Studium und Beruf bleiben Wirtschaftswissenschaftler am Puls der Zeit.

Ihr Erfolgs-Turbo

Die Zeitschrift WiSt hält Sie in allen Spezialdisziplinen von BWL und VWL auf dem Laufenden. Sie erfahren alles über die aktuellen Forschungsergebnisse und Wirtschaftsthemen, die die Zukunft bestimmen. Das Plus für Studenten: Die WiSt macht fit für die Klausur. Sie erhalten aktuelle Klausurübungen mit entsprechenden Musterlösungen.

Weitere Informationen für Autoren und Abonnenten finden Sie unter http://rsw.beck.de/cms/main?site=WiSt.