Content

Dietmar Harhoff, Stefan Wagner, Regressionsanalyse in:

Manfred Schwaiger, Anton Meyer (Ed.)

Theorien und Methoden der Betriebswirtschaft, page 469 - 482

Handbuch für Wissenschaftler und Studierende

1. Edition 2009, ISBN print: 978-3-8006-3613-6, ISBN online: 978-3-8006-4437-7, https://doi.org/10.15358/9783800644377_469

Bibliographic information
Dietmar Harhoff /Stefan Wagner Regressionsanalyse Zusammenfasssung In diesem Kapitel werden einige praktische Hinweise für die Durchführung von Regressions analysen und die Interpretation der Ergebnisse beschrieben. Diese werden zunächst anhand der einfachen und multiplen linearen Regression diskutiert. In einem Beispiel zur logistischen Re gression wird die Betrachtung von Effektstärken für Fälle thematisiert, in denen der marginale Effekt einer Variablen von den Daten selbst abhängt. Prof.DietmarHarhoff, Ph.D., istOrdinarius für Betriebswirtschaftslehre undVorstand des Instituts für Innovationsforschung,Technologiemanagement undEntrepreneurship der Ludwig Maximilians Universität München. Dr. Stefan Wagner ist wissenschaftlicher Assistent und Habilitand am Institut für Innovations forschung, Technologiemanagement und Entrepreneurship der Ludwig Maximilians Universität München. Inhaltsverzeichnis 1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479 1.1 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479 1.2 Multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 1.3 Ziele der Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 1.4 Ermittlung der Schätzer und ihre Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 481 1.5 Einfache Hypothesentests und t Statistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482 1.6 Gemeinsame Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483 1.7 Gütemaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483 2 Weitere Formen der Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 2.1 Funktionale Form und Linearisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 2.2 Nichtlineare Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 3 Lineare Regression – Ein Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 4 Logistische Regression – Ein Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 4.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 4.2 Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 4.3 Ergebnisse einer Logit Regression und Interpretation der Koeffizienten . . . . . . . 487 4.4 Marginale Effekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488 5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490 478 Dietmar Harhoff / Stefan Wagner Abbildungsverzeichnis Abbildung 1: Testergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 Abbildung 2: Steigung der Logit Funktion als Funktion der unabhängigen Variablen X . 489 Tabellenverzeichnis Tabelle 1: Regressionstabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485 Tabelle 2: Schätzergebnisse einer Logit Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488 Regressionsanalyse 479 1 Grundlagen 1.1 Einfache lineare Regression Im Folgenden werden einige sehr grundlegende Ausführungen zur Anwendung der Regressions analyse gemacht. Der Beitrag wendet sich dabei vor allem an die Studierenden und Doktoran den, die bisher keinen Kurs in Regressionsanalyse belegt haben. Die von uns vorgetragenen Argumente werden nicht formal präsentiert – uns geht es mehr um die Intuition des Lesers als um die Darstellung der technischen Details. Zudem ist es aus Platzgründen nicht möglich, alle wichtigen Aspekte darzustellen. Wir verweisen den Leser daher auf einführende Lehrbücher wie etwa G (2008), K (2008) oder insbesondere auf W (2009), in denen schrittweise die technischen Grundlagen und die Anwendung von Regressionsverfahren erläutert werden. Zu den Standardwerken, die auch fortgeschrittene Verfahren der Regressi onsanalyse behandeln, zählen unter anderem F /T (2001), G (2008) oder W (2002). Unter einer Regressionsanalyse werden statistische Analyseverfahren verstanden, die darauf abzie len, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu untersuchen. Diese Beziehungen können nichtlinear sein. Zudem ist es möglich, mit Ver fahren der Regressionsanalyse simultane Beziehungen zu modellieren, z.B. y = f(x, z, α) und x = g(y, v, β), wobei x und y endogene Variablen sind, z und v exogene Variablen darstellen und α und β Parameter sind, die in die Verknüpfung der endogenen und exogenen Variablen einfließen. Im speziellen Fall der einfachen linearen Regression kann die Regressionsgleichung in folgender Form geschrieben werden: (1) yi = β0 + β1x1i + ui Wir gehen hier zunächst von einemQuerschnittsdatensatz mit N Beobachtungen aus. Die Bezie hung (1) gilt für alle i = 1, …, N Beobachtungen. Dieses Modell ist linear in den Koeffizienten β0 und β1 – daher wird es als lineares Regressionsmodell bezeichnet. Die Bezeichnung einfaches lineares Regressionsmodell bringt zum Ausdruck, dass y nur von einer Variablen x1 bestimmt wird. Wenn mehrere Variablen als Bestimmungsfaktoren von y auftreten, werden wir das mul tiple Regressionsmodell anwenden, das eine direkte Erweiterung von (1) darstellt. Der Ausdruck auf der rechten Seite in (1) lässt sich in zwei Komponenten zerlegen, nämlich in eine strukturelle – gegeben mit β0 + β1x1i – und eine stochastische Komponente ui. Es gibt eine Vielzahl von Bezeichnungen für die abhängige Variable: Sie wird auch als endogene, zu erklärende oder erklärte Variable oder Ergebnisvariable bezeichnet. Häufig findet man auch die Bezeichnung Regressand (also die zu regressierende Variable). Für die unabhängige Variable haben sich auch die Bezeichnungen exogene oder erklärende Variable eingebürgert. Gebräuch lich sind auch die Begriffe Kontrollvariable, Kovariate oder Regressor. Die englischen Termini werden in W (2009) ausführlich erklärt. Die stochastische Komponente unterscheidet die Regressionsgleichung (1) von einem rein deter ministischen Zusammenhang, wie er aus demOperations Research bekannt ist.Wir bezeichnen sie häufig auch als Störterm oder Fehlerterm. Eine einfache Interpretation dieses Terms ist die eines Messfehlers in der y Variablen.Wir nehmen dabei an, dass bei der Messung von y zufällig – ohne systematische Effekte – Abweichungen der gemessenen Werte von den tatsächlichen auftreten. 480 Dietmar Harhoff / Stefan Wagner Neben den Variablen x1 und y und dem Fehlerterm u tauchen inModell (1) auch zwei sogenann te Koeffizienten oder Parameter auf, nämlich β0 und β1. β0 wird häufig als Achsenabschnitt oder Konstante, β1 als Steigungskoeffizient bezeichnet. Diese Bezeichnungen rühren daher, dass in einem x1 y Diagramm der oben angeführte Modellzusammenhang linear ist, also als Gerade mit einem Achsenabschnitt und einer Steigung dargestellt werden kann. Unser Interesse am Schätzwert für die Konstante hält sich oft in Grenzen – interessiert sind wir üblicherweise an Schätzwerten für den Steigungskoeffizienten. Der Steigungskoeffizient hat eine wichtige Interpretation – er stellt nämlich im linearen Modell den marginalen Effekt von x1 auf y dar. Das lässt sich leicht nachvollziehen, indem man y nach x1 partiell differenziert. Dann wird klar, dass eine Erhöhung des x1 Wertes um eine Einheit mit einer Erhöhung des y Wertes um β1 Einheiten verbunden ist, sofern u keinen systematischen Zusammenhang mit x1 aufweist – das hatten wir vorab unterstellt. Dass der marginale Effekt direkt in Form des Koeffizienten ablesbar ist, stellt einen Vorzug des linearen Modells dar. An dere nichtlineare Verfahren (wie die später behandelte logistische Regression) erlauben es nicht, den marginalen Effekt direkt abzulesen, weil dieser von den Daten abhängig ist. 1.2 Multiple Regression Der obenmit (1) beschriebene Zusammenhang lässt sich leicht zur multiplen linearen Regression erweitern. (2) yi = β0 + β1x1i + β2x2i + … + βkxki + ui In der multiplen linearen Regression wird der gleichzeitige Einfluss von mehreren Variablen x1, x2, …, xk auf y betrachtet. Diese Erweiterung ist sinnvoll, denn zum einen ist es häufig un plausibel, dass nur eine exogene Variable auf die endogene wirkt. Zum zweiten ist es häufig die Aufgabe des Forschers oder Analysten, durch statistische Tests herauszufinden,welcheVariablen überhaupt als wirksame Einflussgrößen in Frage kommen. Drittens ist es wichtig, den Einfluss einer exogenen Variable zu analysieren, wenn die anderen Einflussgrößen präsent sind. 1.3 Ziele der Regressionsanalyse Was ist nun das Ziel der Regressionsanalyse? Zu Beginn der Regressionsanalyse beobachten wir nur für jede Beobachtung im Datensatz die zur Verfügung stehenden Daten (x1, x2, …, xk, y), also die jeweils gemessenen Ausprägungen der abhängigen und der unabhängigen Variablen. Dabei sind weder die wahren Koeffizienten β0, β1, …, βk, noch die Störterme ui bekannt. In anderenWorten: die genaue Form des Prozesses, der die Daten generiert, ist uns unbekannt; aber wir haben die in (2) formulierte Vermutung, wie dieser Prozess charakteristiert werden kann. Im Rahmen der Regressionsanalyse ist man nun daran interessiert, die Koeffizienten β0, β1,…, βk zu schätzen, die den in (2) angenommenen Zusammenhang charakterisieren. Diese geschätzten Parameter können dann für verschiedene Zwecke verwendet werden. Zwei Anwendungen sind dabei besonders wichtig: inferenzstatistische Analysen und Prognosen. Die Anforderungen, die sich aus diesen beiden Anwendungen für unser Regressionsverfahren ergeben, fallen nur zum Teil zusammen. Mit Inferenzstatistik bezeichnen wir Verfahren der testenden Statistik. So wollen wir unter Umständen die Hypothese testen, dass β1 gleich Eins ist oder aber die gemeinsame Hypothese, dass β0 gleich Eins ist und gleichzeitig β1 gleich Null ist. Solche Hypothesen sind besonders wichtig, wenn überprüft werden soll, ob die vorliegenden Daten unsere Erwartungen bezüglich Regressionsanalyse 481 einesWirkungszusammenhangs stützen oder ihnen eher entgegenstehen. Dabei ist wichtig, dass wir den Daten auch überhaupt die Möglichkeit geben, unsere eigene theoretisch geprägte Sicht zurückzuweisen. Wenn Hypothesen so formuliert werden, dass das von vornherein unwahr scheinlich ist, so spricht man von zahnlosen Hypothesen, die einfach keinen Biss haben. Die Hypothesen müssen dann anhand von Teststatistiken bewertet werden: zum einen als Hy pothesen, die wir aufrechterhalten, d.h. wir weichen nach Durchführung des statistischen Tests nicht von der Einschätzung ab, dass die Hypothese zutrifft; oder zum anderen als Hypothesen, die wir verwerfen – wir halten es anhand unserer Ergebnisse für unwahrscheinlich, dass die Hypothese korrekt ist. Ein triviales Gütekriterium ist dann beispielsweise, mit welcher sta tistischen Gewissheit wir diese Aussagen (die Hypothese wird beibehalten oder die Hypothese wird verworfen) machen können, d.h. mit welcher Wahrscheinlichkeit wir erwarten können, dass unsere Einschätzung auch wirklich zutrifft. Mit Prognose bezeichnen wir Verfahren, deren Ziel das Vorhersagen von y Werten für Situa tionen ist, in denen wir nur x1 Variablen beobachten. Ein Beispiel ist die Prognose der volks wirtschaftlichen Wachstumsrate. Ex post können wir diese aus Angaben der amtlichen Statistik berechnen. Wir sind aber daran interessiert, schon im Januar eines Jahres die Wachstumsrate für das gesamte Jahr zu schätzen. Unter Umständen ist es uns dabei völlig egal, welche Variablen x wir in den Prognosezusammenhang aufnehmen. Uns interessiert dann primär die Güte der Prognose – also die erwartete Abweichung des prognostizierten von dem sich später tatsächlich einstellenden Wert. Wir werden uns hier insbesondere auf die erste Anwendung, also auf die Inferenzstatistik, konzentrieren. 1.4 Ermittlung der Schätzer und ihre Eigenschaften In (2) haben wir eine Vermutung über den Zusammenhang zwischen einer abhängigen und mehreren unabhängigen Variablen formuliert. Ziel der Regressionsanalyse ist es nun, aus den vorliegenden Daten die unbekannten Koeffizienten β0, β1,…, βk zu ermitteln. Ein sogenannter Schätzer ist eine mathematische Funktion, die aus den vorliegenden Daten Informationen über den Wert der Koeffizienten generiert. Der Schätzer selbst ist nicht mit dem Populationsparame ter identisch – er stellt nur eine Approximation (Schätzung) des Parameters dar. Die Ermittlung der Schätzer soll hier nicht im Detail nachvollzogen werden. Stattdessen sei auf die Behandlung in Lehrbüchern wieW (2009) verwiesen. Die bei der Schätzung ein gesetzten Verfahren – z.B. Methode der kleinsten Quadrate (KQ, im Englischen Ordinary Least Squares, OLS) oder Maximum Likelihood – sind für sich genommen interessant und sollten von denen, die die Verfahren einsetzen, auch gründlich verstanden werden. Der Vorteil des KQ Schätzers ist, dass seine Herleitung (fast) völlig unabhängig von Annahmen bezüglich der Verteilung der Störterme erfolgen kann. Zudem hat er attraktive Eigenschaften – so wird er als BLUE (best linear unbiased estimator) bezeichnet. Es gibt keinen anderen linearen Schätzer mit größerer Präzision (d.h. kleinerer Varianz). Um den Maximum Likelihood Schätzer (MLE) er mitteln zu können, müssen dahingegen Verteilungsannahmen bezüglich der Störterme gemacht werden. In gewisser Weise ist das sehr lästig – am liebsten würden wir uns auf den strukturellen Teil konzentrieren und möglichst unabhängig von den Eigenschaften des Störterms sein. Leider ist das nicht immer möglich. Setzt man also voraus, dass die Fehlerterme unabhängig normalver teilt sind, so lässt sich zeigen, dass der KQ Schätzer für die β Koeffizienten mit demMaximum Likelihood Schätzer identisch ist. Damit erbt der KQ Schätzer die besonderen Eigenschaften des MLE – insbesondere seine Effizienz: in einem technisch genau definierbaren Sinn nutzt der Schätzer die in der Stichprobe vorliegende Information optimal aus. 482 Dietmar Harhoff / Stefan Wagner Für den Anwender sind die Eigenschaften dieser Schätzer von großer Bedeutung. UmHypothe sentests durchführen zu können, müssen Teststatistiken aus den Schätzern abgeleitet werden. Zu diesem Zweck müssen die Verteilungseigenschaften der Schätzer bekannt sein. Im Fall des KQ Schätzers können diese Eigenschaften aus zwei Annahmen abgeleitet werden. Zum einen sind die KQ Schätzer dann selbst exakt normalverteilt, wenn die Störterme einer Normalverteilung folgen. Leider ist dieser Zusammenhang oft fehlinterpretiert worden – die Normalverteilung der Störterme ist eine hilfreiche Eigenschaft, um die Normalverteilung der Koeffizientenschätzer nachzuweisen. Aber sie ist keineswegs zwingend erforderlich, um Verteilungseigenschaften für die Koeffizientenschätzer zu ermitteln. Ein zweiter Ansatz beruht auf den asymptotischen Eigenschaften der Schätzer – selbst wenn die Störterme nicht normalverteilt sind, so sind die Koeffizientenschätzer wieder asymptotisch normalverteilt. In ausreichend großen Stichproben ergibt sich für die Schätzer der Regressionsparameter wieder eine Normalverteilung, selbst wenn die Störterme Verteilungen aufweisen, die einer Normalverteilung nicht entsprechen. Das Durchführen von Tests auf Normalverteilung der Störterme kann daher in den meisten Anwendungsfällen getrost unterbleiben. Im Folgenden stehen praktische Aspekte der Darstellung und Interpretation im Vordergrund. Egal mit welchen Verfahren die Koeffizienten β0, β1, …, βk geschätzt werden, am Ende der statistischen Übung werden zwei wichtige Schätzergebnisse vorliegen – ein Schätzwert für den jeweiligen Koeffizienten und ein weiterer für den Standardfehler des Koeffizienten. Dies sind die zentralen Ergebnisse für die Betrachtung der Auswirkungen der einzelnen Regressoren. Zudem liegen Gütemaße vor, die darüber Auskunft geben, wie gut das geschätzte Modell die Variation in den Daten erklärt. Auf diese Angaben soll hier kurz eingegangen werden. 1.5 Einfache Hypothesentests und t Statistiken Mit welchen Statistiken können wir nunmehr Hypothesentests durchführen? Wir müssen da bei unterscheiden zwischen einfachen Tests und gemeinsamen Hypothesentests. Eine einfache Hypothese macht eine Aussage über einen einzelnen Koeffizienten. Inhaltlich wird dabei die Vermutung, dass der Koeffizient in der Population gleich Null ist, übersetzt in die Aussage: die Differenz zwischen dem geschätzten Koeffizienten und dem vermuteten Wert (Null) ist im statistischen Sinn groß gegenüber dem Standardfehler. Der Quotient, der aus der Differenz zwischen geschätztem Wert und hypothetisch vermutetem und dem Standardfehler gebildet wird, ist unter dem Namen t Wert bekannt und hat (unter bestimmten Bedingungen) eine Student t Verteilung. Bei den üblichen Nullhypothesen (die Variable xk hat keinen Effekt) reduziert sich die Teststatistik dann auf den Quotienten von Schätzer und Standardfehler. Die von vielen Statistikpaketen berichtete t Statistik (oder z Statistik) gibt diese Testgröße wieder. Große Werte der Teststatistik lassen dann erkennen, dass der geschätzte Wert erheblich von dem hypothetisch unterstellten abweicht. Die Größe der Teststatistik wird entweder in diskrete Signifikanzstufen umgerechnet (z.B. p < 0.1, p < 0.05, p < 0.01 oder p < 0.001) oder ein p Wert wird explizit ausgewiesen. Der mit der Teststatistik einhergehende p Wert ist die Antwort auf die folgende Frage: Wenn wir unterstellen, dass in der Population ein Daten generierender Prozess wirkt, bei dem der Koeffizient die hypothetische Größe hat, so ist p die Wahrscheinlichkeit, dass wir den geschätzten Koeffizienten in einer Stichprobe der vorliegenden Größe beobachten würden. Ein p Wert von beispielsweise 0.0013 zeigt somit an, dass die Wahrscheinlichkeit, dass die Daten wirklich von einem Prozess erzeugt wurden, an dem die von uns einbezogene Variable nicht beteiligt war, bei 0.0013 liegt, also sehr niedrig ist. Regressionsanalyse 483 Neben Hypothesen, bei denen vermutet wird, dass der Einfluss einer Variablen gleich Null ist, gibt es Hypothesen, die auf sehr präzisen Aussagen zur Größe des Koeffizienten beruhen. Zur Bewertung dieser Hypothesen liefert der standardmäßig ausgewiesene t Wert keinen Beitrag. Leider hat es sich eingebürgert, dass die Nutzer von Regressionen oft einfach t Statistiken prä sentieren, die zu einer bestimmten Hypothese gehören – nämlich der, dass der Koeffizient gleich Null ist. Viel sinnvoller ist es in den meisten Fällen, in der Regressionstabelle nicht den Koef fizienten und die t Statistik, sondern den Koeffizienten und den Standardfehler aufzuführen. Damit erhält der Leser einen direkten Hinweis auf die Präzision der Schätzung und kann selbst Testberechnungen direkt durchführen. 1.6 Gemeinsame Hypothesentests In vielen Fällen reichen einfache Hypothesentests nicht aus. Wenn wir uns beispielsweise die Frage stellen, ob die von uns geschätzte Regressionsgleichung überhaupt zur Erklärung der endogenen Variablen beiträgt, dann möchten wir testen, ob alle Koeffizienten in der Population gleichzeitig gleich Null sind. Die dafür relevante Teststatistik muss aus dem geschätzten Vektor von Koeffizienten und aus der Varianz Kovarianzmatrix der Schätzer ermittelt werden. Im klas sischen KQ Ansatz wird es sich um eine F Statistik handeln. Bei Bezug auf die asymptotischen Eigenschaften der Schätzer handelt es sich um eine Chi-Quadrat Statistik. Ungeachtet der Ver teilung der Teststatistik ist die Logik des Tests die schon dargestellte. Im statistischen Sinne hohe Teststatistiken deuten darauf hin, dass eine Abweichung von den hypothetisch unterstellten Koeffizientenwerten wahrscheinlich ist. Gemeinsame Tests kommen auch zur Anwendung, wenn das erste geschätzte Modell ergeben hat, dass etliche Variablen keine signifikanten Koeffizienten haben. Es wäre unzulässig, diese Variablen auf einen Streich aus der Regression auszuschließen, denn ihr gemeinsamer Effekt kann sehr wohl noch einen signifikanten Beitrag zur Erklärung der endogenen Variablen bei tragen. Wenn zum Beispiel zwei Variablen hoch korreliert sind, kann es vorkommen, dass beide einen nicht signifikanten Koeffizienten haben. Der gemeinsame Hypothesentest wird in diesem Fall ergeben, dass es unwahrscheinlich ist, dass die beiden Koeffizienten gleichzeitig gleich Null sind. 1.7 Gütemaße Der R Quadrat Wert der Regression ist ein besonders häufig eingesetztes Gütemaß. Das R Quadrat ist eine monotone Transformation des F Wertes für den Hypothesentest, dass alle Steigungsparameter gleichzeitig gleich Null sind. In das R Quadrat fließt die Varianz der Stör terme ein – wenn also ein Daten generierender Prozess mit großer Streuung in den Fehlerter men vorliegt, wird das R Quadrat geringer ausfallen – völlig ungeachtet der Effektstärke der Regressoren. Zudem ist das R Quadrat von der Skalierung der endogenen Variablen abhängig. Aussagen, bei denen die Qualität einer Regression ohne Bezug auf die Forschungsfrage anhand eines Mindestwerts des R Quadrats beurteilt wird, sind meistens völlig unsinnig. Was für die Analyse eines bestimmten Phänomens ein angemessenes R Quadrat darstellt, kann für einen anderen Prozess unakzeptabel niedrig sein. 484 Dietmar Harhoff / Stefan Wagner 2 Weitere Formen der Regressionsanalyse 2.1 Funktionale Form und Linearisierung Das Modell in (2) setzt die lineare funktionale Form voraus. Die exogenen Variablen selbst können jedoch transformierte Größen darstellen. Zur Modellierung nichtlinearer Zusammen hänge könnte zum Beispiel eine quadrierte Variable neben der Variablen selbst in die Regres sion aufgenommen werden. Damit ließe sich ein kurvilinearer Einfluss der Variablen auf die endogene Größe darstellen, also untersuchen, ob sich die Stärke des Einflusses der Größe über deren Wertebereich verändert oder ob gar ein U förmiger oder umgekehrt U förmiger Wir kungszusammenhang vorliegt. Welche Transformationen zum Einsatz kommen, ergibt sich aus der Forschungsfrage und Datenlage. Häufig lassen sich auch nichtlineare funktionale Zusammenhänge durch eine geeignete Trans formation in lineare Beziehungen umwandeln. Die klassische Cobb Douglas Beziehung S = ALαKβ ε lässt sich beispielsweise nach Logarithmieren darstellen als log S = log A + α log L + β log K + log ε. Nimmt man jetzt noch an, dass der ursprüngliche Fehlerterm ε = exp(u) dar stellbar ist, ergibt sich eine transformierte Gleichung mit einer Konstanten log A und einem additiven Störterm u, die mit dem KQ Verfahren geschätzt werden kann. 2.2 Nichtlineare Regressionsanalyse Wenn eine Transformation in eine lineare Beziehung nicht möglich ist, gibt es spezialisierte Verfahren, die zur Anwendung kommen. Wenn die endogene Variable metrisch ist, bietet sich das Verfahren der nichtlinearen kleinsten Quadrate an. In diesem Fall werden die Parameter schätzer iterativ ermittelt. Wenn die endogene Variable selbst nicht metrisch ist, können spezielle Verfahren für Zähldaten (Poisson Schätzer, Negativ Binomial Schätzer), binäre Größen (Probit, Logit), ordinale Größen (geordnete Wahrscheinlichkeitsmodelle) zum Einsatz kommen. Einen Überblick über deartige Verfahren gibt W (2009). 3 Lineare Regression – Ein Anwendungsbeispiel Einige der beschriebenen Zusammenhänge sollen anhand einfacher Datenbeispiele erläutert werden. Wir verwenden zunächst einen Datensatz mit den Neupreisen und einigen Produkt eigenschaften von Automobilen, um eine hedonische Regression zu schätzen. Dabei wird der Preis eines Produktes (neupreis) auf exogene Variablen regressiert, die das Produkt beschreiben. Es liegen 698 Beobachtungen zu den jeweiligen Preisen, zur Motorstärke (PS), zum Hubraum (hubraum) und zum Antriebstyp (diesel, Diesel oder Otto Motor) vor. Zunächst muss eine Regressionsgleichung wie in (2) formuliert werden. Diese sollte es ermög lichen, alle für uns relevanten Hypothesen zu testen. Im vorliegenden Fall gehen wir davon aus, dass Hubraum und PS eine preiserhöhende Wirkung haben. Wir vermuten aber, dass der Zusammenhang für Dieselfahrzeuge anders aussieht als für Kfz mit Benzinmotoren. Um unterschiedliche Zusammenhänge zuzulassen, nehmen wir in die Regression somit auch zwei Interaktionsterme auf, nämlich diesel ⋅ hubraum (d_hubraum) und diesel ⋅ PS (d_PS). Die Koeffizienten dieser Interaktionsterme werden dann erfassen, wie stark sich die Effekte der je weiligen Variablen (hubraum bzw. PS) bei Dieselmotoren von den Effekten bei Benzinmotoren unterscheiden. Regressionsanalyse 485 (3) neupreisi = β0 + β1 hubraumi + β2 PSi + β3 dieseli + β4 (dieseli ⋅ hubraumi) + β5 (dieseli ⋅ PSi) + ui Man erkennt, dass der marginale Effekt von hubraum als β1 + β4 dieseli gegeben ist. Entspre chend ist der marginale Effekt von PSmit β2 + β5 dieseli zu berechnen. Wenn wir unser Modell schätzen, erhalten wir die folgende Regressionstabelle: Links oben ist eine ANOVA Tabelle aufgeführt, die im Augenblick nicht beachtet werden soll. Der rechte obere Tabellenteil gibt die Zahl der Beobachtungen, Gütemaße (F, Prob > F, R squared, Adj. R squared) und einen Schätzer für die Standardabweichung des Fehlerterms (Root MSE) an. Die Regressionskoeffizienten (Coef.), ihre Standardfehler (Std. Err.), die da zugehörige t Statistik, de p Wert und das Konfidenzintervall sind im unteren Teil der Tabelle enthalten. Der Nutzer der Regressionsanalyse sollte sich zunächst darüber informieren, ob der vermutete Zusammenhang überhaupt im statistischen Sinn plausibel erscheint. Dazu wird eine F Statistik herangezogen, mit der sich die Hypothese testen lässt, dass alle Steigungsparameter gleichzeitig gleich Null sind. Diese Hypothese lässt sich offensichtlich komfortabel zurückweisen. Die Wahrscheinlichkeit, dass eine Datenkonstellation wie die vorliegende aus einem Daten generie renden Prozess stammt, in dem alle fünf Parameter gleich Null waren, ist verschwindend gering (p < 0.0001). Für die exogenen Variablen Hubraum (hubraum) undMotorstärke (PS) ermitteln wir Koeffizienten, die relativ präzise geschätzt sind. Die Dummy Variable für Dieselmotoren (diesel) hat einen negativen Koeffizienten. Auch der Koeffizient für die Konstante ist negativ. Für den uns interessierenden Wertebereich (hubraum > 954 [ccm], PS > 45 [PS]) ergibt die geschätzte Regressionsfunktion positive Prognosewerte. Die prognostiziertenWerte sind mit den tatsächlichen Preisbeobachtungen auch hoch korreliert – der R Quadrat Wert gibt zum einen den Anteil der durch das Modell erklärten Variation an. Zum andern entspricht er auch der quadrierten Korrelation zwischen den tatsächlichen und den mit der Schätzgleichung prognostizierten Preisen. In diesem Fall liegt der R Quadrat Wert bei 0.86, was relativ hoch erscheint. Für hedonische Regressionen für Automobile werden jedoch durch Aufnahme weiterer Variablen in der Literatur oft R Quadrat Werte von mehr als 0.92 erreicht. Es wäre jedoch völlig unsinnig, derart hohe R Quadrat Werte grundsätzlich unter allen . reg neupreis hubraum PS diesel d_hubraum d_PS Source | SS df MS Number of obs = 698 -------------+------------------------------ F( 5, 692) = 855.94 Model | 1.6259e+11 5 3.2517e+10 Prob > F = 0.0000 Residual | 2.6289e+10 692 37990317.5 R-squared = 0.8608 -------------+------------------------------ Adj R-squared = 0.8598 Total | 1.8888e+11 697 270984724 Root MSE = 6163.6 -----------------------------------------------------------------------------neupreis | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------hubraum | 12.22971 1.200175 10.19 0.000 9.873287 14.58613 PS | 226.2124 13.65274 16.57 0.000 199.4067 253.0182 diesel | -10123.45 4162.37 -2.43 0.015 -18295.83 -1951.059 d_hubraum | 5.17835 3.352127 1.54 0.123 -1.40321 11.75991 d_PS | 23.46324 38.50482 0.61 0.542 -52.13704 99.06352 _cons | -10358.99 1045.265 -9.91 0.000 -12411.26 -8306.717 ------------------------------------------------------------------------------ Tabelle 1: Regressionstabelle 486 Dietmar Harhoff / Stefan Wagner Umständen zu erwarten oder sie sogar als kontextunabhängige Qualitätsmaße zu verwenden. So erzielt man in Modellen, mit denen Verhältnisgrößen (z.B. die FuE Intensität, also FuE Aufwendungen bezogen auf den Umsatz) modelliert werden, häufig deutlich geringere Werte, ohne dass dies bedenklich erscheinen muss. In Panelschätzungen gelten R Quadrat Werte von 0.10 häufig als völlig akzeptabel. Im vorliegenden Beispiel scheinen die Interaktionsterme diesel ⋅ hubraum (d_hubraum) und diesel ⋅ PS (d_PS) für sich genommen keinen signifikanten Einfluss zu haben – die jeweiligen Standardfehler sind relativ zum Koeffizienten recht groß, und die t Statistiken sind somit nied rig. Führt man jedoch einen gemeinsamen Test durch, so ergibt sich das folgende Ergebnis: Dieser Test wird anhand einer F Statistik durchgeführt, und das Ergebnis zeigt uns, dass die Annahme, dass beide Koeffizienten gleichzeitig gleich Null sind, als höchst unwahrscheinlich gelten kann.Wäre der Datensatz tatsächlich von einem datengenerierenden Prozess erzeugt wor den, in dem die beiden Interaktionsterme keinen Effekt haben, dann würden wir die vorliegende Datenkonstellation nur mit einer Wahrscheinlichkeit von p = 0.0025 beobachten. 4 Logistische Regression – Ein Anwendungsbeispiel Im vorhergehenden Kapitel wurde eine Anwendung der linearen Regressionsanalyse gezeigt. Dabei war die abhängige Variable (Neupreis von Automobilen) metrisch skaliert. In einer Rei he von ökonomischen Fragestellungen ist eine metrische Skalierung der abhängigen Variablen jedoch nicht gegeben. Insbesondere bei der Analyse von Entscheidungsprozessen weist die zu erklärende Variable oft nur zwei Ausprägungen auf. Dies ist beispielsweise bei der Analyse von Kaufentscheidungen (Kauf eines Produktes, „ja“ oder „nein“) der Fall, ist jedoch auch – wie das folgende Beispiel zeigen wird – bei einer Reihe anderer ökonomischer Fragestellungen der Fall. Weist die abhängige Variable lediglich zwei Ausprägungen auf, spricht man auch von einer bi nären abhängigen Variablen. In derartigen Fällen führt eine lineare Regressionsanalyse (die eine metrisch skalierte abhängige Variable unterstellt) nicht zu den richtigen Ergebnissen. In diesem letzten Abschnitt soll daher ein Anwendungsbeispiel einer Regressionsanalyse diskutiert werden, bei der die abhängige Variable binär ist. Dabei wird gezeigt, welche Schätzverfahren eingesetzt werden können, wie die Schätzergebnisse einer derartigen nicht linearen Regression zu interpre tieren sind und welche Besonderheiten im Vergleich zur linearen Regression zu beachten sind. 4.1 Problemstellung Patente sind wichtige Instrumente zur Aneignung von Innovationsrenditen, da sie einen ju ristischen Mechanismus zum Schutz vor Imitation darstellen. Sie statten den Patentinhaber mit dem passiven Recht aus, Dritten die Nutzung der patentgeschützten Erfindung zu untersagen, und können so den Anreiz erhöhen, kostenträchtige Forschung und Entwicklung zu betreiben. . testparm d_hubraum d_PS ( 1) d_hubraum = 0 ( 2) d_PS = 0 F( 2, 692) = 6.04 Prob > F = 0.0025 Abbildung 1: Testergebnis Regressionsanalyse 487 Die Aufgabe von Patentämtern besteht darin, auf Antrag zu prüfen, inwieweit auf eine Erfin dung ein Patent erteilt werden kann. Am Europäischen Patentamt (EPA) können Dritte einen Einspruch gegen die Patentierung einer Erfindung einlegen, nachdem ein Patent erteilt wurde. In diesem Fall überprüft die Beschwerdekammer am EPA, inwieweit die Erteilung des ange griffenen Patentes zurück genommen werden muss. Dieser Mechanismus dient unter anderem dazu, irrtümlich erteilte Patente zu eliminieren, um resultierende negative gesamtwirtschaftliche Effekte zu vermeiden. In einer mikroökonometrischen Untersuchung analysieren H /R (2004) den Ein spruchsmechanismus am EPA im Bereich der Biotechnologie und der Pharmazie.1 Insbesondere gehen sie der Frage nach, welche Faktoren das Auftreten eines Einspruches gegen ein Patent erklären können. Anhand eines mikroökonomischen Modells folgern sie unter anderem, dass die Wahrscheinlichkeit eines Einspruchs mit demWert der patentierten Erfindung in positivem Zusammenhang steht. H /R (2004) überprüfen diese Hypothese im Rahmen einer Analyse von Infor mationen zu individuellen Patentanmeldungen und Einsprüchen gegen Patente, die am EPA im Bereich der Biotechnologie und der Pharmazie im Zeitraum von 1978 bis 1996 angemeldet wurden. Im Folgenden wird der Datensatz aus H /R (2004) genutzt, um bespiel haft aufzuzeigen, wie die formulierte Hypothese mittels Regressionsanalyse überprüft werden kann, während gleichzeitig für alternative Erklärungsmuster kontrolliert wird. 4.2 Daten Zur Überprüfung der oben formulierten Hypothese liegen Informationen zu 13.369 gewährten Patenten aus den Bereichen Biotechnologie und Pharmazie zwischen 1976 und 1996 vor.2 Ins gesamt wurden Einsprüche gegen 8,65% dieser Patente verzeichnet, wobei die Einspruchsrate im Bereich der pharmazeutischen Patente mit 8,94% geringfügig höher (und nur auf dem 10% Niveau signifikant verschieden) ist als in der Biotechnologie (8,29%). Neben der Information, ob ein Einspruch gegen ein Patent eingelegt worden ist, gibt es weitere Informationen zu den Patenten, die in der Patentschrift enthalten sind. Diese Informationen können genutzt werden, um Indikatoren für denWert eines Patentes sowie weitere Kontrollvari ablen abzuleiten. Eine genaue Darstellung der in H /R (2004) genutzten Variablen ist an dieser Stelle leider nicht möglich. Im Folgenden sprechen wir nur allgemein von einem Wertindikator und gehen nicht näher auf die Kontrollvariablen in der Regression ein.3 Der Wertindikator ist metrisch skaliert. 4.3 Ergebnisse einer Logit Regression und Interpretation der Koeffizienten Es soll untersucht werden, welche Faktoren das Auftreten eines Einspruchs gegen die Gewäh rung eines Patentes erklären können. Die abhängige Variable (Einspruch ja oder nein) ist somit binär kodiert (1/0). In Tabelle 2 sind die Ergebnisse einer Logit Regression dargestellt, in der die Patente sind in diesen Bereichen besonders wichtig zur Aneignung von Innovationsrenditen (C ., 2000). 2 Es handelt sich dabei um die Gesamtpopulation der gewährten Patente in den Bereichen Biotechnologie und Pharmazie. Als Wertindikator wird hier ausschließlich die Zahl der Zitationen genutzt, die ein Patent innerhalb von 4 Jahren erhalten hat. Eine detaillierte Erläuterung findet sich in H /R (2004). 488 Dietmar Harhoff / Stefan Wagner abhängige Variable auf den Wertindikator und eine Reihe weiterer Variablen regressiert wird. Zudem enthält Tabelle 2 die Schätzergebnisse für den Einfluss einer Dummy Variablen, die angibt, ob ein Patent dem Biotechnologie oder dem Pharmaziebereich zuzuordnen ist. Spalte (1) in Tabelle 2 enthält die geschätzten Koeffizienten der Logit Regression; Standardfeh ler der geschätzten Koeffizienten sind in Klammern angegeben. Da die Logit Regression einen nicht linearen Zusammenhang zwischen den unabhängigen Variablen und der abhängigen Va riable unterstellt, ist eine direkte Interpretation schwierig. Insbesondere kann nicht wie bei der linearen Regression darauf geschlossen werden, welche Änderung sich in derWahrscheinlichkeit eines Einspruches ergibt, wenn sich eine unabhängige Variable um eine Einheit verändert. Die Logit Spezifikation unterstellt dabei pi(yi = |xi) = exp(xi β) / ( − exp(xi β)), wobei xi den ×k Vektor exogenen Variablen für Beobachtung i und β den zu schätzenden Koeffizientenvek tor mit Dimension k× darstellt. yi ist derWert (0 oder 1) der beobachteten binären Ergebnisva riablen. pi ist dann die Wahrscheinlichkeit, mit der das Ereignis Einspruch eintritt. Der Einfluss der exogenen Variablen auf die Wahrscheinlichkeit des Einspruchs ist somit eine nichtlineare Funktion und auch von den Datenwerten xi abhängig. Somit kann aus den geschätzten Koeffizienten β unmittelbar nur die Richtung des Effekts der exogenen Variablen abgelesen werden. Aus Spalte (1) in Tabelle 2 ließe sich also folgern, dass die Wahrscheinlichkeit eines Einspruches gegen ein Patent tatsächlich mit seinem Wert steigt. Darüber hinaus weisen Patente aus dem Bereich der Pharmazie eine höhere Einspruchswahr scheinlichkeit auf. Diese Effekte sind hoch signifikant. 4.4 Marginale Effekte Neben einer bloßen Interpretation der Richtung des Zusammenhangs zwischen unabhängiger und abhängigen Variablen stellt sich oft die Frage, in welchem Ausmaß eine Erhöhung der unabhängigen Variable um genau eine Einheit, die abhängige Variable beeinflusst. In unserem Beispiel interessiert, wie stark sich die Wahrscheinlichkeit eines Einspruches ändert, wenn der Koeffizienten Marginale Effekte (alle Variablen außer W am Mittelwert) (1) 0.199** (0.123) 0.258** (0.069) ENTHALTEN (2) (W = 0) 0.010** (0.001) 0.013** (0.003) ENTHALTEN (3) (W = 1.31) 0.013** (0.001) 0.016** (0.004) ENTHALTEN (4) (W = 4) 0.020** (0.002) 0.025** (0.007) ENTHALTENKontrollvariabeln Pharma-Patent (ja) Wertindikator W ** signifikant auf dem 1%-Niveau(Standardfehler in Klammern) Tabelle 2: Schätzergebnisse einer Logit-Regression Regressionsanalyse 489 Wertindex um eine Einheit steigt. Zu diesem Zweck sind die marginalen Effekte zu berechnen.4 Marginale Effekte geben den Wert der Ableitung (also der Steigung) der Logit Funktion nach einer unabhängigen Variable wieder. Der Wert der Ableitung lässt sich dann interpretieren als die Änderung derWahrscheinlichkeit, dass ein Ereignis (hier Einspruch) eintritt, wenn sich eine abhängige Variable um eine Einheit verändert. Wie in Abbildung 2 deutlich wird, ist die Höhe des marginalen Effektes allerdings davon ab hängig, an welchem Wert der unabhängigen Variable er ermittelt wird. In Abbildung 2 ist der marginale Effekt (also der Einfluss, den die unabhängige Variable auf die abhängige Variable ausübt) an der Stelle X = 1 deutlich größer als an der Stelle X = 3. In der Regel werden marginale Effekte am Mittelwert aller unabhängigen Variablen berechnet. Tabelle 2 enthält die zur Koeffizientenschätzung in Spalte (1) gehörigen marginalen Effekte für verschiedene Werte des Wertindikators W. Aus Spalte (2) lässt sich folgern, dass die Wahr scheinlichkeit eines Einspruches um 1.0% ansteigt, wennW von 0 auf 1 erhöht wird. Spalte (3) impliziert, dass eine Änderung vonW umeine Einheit vomAusgangswert 1.31 (Mittelwert vonW) diese Wahrscheinlichkeit um 1.3% erhöht. Aus Tabelle 2 wird auch deutlich, dass sich die marginalen Effekte der anderen unabhängigen Variablen unterscheiden, je nachdem, welchen Wert von W man zu Grunde legt. Die Wahr scheinlichkeit eines Einspruches ist für Pharma Patente um 1.3% höher (verglichen mit Patenten aus dem Bereich der Biotechnologie), wenn Patente verglichen werden, die W = 0 aufweisen (siehe Spalte (2) in Tabelle 2). Werden hingegen Patente mit einem Wertindikator von W = 4 verglichen, weisen Pharma Patente eine um 2.5% erhöhte Einspruchswahrscheinlichkeit auf. Eine genaue Herleitung der Berechnung der marginalen Effekte im Logit Modell findet sich in Kapitel 8 in W (2009). An dieser Stelle wird auf eine Herleitung verzichtet. # $ " ! Abbildung 2: Steigung der Logit-Funktion als Funktion der unabhängigen Variablen X (univariater Fall) 490 Dietmar Harhoff / Stefan Wagner 5 Zusammenfassung Das vorliegende Kapitel hat einige praktische Hinweise für die Durchführung von Regressions analysen und die Interpretation der Ergebnisse beschrieben. Der Schwerpunkt lag dabei auf der Vorstellung der linearen Regression. Sie wird angewendet, wenn der Einfluß einer oder mehrerer unabhängiger Variablen auf eine metrisch skalierte abhängige Variable untersucht werden soll. Für diesen Fall wurde die Ermittlung der Schätzer und ihre Eigenschaften dargestellt sowie ein Anwendungsbeispiel diskutiert. In einer Erweiterung wurde ebenfalls an einem praktischen Beispiel dargestellt, wie eine Regressionsanalyse durchzuführen ist, wenn die abhängige Variable nicht metrisch skaliert ist, sondern lediglich zwei Ausprägungen aufweist. Festzuhalten ist, dass die im Rahmen dieses Kapitels vorgestellten Regressionsverfahren vor allem zur Analyse von Querschnittsdaten angewendet werden, da sie keine zeitliche Komponen te berücksichtigen. Für jedes beobachtete Objekt lag nur eine Beobachtung vor. Es ist jedoch denkbar, dass für jedes beobachtete Objekt mehrere Beobachtungen (zu verschiedenen Zeit punkten) vorliegen. Derartige Daten lassen auch die Analyse zeitlicher Veränderungen zu. Im Rahmen der Regressionsanalyse ist dabei insbesondere auf die Verfahren der Panel Regression zu verweisen, auf die im Rahmen des vorliegenden Kapitels nicht näher eingegangen wurde. W (2002) gibt jedoch eine umfassende Einführung in Regressionstechniken zur Analyse von Panel Daten. Literaturverzeichnis Cohen,W.; nelson, r.;Walsh, J. (2000): ProtectingTheir Intellectual Assets: Appropriability Conditions andWhy U.S. Manufacturing Firms Patent (or Not), National Bureau of Economic Research Working Paper No. 7552, Cambridge, 2000. Fahrmeir, l.; TUTz, g. (2001): Multivariate statistical modelling based on generalized linear models, 2. Aufl., New York u.a., 2001. greene W. (2008): Econometric Analysis, 6. Aufl., New Saddle River, 2008. gUJaraTi, D. (2008): Essentials of Econometrics, 3. Aufl., New York u.a., 2008. harhoFF, D.; reiTzigm. (2004):Determinants of opposition against EPO patent grants – the case of biotechnology and pharmaceuticals, in: International Journal of Industrial Organization, Vol. 22, No. 4, S. 443–480. KenneDy, p. (2008): A Guide to Econometrics, 6. Aufl., Cambridge, 2008. WoolDrigDe, J. (2002): Econometric Analysis of Cross Section and Panel Data, 2. Aufl., Cam bridge, 2002. WoolDrigDe, J. (2009): Econometrics: A Modern Approach, 4. Aufl., Southwestern, 2009.

Chapter Preview

References

Zusammenfassung

Dieser Sammelband bietet einen Überblick über relevante Theorien der Wirtschafts- und Sozialwissenschaften sowie ausgewählte Methoden der qualitativen und quantitativen Forschung. Der Leser hat die Möglichkeit, jede hier behandelte Theorie und Methode in ihren grundlegenden Aussagen bzw. Funktionsweisen zu verstehen sowie hilfreiche Hinweise und Literaturquellen für ein vertiefendes Studium jedes Themenfeldes zu erhalten.

Studenten oder Doktoranden stehen vor dem gleichen Problem:

Wie können Forschungsfragen durch geeignete theoretische Konzepte fundiert werden, wie werden sie in Hypothesen transformiert und mit welchen empirischen Methoden überprüft?

Die Kernbotschaft: Auf dem Weg zu wissenschaftlicher Leistung müssen Theorien und Methoden Hand in Hand gehen.

Damit dies gelingen kann benötigt jeder Forscher eine grundlegende Kenntnis derjenigen Theorien und empirischen Methoden, die im jeweiligen Forschungsfeld Relevanz besitzen und für die Anwendung in Frage kommen. Das Verständnis von Theorien bzw. der Funktionsweise und Leistungsfähigkeit empirischer Methoden sind dabei essentiell. Erst dadurch werden eine zutreffende Auswahl und eine korrekte Anwendung von Theorien und Methoden zur Lösung des Forschungsanliegens ermöglicht.

Der Überblick über die Theorien und Methoden der Wirtschafts- und Sozialwissenschaften.

Der kompakte Sammelband ist empfehlenswert für Studenten und Doktoranden, die Forschungsfragen durch geeignete theoretische Konzepte fundieren, in Hypothesen transformieren und anschließend mit geeigneten empirischen Methoden überprüfen können.