Content

Jan Gertheiss, Gerhard Tutz, Statistische Tests in:

Manfred Schwaiger, Anton Meyer (Ed.)

Theorien und Methoden der Betriebswirtschaft, page 431 - 446

Handbuch für Wissenschaftler und Studierende

1. Edition 2009, ISBN print: 978-3-8006-3613-6, ISBN online: 978-3-8006-4437-7, https://doi.org/10.15358/9783800644377_431

Bibliographic information
Jan Gertheiss /Gerhard Tutz Statistische Tests Zusammenfassung Statistische Tests sind ein zentrales Instrument der quantitativen Analyse. Sind die mit einer empirischen Studie verbundenen Fragestellungen einmal in konkreten statistischen Hypothesen formuliert, ermöglicht der Einsatz geeigneter Testverfahren eine Entscheidungsfindung über das Vorliegen oder Nichtvorliegen der interessierenden Effekte. Die Testverfahren sind dabei so konstruiert, dass die Wahrscheinlichkeit einen Effekt für real zu halten, der tatsächlich nicht vorhanden ist, durch ein vorgegebenes Signifikanzniveau beschränkt ist. Es wird eine kurze Einführung in die Grundkonzepte statistischer Testverfahren unter Einbeziehung von Beispie len gegeben. Neben Parametertests werden Anpassungstests und das multiple Testproblem kurz behandelt sowie grundlegende Testprinzipien, auf denen die meisten praktischen Tests beruhen, kurz skizziert. Dipl. Stat. Jan Gertheiss ist wissenschaftlicher Mitarbeiter und Doktorand am Seminar für ange wandte Stochastik des Instituts für Statistik an der Ludwig Maximilians Universität München. Prof. Dr. Gerhard Tutz ist Lehrstuhlinhaber des Seminars für angewandte Stochastik des Instituts für Statistik an der Ludwig Maximilians Universität München. Inhaltsverzeichnis 1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 2 Grundzüge statistischen Testens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 2.1 Parametrische Hypothesen und Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 2.1.1 Parametrische Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 2.1.2 Ein Beispiel: Der T Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442 2.1.3 Fehler erster und zweiter Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 2.1.4 Restwahrscheinlichkeit oder p Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 2.1.5 Die Gütefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 2.2 Nonparametrische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 2.3 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448 2.3.1 Der χ2 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 2.3.2 Der Test von Kolmogorov und Smirnov . . . . . . . . . . . . . . . . . . . . . . . . 450 2.3.3 Generalisierte Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450 2.4 Multiple Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 3 Testprinzipien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 3.1 Likelihood Quotienten Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 3.2 Wald und Score Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453 440 Jan Gertheiss /Gerhard Tutz Abbildungsverzeichnis Abbildung 1: Gütefunktion des T Tests in Abhängigkeit vom Stichprobenumfang . . . . . . 447 Tabellenverzeichnis Tabelle 1: Mögliche Ausgänge eines statistischen Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 Statistische Tests 441 1 Einführung Statistische Tests sind eine tragende Säule empirisch quantitativer Forschung. Während stati stische Schätzverfahren darauf abzielen, Kenngrößen eines stochastischen Systems möglichst genau zu approximieren, dienen statistische Tests der Entscheidungsfindung. Basierend auf einer Erhebung oder einem Experiment soll beispielsweise bestimmt werden, ob bestimmte Charakte ristika einer Person das Markenwahlverhalten bestimmen oder welche Faktoren für den Umsatz einer Firma Relevanz besitzen. Statistische Tests sind ein Instrument, Entscheidungen über Strukturannahmen wie derWirksamkeit bzw. Nicht Wirksamkeit von Einflußgrößen basierend auf einer Zufallsstichprobe herbeizuführen. Da statistische Tests lediglich die Information einer (Zufalls )Stichprobe verwenden, können ihre Ergebnisse jedoch nie als unumstößliche Erkenntnis aufgefasst werden. Vielmehr sind die mit Hilfe statistischer Tests herbeigeführten Entscheidungen nur mit einer gewissen Wahr scheinlichkeit richtig. Allerdings werden Fehlerwahrscheinlichkeiten (auf niedrigem Niveau) kontrolliert. Die schlussendliche Testentscheidung beruht auf einer sogenannten Teststatistik, die sich aus der beobachteten Stichprobe berechnet. Diese Teststatistik enthält also sämliche Information der Stichprobe, die notwendig ist, um die jeweils interessierende Fragestellung zu beantworten. Dabei ist die Teststatistik wie die Elemente der Stichprobe selbst eine Zufallsgröße. Die Na men der verschiedenen Tests ergeben sich oft aus der entsprechenden Teststatistik bzw. deren Verteilung. Statistische Testverfahren gibt es – der Vielfalt inhaltlicher Problemstellungen entsprechend – in vielen Spielarten. Das Spektrum reicht von einfachen Tests zur Lage oder Streuung von Verteilungen über Anpassungstests, bei denen die angenommene Verteilungsform überprüft wird, bis zu Parametertests in komplexen statistischen Modellen wie Regressionsmodellen oder fakotorenanalytischen Modellen. 2 Grundzüge statistischen Testens 2.1 Parametrische Hypothesen und Tests 2.1.1 Parametrische Hypothesen Bei statistischen Testproblemen wird die Entscheidungssituation üblicherweise in Form von Null und Alternativhypothese angegeben. Die Nullhypothese formuliert meist die konservative Hypothese, beispielsweise keine Wirkung einer Einflußgröße, während die Alternativhypothese das logische Komplement darstellt, also Wirkung vorhanden. Soll ein bestimmter Sachverhalt statistisch nachgewiesen werden, ist dieser in der Regel als Alternativhypothese zu formulieren. Die entsprechende inhaltliche Fragestellung muss also nicht nur operationalisiert, sondern auch als statistisches Testproblem formalisiert werden. Null und Alternativhypothese werden in pa rametrisierten Testproblemen wie folgt formal dargestellt: (1) H0: θ ∈ Θ0 gegen H : θ ∉ Θ0 442 Jan Gertheiss /Gerhard Tutz Dabei stellt Θ0 eine Teilmenge des Parameterraums Θ dar. Welcher Parameter θ untersucht wird, hängt von der konkreten Fragestellung ab. Eine einfache Problemstellung, in der θ dem Erwartungswert µ=E(X) einer Zufallsvariablen X entspricht, ist durch das folgende Hypothe senpaar bestimmt: (2) H0: µ = µ0 gegen H : µ ≠ µ0 Dabei ist µ0 eine bekannte Vorgabe für den Erwartungswert. Konkret lässt sich damit z.B. die Nullhypothese formulieren, ob der zu erwartende Absatz im aktuellen Jahr (µ) dem bekannten Absatz des letzten Jahres (µ0) entspricht. Die der Nullhypothese entsprechende Parametermen ge ist in dieser zweiseitigen Testsituation durch Θ0 = {µ0} bestimmt, wobei Θ der Menge der reellen Zahlen entspricht. Der Parameter θ kann durchaus auch vektorwertig sein. Die entsprechende Nullhypothe se zur Lage der Verteilung bezieht sich dann auf den Erwartungswert eines Zufallsvektors X = (X1, ..., Xp). Der Parameter θ entspricht damit dem komponentweisen Erwartungswert µ = (E(X1), ..., E(Xp)). Stellen X1, ..., Xp Absätze in p unterschiedlichen Warensegmenten dar, formuliert die Nullhypothese H0: µ = µ0, dass alle p Komponenten simultan dem Vorgabewert µ0 entsprechen. In komplexen Modellierungsansätzen bezieht sich das Hypothesenpaar meist auf Parameter des verwendeten Modells. Als Beispiel betrachte man die multiple lineare Regression (siehe hierzu insbesondere auch den entsprechenden Abschnitt). Hier wird angenommen, dass der Erwartungswert einer abhängigen Größe Y bei gegebenem Kovariablenvektor X = (X1, ..., Xp) als gewichtete Summe der Größen in X bestimmt ist, d.h man postuliert: (3) E(Y |X ) = β0 + X β + ... + Xpβp = β0 + Xβ Dabei stellt β = (β , ..., βp) den Gewichtsvektor dar. Die globale Nullhypothese formuliert, dass keine der p Einflussgrößen wirksam ist. Sie hat die nachstehende Form: (4) H0: β = 0 bzw. H0: β = ... = βp = 0 Ebenso lässt sich formulieren, dass nur die Variable Xj keine Wirkung besitzt, wenn man H0: βj = 0 fordert, oder dass alle Parameter identisch sind, d.h. H0: β = ... = βp. Diese Null hypothesen stellen (in Matrix Schreibweise) jeweils eine Einschränkung der Form Cβ = b des p dimensionalen Parameterraums dar, die Alternativhypothesen ergeben sich als das logische Komplement. Allgemeine Verfahren zum Test derartiger Hypothesen werden in Abschnitt 3 behandelt. 2.1.2 Ein Beispiel: Der T Test Statistische Tests beruhen auf einer Stichprobe. Entsprechend der Problemstellung ist eine geeig nete Stichprobe zu ziehen. In einfachen Testproblemen legt man üblicherweise eine Stichprobe X1, ..., Xn zu Grunde, die aus n unabhängigen Wiederholungen der Zufallsvariable X besteht. Dies wird häufig durch die (anglifizierte) Kurzform iid Zufallsstichprobe für identically, independently distributed zum Ausdruck gebracht. Aus der Stichprobe muss zunächst eine geeignete Prüfgröße bzw. Teststatistik gebildet werden, die geeignet ist ein Urteil zu fällen, ob die Nullhypo these oder die Alternative zutrifft. Eine derartige Prüfgröße heißt sensibel für das entsprechende Statistische Tests 443 Testproblem. Für die Nullhypothese H0: µ = µ0 verwendet man häufig den sogenannte T Test, der ein normalverteiltes Merkmal X voraussetzt. Die Teststatistik ist hier gegeben durch: (5) n S XT 0"#! Dabei bezeichnen X̄ = n- ! = n i X 1 i und S 2 = (n - )- ! = n i 1 (Xi - X̄ )2 Stichprobenmittel bzw. Stich probenvarianz. Sollte die Alternative zutreffen, wird diese Teststatistik tendenziell große oder kleine Werte annehmen. Wie bereits betont, handelt es sich aber auch bei T um eine Zufalls größe. Für den seltenen Fall, dass die wahre Varianz σ2 von X bekannt ist, wird man σ statt S verwenden. Im letzteren Fall ist T unter der Nullhypothese (d.h. falls die Nullhypothese zutrifft) standard normalverteilt, ansonsten folgt T einer t Verteilung mit n-1 Freiheitsgraden. Im Fall bekannter Varianz wird der T Test auch oft als Gauß Test bezeichnet. Besteht der Erwartungswert aus mehreren Komponenten, d.h. folgt X einer p dimensionalen Normalverteilung mit Erwartungswertvektor µ und Kovarianzmatrix Σ, ist die entsprechende multivariate Teststatistik zu verwenden. Diese ist gegeben durch: (6) )()'( 2 00 "X!"X ""! "nT Dabei ist Σ- die inverse Kovarianzmatrix, die hier als bekannt vorausgesetzt wird. In der Regel muss Σ jedoch durch die Schätzung ! =− −−−= n i ii n 1 1 )')(()1( XXXXS ersetzt werden, so dass meist die folgende Teststatistik verwendet wird: (7) )()'( 2 00 !XS!X ""! "nT Bei bekannter Kovarianzmatrix ist T2 (unter H0 ) χ2 verteilt mit p Freiheitsgraden. Andernfalls folgt die Transformation [(n - p) / ((n - ) p)] T2 einer F(p,n p) Verteilung. Ist die Nullhypothese verletzt, sollte T2 tendenziell große Werte annehmen. Beobachtet man also einen solchen Wert, wird man die Nullhypothese ablehnen. Um jedoch beurteilen zu können, welche Werte als groß zu bezeichnen sind, ist die Kenntnis der Verteilung der Teststatistik notwendig – zumindest für den Fall, dass die Nullhypothese zutrifft. Die entsprechende Verteilung wird auch als Prüfverteilung bezeichnet. Zur genauen Bestimmung des Ablehnbereiches eines Tests vgl. vor allem Abschnitt 2.1.3. Die Verteilung der Teststatistik leitet sich ab aus der Verteilung der Merkmale. Zwar kann bei vielen realen Problemstellungen nicht ohne weiteres von der Normalverteilung der Merkmale ausgegangen werden, dennoch erfreut sich der T Test außerordentlicher Beliebtheit. Dies hat zu großen Teilen damit zu tun, dass er auch bei Abweichungen von der Normalverteilungsannahme als approximativer Test zur Überprüfung von Hypothesen über den Erwartungswert herange zogen werden kann. Sind nur ausreichend viele Beobachtungen vorhanden, folgt nämlich nach dem Zentralen Grenzwertsatz das Stichprobenmittel näherungsweise einer Normalverteilung, auch wenn die Normalverteilungsannahme für das betrachtete Merkmal nicht gilt. Neben der Überprüfung von Hypothesen über den Erwartungswert( Vektor) eines Merkmals ( Vektors) kann der T Test auch zum Vergleich der Erwartungswerte μ und μ2 zweier Zufalls größen X und X2 verwendet werden. Das Testproblem lautet nun also: (8) H0: µ = µ2 gegen H0: µ ≠ µ2 444 Jan Gertheiss /Gerhard Tutz Im eindimensionalen Fall verwendet man Nachstehendes als Teststatistik: (9) S XXT ~ 2 " ! Dabei bezeichnet X̄r = n- ! = n i X 1 ri das Stichprobenmittel für Gruppe r bzw. Zufallsgröße Xr. Die Standardabweichung S∼ der Differenz X̄ X̄2 berechnet sich jeweils unterschiedlich, je nach dem, ob die beiden Stichproben von X und X2 unverbunden (genauer unabhängig) oder ver bunden sind. Verbunden sind sie z.B., wenn an einer Gruppe von Personen der Verdienst vor und nach einer Weiterbildung gemessen wird, wobei jeweils dieselben Personen betrachtet werden. Unverbunden sind sie, wenn beispielsweise Frauen und Männer verglichen werden und es sich nicht etwa jeweils um Ehepaare handelt. Die verschiedenen Arten der Berechnung von S∼ sind z.B. in F . (2007) dargestellt. Bezüglich derartiger Tests im mehrdimensionalen Fall vgl. bspw. F /H (1996). Sindmehr als zwei Gruppen zu vergleichen, kann beispielsweise die NullhyptheseH0: µ = ...= µk mittels sogenannte Varianzanalyse (Analysis of Variance / ANOVA) überprüft werden. Hierzu sei auf den entsprechenden Beitrag verwiesen. Im multivariaten Fall spricht man von „MANOVA“ (vgl. bspw. F . 1996 sowie den Beitrag zur Varianzanalyse in diesem Herausge berband, R ). 2.1.3 Fehler erster und zweiter Art Eine Testentscheidung erfolgt wie bereits angedeutet auf Basis der Ausprägung einer Teststati stik. Verwendet man z.B. den T Test zur Überprüfung vonH0: µ = µ0, wird man die Nullhypo these ablehnen, falls T sehr kleine oder sehr großeWerte annimmt – also falls T < k oder T > k2. Die beiden Größen k und k2 bezeichnet man als kritische Werte, die Bereiche [k , k2] und (-∞, k )∪ (k2,+∞) als Annahme- bzw. Ablehnbereich des Tests. Fällt die Realisierung der Teststati stik in den Annahmebereich, behält man die Nullhypothse bei, andernfalls lehnt man sie ab. Da es sich bei der Teststatistik jedoch um eine Zufallsgröße handelt, schützt ein solches Vorgehen nicht restlos vor Fehlentscheidungen. So spricht man bei einem statistischen Testproblem H0 gegen H (und einem geeigneten statistischen Test) allgemein von einem Fehler erster Art, wenn die Nullhypothese verworfen wird, obwohl sie wahr ist, Fehler zweiter Art, wenn die Nullhypothese beibehalten wird, obwohl die Alternative zu trifft. Die möglichen Ausgänge eines statistischen Tests lassen sich also folgendermaßen zusammen fassen: '8021$)#/.8& (*5 #" '8021$)#/.8& (*5 #! #! +6$5 #" +6$5 ,#1$0#& %)$!)5 "+)#0)5 -50 4β3%)$!)57 ,#1$0#& %)$!)5 "+)#0)5 -50 4α3%)$!)57 Tabelle 1: Mögliche Ausgänge eines statistischen Tests [in Anlehnung an fahrmeir et al. 2007, S. 416] Statistische Tests 445 Für gegebenen Stichprobenumfang ist es jedoch im Allgemeinen nicht möglich, Fehler erster und zweiter Art zu kontrollieren bzw. zu minimieren. Daher gibt man sich beim sog. Signifikanztest lediglich ein gewisses Signifikanzniveau α vor, welches die Wahrscheinlichkeit für den Fehler erster Art nicht überschreiten darf. Formal gilt also: (10) P(Fehler . Art) = P(H0 ablehnen | H0 wahr) ≤ α TypischeWerte für das Signifikanzniveau sind 0,1, 0,05 oder 0,01. Ist der Fehler erster Art unter Kontrolle, versucht man den Fehler zweiter Art zu minimieren. Zur Bestimmung des Ablehnbe reichs eines Tests, der das vorgegebene Signivikanzniveau einhält, ist die Kenntnis der Verteilung der Teststatistik unter der Nullhypothese erforderlich. Im Falle des T Tests ist dies (wie bereits beschrieben) die t Verteilung, woraus sich für die zweiseitige Fragestellung H0: µ = µ0 ergibt, dass die Nullhypothese unter folgender Bedingung abgelehnt wird: (11) T < -t -α/2(n - ) oder T > t -α/2(n - ) Dabei bezeichnet t -α/2 (n - ) das (1 α/2) Quantil der t Verteilung mit n - 1 Freiheitsgraden. Diese kritischenWerte schneiden links und rechts gleich große Teile der (symmetrischen) t Ver teilung ab. Um lediglich die Einhaltung des Signifikanzniveaus sicherzustellen, wären zwar auch andere kritischeWerte denkbar, durch die gewählten wird jedoch der Annahmebereich des Tests möglichst klein, wodurch die Wahrscheinlichkeit für einen Fehler zweiter Art minimiert wird. Bei einer einseitigen Fragestellung H0: µ ≤ µ0 bzw. H0: µ ≥ µ0 ergibt sich der Ablehnbereich folglich als (t -α(n - ), +∞) bzw. (-∞, -t -α(n - )). Wird die multivariate FragestellungH0: µ = µ0 überprüft, ist die Nullhypothese abzulehnen, falls die T 2 Werte jenseits des (1 α) Quantils der entsprechenden F bzw. χ2 Verteilung annehmen. Allgemein nennt man ein Ergebnis, welches zu Ablehnung der Nullhypothese führt, „signifikant zum Niveau α“. Zu betonen ist jedoch: Sämtliche hier erwähnten Wahrscheinlichkeiten beziehen sich auf die Situation vor der Durchführung des entsprechenden Tests. Ist die Stichprobe erst erhoben, ist die darauf basierende Testentscheidung schlicht richtig oder falsch. Schließlich ist auch die Nullhy pothese nur entweder richtig oder falsch. Allerdings kann dies natürlich nicht beurteilt werden. Wüsste man jeweils, ob Nullhypothese oder Alternative zutreffen, bräuchte man den Test ja überhaupt nicht durchzuführen. Aussagen, wonach Nullhypothesen (vor und nach Auswertung der Stichprobe) mit einer bestimmtenWahrscheinlichkeit wahr oder falsch sind, sind nur in der sog. Bayesianischen Inferenz zulässig, auf die hier allerdings nicht näher eingegangen wird. Für eine Einführung in das Bayesianische Inferenzkonzept vgl. z.B. H (2008). 2.1.4 Restwahrscheinlichkeit oder p Wert Bisher wurde die Testentscheidung getroffen über den Vergleich der Prüfgröße mit jeweils zu berechnenden kritischen Werten. Alternativ lassen sich statistische Tests auch über sog. p-Werte oder Restwahrscheinlichkeiten durchführen, die von statistischen Programm Paketen standard mäßig ausgegeben werden. Der p Wert ist definiert als die Wahrscheinlichkeit unter der Null hypothese den beobachteten Prüfwert oder einen in Richtung der Alternative extremeren Wert zu erhalten. Ist der p Wert kleiner oder gleich dem vorgegebenen Signifikanzniveau, so wird die Nullhypothese verworfen. Ansonsten behält man sie bei. Der p Wert verdeutlicht also, ob der beobachteteWert der Teststatistik vernünftigerweise noch durch Zufall erklärt werden kann oder nicht. Nicht mehr durch Zufall erklärt werden kann er demnach dann, wenn (vor Erhebung der Stichprobe) bei Zutreffen der Nullhypothese die Wahrscheinlichkeit für einen derartigen (oder 446 Jan Gertheiss /Gerhard Tutz extremeren) Wert unterhalb der (niedrigen) Schranke α liegt/lag. P Werte liefern zudem mehr Informationen als einfache Ja Nein Entscheidungen bzgl. der Ablehnung der Nullhypothese. Man kann an ihnen ablesen, zu welchem Signifikanzniveau der entsprechende Test die Nullhy pothese gerade noch verworfen hätte. Zu beachten ist jedoch: Das Signifikanzniveau α ist vor Ziehung der Stichprobe – oder zumindest vor Berechnung der Teststatistik – festzulegen. Das (verlockende) Vorgehen, zunächst die Teststatistik und damit zusammenhängende p Werte zu berechnen und im Anschluss α zu wählen, um möglichst viele signifikante Ergebisse zu erhalten, ist unzulässig (vgl. F . 2007, S. 420). 2.1.5 Die Gütefunktion Fehler erster und zweiter Art wurden bereits als Kriterien zur Beurteilung der Qualität eines statistischen Tests eingeführt. Diese beiden Kriterien lassen sich nun unter dem Begriff der Gütefunktion zusammenführen. Hierzu seien noch einmal dieWahrscheinlichkeiten für Fehler erster und zweiter Art formal angegeben: (12) P(Fehler . Art) = P(H0 ablehnen | H0 wahr) (13) P(Fehler 2. Art) = P(H0 beibehalten | H wahr) = - P(H0 ablehnen | H wahr) Die letzte Umformung ist zum Verständnis der Gütefunktion entscheidend. Diese gibt für einen (parametrischen) Test nämlich gerade in Abhängigkeit des interessierenden Parameters θ die Wahrscheinlichkeit an, die Nullhypothese zu verwerfen. Die Gütefunktion g ist als Funktion von θ demnach folgendermaßen definiert: (14) g(θ) = P(H0 ablehnen | θ) Falls also der wahre Parameter aus der Alternative stammt, entspricht die Gütefunktion der Wahrscheinlichkeit die richtige Entscheidung zu treffen, nämlich die Nullhypothese zu verwer fen. Für den Fall, dass der wahre Parameter in der Nullhypothese liegt, gibt die Gütefunktion die Wahrscheinlichkeit für den Fehler erster Art an, die durch das vorgegebene Signifikanzniveau nach oben beschränkt ist. Eine ideale Gütefunktion nimmt also über der Nullhypothese stets den Wert 0 an, über der Alternative konstant den Wert 1. Dies ist jedoch praktisch unmög lich. Zur Konkretisierung des Begriffs der Gütefunktion betrachte man etwa den Gauß Test (d.h. T Test bei bekannter Varianz) für die einseitige Fragestellung: (15) H0: µ ≤ µ0 gegen H : µ > µ0 Für dieses Testproblem ist die Gütefunktion als Funktion von µ (dem interessierenden Parame ter) aufzufassen, d.h. g(µ) = P(H0 ablehnen | µ). Die Gütefunktion gibt also für die verschie denenWerte des unbekannten, aber wahren Erwartungswertes µ die Wahrscheinlichkeit an,H0 zu verwerfen. Gilt µ ∈ H0, d.h. µ ≤ µ0, so ist g(µ) ≤ α; µ ∈ H , d.h. µ > µ0, so ist - g(µ) die Wahrscheinlichkeit für den Fehler zweiter Art. Die Berechnung einer Gütefunktion kann im Allgemeinen recht kompliziert sein. Für den (hier einseitigen) Gauß Test lässt sie sich aber vergleichsweise einfach herleiten. Da im beschriebenen Testproblem die Nullhypothese genau dann abgelehnt wird, wenn T = √–n (X̄ - μ0) / σ > z -α, lässt sich auch schreiben: g(µ) = P(√–n (X̄ - μ0) / σ > z -α| μ); z -α bezeichnet hier das Statistische Tests 447 (1 α) Quantil der Standard Normalverteilung.1 Da µ der wahre Erwartungswert und somit √–n (X̄ - μ) / σ standard normalverteilt ist, erhält man durch Addition von µ - µ (also eigentlich Null) den folgenden Term: (16) ),/)(( )|/)(()( 0 0 &!!!&!!!! '' ##(#$"#%#$ ## nzzXnPg Dabei bezeichnet Φ die Verteilungsfunktion der Standard Normalverteilung. Der Verlauf die ser Gütefunktion ist in folgender Abbildung 1 für µ0 = 0, σ = , α = 0,05 und verschiedene Stichprobenumfänge n skizziert. Ein derartiger Test, dessen Gütefunktion für alle Werte aus der Alternative stets größer ist als für jeden Wert aus der Nullhypothese, wird allgemein als unverfälscht bezeichnet. Für eine tiefergehende Auseinandersetzung mit Gütekriterien statistischer Tests sei z.B. auf R (2002) verwiesen. Für Werte aus der Alternative (hier: rechts von Null) wird die Gütefunktion allgemein auch als Trennschärfe oder Power bezeichnet. Je größer die Power eines Tests, desto besser. Wie aus Abbildung 1 ersichtlich, steigt die Qualität des Tests mit wachsendem Stichprobenumfang. Ebenfalls ersichtlich ist, dass deutliche Abweichungen von der Nullhypothese durch einen Signifikanztest nicht zwangsläufig aufgedeckt werden. Im vorliegenden Beispiel würde etwa bei einer Stichprobengröße von 10 ein Erwartungswert µ, der in Wahrheit um +0,5 vom Vorgabewert µ0 = 0 abweicht, bei wiederholter Durchführung des Tests nur in ca. 50% aller Fälle auch zu einer Ablehnung der Hypothese H0: µ ≤ 0 führen. Hierbei wird noch einmal die Asymmetrie des Signifikanztests deutlich. Eine Nicht Ablehung der Nullhypothese bedeutet noch lange nicht, dass diese auch zutrifft. Daher sind zu beweisende Aussagen nach Möglichkeit als Alternative zu formulieren. 2.2 Nonparametrische Tests Die bisher behandelten Tests verlangten – zumindest für kleine Stichprobenumfänge – alle einen bestimmten Verteilungstyp bezüglich der beobachtetenMerkmale. Im Falle des T Tests beispiels Bei bekannter Varianz ist T, wie zuvor angegeben, standard normalverteilt. *, * +*,% *,* *,% (,* (,% *, & *, ' *, $ *, # (, * "! #$ # " ! (* " ! &* " ! )* Abbildung 1: Gütefunktion des T-Tests in Abhängigkeit vom Stichprobenumfang 448 Jan Gertheiss /Gerhard Tutz weise war dies die Normalverteilung. Ist die Abweichung von der entsprechenden Annahme sehr stark, ist dem jeweiligen Test nicht zu vertrauen. Einkommensdaten dienen zwar oft als Beipiel für Mittelwertsvergleiche, auch hier war dies bereits der Fall, doch mitunter ist dabei Vorsicht geboten. Einkommensdaten sind nämlich zum einen auf die positive Halbachse beschränkt, zum anderen folgen sie oft einer linkssteilen/rechtsschiefen Verteilung. Beides widerspricht der Normalverteilungsannahme. Daher werden derartige Daten gerne (z.B. logarithmisch) transfor miert, um die entsprechenden Anforderungen eher zu erfüllen. Eine (oft elegantere) Alternative sind jedoch sog. nonparametrische – oder verteilungsfreie – Tests. Der Begriff nonparametrisch bezieht sich darauf, dass nicht Parameter der Verteilung, etwa der Erwartungswert µ einer Nor malverteilung, im Vordergrund stehen, sondern allgemeinere Charakteristika wie Median oder Quantile. Der Begriff verteilungsfrei erfasst imWesentlichen, dass die Verteilung der Teststatistik unter der Nullhypothese nicht von der Verteilung des zu Grunde liegenden Merkmals abhängt (vgl. F . 2007, S. 438). Die entsprechenden Tests sind also universell einsetzbar. Tests über denMedian sind z.B. derWilcoxon-Rang-Summen-Test oder derWilcoxon-Vorzeichen- Rang-Test, die sich auch in gängigen Statistik Software Paketen finden lassen. Erstgenannter Test eignet sich für den Vergleich zweier unverbundener Stichproben, letzterer für verbundene oder einfache Messungen. Für einen tieferen Einblick in nonparametrische Statistik vgl. bspw. B /T (1994). 2.3 Anpassungstests Wie bereits ausführlich dargelegt, sind parametrische Tests von der Verteilung abhängig, die den beobachtbaren Daten zu Grunde liegt, bzw. sind nur dann anwendbar, wenn bezüglich der interessierenden Merkmale eine bestimmte Verteilungsannahme gilt. Etwa erfordert der T Test normalverteilte Daten, zumindest solange nur eine geringe Anzahl an Beobachtungen zur Verfügung steht. Auch stellen viele statistische Verfahren und Modelle Ansprüche im Sinne bestimmter Verteilungsannahmen, insbesondere wenn in ihrem Rahmen statistische Inferenz betrieben werden soll. Daher liegt natürlich die Frage auf der Hand, wie durch einen stati stischen Test überprüft werden kann, ob die beobachteten Daten einer bestimmten Verteilung folgen – oder genauer, ob ihre Verteilung aus einer gewissen Verteilungsfamilie stammt. So mag es zunächst von Interesse sein, ob die Realisationen einer Zufallsgröße überhaupt einer Normal verteilung entstammen, bevor man sich über den Erwartungswert eben jener Normalverteilung Gedanken macht. In anderen Problemstellungen kann die zu untersuchende Verteilung vollständig gegeben sein. Ist beispielsweise bekannt, dass die Preise für Zwei Zimmerwohnungen in einer bestimmten Region Deutschlands einer Normalverteilung mit bekannten Erwartungswert und bekannter Varianz folgen, stellt sich etwa die Frage, ob dieselbe Verteilung im – nach gängiger Auffassung teuren – München auch vorliegt. Generell überprüft man in derartigen Problemstellung, ob die tatsächliche Verteilung einer vor gegebenen Verteilung entspricht, d.h. ob die Daten dieser Verteilung hinreichend gut angepasst sind. Man spricht daher auch von Anpassungs oder Goodness-of-fit Tests (vgl. F . 2007, S. 445). Die Nullhypothese lautet also: (17) H0: X ~ Pθ Pθ bezeichnet hierbei eine gegebene Verteilung, die durch θ näher spezifiziert wird. Der Para meter( Vektor) θ kann (zum Teil) fest gegeben sein oder nicht. Im Fall der Normalverteilung bestünde θ etwa aus Erwartungswert μ und Varianz σ2. Statistische Tests 449 Mit Blick auf obige Nullhypothese sollte allerdings betont werden: Bei einem Anpassungstest wird nur überprüft, ob signifikante Abweichungen von der gegebenen Verteilungsannahme vorliegen. Es lässt sich also in der Regel nicht statistisch nachweisen, ob die beobachteten Daten einer bestimmten Verteilung/Verteilungsfamilie – etwa einer Normalverteilung – entstammen, sondern (unter Umständen) nur aussagen, dass kein statistisches Argument dagegenspricht. Im folgenden werden nun zwei häufig verwendete Anpassungstests kurz vorgestellt: Der χ2 Test, der für nominal oder höherskalierte Merkmale geeignet ist, sowie der Kolmogorov Smirnov Test, welcher stetige Verteilungen voraussetzt. Da hier nicht Hypothesen bezüglich einzelner Parameter bestimmter Verteilungen überprüft werden, handelt es sich auch hierbei um non parametrische Tests. Im Anschluss wird noch kurz auf allgemeinere Tests zur Beurteilung der Goodness of fit eines ganzen Modells eingegangen. 2.3.1 Der χ2 Test Allgemein dient der χ2 Test zwar der Überprüfung der Anpassung an eine bestimmte Verteilung, im engeren Sinn werden jedoch folgendene Hypothesen betrachtet: (18) H0: P(X = k) = �k, k = , ..., K (19) H : P(X = k) ≠ �k für mindestens ein k Handelt es sich bei X um ein kategoriales Merkmal mit K Kategorien und Kategoriewahr scheinlichkeiten � , ..., �k, entsprechen obige Hypothesen unmittelbar den Hypothesen der Verteilungsanpassung. Denn in diesem Fall ist die Verteilung eben genau durch die Katego riewahrscheinlichkeiten definiert. Ist das Merkmal X jedoch stetig, muss es zunächt gruppiert werden, d.h. es müssen Klassen , ..., K gebildet werden, deren Wahrscheinlichkeiten dann aus der zu überprüfenden (stetigen) Verteilung berechnet werden können. Unter Betrachtung der aufgetretenen Klassenhäufigkeiten h , ..., hK ist die verwendete Teststatistik nun wie folgt: (20) $ # % # K k k kk n nh 2 2 )( ! !" Diese Größe ist für hinreichend große Beobachtungszahlen approximativ χ2 verteilt. Nach Faustregel ist die Approximation anwendbar, wenn n�k ≥ 1 für alle k, und n�k ≥ 5 für minde stens 80 Prozent der insgesamt K Klassen. Die Anzahl der Freiheitsgrade der Verteilung richtet sich danach, ob die zu prüfende Verteilung voll spezifiziert ist, oder ob zunächst Parameter geschätzt werden müssen, weil θ (teilweise) unbekannt ist. Allgemein berechnet sich die Zahl an Freiheitsgraden durch K- -Anzahl geschätzter Parameter. Soll beispielsweise lediglich die Normalverteilungsannahme überprüft werden, sind Erwartungswert und Varianz in der Regel unbekannt. Hier müssen also zunächst zwei Parameter geschätzt werden, bevor aus der sich ergebenden Verteilungsfunktion Klassenwahrscheinlichkeiten bestimmt werden können. Gegen die zu prüfende Verteilungsannahme sprechen allgemein große Werte der χ2 Statistik. Denn großeWerte treten dann auf, wenn sich die beobachteten Klassenhäufigkeiten hk stark von den Werten n�k unterscheiden. Letztere entsprechen jedoch den zu erwartenden Klassenhäu figkeiten, wenn es sich bei der zu prüfenden Verteilung um die wahre handelt. Folglich besteht der Ablehnbereich des Tests aus allen Werten jenseits des (1 α) Quantils der χ2 Verteilung mit der oben beschriebenen Anzahl an Freiheitsgraden. 450 Jan Gertheiss /Gerhard Tutz 2.3.2 Der Test von Kolmogorov und Smirnov Im Gegensatz zum χ2 Test ist der Kolmogorov Smirnov Test (K S Test) nur anwendbar für ste tige Prüfverteilungen, d.h. wenn die zugehörige Zufallsgröße alleWerte eines Intervalls (positiver Länge) annehmen kann. Die bekannteste stetige Verteilung ist die Normalverteilung. Der Test von Kolmogorov und Smirnov basiert auf nachstehender empirischen Verteilungsfunktion: (21) # ! "! n i in xXIn xF )( )( Diese gibt den Anteil der Ausprägungen von X an, die kleiner oder gleich x sind, und wird nun mit der theoretischen Verteilungsfunktion verglichen, welche die Prüfverteilung charakterisiert. Letztere wird dargestellt durch: (22) F(x) = P(X ≤ x) Die Prüfverteilung ist also dieWahrscheinlichkeit einenWert kleiner (oder gleich) x zu erhalten, wenn die Zufallsgröße X der zu überprüfenden Verteilung folgt. Als Prüfgröße dient nun der maximale Abstand von theoretischer und empirischer Verteilungsfunktion, genauer: (23) D = supx | Fn(x) - F(x) | Unter der Nullhypothese, dass es sich bei F um die wahre Verteilungsfunktion handelt, folgt √ n D für eine große Zahl an Beobachtungen näherungsweise der sog. Kolmogorov Verteilung. Große Werte von D widersprechen der Nullhypothese, so dass Werte von √ n D jenseits des (1 α) Quantils der Kolomogorov Verteilung zur Ablehnung der Nullhypothese führen. Für kleine Stichproben sind kritische Werte für D tabelliert. Allerdings muss für die Anwendung des K S Tests die theoretische Verteilungsfunktion F voll spezifiziert sein; müssen hierfür Parameter ge schätzt werden, ist der Test konservativ, d.h. das Signifikanzniveau wird nicht voll ausgeschöpft (vgl. B /T 1994, S. 73). Zu beachten ist, dass sowohl Kolmogorov Smirnov als auch χ2 Test unabhängig sind von der konkreten (ggf. stetigen) zu prüfenden Verteilungsfamilie. Soll etwa konkret auf Normalvertei lung getestet werden, bietet sich der Test von S /W (1965) als Alternative an. Ähnlich wie Kolmogorov Smirnov und χ2 steht auch dieser Test in den gängigen statistischen Programm Paketen zur Verfügung. 2.3.3 Generalisierte Anpassungstests Bisher wurden die vorgstellten Anpassungstests nur zum Vergleich einer Stichprobe mit einer bestimmten vorgegebenen Verteilungsfamilie verwendet. Insbesondere die χ2 Statistik kann aber auch zur Beurteilung einer weitaus generelleren Goodness of fit herangezogen werden. Zerfällt die untersuchte Population bezüglich verschiedener Faktoren in Gruppen, und werden z.B. die Gruppenzugehörigkeit bzw. Gruppenhäufigkeiten modelliert (wie dies etwa in loglinearen Modellen geschieht; vgl. bspw. T 2000), lassen sich die modellbasierten und beobachteten Gruppenhäufigkeiten mittels der χ2 Statistik vergleichen. SignifikateWerte der Statistik würden eine Ablehnung des verwendeten Modells nach sich ziehen. Hier wird also weniger die Anpas sung der Daten an eine Verteilung als vielmehr die Anpassung an ein Modell überprüft. Weitere Beispiele für derartige Goodness of fit Tests finden sich auch im Rahmen der generalisierten linearen Modelle. Gegeben die angesprochenen gruppierten Daten mit Gruppen k = , ..., K, kann hier der Erwartungswert einer (nicht unbedingt normalverteilten) Response Variable Y Statistische Tests 451 in Abhängigkeit von Gruppierungsvariablen modelliert werden. Eine eng mit der χ2 Statistik verwandte Größe ist die in diesem Zusammenhang oft verwendete Pearson-Statistik: (24) % # " # K k k kk kP Yn 2 2 2 )( $ !& Dabei bezeichnet Ȳk den beobachteten Mittelwert von Y in Gruppe k, nk die Gruppengröße sowie μk und σ2k modellbasierten Erwartungswert bzw. modellbasierte Varianz von Y in Grup pe k. Für ausreichend große nk ist auch die Pearson Statistik näherungsweise χ2 verteilt. Eine (asymptotisch) äquvalente Prüfgröße ist die sog. Devianz. Näheres entnehme man z.B. F /T (2001). 2.4 Multiple Tests Bei der Durchführung eines einzelnen Signifikanztests ist die Wahrscheinlichkeit, fälschlicher weise ein signifikantes Ergebnis zu erhalten, durch das vorgegebene Signifikanzniveau α be schränkt. Leider wird in quantitativen Studien häufig vergessen, dass diese Fehlerbeschränkung nur für den einzelnen Test gilt. Führt man in einer Studie eine Vielzahl von Tests durch, sum mieren sich die potentiellen Fehler. Testet man beispielsweise 100 Erwartungswerte auf Gleich heit in zwei Gruppen, so sind, selbst wenn beide Gruppen in diesen Erwartungswerten identisch sind, 100α falsche Signifikanzen zu erwarten. Bei einem Signifikanzniveau von 0.05 für den einzelnen Test ist demnach damit zu rechnen, dass 5 Parameter auffällig scheinen, obwohl kein Unterschied in den Gruppen vorliegt. Neben diesen zu erwartenden falschen Signifikanzen wird bei multiplen Tests häufig versucht das globale Signifikanzniveau zu kontrollieren. Das globale Signfikanzniveau einer Testprozedur (also einer Gesamtheit von Tests) ist definiert als die Wahrscheinlichkeit, dass mindestens ein Test fälschlicherweise ein signifikantes Ergebnis liefert. Ein einfacher, aber oft unnötig restriktiver Weg, ein globales Signifikanzniveau α einzuhalten, besteht darin, jeden einzelnen Test zum Siknifikanzniveau α /N durchzuführen, wobei N die Anzahl der durchgeführten Tests bezeichnet. Diese sogenannte Bonferroni Prozedur sichert, dass das globale Signifikanzniveau α nicht überschritten wird. Für alternative Verfahren und eine detaillierte Erläuterung multipler Testprozeduren vgl. z.B. H (1996). 3 Testprinzipien Im vorangegangenen Abschnitt wurden bereits einige spezielle Tests für konkrete Problemstel lungen vorgestellt. Zum einen stellt sich nun die Frage, wie man überhaupt zur Konstruktion von Tests gelangt. Zum anderen sollen oftmals auch Hypthesen allgemeinerer Form geprüft werden als etwa die Gleichheit einfacher Erwartungswerte. Dies trifft insbesondere auf die mul tivariate Statistik zu. Die generelle lineare Hypothese im multiplen Regressionsmodell wurde als Beispiel bereits angesprochen. Im Folgenden werden nun drei allgemeine Testprozeduren vorgestellt, mit Hilfe derer sich Tests zur Überprüfung derartiger Hypothesen bestimmen lassen. Die behandelten Prozeduren basieren alle auf dem Konzept der Likelihood Inferenz. Für eine grundlegende Einführung in jenes Inferenzkonzept vgl. z.B. R (1999) oder H (2008). 3.1 Likelihood Quotienten Tests Um einen derartigen Test durchführen zu können geht man davon aus, dass sich die Verteilung der Stichprobe X , ..., Xn in Abhängigkeit vom interessierenden Parameter θ darstellen lässt durch eine Dichte f(X , ..., Xn; θ). Diese Dichte f wird als Funktion der Stichprobe aufgefasst, 452 Jan Gertheiss /Gerhard Tutz die durch θ näher bestimmt ist. Diese Interpretation lässt sich aber auch umkehren; es ergibt sich die sog. Likelihood L als Funktion von θ, d.h. L(θ; X , ..., Xn) = f(X , ..., Xn; θ). Die Likelihood misst in gewisser Weise die Plausibilität des Parameterwerts θ basierend auf der vorliegenden Stichprobe. Je höher ihr Wert desto plausibler erscheint der entsprechende Parameterwert. Zu beachten ist, dass θ selbstverständlich auch vektorwertig (also mehrdimensional) sein kann – und für gewöhnlich auch ist. Man betrachte nun wieder das allgemeine parametrische Hypothesenpaar, wie es in Abschnitt 2 eingeführt wurde, d.h. H0: θ ∈Θ0 gegenH : θ ∉Θ0, wobeiΘ0 wie gehabt einen Teilraum des ParameterraumsΘ bezeichnet. Der Likelihood Quotienten Test (LQ Test) basiert nun auf einer recht intuitiven Größe. Hierzu suche man zunächst den plausibelsten Wert für θ überhaupt. Dieser sog. Maximum Likelihood Schätzer (ML Schätzer) θ̂ maximiert die Likelihood über dem gesamten Parameterraum, d.h: (25) L(θ̂; X , ..., Xn) = supθ∈Θ L(θ; X , ..., Xn) Im Anschluss berechnet man den ML Schätzer θ̂0 unter der Annahme, dass die Nullhypothese zutrifft. θ̂0 maximiert also die Likelihood über dem eingeschränkten Parameterraum Θ0, d.h: (26) L(θ̂0; X , ..., Xn) = supθ∈Θ0 L(θ; X , ..., Xn) Die Plausibilität der beiden Schätzwerte θ̂ und θ̂0 vergleicht man, indem man die Likelihood an der Stelle θ̂0 durch die Likelihood an θ̂ teilt. Es ergibt sich der sog. Likelihood-Quotient: (27) ),...,;ˆ( ),...,;ˆ(),...,( 0 n n n XXL XXLXX # #"" !! Da Θ0 eine Teilmenge von Θ ist, kann die Likelihood über Θ0 nicht größer werden als über Θ, woraus 0 ≤ λ ≤ 1 folgt. Für Werte von λ nahe Eins ist die Einschränkung von θ auf Θ0 für das Maximum der Likelihood nahezu ohne Auswirkungen, und man wird intuitiv die Null hypothese beibehalten, während kleine Werte des Likelihood Quotienten eher für die Alterna tive sprechen. Formal lautet die Entscheidungsregel für den LQ Test also: Lehne H0 ab, falls λ(X , ..., Xn) < λ0, wobei λ0 aus supθ∈Θ0 P(λ(X , ..., Xn) < λ0) = α bestimmt wird. Allerdings ist λ0 nur exakt zu bestimmen, falls die Verteilung von λ bestimmt werden kann, was nur bei sehr speziellen Testproblemen gelingt. Die allgemeine lineare Hypothese (bezüglich des Vektors θ) wird wie folgt dargestellt: (28) H0: Cθ = ξ Soll diese überprüft werden, geht man für gewöhnlich zur Teststatistik -2ln(λ) über. Dieser log Likelihood Quotient ist nämlich (unter gewissen Regularitätsbedingungen) zumindest für große Beobachtungszahlen näherungsweise χ2 verteilt, wobei die Freiheitsgrade dem Rang der Matrix C entsprechen. Durch den Vorzeichenwechsel sprechen nun große Werte der Teststati stik für die Alternative, so dass die Nullhypothese abzulehnen ist, falls -2ln(λ) das (1 α) Quantil der adequaten χ2 Verteilung überschreitet. Als numerisch günstigere Alternativen zum Likelihood Quotienten Test ergeben sich die soge nannten Wald und Score Tests (vgl. F /H 1996, S. 88). Statistische Tests 453 3.2 Wald und Score Tests Beim Likelihood Quotienten Test musste sowohl der restringierte Schätzwert θ̂0 als auch der unrestringierte θ̂ berechnet werden. Dies umgehen Wald und Score Test. Die nach Wald be nannte Teststatistik wird wie folgt dargestellt: (29) )ˆ()'()'ˆ( ˆ !"CCCF!"C " ""! ""w Sie misst den gewichteten Abstand zwischen unrestringiertem Schätzwert Cθ̂ und dem Wert ξ der linearen Hypothese H0: Cθ = ξ. Die Gewichtsmatrix ist die Inverse der asymptotischen Kovarianzmatrix CFθ̂- C′ von Cθ̂.2 Die Wald Statistik ist von Vorteil, falls der unrestringier te ML Schätzer bereits berechnet wurde, die Bestimmung des restringierten Schätzwerts aber aufwendig ist. Die Score Statistik ist für den umgekehrten Fall geeignet. Sie basiert auf der Ableitung der log Likelihood ln(L(θ; X , ..., Xn)) nach θ, der sogenannten Score Funktion s(θ; X , ..., Xn). Die Score Statistik hat folgende Form: (30) u = s(θ̂0; X , ..., Xn)′Fθ̂0 - s(θ̂0; X , ..., Xn) Ihre Gestalt beruht auf folgender Idee: Für θ = θ̂ ist die Score Funktion s(θ; X , ..., Xn) gleich dem Nullvektor. Ersetzt man θ̂ durch den unter H0 restringierten Schätzer θ̂0, sollte die Score Funktion klar von Null verschieden sein, falls die Nullhypothese falsch ist. Die Entfernunug von s(θ̂0; X , ..., Xn) zu Null wird durch die Score Statistik gemessen, wobei die inverse Fisher Matrix als Gewicht fungiert. Der Score Test bietet sich also an, wenn der restringierte Schätzer bereits berechnet wurde und z.B. das unter der Nullhypothese geltende Modell gegen ein Obermodell getestet werden soll. Unter der Nullhypothese folgen Score , Wald und log Likelihood Quotienten Statistik -2ln(λ) für große Beobachtungszahlen (unter Regularitätsbedingungen) näherungsweise der selben χ2 Verteilung, so dass sich auch jeweils dieselben kritischen Werte ergeben. Literaturverzeichnis Büning, h.; TrenKler, g. (1994): Nichtparametrische statistische Methoden, 2. erw. u. völl. überarb. Aufl., Berlin u.a., 1994. Fahrmeir, l.; hamerle, a. (1996): Grundlegende multivariate Schätz und Testprobleme, in: Fahrmeir, L.; Hamerle, A.; Tutz, G. [Hrsg.]: Multivariate statistische Verfahren, 2. überarb. Aufl., Berlin u.a., 1996, S. 49–92. Fahrmeir, l.; hamerle, a.; nagl, W. (1996): Varianz und Kovarianzanalyse, in: Fahrmeir, L.; Hamerle, A.; Tutz, G. [Hrsg.]: Multivariate statistische Verfahren, 2. überarb. Aufl., Berlin u.a., 1996, S. 169–238. Fahrmeir, l.; KünsTler, r.; pigeoT, i.; TUTz, g. (2007): Statistik: DerWeg zur Datenanalyse, 6. überarb Aufl., Berlin u.a., 2007. Fahrmeir, l.; TUTz, g. (2001):Multivariate Statistical Modelling Based on Generalized Linear Models, 2. Aufl., New York u.a., 2001. 2 Die inverse Fisher Matrix Fθ̂- ist die asymptotische Kovarianzmatrix von θ̂. 454 Jan Gertheiss /Gerhard Tutz helD, l. (2008): Methoden der statistischen Inferenz: Likelihood und Bayes, Berlin u.a., 2008. hsU, J. C. (1996): Multiple comparisons: theory and methods, London, 1996. rüger, B. (1999): Test und Schätztheorie, Bd. 1, Grundlagen, München u.a., 1999. rüger, B. (2002): Test und Schätztheorie, Bd. 2, Statistische Tests, München u.a., 2002. shapiro, s. s.; WilK, m. B. (1965): An analysis of variance test for normality (complete sam ples), in: Biometrika, Vol. 52, No. 3, S. 591–611. TUTz, g. (2000): Die Analyse kategorialer Daten, München u.a., 2000.

Chapter Preview

References

Zusammenfassung

Dieser Sammelband bietet einen Überblick über relevante Theorien der Wirtschafts- und Sozialwissenschaften sowie ausgewählte Methoden der qualitativen und quantitativen Forschung. Der Leser hat die Möglichkeit, jede hier behandelte Theorie und Methode in ihren grundlegenden Aussagen bzw. Funktionsweisen zu verstehen sowie hilfreiche Hinweise und Literaturquellen für ein vertiefendes Studium jedes Themenfeldes zu erhalten.

Studenten oder Doktoranden stehen vor dem gleichen Problem:

Wie können Forschungsfragen durch geeignete theoretische Konzepte fundiert werden, wie werden sie in Hypothesen transformiert und mit welchen empirischen Methoden überprüft?

Die Kernbotschaft: Auf dem Weg zu wissenschaftlicher Leistung müssen Theorien und Methoden Hand in Hand gehen.

Damit dies gelingen kann benötigt jeder Forscher eine grundlegende Kenntnis derjenigen Theorien und empirischen Methoden, die im jeweiligen Forschungsfeld Relevanz besitzen und für die Anwendung in Frage kommen. Das Verständnis von Theorien bzw. der Funktionsweise und Leistungsfähigkeit empirischer Methoden sind dabei essentiell. Erst dadurch werden eine zutreffende Auswahl und eine korrekte Anwendung von Theorien und Methoden zur Lösung des Forschungsanliegens ermöglicht.

Der Überblick über die Theorien und Methoden der Wirtschafts- und Sozialwissenschaften.

Der kompakte Sammelband ist empfehlenswert für Studenten und Doktoranden, die Forschungsfragen durch geeignete theoretische Konzepte fundieren, in Hypothesen transformieren und anschließend mit geeigneten empirischen Methoden überprüfen können.