12 Stichproben in:

Andreas Behr, Ulrich Pötter

Einführung in die Statistik mit R, page 198 - 221

2. Edition 2010, ISBN print: 978-3-8006-3599-3, ISBN online: 978-3-8006-4878-8, https://doi.org/10.15358/9783800648788_198

Series: Vahlens Kurzlehrbücher

Bibliographic information
S Ein Großteil sozialwissenschaftlicher Daten wird durch Befragungen gewonnen. Wie wählt man aber zu Befragende aus? Das ist Gegenstand der Stichprobentheorie. Nach einer Darstellung der grundlegenden Überlegungen der Stichprobentheorie wird die Umsetzung mit Hilfe von R an einem konkreten, wenn auch einfachen Beispiel erläutert. Im Vordergrund steht die Verdeutlichung der grundlegenden Vorgehensweise in der Stichprobentheorie mit Hilfe von R. 12.1 Stichproben aus endlichen Grundgesamtheiten 12.1.1 Die grundlegende Problemverschiebung 12.1.2 Stichprobendesign 12.1.3 Der Inklusionsindikator 12.1.4 Inklusionswahrscheinlichkeiten 12.2 Einfache Stichprobenziehung mit R 12.2.1 Gesamtheit und mögliche Stichproben 12.2.2 Ermittlung der Inklusionswahrscheinlichkeiten 12.2.3 Horvitz-Thompson-Schätzer 12.2.4 Die Varianz desHorvitz-Thompson-Schätzers 12.2.5 Schätzung der Varianz 12.3 Schichtenverfahren 12.3.1 Mittelwert- und Varianzschätzung 12.3.2 Schichtenverfahren in R 12.4 Klumpenverfahren 12.4.1 Mittelwert- und Varianzschätzung 12.4.2 Klumpenverfahren in R 12.5 Übungsaufgaben . Stichproben aus endlichen Grundgesamtheiten Ausgangspunkt der Stichprobentheorie ist eine endliche Menge , eine Gesamtheit von N Einheiten, und eine statistische Variable X : wie im Stichproben Kapitel , also eine Funktion X, die allen Einheiten u einen Wert in zuweist. Von Interesse ist die Verteilung von X oder zumindest Maßzahlen der Verteilung. Würde für alle Einheiten von U das Merkmal X bekannt sein, könnte mit den Methoden der deskriptiven Statistik der Informationsgehalt übersichtlich dargestellt werden. Ist eine Vollerhebung der Grundgesamtheit aus Zeit oder Kostengründen nicht möglich, kann eine Teilmenge s aus U ausgewählt werden. Auf diese Weise lässt sich die Verteilung von X in der Stichprobe s bestimmen. Die Stichprobentheorie beschäftigt sich mit dem Problem, dass Aussagen über die Verteilung von X(u), u interessieren, aber lediglich Angaben über X(u) für Elemente u aus der Stichprobe s vorliegen. Die zentrale Frage lautet somit: „Was kann über die Verteilung von X(u), u auf der Basis einer Stichprobe s gesagt werden?“ Wir nehmen zunächst an: Für jede vorweg gewählte Teilmenge s und jedes Element u s kann man den Wert X(u) eindeutig feststellen. Unmittelbar einsichtig ist: über sich nicht in der Stichprobe befindende Einheiten u kann auf Basis der Stichprobe nichts Definitives gesagt werden. Aber auf der Basis von Stichproben, die durch ein bestimmtes Auswahlverfahren gewonnen wurden, können Hypothesen über die Verteilung von X in gebildet und deren Plausibilität eingeschätzt werden. Ein bekanntes Beispiel von Wahlabenden ist etwa: Aus allen Wählern wurde eine Stichprobe s gezogen und ausgezählt. Auf Basis der Auszählung der Stichprobe sollen Hypothesen über X in (z.B. die Partei ... erreicht mehr als ... Prozent) eingeschätzt werden. Aber wie sehen Auswahlverfahren aus, mit denen man Hypothesen über die Verteilung von X einschätzbar machen könnte? Zufällige Auswahlverfahren, Verfahren, bei denen die Auswahl einer Stichprobe durch einen (Pseudo-) Zufallszahlengenerator erzeugt wird, sollen eine solche Einschätzung ermöglichen. Zunächst ist klar, dass zufällige Auswahlverfahren zumindest einen Vorteil haben: Die tatsächliche Auswahl hängt nicht von den Interessen des jeweils Auswählenden ab. Mögliche, auch unbewusste, Beeinflussungen der Ergebnisse durch die Durchführenden werden ausgeschlossen. Wähler etwa werden nicht nach Aussehen, Sympathie, Wohnvierteleigenschaften, Alter etc. ausgewählt, sondern durch ein Verfahren, das vollständig von allen Eigenschaften der Wähler unabhängig ist. Aber das ursprüngliche Problem bleibt natürlich auch bei Zufallsstichproben erhalten: Wird z.B. aus einer Gesamtheit mit Frauen und Männern eine einfache Zufallsstichprobe vomUmfang n = gezogen, können wir nur den Anteil der Frauen der vier Stichprobeneinheiten bestimmen, über das Geschlecht der nicht in die Stichprobe gelangten Personen können wir nichts sagen. Es können aber sicher Stichproben zustande kommen, die nur Männer oder nur Frauen Bei Befragungen kann das nicht zutreffen, denn manche zuvor ausgewählte Befragte können nicht angetroffen werden oder verweigern die Beantwortung der Fragen. . Stichproben aus endlichen Grundgesamtheiten enthalten. Entsprechend würden wir dann zu ziemlich schlechten Vermutungen über den Anteil der Frauen in der Gesamtheit gelangen. Tatsächlich beschäftigt sich die Stichprobentheorie nicht mit dem unlösbaren Problem, über N n nicht in der Stichprobe befindliche Einheiten Aussagen zu machen. Vielmehr findet eine Problemverschiebung statt. . . Die grundlegende Problemverschiebung Wir bezeichnenmit dieMenge allermöglichen Stichproben, die in Betracht kommen sollen. Aus derMenge aller möglichen Stichproben wird bei der konkreten Stichprobenziehung eine Stichprobe s ausgewählt. Die Überlegungen der Stichprobentheorie setzen nun an derMenge aller möglichen Stichproben an. Die Grundannahme ist, dass die Stichprobe smit einem Zufallsverfahren erzeugt wurde, so dass die Wahrscheinlichkeiten aller möglichen Stichproben in angegeben werden können. Dann aber kann man auch die Verteilung des Frauenanteils über alle Stichproben berechnen, zumindest, wenn ihr Anteil in der Gesamtheit bekannt ist. Wohlgemerkt: Es geht nun nicht mehr um die Verteilung der Frauen (ihren Anteil) in der Gesamtheit . Stattdessen interessiert man sich für die Verteilung des Frauenanteils in den Stichproben, die durch das Stichprobenziehungsverfahren erzeugt werden. Man kann dann etwa nach den Verfahren fragen, die „gute“ durchschnittliche Eigenschaften haben. Man spricht also über Eigenschaften eines Ziehungsverfahrens und verzichtet darauf, über einzelne Stichproben und ihre Ergebnisse Aussagen zu treffen. Das ist die wesentliche Problemverschiebung der klassischen Stichprobentheorie. . . Stichprobendesign Sei nun die Menge aller Stichproben s , über deren Ziehung man nachdenken möchte. Das Stichprobendesign legt das Stichprobenverfahren fest. Genauer: es legt die Wahrscheinlichkeitsverteilung Pr(s) auf fest, also die Wahrscheinlichkeit, mit der eine Stichprobe s aus allen betrachteten Stichproben ausgewählt wird. Das eigentliche Ziehungverfahren besteht dann darin, mit Verfahren wie Ziehen aus Urnen oder mit Pseudozufallszahlen mit den durch das Stichprobendesign vorgegebenen Wahrscheinlichkeiten eine Stichprobe s auszuwählen. Wie in den vorhergehenden Abschnitten ist es vorteilhaft, die Situation durch das Konzept einer Zufallsvariablen zu beschreiben. Sei also Ω ein Wahr- Die Menge der Stichproben ist also maximal die Potenzmenge ( ) der Gesamtheit , der Menge aller Teilmengen von . Wir schließen aber die leere Menge immer aus, um nicht immer wieder über den Ausnahmefall, in dem gar keine Daten vorliegen, reden zu müssen. Die Grundmenge der Stichproben ist also maximal ( ) . Da immer endlich ist, ist auch die Menge aller Stichproben immer endlich und höchstens vom Umfang N . Stichproben scheinlichkeitsraum mit einem zugrundeliegenden Wahrscheinlichkeitsmaß Pr(.). Sei die Zufallsvariable, die das Stichprobendesign beschreiben soll, durch S : Ω gegeben. Damit ist S(ω) eine Stichprobe s für jedes ω. Und dieWahrscheinlichkeit, eine bestimmte Stichprobe s zu erhalten, ist Pr(S = s) := Pr( ω Ω S(ω) = s ) und ergibt sich somit als Wahrscheinlichkeit all derjenigen ω des Wahrscheinlichkeitsraumes Ω, die die Stichprobe s erzeugen. . . Der Inklusionsindikator Betrachten wir als Beispiel den Mittelwert einer statistischen Variablen X. Er ist wie in Abschnitt definiert: M(X) = /N u X(u). Wird nun eine Stichprobe s gewählt, dann ist der Mittelwert in der Stichprobe s vom Umfang n = s M(X; s) = n u s X(u) Was ist nun die Beziehung zwischen M(X), dem interessierenden Mittelwert in der Gesamtheit und den vielen möglichen Werten von M(X; s)? Für jede einzelne Stichprobe wird man keine Antwort erwarten dürfen. Denn die würde von den Werten der statistischen Variablen X(u) für u / s abhängen. Das gilt ja selbst dann, wenn die Stichprobe s alle Elemente von bis auf eines enthält: Diese eine Beobachtung kann immer noch zu beliebigen Unterschieden zwischen M(X; s) und M(X) führen. Verschiebt man aber die Problemstellung wie angedeutet, dann kann man sich von der Frage nach einzelnen Stichproben lösen und etwa denDurchschnitt von M(X; s) über alle Stichproben nach einem gegebenen Stichprobendesign S untersuchen. Dazu muss man den Erwartungswert der Stichprobenmittelwerte bezüglich des Stichprobendesigns berechnen. Hier interessiert also ein Durchschnitt über alle möglichen Stichproben. Symbolisch schreibt man den Erwartungswert bezüglich der Zufallsvariablen S: E (M(X; S)) = E n(S) u S X(u) In der Darstellung werden die Werte X(u) als fix angenommen. Wenn man den Erwartungswert berechnen will, muss man offenbar sogar die Werte X(u) für alle u kennen, die inwenigstens einer Stichprobe auftauchen. Es scheint, als habe man ein unlösbares Problem durch ein anderes, ebenfalls praktisch unlösbares Problem ersetzt. Zumindest wird es schwierig sein, konkrete Aussagen über solche Erwartungswerte zu formulieren. . Stichproben aus endlichen Grundgesamtheiten Einwichtiger Formulierungstrick hilft hier aber weiter: Ist1u(s) der Indikator, der angibt ob die Einheit u in der Stichprobe s ist, also die Funktion 1u(s) = falls u s sonst dann lässt sich der Mittelwert für eine Stichprobe wieder als Summe über alle Einheiten u schreiben: M(X; s) = u 1u(s) u 1u(s)X(u) Das funktioniert, weil für die Elemente u, die nicht in der Stichprobe sind, der Wert (1u(s)X(u)) zugewiesen wird. Der wesentliche Punkt aber ist, dass die Mittelwerte der Stichproben, aufgefasst als Funktionen der zufälligen Stichprobenziehungen, nur noch von den Indikatoren 1u(S) abhängen. Alle anderen Größen sind im Modell zufälliger Stichproben aus einer gegebenen Gesamtheit fix. Betrachtet man nur Stichproben mit fixer Stichprobengröße n, so dass Pr(n(S) = n) = gilt, dann ist E (M(X; S)) = n u E(1u(S))X(u) Nur noch der Term E(1u(S)) hängt dann vom Stichprobendesign ab und für viele praktisch relevante Designs lässt sich diese Größe explizit berechnen. Wir schreiben in Übereinstimmung mit dem Großteil der Literatur π(u) := E(1u(S)) = s 1u(s) Pr(S = s) = Pr(S u) und nennen π(u) die Inklusionswahrscheinlichkeit der Einheit u in die möglichen Stichproben . Eine erste Konsequenz folgt sofort aus dieser Formulierung: Sind alle Inklusionswahrscheinlichkeiten gleich, etwa π = π(u), dann ist E (M(X; S)) = n u E(1u(S))X(u) = π n u X(u) = Nπ n M(X) Bemerkenswert ist: Wir erhalten einen Zusammenhang zwischen dem Erwartungswert der M(X; S) und demWert von M(X), ohne irgendeine Annahme über die Verteilung der Werte von X(u) getroffen zu haben. Der Erwartungswert (der gewichtete Durchschnitt) der Mittelwerte in den Stichproben ist bei gleichen Inklusionswahrscheinlichkeiten gerade ein fixes Vielfaches des Mittelwerts der Gesamtheit, ganz unabhängig von der Struktur der Gesamtheit. Wir Stichproben werden gleich sehen, dass in der Tat Gleichheit gilt, der Erwartungswert (über das Design) aller Stichprobenmittelwerte also immer genau den Mittelwert über die Gesamtheit liefert, wenn nur alle Inklusionswahrscheinlichkeiten gleich sind. Wir werden weiter sehen, dass selbst bei beliebiger Wahl eines Designs oder selbst bei Vorgabe nur der Inklusionswahrscheinlichkeiten viele allgemeine Aussagen getroffen werden können, die unabhängig von denWerten X(u), die ja zum größten Teil unbekannt sind, getroffen werden können. Das ist der große Vorteil der Problemverschiebung von einzelnen Stichproben und deren Beziehung zu Gesamtheiten hin zu Eigenschaften der Verteilung solcher Stichproben. . . Inklusionswahrscheinlichkeiten Die Inklusionswahrscheinlichkeit π(u) gibt an, mit welcher Wahrscheinlichkeit die Einheit u in einem Stichprobendesign in eine Stichprobe gelangt. Sie ist also eine Funktion des Stichprobendesigns. Auf der anderen Seite bestimmen die Werte π(u), u nicht eindeutig ein Design. Betrachtet man etwa alle Stichproben aus der Menge u , u , u , dann gibt es = verschiedene Stichproben.Manmuss also Wahrscheinlichkeiten angeben, um dasDesign zu bestimmen (die letzte ergibt sich, weil sich Wahrscheinlichkeiten zu addieren müssen). Aber es gibt nur drei Inklusionswahrscheinlichkeiten π(ui). Zu beachten ist, dass im Falle π(u) = mit einer Stichprobe nichts über X(u) herausgefunden werden kann. Solche Designs schließen von vornherein bestimmte Elemente der Gesamtheit aus der Betrachtung aus. Daher wird man als ein Qualitätsmerkmal eines Designs sicher fordern, dass π(u) > für alle u gilt. Werden die Inklusionswahrscheinlichkeiten π(u) für alle u summiert, ergibt sich u π(u) = u s 1u(s) Pr(S = s) = s Pr(S = s) u 1u(s) In der ersten Gleichung wird die Definition von π(.) eingesetzt, die zweite ordnet die Summenbildung um. Zudem wird Pr(S = s) ausgeklammert, der Da das ursprüngliche Problem, auf der Grundlage einiger Werte auf die der Gesamtheit zu „schließen“, in diesem Ansatz gar nicht behandelt wird, entstehen leicht Missverständnisse und Interpretationsprobleme, weil man oft versucht ist, die Optimalitätsergebnisse der Stichprobentheorie doch als Antworten auf das Problem zu sehen, Aussagen über die Gesamtheit zu treffen. Die wichtigsten Konsequenzen der Problemverschiebung für die Interpretation der Resultate der Stichprobentheorie werden später wieder aufgegriffen. Die Frage, wie man aus gegebenen Inklusionswahrscheinlichkeiten alle Stichprobendesigns zurückerhält, die diese Inklusionswahrscheinlichkeiten haben, wird u.a. in Huang T. Nguyen: An Introduction to Random Sets, Chapman & Hall , Kapitel . , diskutiert. . Stichproben aus endlichen Grundgesamtheiten Wert hängt ja nicht von u ab. Nun zählt die innere Summe auf der rechten Seite die Elemente der Stichprobe s. Also ist u π(u) = s Pr(S = s)n(s) = E (n(S)) und die Summe der Inklusionswahrscheinlichkeiten über die Gesamtheit ergibt gerade die durchschnittliche Stichprobengröße. Hat man insbesondere nur Stichprobenmit festem Stichprobenumfang n zugelassen, dann ist u π(u) = n. Ein Stichprobendesign, in dem alle Inklusionswahrscheinlichkeiten gleich sind, wird selbstgewichtend genannt. Für ein selbstgewichtendes Design mit fester Stichprobengröße ist offenbar π(u) = n/N. Es folgt, dass in diesem Fall für den Erwartungswert über die Stichprobenmittelwerte gilt: E (M(X; S)) = Nπ n M(X) = M(X) Man sagt auch, der Stichprobenmittelwert ist erwartungstreu für denMittelwert der Gesamtheit bezüglich dieses Stichprobendesigns. Nun kann man auch fragen, mit welcher Wahrscheinlichkeit ein festes Paar u und u gemeinsam in eine Stichprobe gelangt. Man erhält Inklusionswahrscheinlichkeiten zweiter Ordnung. π(u, u ) := E (1u(S)1u (S)) = s 1u(s)1u (s) Pr(S = s) = Pr(S u S u ) Offenbar ist die Reihenfolge der Argumente irrelevant, π(u, u ) = π(u , u). Außerdem ist π(u, u) = π(u), also gerade die einfache Inklusionswahrscheinlichkeit. Die Definition der Inklusionswahrscheinlichkeiten durch Erwartungswerte von Indikatoren bzw. von deren Produkten deutet eine enge Verwandtschaftmit denMomenten und Kovarianzen an (vgl. Abschnitt . ). In der Tat entsprechen Inklusionswahrscheinlichkeiten zweiter Ordnung den rohen gemischten MomentenE(XY) und können ebenso wie die entsprechenden Komponenten der Kovarianz interpretiert werden. Das folgende Design (systematisches Ziehen mit zufälligem Start) illustriert einen wesentlichen Punkt: Man ordnet die Elemente von als (u , u , . . . , uN). Dann gibt man eine Zahl k vor und zieht jedes k-te Element, ausgehend von einem zufällig gewählten Startwert a , . . . , k . Zieht man etwa jedes . Element aus einer Gesamtheit mit Elementen und startet bei dem . Element, dann ist die Stichprobe u , u , . . . , u . Dieses Design hat eine feste Stichprobengröße, wenn k N teilt. Es ist selbstgewichtend mit π(u) = /k, wenn der Startwert gleichverteilt in , . . . , k gewählt wird. Denn da jedes Element in genau einer der k Stichproben enthalten ist und jede dieser Stichproben mit Wahrscheinlichkeit /k gewählt wird, ist die Inklusionswahrscheinlichkeit π(u) = /k für alle u. Stichproben Ist k > (mit k = erhältman dieGesamtheit), dannmuss π(ui, ui+ ) = sein, denn welcher Startwert auch immer gewählt wird, zwei aufeinanderfolgende Elemente der Gesamtheit können niemals in eine Stichprobe kommen. Solche Ausschlüsse bestimmter Kombinationen von Elementen der Gesamtheit führen ebenso wie der Ausschluss einzelner Elemente zu Problemen zumindest bei der Berechnung zweiter Momente von Stichprobenzusammenfassungen. Stichproben, bei denen π(u, u ) > für alle Paare u, u gilt, heißenmessbar. . Einfache Stichprobenziehung mit R Im Folgenden betrachten wir ein Beispiel einer Grundgesamtheit von vier Werten, aus der eine Stichprobe vom Umfang gezogen werden soll. Das ist zwar weit von den Stichprobenumfängen der Praxis entfernt, aber wir können alle theoretischen Begriffsbildungenmit elementarenMethoden nachvollziehen. Wir werden in diesem Abschnitt zunächst einfache Stichproben in R einführen und anschließend Schichten- und Klumpenstichproben betrachten. Aus didaktischen Gründen führen wir für einfache Beispiele jeweils eine vollständige Aufzählung aller möglichen Stichproben durch. . . Gesamtheit und mögliche Stichproben Wir erzeugen zunächst eine Gesamtheit mit N = Elementen und eine statistische Variable X: > U < 1:4 > X < c(1,5,11,23) > N < length(U); n < 2 Wir verwenden U hier einfach als Indexmenge für X. Dann entspricht dem Wert der Funktion X(u) gerade die R-Konstruktion X[u]. Ein Stichprobendesign, bei dem alle Stichproben genau n Elemente enthalten und in der alle Stichproben die gleiche Wahrscheinlichkeit haben, wird einfache Zufallsauswahl genannt. Das Design kann mit dem Befehl sample() realisiert werden. Als erstes Argument wird die Grundgesamtheit, als zweites der Stichprobenumfang angegeben. Eine einfache konkrete Zufallsstichprobe erhalten wir mit folgendem Befehl: > set.seed(1) > s < sample(U,n,replace=F);s Systematische Zufallsauswahlen sind in der Praxis immer noch sehr verbreitet. Ein Grund ist sicherlich, dass die tatsächliche Ziehung der Stichproben aus Datenschutzgründen oft nicht von der ursprünglich interessierten Organisation durchgeführt werden kann. Wird aber die Durchführung an die Organisationen delegiert, die über entsprechende (Teil-) Listen der Gesamtheit verfügen (Einwohnermeldeämter, Studierendensekretariate, Kliniken etc.), kann man diesen Organisationen i.d.R. keine aufwendigen Auswahlverfahren vorschreiben. 6 10 35 83 _W iS o B eh r P öt te r 2A - B g 6 . Einfache Stichprobenziehung mit R [1] 2 4 Natürlich ist nicht die Indexmenge U von Interesse, sondern die zugehörigen Werte von X. Man kann zwar für die Werte der statistischen Variablen nun schreiben: X[s], alternativ kann man aber auch direkt aus den Werten von X ziehen: > set.seed(1) > s.X < sample(X,n,replace=F);s.X [1] 5 23 Um alle möglichen Stichproben zu ermitteln, verwenden wir den Befehl combn(), der im Paket combinat implementiert ist. Dieser Befehl zählt alle Kombinationen aus den Elementen des ersten Arguments im Umfang des zweiten Arguments auf. Übergeben wir den Vektor U, erhalten wir die Stichproben > library(combinat) > sp < combn(U, n);sp [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1 1 1 2 2 3 [2,] 2 3 4 3 4 4 Die Spalten von sp enthalten die möglichen Stichproben vom Umfang n = . Analog kann man sich auch wieder die zugehörigen Werte von X angeben lassen: > sp.X < combn(X, n);sp.X [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1 1 1 5 5 11 [2,] 5 11 23 11 23 23 Die Zahl der möglichen Stichproben ist nun die Anzahl der Spalten von sp.X und ist in diesem Fall gerade = . . . Ermittlung der Inklusionswahrscheinlichkeiten In der einfachen Zufallsauswahl kommt jedes u in genau Nn Stichproben vor: Zieht man zunächst u, dann bleiben N Elemente übrig. Zieht man aus den verbliebenen Elementen eine Stichprobe mit n Elementen und fügt u hinzu, hat man eine Stichprobe vom Umfang n, die u enthält. Offenbar kann man so alle Stichproben erzeugen, die u enthalten. Aus N Elementen kann man aber gerade Nn verschiedene Stichproben vom Umfang n wählen. Die einfache Zufallsauswahl ist selbstgewichtend, denn alle u sind in der gleichen Anzahl von Stichproben enthalten und alle Stichproben haben die gleiche Wahrscheinlichkeit. Also ist die Inklusionswahrscheinlichkeit für alle u: π(u) = Nn / N n = n/N. Wir rechnen das für unser Beispiel nach. Zunächst machen wir uns eine Version des Inklusionsindikators > I.u.s < function(u,s) as.numeric(u %in% s) und probieren sie aus: 7 10 35 83 _W iS o B eh r P öt te r 2A - B g 7 Stichproben > I.u.s(U[3],sp[,1]) [1] 0 > I.u.s(U[3],sp[,4]) [1] 1 Da es = Stichproben gibt (entsprechend hat sp Spalten) und alle Stichproben die gleiche Wahrscheinlichkeit haben sollen, ist Pr(S = s) = / für alle s. Wir erhalten zunächst die Indikatoren von U[3] für alle Stichproben als > apply(sp,2,function(s)I.u.s(U[3],s)) [1] 0 1 0 1 0 1 Wir können die Inklusionswahrscheinlichkeit von U[3] damit direkt aus der Definition nachrechnen: > ns < ncol(sp.X) > sum(apply(sp,2,function(s)I.u.s(U[3],s))/ns) [1] 0.5 Unsere Funktion I.u.s() erlaubt als erstes Argument auch einen Vektor. Wir erhalten also alle Indikatoren durch > Ind< apply(sp,2,function(s)I.u.s(U,s));Ind [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1 1 1 0 0 0 [2,] 1 0 0 1 1 0 [3,] 0 1 0 1 0 1 [4,] 0 0 1 0 1 1 Jede Zeile entspricht den Inklusionsindikatoren des entsprechenden Elements von U. Alle Inklusionswahrscheinlichkeiten erhält man also mit > pi.u < rowSums(Ind/ns);pi.u [1] 0.5 0.5 0.5 0.5 In analoger Weise werden die Inklusionswahrscheinlichkeiten zweiter Ordnung π(u, u ) ermittelt. Es wird für jede Kombination u, u und jede Stichprobe überprüft, in welcher Stichprobe beide Elemente enthalten sind. Da wir schon die Inklusionsindikatoren kennen, brauchen wir nur die entsprechenden Produkte der Matrix Ind bilden. Denn zwei Elemente u1 und u2 sind gleichzeitig Element einer Menge, wenn das Produkt ihrer Indikatoren ist. Dazu erstellen wir zunächst ein entsprechendes Array mit drei Dimensionen für die beiden Elemente und die Stichproben und tragen dann die Produkte ein. > Indu1u2 < array(0,dim=c(N,N,ncol(sp))) > for(s in 1:ncol(sp)) Indu1u2[, , s] <- Ind[,s]%o%Ind[,s] Die einzige Besonderheit, die wir benutzen, ist das äußere Produkt %o%, das aus zwei Vektoren x und y die Matrix mit Einträgen x[i]∗y[j] in der i ten Zeile und j ten Spalte erzeugt. Wir erhalten die N N Inklusionswahrscheinlichkeiten, indem wir die Einträge in diesem Array mit den entsprechenden Wahrscheinlichkeiten der . Einfache Stichprobenziehung mit R Stichproben (hier / )multiplizieren und dann die Summe über alle Stichproben bilden. > pi.u1u2 < apply(Indu1u2/ns,c(1,2),sum);pi.u1u2 [,1] [,2] [,3] [,4] [1,] 0.5000000 0.1666667 0.1666667 0.1666667 [2,] 0.1666667 0.5000000 0.1666667 0.1666667 [3,] 0.1666667 0.1666667 0.5000000 0.1666667 [4,] 0.1666667 0.1666667 0.1666667 0.5000000 Das Ergebnis ist wenig erstaunlich, denn der Stichprobenumfang ist und jede der Kombinationen von verschiedenen Elementen kommt genau ein mal vor, hat also die Wahrscheinlichkeit / . . . Horvitz-Thompson-Schätzer Einheiten mit kleinen Inklusionswahrscheinlichkeiten gelangen nur mit geringer Wahrscheinlichkeit in eine Stichprobe. Andersherum gelangen Einheiten mit großen Inklusionswahrscheinlichkeiten mit großer Wahrscheinlichkeit in eine Stichprobe. Somit „repräsentieren“ in die Stichprobe gelangte Einheiten mit kleinen Inklusionswahrscheinlichkeiten einen größeren Anteil von Elementen der Gesamtheit als Stichprobenelemente mit großen Inklusionswahrscheinlichkeiten. Daher liegt es nahe, die Elemente mit kleinen Inklusionswahrscheinlichkeiten stärker als Elemente mit großen Inklusionswahrscheinlichkeiten zu gewichten. Eine solche Gewichtung kann z.B. mit den Kehrwerten der Inklusionswahrscheinlichkeiten erfolgen. Schätzer, die dieser Idee folgen, werden als Horvitz-Thompson-Schätzer bezeichnet. Das Prinzip erlaubt die Konstruktion erwartungstreuer Schätzfunktionen in allen Fällen, in denen sich die Schätzfunktionen als Summen von Funktionen der einzelnen X(u) darstellen lassen. Das ist natürlich insbesondere der Mittelwert, aber auch viele andere Verfahren der Statistik lassen sich in dieser Form ausdrücken. Betrachten wir wieder Mittelwerte. Der Horvitz-Thompson-Schätzer ist dann M(X; s) := N u 1u(s)X(u) π(u) Es ist klar, dass dies ein erwartungstreuer Schätzer für den Mittelwert der Gesamtheit ist, ganz unabhängig von der genauen Form des Stichprobendesigns, denn E M(X; S) = N u E(1u(S))X(u) π(u) = M(X) Zur Ermittlung der Schätzwerte müssen demnach die Stichprobenwerte durch ihre Inklusionswahrscheinlichkeiten geteilt werden. Danach bildet man die Summe der gewichteten Werte über die Stichprobe und teilt durch den Umfang der Gesamtheit. Will man das für alle Stichproben in unserem Beispiel Stichproben gleichzeitig machen, bildet man zurMatrix sp aller Stichproben (in den Spalten) eine korrespondierende Matrix der durch die Inklusionswahrscheinlichkeiten geteilten Werte von X. > XdurchPi < apply(sp,2,function(i)X[i]/pi.u[i]) > XdurchPi [,1] [,2] [,3] [,4] [,5] [,6] [1,] 2 2 2 10 10 22 [2,] 10 22 46 22 46 46 Die möglichen Schätzwerte sind die Spaltensummen dieser Matrix, geteilt durch den Umfang der Gesamtheit. Wir erhalten > mdach < colSums(XdurchPi)/N;mdach [1] 3 6 12 8 14 17 Wir überprüfen die Erwartungstreue: > mean(X)==mean(mdach) [1] TRUE . . Die Varianz desHorvitz-Thompson-Schätzers Um die Güte eines Schätzers bzw. die Güte eines Designs zu beurteilen, kann die mittlere quadrierte Abweichung von der zu schätzenden Größe für alle Stichproben betrachtet werden. Im Fall von erwartungstreuen Schätzern entspricht dies gerade der Varianz. In unserem Beispiel ist die Berechnung der Varianz dagegen ganz einfach, weil wir bereits dieWerte desHorvitz-Thompson-Schätzers für alle Stichproben ausgerechnet haben. Da alle Stichproben gleiche Wahrscheinlichkeiten haben, können wir einfach die Funktion var() benutzen: > var(mdach) [1] 27.6 Hier wird durch n(s) geteilt. Die Variante, bei der der Mittelwert der quadrierten Abweichungen benutzt wird, ergibt: > var(mdach)∗5/6 [1] 23 ImAllgemeinenwirdman die Varianz aber auf Grundlage derWerte derX(u) in der Gesamtheit berechnen müssen. Für den Horvitz-Thompson-Schätzer ist das V M(X; S) = N u X(u) π(u) V(1u(S)) + N u ,u u=u X(u)X(u ) π(u)π(u ) cov(1u(S), 1u (S)) . Einfache Stichprobenziehung mit R = N u X(u) π(u) π(u)( π(u)) + N u ,u u=u X(u)X(u ) π(u)π(u ) (π(u, u ) π(u)π(u )) Der Ausdruck vereinfacht sich nur leicht, wenn das Design einen festen Stichprobenumfang hat. Dann kann man schreiben: V M(X; S) = N u ,u u=u X(u) π(u) X(u ) π(u ) π(u)π(u ) π(u, u ) . . Schätzung der Varianz Die letzten beiden Formeln sind nur von theoretischer Bedeutung. Sie zeigen aber, dass sich die Varianz nur berechnen lässt, wenn entweder die Werte der Mittelwerte für alle möglichen Stichproben und deren Wahrscheinlichkeiten bekannt sind, oder wenn, wie in den letzten Formeln, die Werte aller X(u) bekannt sind. Daher muß die unbekannte Varianz geschätzt werden. Für die Schätzung auf Basis der Stichprobe sind in der Literatur verschiedene Schätzer vorgeschlagen worden. Eine Variante, die ebenfalls der Horvitz-Thompson-Idee folgt, ist var M(X; s) := N u ,u s π(u, u ) π(u, u ) π(u)π(u ) X(u)X(u ), die für den Fall strikt positiver Inklusionswahrscheinlichkeiten zweiterOrdnung (π(u, u ) > , messbares Design) erwartungstreu ist. Die Erwartungstreue erzwingt aber, dass fürmanche Stichproben negative Varianzschätzer resultieren können. Um alle Varianzschätzer der Stichproben im kleinen Zahlenbeispiel zu berechnen, gehen wir von den bereits ermittelten Horvitz-Thompson-Schätzern aus. Dazu können wir die obige Formel fast direkt in R Code kopieren > Vdach < function(s){ 1/N^2∗sum( + 1/pi.u1u2[s,s]∗ + (pi.u1u2[s,s]/(pi.u[s]%o%pi.u[s]) 1)∗ + (X[s]%o%X[s]))} Vdach() ist also eine Funktion, die als Argument die Indizes einer Stichprobe nimmt und daraus den Varianzschätzer berechnet. Wir berechnen als Beispiel den Varianzschätzer für die erste Stichprobe, deren Indizes der Stichprobenelemente in der ersten Spalte der Matrix sp stehen: Stichproben > Vdach(sp[,1]) [1] 2 Wenden wir die Funktion auf alle Stichproben an, d.h. auf alle Spalten der Matrix sp, dann erhalten wir > S < apply(sp,2,Vdach);S [1] 2.0 12.5 60.5 4.5 40.5 18.0 Wir überprüfen noch die Erwartungstreue: > mean(S) [1] 23 Wir untersuchen noch eine Variante, die aus der letzten Formel des letzten Abschnitts folgt. Wir unterstellen also einen festen Stichprobenumfang. Dann kann man eine empirische Version der letzten Gleichung des letzten Abschnitts als var M(X; s) := N u,u s π(u)π(u ) π(u, u ) π(u, u ) X(u) π(u) X(u ) π(u ) schreiben. Dieser Varianzschätzer wird oft nach Yates, Grundy und Sen benannt.Er ist ebenfalls erwartungstreu, hat aber den offensichtlichen Vorteil, immer nicht negative Werte zu liefern. Wir programmieren auch diesen Varianzschätzer: > Vdach2 < function(s){ 1/(2∗N^2)∗sum( (pi.u[s]%o%pi.u[s] + pi.u1u2[s,s])/pi.u1u2[s,s]∗ + (outer(X[s]/pi.u[s],X[s]/pi.u[s]," "))^2)} > Vdach2(sp[,1]) [1] 2 > S2 < apply(sp,2,Vdach2);S2 [1] 2.0 12.5 60.5 4.5 40.5 18.0 > mean(S2) [1] 23 In der Funktion Vdach2() haben wir den R Befehl outer() benutzt, der den Befehl %o% verallgemeinert: Er wendet auf alle möglichen Paare von Werten der ersten beiden Argumente die Funktion an, die als drittes Argument übergeben wird. Das Ergebnis ist wieder eine Matrix in der gleichen Anordnung wie beim %o% Befehl. Das Ergebnis zeigt, dass im Fall einfacher Zufallsauswahl beide Varianzschätzer gleiche Ergebnisse liefern. In einfachen Designs, in denen sich die Inklusionswahrscheinlichkeiten als Funktionen von n und N schreiben lassen, ist es auch möglich, die Varianzschätzer nicht als Funktion der Werte X(u) (oder direkt den Horvitz-Thompson-Schätzern der Stichproben) zu schreiben, sondern auch als Funktion von „Varianzen“ der X(u). Im Fall der einfachen Zufallsauswahl ist der Yates-Grundy-Sen-Varianzschätzer n N n var(X;s) . Einfache Stichprobenziehung mit R wobei var(X; s) die Varianz der X(u) in der Stichprobe ist: var(X; s) := n u s (X(u) M(X; s)) In dieser Formulierung erscheint der Varianzschätzer der Stichprobentheorie ganz ähnlich zu entsprechendenVersionen des klassischen statistischenModells mit unabhängig und identisch verteilten Zufallsvariablen zu sein. Der einzige Unterschied ist der Faktor n/N, die so genannte „Endlichkeitskorrektur“. Diese Ähnlichkeit ist aber irreführend. Der Charme der Stichprobentheorie besteht gerade darin, die Werte X(u) (die Eigenschaften, die Befragten zukommen) als feste Größen zu betrachten. Diese Werte haben keine Variabilität. Sie werden für jede Person u einfach festgestellt. Variabel sind nur die Stichproben, weil man sie explizit durch ein Zufallsverfahren auswählt. Dagegen wird im klassischen statistischen Modell unabhängiger, identisch verteilter Zufallsvariabler X als Realisation von Zufallsvariablen interpretiert und man kann sich für deren Varianz interessieren. Ein Schätzer dieser Varianz ist var(X; s). Diese Variabilität hat aber nichts mit der Variabilität zu tun, die entsteht, wenn man die möglichen Ergebnisse verschiedener zufälliger Stichproben in Betracht zieht. Die hier gefundene große Variabilität der Varianzschätzer auf Basis der einzelnen Stichproben zeigt sich auch bei in der Praxis üblichen deutlich größeren Stichprobenumfängen aus großen Grundgesamtheiten. Insbesondere bei sehr ungleichen Inklusionswahrscheinlichkeiten muss mit einer hohen Variabilität der Horvitz-Thompson-Schätzer und einer hohen Variabilität der zugehörigen Varianzschätzer gerechnet werden. Zudem zeigt ein Blick auf den Horvitz-Thompson-Schätzer, dass im Fall von Stichproben mit variablem Stichprobenumfang offensichtlich nicht die Größe der tatsächlich gezogenen Stichprobe berücksichtigt wird. Der tatsächliche Informationsgehalt einer Stichprobe wird somit durch Horvitz-Thompson-Schätzer nicht immer in vollem Umfang berücksichtigt. In R steht das Paket survey zur Verfügung, in dem Schätzfunktionen für verschiedene Stichprobendesigns implementiert sind. In einem ersten Schritt muss mit der Funktion svydesign() ein survey Objekt erzeugt werden. Mit Hilfe verschiedener Befehle wird das Stichprobendesign angegeben. Mit id= werden die Identifizierer der primären Auswahleinheiten festgelegt. ~1 gibt an, dass keine Klumpenstichprobe vorliegt. Mit fpc=rep(n/N,n) geben wir an, dass wir ohne Zurücklegen n aus N Objekten gezogen haben. Werden keine Gewichte (weights=), oder Ziehungswahrscheinlichkeiten (props=) angegeben, dann wird von einer einfachen Zufallsauswahl ausgegangen. Mit data= wird ein Dataframe benannt, der die Stichprobe enthält. Die als survey Objekt spezifizierte Stichprobe übergeben wir der Funktion svymean() und legen mit dem ersten Argument ~x fest, dass für die Variable x das arithmetische Mittel Stichproben der Grundgesamtheit und die Standardabweichung des Mittelwertschätzers geschätzt werden sollen: > library(survey) > u <- sp[,1];x <- sp.X[,1];f <- rep(n/N,n) > d < data.frame(u,x,f) > ds < svydesign(id=~u,data=d,fpc=~f) > svymean(~x,ds) mean SE x 3 1.4142 Wir sehen, dass die Ergebnisse mit den weiter oben vonHand berechneten übereinstimmen. . Schichtenverfahren . . Mittelwert- und Varianzschätzung Voraussetzung für die Anwendung des Schichtenverfahrens (stratified sampling) ist die Kenntnis über ein Schichtungsmerkmal (z.B. Bundesland, Nationalität, o.ä.). Das Schichtenverfahren führt meistens zu einer Verringerung der Varianz der Schätzer. Je enger das Untersuchungsmerkmal mit dem Schichtungsmerkmal korreliert ist, desto größer ist der Effekt der Varianzminderung. Die Grundgesamtheit wird in H Schichten , . . . , h, . . . , H eingeteilt, so dass = h ,...,H h und h h = falls h = h Aus jeder Schicht h wird dann eine Stichprobe sh gezogen. Hierbei ist die Ziehung in einer Schicht unabhängig von den Ziehungen in den anderen Schichten. Die gesamte Stichprobe resultiert aus der Zusammenfassung der Schichtenstichproben s = h ,...,H sh. Wegen der Unabhängigkeit der Ziehung der Schichtenstichproben gilt Pr(S = s) = h ,...,H Pr(Sh = sh). Der Umfang der Schicht h wird mit Nh bezeichnet, analog der Umfang der Stichprobe aus Schicht hmit nh. Dann ist N = H h= Nh und n = H h= nh. Der Mittelwert der Gesamtheit lässt sich schreiben als M(X) = N H h= NhM(X; h) Der π-Schätzer des Mittelwerts ergibt sich dann als gewichteter Durchschnitt der π-Schätzer in den Schichten: M(X; s) = N H h= NhM(X; sh) = N H h= u sh X(u) π(u) . Schichtenverfahren Die Varianz der Schätzung des Mittelwerts ergibt sich als V(M(X; s)) = N H h= NhV(M(X; sh)) Die Varianzen der einzelnen Schichten ergeben sich aber gerade aus der Anwendung der schon bekannten Varianzformeln auf jede einzelne Schicht. Bei einfacher Zufallsauswahl in den Schichten wird in jeder Schicht ein Anteil fh = nh/Nh an Einheiten gezogen. Die Varianzformel vereinfacht sich dann zu V(M(X; s)) = N H h= Nh fh nh var(X; h) . . Schichtenverfahren in R Wir betrachten beispielhaft eine Grundgesamtheit mit N=10 Elementen, die drei Schichten H=3 angehören. > U1 <- 1:3;U2 <- 4:7;U3 <- 8:10 > U < 1:10 > X1 <- c(1,2,6);X2 <- c(1,15,17,28);X3 <-c(8,40,62) > X < c(X1,X2,X3);X [1] 1 2 6 1 15 17 28 8 40 62 Aus jeder Schicht hmitNh Elementenwerdennh zufällig ausgewählt. Die beiden Vektoren Nh und nh enthalten die Anzahl an Elementen in den Schichten in der Grundgesamtheit bzw. in der Stichprobe. > H < 3 > N < length(U) > N1 < length(U1);N2 <- length(U2);N3 <- length(U3) > n1 < 2;n2 < 3;n3 < 2 > n < n1+n2+n3 > Nh < c(N1,N2,N3);Nh [1] 3 4 3 > nh < c(n1,n2,n3);nh [1] 2 3 2 Hieraus resultieren M mögliche Stichproben: > M1 < choose(N1,n1);M2 <- choose(N2,n2);M3 <- choose(N3,n3) > M < M1∗M2∗M3;M [1] 36 Wir ziehen nun eine geschichtete Zufallsstichprobe: > set.seed(1) > x1 < sample(X1,n1);x2 <- sample(X2,n2);x3 <- sample(X3,n3) > x < c(x1,x2,x3);x [1] 1 6 17 28 1 62 40 Stichproben Einen Vektor, der die Schichten indiziert, erhalten wir über > h < rep(1:3,nh);h [1] 1 1 2 2 2 3 3 Der Schätzwert für den Mittelwert der Grundgesamtheit ergibt sich als mit den relativen Schichtenumfängen der Grundgesamtheit gewichteten Mittelwerte der Schichten. Wir schreiben zwei Funktionen für die Schätzung von Mittelwert und Varianz, die jeweils als Argumente die Stichprobenwerte und einen Schichtenindikator benötigen. > f.yq < function(x,h) sum(tapply(x,h,mean)*Nh)/N > f.yq(x,h) [1] 22.48333 > f.v.yq < function(x,h) sum(tapply(x,h,var)* + (1 nh/Nh)/nh∗Nh^2)/N^2 > f.v.yq(x,h) [1] 6.275278 > sqrt(f.v.yq(x,h)) [1] 2.505050 Anstelle der selbstgeschriebenen Funktionen können wir alternativ den Befehl svymean() verwenden, müssen dafür jedoch zunächst ein survey Objekt erzeugen. Hierfür definieren wir einen Identifikationsvektor u und einen Vektor f, der für die einzelnen Elemente der Stichprobe den Auswahlsatz der betreffenden Schicht enthält: > u < 1:7 > f < rep(c(n1/N1,n2/N2,n3/N3),nh) > d < data.frame(u,x,h,f) > ds < svydesign(id=~u,data=d,strata=~h,fpc=~f) > svymean(~x, ds) mean SE x 22.483 2.5051 Offenkundig führt die Funktion svymean() zu den Resultaten, die wir auch mit den selbstgeschriebenen Funktionen ermittelt haben. Da wir in unserem selbstkonstruierten Beispiel die Grundgesamtheit kennen, können wir die Varianz des Mittelwertschätzers bei freier Zufallsauswahl in den Schichten, aber schichtenspezifischen Auswahlsätzen, leicht berechnen. Hierzu kann die Varianzformel direkt in R ausgedrückt werden. > vh < 1/N^2∗sum(Nh^2∗(1 nh/Nh)/nh∗tapply(X,rep(1:3,Nh),var)) > vh [1] 12.80389 Zum Vergleich berechnen wir zusätzlich die Varianz des Mittelwertschätzers bei einer einfachen ungeschichteten Zufallsstichprobe gleichen Umfangs. Um den Code etwas übersichtlicher zu machen, definieren wir uns eine eigene Varianzfunktion (dvar), die die deskriptive Varianz berechnet: . Klumpenverfahren > dvar < function(x) var(x)*(length(x)-1)/length(x) > vfz < 1/n∗dvar(X)∗(N n)/(N 1);vfz [1] 17.18095 > vh/vfz∗100 100 [1] 25.47626 Es zeigt sich, dass durch die Schichtung eine Verminderung der Varianz um gut % gegenüber der einfachen Zufallsauswahl resultiert. . Klumpenverfahren . . Mittelwert- und Varianzschätzung In der Praxis werden Klumpenverfahren (cluster sampling) häufig angewendet, weil die Kosten durch das Klumpenverfahren gesenkt werden sollen. Die Untersuchungseinheiten werden zu Klumpen zusammengefasst und nur ein Teil der so gebildeten Klumpen gelangt in die Stichprobe. Bei räumlicher Zusammenfassung von Einheiten zu Klumpenmüssen vom Erhebungspersonal geringereWege zurückgelegt werden. Das Klumpenverfahren hat allerdings den Nachteil, dass meistens Homogenität in den Klumpen herrscht und dadurch die Varianz der Schätzfunktionen erhöht wird. Die Grundgesamtheit wird in NI Klumpen , . . . , i, . . . , NI eingeteilt, wobei die Klumpen vereinfacht symbolisiert werden durch , . . . , i, . . . ,NI , ihre Nummern. Aus jedem Klumpen i, der in die Stichprobe gelangt, werden alle Einheiten dieses Klumpens erfasst. Es gilt = NIi= i und N = NI i= i . Aus den NI Klumpen werden nun nI Klumpen nach dem Stichprobendesign Pr(SI = .) ausgewählt. sI repräsentiert die gezogenen Klumpen mittels einer Menge von Klumpenindizes. Eine Stichprobe s besteht aus den gezogenen Klumpen i mit i sI , also s = i sI i. Der Stichprobenumfang ergibt sich aus der Summe der Elemente in den nI Klumpen n(s) = i sI i . Selbst wenn die Klumpenanzahl nI vorher festgelegt wird, ist die Anzahl der Elemente in der Stichprobe n(s) von der realisierten Stichprobe abhängig, falls die Anzahl der Elemente in den Klumpen variiert. Die Inklusionswahrscheinlichkeiten für die Klumpen i werden durch das Design Pr(SI = .) festgelegt. Die Inklusionswahrscheinlichkeiten erster Ordnung der Klumpen sind πI(i) = sI i Pr(SI = sI), die zweiter Ordnung πI(i, j) = sI i,sI j Pr(SI = sI). Da alle Elemente eines gezogenen Klumpens in die Stichprobe gelangen, ist die Inklusionswahrscheinlichkeit für ein Element u gleich der Inklusionswahrscheinlichkeit des gesamten Klumpens i, in dem sich u befindet π(u) = Pr(S u) = Pr(SI i) = πI(i) für i : u i Für die Inklusionswahrscheinlichkeiten zweiter Ordnung muss unterschieden werden, ob die Elemente u und u im gleichen Klumpen sind π(u, u ) = Pr(S u S u ) = Pr(SI i) = πI(i) für i : u i u i Stichproben oder in zwei unterschiedlichen Klumpen i = j π(u, u ) = Pr(SI i SI j) = πI(i, j) Die statistischen Eigenschaften einer Klumpenstichprobe sind daher identisch mit denen des Auswahlverfahrens für die Klumpen. Nur die Merkmalswerte müssen durch die der Klumpen ersetzt werden. Der Mittelwert der Gesamtheit z.B. ist M(X) = N NI i= i M(Y ; i) =: N Ni i= ti wobei ti die Merkmalssumme des Klumpens i bezeichnet. Der π-Schätzer des Mittelwerts der Gesamtheit ist daher M(X; sI) = N i sI i M(X; i) πI(i) = N i sI ti πI(i) =: N i sI t̂i D.h. die Merkmalssummen der Klumpen werden mit ihren Inklusionswahrscheinlichkeiten hochgerechnet. Zu beachten ist, dass die Merkmalssummen der erhobenen Klumpen ti nicht geschätzt werden müssen, da alle Elemente in den Klumpen befragt werden. Die Varianz der Schätzung der Merkmalssumme ergibt sich als V(M(X; sI)) = N NI i= NI j= cov(1i(sI), 1j(sI))titj Die Schätzung der Varianz auf Basis einer Stichprobe erfolgt dann mittels inverser Inklusionswahrscheinlichkeiten hochgerechneter Kovarianzen der Klumpen in der Stichprobe. Es resultiert der Schätzer V̂(M(X; sI)) = N i sI j sI πI(i, j) πI(i)πI(j) πI(i, j) t̂it̂j Bei fixer Anzahl nI Klumpen in der Stichprobe lässt sich der Varianzausdruck vereinfacht schreiben als V(M(X; sI)) = N NI i= NI j= πI(i)πI(j) πI(i, j) t̂i t̂j Als Schätzer für die Varianz bei fixer Anzahl nI Klumpen in der Stichprobe resultiert unter Verwendung der expandierten Kovarianzen V̂(M(X; sI)) = N i sI j si πI(i)πI(j) πI(i, j) πI(i, j) t̂i t̂j . Klumpenverfahren D.h. bei sehr ähnlichen Klumpen und gleichen Auswahlwahrscheinlichkeiten ergibt sich eine geringe Varianz. Bei unterschiedlichen Klumpen sollten die Inklusionswahrscheinlichkeiten der Klumpen möglichst proportional zu deren Merkmalssummen sein. Hieraus resultiert eine geringe Varianz. In der Praxis sind die Klumpen jedoch oftmals heterogen. In Verbindung mit konstanten Inklusionswahrscheinlichkeiten resultiert dann eine hohe Varianz. Bei einfacher Zufallsauswahl der Klumpen (πI(i) = nI/NI) kann der Schätzer des Mittelwerts auch folgendermaßen geschrieben werden: M(X; sI) = N i sI ti nI/NI = NI N nI i sI ti nI = NI N M(T; sI) wobei T die statistische Variable der Klumpen ist, die jedem Klumpen seine Merkmalssumme zuweist. Als ein Vielfaches eines Mittelwerts einer Klumpenstatistik vereinfacht sich die erwartungstreu geschätzte Varianz wie schon bei einfacher Zufallsauswahl zu V̂(M(X; sI)) = NI N fI nI var(T; sI) mit fI = nI NI . . Klumpenverfahren in R Wir betrachten eine Grundgesamtheit , die ausNI=4Klumpen besteht. Die Merkmalswerte derKlumpenX1 bisX4werden als Liste zurGrundgesamtheitX zusammengefasst. Zudem wird mit N die Zahl der Grundgesamtheitselemente, mit NI die Zahl der Klumpen in der Grundgesamtheit und mit nI die Zahl der Klumpen in der Stichprobe festgelegt. Der Vektor NIv enthält die Anzahl der Elemente von allen NI Klumpen. > X1 <- c(1,3,10);X2 <- c(2,8);X3 <- c(5,11,12);X4 <- c(6,8,12,18) > X < list(X1,X2,X3,X4) > N <- length(unlist(X));NI <- 4; nI <- 2 > NIv < unlist(lapply(X,length)) Den Mittelwert der Gesamtheit bezeichen wir mit yq. Zur Berechnung ist die Liste mit Klumpen zunächst mit einem unlist Befehl in einen Vektor umzuwandeln. > yq < mean(unlist(X));yq [1] 8 Die Zahl M der möglichen Stichproben der Ziehung von nI aus NI Klumpen wird als Kombination ohne Zurücklegen ermittelt: > M < choose(NI,nI);M [1] 6 Wir betrachten nun eine Stichprobe mit den Klumpen i = und i = . Für diese Stichprobe ermitteln wir die Zahl der Beobachtungen nx in der Stichprobe (hier ), die bei unterschiedlichen Klumpengrößen zufällig ist. Zudem erzeugen wir Stichproben einen Vektor nr, der die Zugehörigkeit der Beobachtungen zu den Klumpen anzeigt. > x <- c(X1,X4);nx <- length(x) > nr < rep(1:nI,c(length(X1),length(X4))) Die im Vorabschnitt dargestellten Schätzfunktionen für Mittelwert (f.yq) und Varianz (f.v.yq) können wir unter Verwendung des tapply() Befehls, der eine gruppenweise Auswertung ermöglicht, direkt in R schreiben: > f.yq < function(a,b) sum(tapply(a,b,function(z) sum(z)))/nI*NI/N > f.v.yq < function(a,b){ + tq < mean(tapply(a,b,sum)) + sum(tapply(a,b,function(z) (sum(z)-tq)ˆ2))/ + (nI-1)*NIˆ2/nI*(1-nI/NI)/Nˆ2} Beide Funktionen benötigen als Argumente zwei Vektoren, den Vektor der Stichprobenwerte und den Vektor der Klumpenzugehörigkeit. Wir wenden beide Funktionen auf die Stichprobe an: > f.yq(x,nr) [1] 9.666667 > f.v.yq(x,nr) [1] 12.5 Alternativ verwenden wir wieder die Funktion svymean() und erzeugen hierfür zunächst ein survey Objekt. Neben dem Klumpenidentifizierer nr und den Stichprobenwerten x benötigen wir einen Vektor (f), der den Auswahlsatz der Klumpen (nI/NI) enthält: > f < rep(nI/NI,n) > d < data.frame(nr,x,f) > ds < svydesign(id=~nr,data=d,fpc=~f) > svymean(~x,ds) mean SE x 8.2857 2.1935 Wir sehen, dass sich die Ergebnisse von denen unterscheiden, die aus unseren selbst programmierten Schätzfunktionen resultierten. Dies liegt daran, dass in der Funktion svymean() eine andere Schätzfunktion programmiert ist. Ausgehend von den Auswahlwahrscheinlichkeiten der Klumpen (nI/NI) wird mit den Individualwerten das mit den Auswahlwahrscheinlichkeiten gewichtete arithmetische Mittel berechnet. Diese Schätzfunktion ist im Gegensatz zu der von uns programmierten nicht erwartungstreu, hat aber in der Regel eine wesentlich geringere Varianz. Dies ist darauf zurückzuführen, dass bei unserer Schätzfunktion die unterschiedliche Klumpengröße nicht berücksichtigt wird, da die Funktion auf den Merkmalssummen der Klumpen und nicht auf deren Mittelwerten basiert. Da wir wiederum die Grundgesamtheit kennen, können wir die Varianz unserer Schätzfunktion für den Mittelwert berechnen. Hierzu gehen wir in . Übungsaufgaben drei Schritten vor. Wir konstruieren zunächst einen Klumpenindex für die Grundgesamtheit (knr), dann ermitteln wir die mittlere Merkmalssumme der NI Klumpen (tq) und berechnen schließlich mitHilfe eines tapply() Befehls die Varianz: > knr < rep(1:NI,NIv) > tq < mean(tapply(unlist(X),knr,sum)) > v.yq <- sum(tapply(unlist(X),knr,function(z) (sum(z)-tq)ˆ2))/ + (NI-1)*NIˆ2/nI*(1-nI/NI)/Nˆ2;v.yq [1] 6.592593 Wir führen auch hier einen Vergleich mit einer freien Zufallsziehung durch. Es zeigt sich, dass die Varianz der Klumpenstichprobe um rund % über der der freien Zufallsauswahl liegt. > vfz < 1/n∗dvar(unlist(X))∗(N n)/(N 1);vfz [1] 1.450216 > v.yq/vfz∗100 100 [1] 354.5937 Die hier aus Platzgründen nicht vorgeführte vollständige Aufzählung aller möglichen Stichproben zeigt, dass die von uns vorgestellten Schätzfunktionen für Mittelwert und Varianz des Mittelwertschätzers zwar erwartungstreu sind, die alternativen in svymean() implementierten auf den individuellen Beobachtungen basierenden Schätzfunktionen hingegen einen Bias aufweisen. Für die hier vorgeführte Grundgesamtheit liegt die Varianz der von uns programmierten erwartungstreuen um % über der nicht erwartungstreuen in svymean() implementierten Schätzfunktion. Für beide Schätzfunktionen ist der varianzerhöhende Klumpeneffekt in unserem Beispiel beachtlich. . Übungsaufgaben 1) Aus einer Grundgesamtheit mit Elementen soll mittels einfacher Zufallsauswahl eine Stichprobe vom Umfang n = gezogen werden. Wieviele verschiedene Stichproben gibt es? Hinweis: Verwenden Sie die Funktion choose(). 2) Aus einer Gesamtheit mit Mio. Elementen soll mittels einfacher Zufallsauswahl eine Stichprobe vom Umfang n = gezogen werden. Wieviele verschiedene Stichproben gibt es? Hinweis: Verwenden Sie die Funktion lchoose(). a) Wieviele (Dezimal-) Stellen hat diese Zahl? b) Könnte ein solches Stichprobenverfahren auf einem Computer simuliert werden? 3) Wir betrachten eine Gesamtheit mit N = Elementen und den Werten einer statistischen Variablen X(u ) = ,X(u ) = ,X(u ) = und interessieren uns für die Merkmalssumme in der Gesamtheit, die wir auf Basis einer Stichprobe vom Umfang n = schätzen wollen. Stichproben Das Auswahlverfahren sei durch den Stichprobenraum = s , s , s mit s = u , u ; s = u , u ; s = u , u und Auswahlwahrscheinlichkeiten Pr(S = s ) = . ; Pr(S = s ) = . ; Pr(S = s ) = . definiert. a) Wie lauten die Schätzwerte u s X(u)/π(u) der Merkmalssumme für die drei möglichen Stichproben? b) Zeigen Sie numerisch, dass u s X(u)/π(u) eine erwartungstreue Schätzfunktion für u X(u) ist. c) Welche Varianz hat u s X(u)/π(u)? d) Wie lauten die Varianzschätzer für die drei möglichen Stichproben? Benutzen Sie beide Varianten der Varianzschätzer mit entsprechenden Modifikationen. e) Zeigen Sie numerisch, dass diese Varianzschätzer erwartungstreu sind. 4) Ein berühmtes Beispiel von D. Basu verweist auf grundlegende Probleme des Horvitz-Thompson-Schätzers zumindest dann, wenn sehr unterschiedliche Inklusionswahrscheinlichkeiten vorliegen. Ein Zirkus besitzt Elefanten und muss sie für die nächste Vorstellung über eine größere Entfernung transportieren. Die Transportgesellschaft rechnet nach Gewicht ab, nur ist es zur Abschätzung der Kosten viel zu aufwendig, tatsächlich alle Elefanten auf die Waage zu stellen. Der Zirkusdirektor möchte höchstens einen Elefanten wiegen. Denn vor zwei Jahren sind schon einmal alle Elefanten gewogen worden. Damals hatte der Elefant Sambo etwa das mittlere Gewicht. Der Vorschlag des Direktors ist, Sambo noch einmal zu wiegen und das Ergebnis, multipliziert mit , als Schätzung des Gesamtgewichts zu nehmen. Der Zirkusdirektor befragt aber zuvor noch seinen Zirkusstatistiker. Der ist entsetzt, weil die feste Wahl von Sambo keine Zufallsauswahl (genauer: keine Zufallsauswahl mit π(u) > für alle Elefanten) ist. Um dem Direktor entgegen zu kommen, schlägt er eine Stichprobe vom Umfang mit den Inklusionswahrscheinlichkeiten / für Sambo und / / = / für alle anderen Elefanten vor. Als Schätzer des Gesamtgewichts soll der Horvitz-Thompson-Schätzer X(u)/π(u) benutzt werden. a) Was ist der Wert des Horvitz-Thompson-Schätzers, wenn tatsächlich Sambo durch das Auswahlverfahren gewählt wird? b) Was ist derWert, wenn der schwerste Elefant zufällig gewählt wird? c) Gibt es irgendeine Verbindung zwischen diesen Zahlen und dem vermuteten Durchschnittsgewicht der Elefanten? Ist dieser Zusammenhang hilfreich für den Zirkusdirektor? Gibt es bessere Stichprobenpläne mit Stichprobenumfang ? D. Basu: An essay on the logical foundations of survey sampling. In: V.P. Godambe/D.A. Sprott (Hgs.): Foundations of Statistical Inference, Holt, Rinehart and Winston, , – .

Chapter Preview

References

Zusammenfassung

Vorteile

- Einführung in die statistische Analyse mit R für Wirtschafts- und Sozialwissenschaftler

- Inklusive hilfreicher Tipps wie "Ansprechende Grafiken mit R gestalten"

Zum Thema

R ist ein Statistikprogramm, das kostenlos über das Internet verbreitet wird und dessen Source Codes frei zugänglich sind.

Aufgrund dieses kostenlosen Angebots gehen immer mehr Dozenten dazu über, neben SPSS auch R zu lehren bzw. SPSS durch R zu ersetzen.

In R steht dem Nutzer die gesamte Bandbreite statistischer Verfahren zur Verfügung. Durch die eigenständige Programmierumgebung ist die Software sehr flexibel und erlaubt notwendige Modifikationen und Erweiterungen verfügbarer Prozeduren.

Zum Werk

Dieses Buch führt leicht verständlich in die statistische Analyse mit R ein. Anhand von Beispielen wird die Umsetzung der wichtigsten Methoden der Statistik, wie sie üblicherweise in den Grundkursen gelehrt werden, mit R vorgestellt.

Das Buch verfolgt entsprechend zwei Ziele:

1. Vorstellung der statistischen Methoden,

2. Benutzung des Werkzeuges R zur Analyse von Daten.

Inhalt

- Grundlagen von R

- Datenbehandlung und graphische Darstellungen mit R

- Datenbeschreibungen (deskriptive Statistik)

- Wahrscheinlichkeitsverteilungen

- Regressionsanalysen

- Optimierungsverfahren

- Simulationen mit R

Neben vielen neuen, wirtschaftsorientierten Beispielen wird nun auch in die Paneldatenanalyse und Stichprobentheorie eingeführt.

Zu den Autoren

Dr. Andreas Behr ist wissenschaftlicher Mitarbeiter am Institut für Statistik und Ökonometrie der Universität Münster.

Dr. Ulrich Pötter ist wissenschaftlicher Mitarbeiter am Institut für Statistik der Universität Bochum.

Zielgruppe

Für Studierende und Dozenten der Wirtschaftswissenschaften im Bachelor an Universitäten und Fachhochschulen.