5 Datenbeschreibung: Eine Variable in:

Andreas Behr, Ulrich Pötter

Einführung in die Statistik mit R, page 69 - 82

2. Edition 2010, ISBN print: 978-3-8006-3599-3, ISBN online: 978-3-8006-4878-8, https://doi.org/10.15358/9783800648788_69

Series: Vahlens Kurzlehrbücher

Bibliographic information
D : E V Jede statistische Analyse beginnt damit, sich einen ersten Überblick über die Daten zu verschaffen. Das grundlegende Konzept ist das der statistischen Verteilung. Darstellungsformen von Verteilungen werden daher zu Beginn dieses Abschnitts behandelt. Dann werden Maßzahlen sowie Dichten besprochen. 5.1 Verteilungs- und Quantilsfunktion 5.1.1 Urliste 5.1.2 Häufigkeitsverteilung 5.1.3 Verteilungsfunktion 5.1.4 Quantilsfunktion 5.1.5 Boxplots 5.2 Mittelwerte, Varianzen und Momente 5.2.1 Varianz und Standardabweichung 5.3 Histogramme und Dichten 5.3.1 Histogramme 5.3.2 Dichteschätzer 5.4 Übungsaufgaben . Verteilungs- und Quantilsfunktion . . Urliste Statistische Aussagen beginnen mit einer Auflistung der Befragten oder einer entsprechenden Liste von Firmen, Organisationen, Ereignissen usw., über die man Aussagen treffen möchte. Diese Liste wird man durch die (möglicherweise symbolischen, anonymisierten) Namen u , u , . . . , un darstellen. Dabei ist n die Anzahl der interessierenden Befragten (Firmen, Organisationen, Ereignisse etc.). Für jeden der Befragten (Firmen, Organisationen etc.) wird ein Wert in einem zuvor konstruiertenMerkmalsraum ermittelt, also eine (numerische Repräsentation) der interessierenden Eigenschaften der Gesamtheit = Datenbeschreibung: Eine Variable u , u , . . . , un . Die ermittelten Ergebnisse lassen sich dann als eine Funktion auffassen, die jedem Befragten u einen Wert im Merkmalsraum zuordnet: X : Diese Abbildung nennt man eineUrliste. Oft notiert man die Urliste abkürzend X = (x , x , . . . , xn) anstelle von (X(u ),X(u ), . . . ,X(un)). Wir werden dieser Tradition folgen, auch wenn damit der explizite Bezug auf die zugrundeliegende Gesamtheit verloren geht. Denn auch in R wird man selten den Bezug explizit berücksichtigen, es ist viel effizienter, analog zur abkürzenden Schreibweise (x , . . . , xn) die Indexmöglichkeiten von R zu benutzen. Ist x ein R-Vektor, dann kann man durch x[1] etc. auf dessen Elemente verweisen, in der gleichen Weise, wie x auf das erste Element von X und damit auf den Wert der Variablen für die Person mit dem symbolischen Namen u verweist. Wir betrachten im Folgenden ein Beispiel, um die Umsetzung in R zu verdeutlichen: Wir erzeugen einen Vektor x, der die Urliste der zu beschreibenden Daten darstellt: > x < c(3,1,7,3,4,5,4,3) Jedes Element des Vektors x gibt an, welchenWert eine statistischeVariableX für das erste, zweite,. . .Element der Liste der Befragten (u , u , . . . , u ) annimmt. Nun interessiert man sich in der Statistik nicht für die Eigenschaften einzelner Befragter (oder Firmen etc.), sondern nur für die Verteilung dieser Eigenschaften in derGesamtheit .Mandrückt diese Beschränkung aus, indemanstelle der ursprünglichen Zuordnung X (bzw. anstelle des Vektors x) nur noch die Anzahl von Personen mit den entsprechenden Merkmalen betrachtet wird. Anstelle der ursprünglichen statistischen Variablen X bzw. des Vektors x betrachtet man nur die Ordnungsstatistik die einfach die ursprüngliche Reihenfolge der Urliste ignoriert. Die Ordnungsstatistik notiert man als (x( ), . . . , x(n)), wobei x(i) x(i+ ) gelten soll und jeder Wert des Vektors (x , . . . , xn) genau ein mal im Vektor (x( ), . . . , x(n)) auftaucht. Die Ordnungsstatistik (x( ), . . . , x(n)) ist die nach der Größe der Merkmalswerte umgeordnete Urliste. Man kann das in R nachmachen, indemman dieDaten etwamit der Funktion sort() sortiert. > y < sort(x);y [1] 1 3 3 3 4 4 5 7 Der geordnete Vektor y kann als Darstellung der Ordnungsstatistik dienen, weil der Bezug auf die ursprüngliche Liste der Befragten nicht mehr möglich ist, aber die Anzahl bestimmter Merkmalsausprägungen in y genau der in dem ursprünglichen Vektor x entspricht. Es gibt natürlich Ausnahmen, in denen die Reihenfolge der Beobachtungen ausschlaggebend ist, etwa bei der Darstellung zeitlicher Veränderungen oder bei räumlichen Aspekten, in denen die relative Position von Objekten auch nicht vernachlässigt werden kann. Außerdem ist es sicher nützlich, den ursprünglichen Bezug beizubehalten, um mögliche Unstimmigkeiten in Datensätzen zu überprüfen. . Verteilungs- und Quantilsfunktion . . Häufigkeitsverteilung Die Funktion table() berechnet die Häufigkeiten der vorkommenden Merkmalsausprägungen: > table(x) x 1 3 4 5 7 1 3 2 1 1 Wir sehen, dass z.B. die Merkmalsausprägung zweimal vorkommt. Gleiches gilt natürlich für die Ordnungsstatistik. > table(y) x 1 3 4 5 7 1 3 2 1 1 Das Ergebnis des table() Befehls ist ein spezielles Objekt der Klasse table, das zugleich vom Typ array ist und das zumindest die Attribute names und dim enthält. Das names Attribut gibt die vorhandenen Ausprägungen an, das dim Attribut die Anzahl der Ausprägungen. Abbildung 5.1: Stabdiagramm. > tab < table(x) > names(tab) [1] "1" "3" "4" "5" "7" > dim(tab) [1] 5 > class(tab) [1] "table" > is.array(tab) [1] TRUE > is.table(tab) [1] TRUE Die relativenHäufigkeiten ergeben sich durch > tab/sum(tab) x 1 3 4 5 7 0.125 0.375 0.250 0.125 0.125 > is.table(tab/sum(tab)) [1] TRUE Das Ergebnis gehört wieder zur Klasse table (es ist zugleich ein array) und kann entsprechend weiterverarbeitet werden. Wenn eine Variable nur einige wenige Merkmalsausprägungen hat, dann kann man dieHäufigkeiten ebenso wie die relativen Häufigkeiten am einfachsten durch ein Stabdiagramm darstellen. Letzteres wird wichtig, wenn man den table() Befehl für die Berechnung gemeinsamer Häufigkeiten mehrerer Variablen benutzt. Datenbeschreibung: Eine Variable > plot(tab,type="h") Ohne weitere Optionen ergibt sich nebenstehendes Bild, das in einem eigenen Fenster angezeigt wird. . . Verteilungsfunktion Die Verteilungsfunktion gibt an, welcher Anteil der Beobachtungen kleiner oder gleich einem vorgegebenenWert x ist. Die Berechnung setzt natürlich voraus, das die Werte des Merkmalsraums der Größe nach angeordnet werden können. Wenn das der Fall ist, dann kann die Verteilungsfunktion formal als F (x) := n u X(u) x = n u X(u) x geschrieben werden, wobei das Symbol A für jede Menge A die Anzahl ihrer Elemente angibt. Die letzte Version dieser Definition lässt sich aber direkt in R umsetzen (Die Funktion cumsum() berechnet die kumulierten Summen eines numerischen Vektors). Da das Ergebnis von table() bereits nach den Werten des Merkmalsraums geordnet ist, ergibt sich die Verteilungsfunktion als: > cumsum(tab)/sum(tab) 1 3 4 5 7 0.125 0.500 0.750 0.875 1.000 Also: / der Einträge in dem Vektor x (oder y) sind kleiner oder gleich , genau / aller Elemente (also genau ) sind kleiner oder gleich demWert etc. Der Befehl ecdf() (empirical cumulative distribution function) berechnet ebenfalls die Verteilungsfunktion. Das Ergebnis ist aber ein Objekt, das viel flexibler verwandt werden kann, als die gerade dargestellte Variante über cumsum(table()). Der Befehl ecdf() stellt die entsprechenden Werte der Verteilungsfunktion dar, ist aber gleichzeitig eine Funktion, die den Wert der Verteilungsfunktion an bestimmen Stellen berechnet, und es gibt einen einfachen Befehl für die graphische Darstellung dieses Objektes. > tt < ecdf(x) > tt(1:8) [1] 0.125 0.125 0.500 0.750 0.875 0.875 1.000 1.000 Der Befehl tt(1:8) gibt die Werte der empirischen Verteilungsfunktion für die Werte , , . . . , zurück. Ein Bild der Verteilungsfunktion ergibt sich bei Verwendung des ecdf() Befehls durch > plot(tt) Das Ergebnis zeigt Abbildung . . Unter Windows-Betriebssystemen hat das Fenster ein eigenes Menü, das die Auswahl von Optionen für die Speicherung und den Druck des Inhalts aufführt. . Verteilungs- und Quantilsfunktion Abbildung 5.2: Verteilungsfunktion . . Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x Wert ausgehen und fragen, welcher Anteil der Daten diese oder eine kleinere Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir fragen nun, welcher x Wert einem vorgegebenen Anteil der Daten entspricht. Genauer: Was ist der kleinste Wert x (x ), so dass mindestens ein vorgegebener Anteil p der Daten kleiner als x ist. Dieser Idee folgend erhalten wir die Definition: F (p) := inf x F (x) p Da die Verteilungsfunktion eine Treppenfunktion ist, führt diese Rechenvorschrift dazu, dass nur vorkommende x-Werte als Quantilswerte gewählt werden. Das ist die übliche (und einfachste) Variante der Definition vonQuantilen in der Statistik. Aber es ist nicht notwendigerweise die beste Charakterisierung von Verteilungen. Als Alternativen sind diverse Varianten von Quantilen vorgeschlagen worden, die mehr oder weniger wünschenswerte Eigenschaften haben. . Rs Funktion quantile() stellt neun Versionen zur Verfügung. quantile(...,type=1) benutzt die obige Definition, die Voreinstellung (type=7) dagegen interpoliert linear zwischen den Punkten (i )/(n ), x(i), wobei x(i) für die geordneten Werte von x steht. Für p = , / , / , . . . , ergeben sich die folgenden Werte, die Abbildung . zeigt beide Varianten. > quantile(x,type=1,p=seq(0,1,length=9)) 0% 12.5% 25% 37.5% 50% 62.5% 75% 87.5% 100% 1 1 3 3 3 4 4 5 7 > quantile(x,p=seq(0,1,length=9)) 0% 12.5% 25% 37.5% 50% 62.5% 75% 87.5% 100% 1.00 2.75 3.00 3.00 3.50 4.00 4.25 5.25 7.00 R.J. Hyndman, Y. Fan : Sample quantiles in statistical packages. American Statistician, , – Datenbeschreibung: Eine Variable Abbildung 5.3: Quantilsfunktionen: Die Treppenfunktion entspricht der klassischen Definition, wobei die mit einem gekennzeichneten Endpunkte jeweils nicht mehr zu dem Intervall gehören. Die mit gekennzeichnete Funktion entspricht der Voreinstellung in R. Die Funktion ist ein wenig höher eingetragen, um die Verläufe besser unterscheiden zu können. . . Boxplots Boxplots erlauben es, mehrere Informationen über die Lage einer Verteilung, ihre Quantile, ihre Streuung, ihre Symmetrie (oder Schiefe) und ihrer Extremwerte in einem Bild zusammenzufassen. Der Befehl > boxplot(x) liefert Abbildung . . Hier deutet der dicke waagerechte Strich denMedian der Verteilung (das % Quantil) an, die untere und obere Grenze des Kastens das %- bzw. %-Quantil (das erste und dritte Quartil). Abbildung 5.4: Boxplot. Die beiden vertikalen Linien sind maximal so lang wie das . -fache des Abstands zwischen dem %-Quantil und dem %-Quantil, dem Interquartilabstand (IQR). Liegen alle Beobachtungen innerhalb des . -fachen des Interquartilabstandes, dann reicht die Linie bis zur maximalen bzw. minimalen Beobachtung. Das gilt in unserem Beispiel für den unteren Teil der Verteilung. Ist das nicht der Fall, dann reicht die vertikale Linie bis zu der extremsten Beobachtung, die weniger als das . fache des Interquartilabstandes von dem % bzw. dem %-Quantil entfernt ist. Alle Beobachtungen jenseits dieses Bereiches, also Beobachtungen, die mehr als das . -fache des Interquartilabstands von den Auch hier könnten verschiedene Definitionen für die Quantile gewählt werden. Die im Boxplot-Befehl von R benutzte Version impliziert, dass beide Quartile mit einer Beobachtung übereinstimmen, wenn nmit Rest oder durch teilbar ist. Sonst ist es der Mittelwert zweier benachbarter Beobachtungen. . Mittelwerte, Varianzen und Momente mittleren % der Daten entfernt sind, werden als einzelne Punkte angedeutet. Das geschieht bei der Beobachtung mit demWert . . Mittelwerte, Varianzen und Momente Nicht nur die Verteilungsfunktion und ihre Umkehrabbildung, die Quantilsfunktion, sowie ausgewählte Quantile geben Aufschluss über die Lage und Form einer Verteilung. Eine wichtige Alternative sind dieMomente einer Verteilung. Dabei versteht man unter den rohen Momenten der Ordnung k die Statistik M(Xk) := n n i= xki = n u X(u)k Der Mittelwert der Beobachtungen x̄ := M(X) = /n i xi ist das erste Moment einer Verteilung. Da auch alle höheren Momente Mittelwerte sind, nämlich Mittelwerte von Potenzen der Beobachtungen, können sie mit dem schon eingeführten Befehl mean() berechnet werden: > mean(x) [1] 3.75 > mean(x^2) [1] 16.75 Entsprechend schreiben wir auch allgemein M(f (X)) := /n f (xi) für den Mittelwert beliebiger Funktionen einer Variablen X. Man rechnet leicht nach, dass M() linear ist: M(a + bX + cY) = a + bM(X) + cM(Y). . . Varianz und Standardabweichung Der Mittelwert (das rohe erste Moment) beschreibt die Lage einer Verteilung. Das zweite Moment beschreibt die Streuung der Verteilung. Allerdings benutzt man zumeist nicht das rohe zweite Moment, sondern den Mittelwert der quadratische Abweichungen der Beobachtungen vomMittelwert, das zentrierte zweite Moment: var(X) := n n i= (xi x̄) = M X M(X) var(X) heißt Varianz der Verteilung, die Wurzel aus der Varianz, sd(X) := var(X), wird Standardabweichung genannt. Die meisten Statistikprogramme (und so auch R) berechnen aus Gründen, auf die wir noch zu sprechen kommen, die Varianz und Standardabweichung allerdings nicht nach der obigen Formel sondern ersetzen den Nenner n durch n . Damit wird var(X) := n n i= (xi x̄) = n n M X M(X) Datenbeschreibung: Eine Variable Die R Befehle var() und sd() berechnen die Varianz bzw. die Standardabweichung nach dieser Gleichung. Mit dem Vektor x < c(3,1,7,3,4,5,4,3) ergibt sich: > var(x) [1] 3.071429 > sd(x) [1] 1.752549 > sqrt(var(x)) [1] 1.752549 In der Tat ist sd() nur eine Abkürzung für sqrt(var(x)), jedenfalls wenn das Argument x ein Vektor ist. Für die Varianzformel mit n im Nenner ergibt sich aber > mean((x mean(x))^2) [1] 2.6875 also für unsere kleine Fallzahl ein deutlich kleinerer Wert. . Histogramme und Dichten Die Momente und insbesondere der Mittelwert und die Standardabweichung ergeben einen ersten Überblick über die Lage der Daten und Boxplots geben eine einfache graphische Zusammenfassung. Hat eine Variable allerdings viele Ausprägungen, dann wird es schwer, sich ein genaues Bild über alle Aspekte der Verteilung der Variablen zu verschaffen. Die Verteilungsfunktion stellt die Einzelheiten zu grob dar, ein Stabdiagramm ist dagegen oft zu detailliert, um informativ zu sein. Betrachtet man etwa die Verteilung der Geburtsjahre im Mikrozensus und malt ein Stabdiagramm, dann ergibt sich das übliche Bild einer (halbierten) Bevölkerungspyramide. > library(foreign) > dat < read.spss("mz02_cf.sav", + to.data.frame=T,use.value.labels=F) > barplot(table(dat$ef33),border=NA,horiz=T) Nun umfasst die Campus-Version des Mikrozensus mehr als . Beobachtungen und die Verteilung auf die einzelnen Geburtsjahre lässt sich noch gut erkennen. Was aber passiert, wennman es mit deutlich weniger Beobachtungen zu tun hat? Wie ist etwa die Verteilung der Geburtsjahre in Bremen? > dat2 < subset(dat,ef1==4) #Bremen > barplot(rev(table(factor(dat2$ef33,levels=1906:2002))), border=NA,horiz=T) Es gibt nur Beobachtungen aus Bremen. Entsprechend sind nicht einmal alle Geburtsjahre unter den Beobachtungen vertreten.Wirmüssen daher bereits Der Befehl rev() kehrt die Reihenfolge eines Vektors um. . Histogramme und Dichten (a) (b) Abbildung 5.5: Stabdiagramme: Geburtsjahre im Mikrozensus a) alle Beobachtungen, b) Bremen die Variable explizit durch einen Faktor mit den vorgegebenen Geburtsjahren als Level erzeugen, um auch die nicht vorhandenen Geburtsjahrgänge mit einer Häufigkeit von zu repräsentieren. Trotzdem ergibt sich keine Alterspyramide, wie man sie auch für Bremen erwarten könnte. . . Histogramme Als Alternative bietet es sich an, dieHäufigkeiten aus benachbarten Zellen eines Stabdiagramms zu kombinieren. Die Anzahl der zu kombinierenden Zellen könnte man auch von der Zahl der Beobachtungen abhängig machen, um damit den Informationsgehalt der Beobachtungen zu berücksichtigen. Das wohl älteste Verfahren besteht darin, den Wertebereich in Abhängigkeit von der Zahl der Beobachtungen in gleich lange Intervalle zu zerlegen, die Häufigkeitsverteilung der Werte in den Intervallen zu berechnen und diese durch entsprechende Balken oder Rechtecke darzustellen. Die resultierende Graphik wird Histogramm genannt. Für die Daten des Mikrozensus sind Histogramme in Abbildung . wiedergegeben. Wie man sieht, benutzt man für die Daten, die sich nur auf Bremen beziehen, weitere Intervalle und erhält so weniger Rechtecke. Aber wie wählt man die Anzahl der Intervalle, in die der Wertebereich der Variablen zerlegt werden soll? Es sind viele Vorschläge entwickelt worden, die unterschiedliche Aspekte des „Informationsgehalts“ der Daten ausdrücken sollen. Ein Vorschlag, der der Voreinstellung des hist() Befehls entspricht und nach Herbert Sturges benannt ist, beachtet nur die Fallzahlen und verwendet als Anzahl der Intervalle den Logarithmus zur Basis der Anzahl der Beobachtungen plus und rundet das Ergebnis auf die nächste ganze Zahl auf. Im Vergleich zu den Stabdiagrammen sind die Graphiken um ° gedreht. Datenbeschreibung: Eine Variable Alternative Varianten benutzen zusätzlich auch die Länge des Wertebereichs der Variablen und Maßzahlen der Streuung. (a) (b) Abbildung 5.6: Histogramme: Geburtsjahre im Mikrozensus a) alle Beobachtungen, b) Bremen DieHistogramme erhält man durch die Befehle: > a < hist(dat$ef33,main="") > b < hist(dat2$ef33,main="") Wir haben die Form von Zuweisungen auf Variable a und b gewählt, weil die Befehle nicht nur die Graphiken erzeugen, sondern auch die berechneten Statistiken in Form einer Liste zurückgeben. Die Listen a und b enthalten u.a. die verwandten Intervallgrenzen in b$breaks und die Anzahl von Beobachtungen in den Intervallen in b$counts. Es bleibt noch zu überlegen, wie die Höhen der Rechtecke zu wählen sind. Bisher haben wir für die y-Achse der Histogramme einfach die absolutenHäufigkeiten derWerte in den ausgewählten Intervallen gewählt. Oftmöchte man aber die relativen Häufigkeiten darstellen. Da die Summe der relativen Häufigkeiten über alle Intervalle beträgt, ist es auch naheliegend zu verlangen, dass die Summe über die Flächen der Rechtecke beträgt. Dieser Schritt allein ändert bei gleich lang gewählten Intervallen allerdings nur die Beschriftung der y-Achse. Die entsprechende Darstellung kann einfach durch hist(dat2$ef33,freq=F) bzw. hist(dat2$ef33,probability=T) gewählt werden. So ist die Variante, die der Befehl truehist() des Pakets MASS in der Voreinstellung benutzt, nach David W. Scott benannt und verwendet den aufgerundeten Wert von Länge des Wertebereichs multipliziert mit der dritten Wurzel der Fallzahl und dividiert durch die . -fache Standardabweichung. Unterschiede zwischen diesen automatisierten Wahlen der Anzahl der Intervalle sind bei mittleren Fallzahlen nur gering. Bei sehr großen Fallzahlen aber überglättet die Sturges-Regel. Sie ist auch bei sehr unsymmetrischen Verteilungen nicht besonders gut geeignet. . Histogramme und Dichten . . Dichteschätzer Die Form von Histogrammen hängt stark von den gewählten Intervallgrenzen und den Intervallbreiten ab. Ihre graphische Wiedergabe kann nicht unmittelbar als Darstellung der zugrundeliegenden Verteilung angesehen werden. Denn die Vergröberung der Information durch die willkürliche Wahl von größeren Intervallen erlaubt eben nicht eine einfache Darstellung der Daten etwa in dem Sinne, in dem die empirische Verteilungsfunktion die Ordnungsstatistik exakt reproduzieren kann. Insbesondere die Folgen anderer Wahlen von Intervallgrenzen für die Graphiken sind aus einem gegebenen Histogramm nur schwer zu erkennen. Für die vollständigen Daten des Mikrozensus haben wir einfach als äußere Intervallgrenzen den Bildbereich der Daten benutzt, also [min(X( )), max(X( ))] für diesen Datensatz. Aber schon beim Vergleich mit der Teilmenge der Bremer Verteilung von Geburtsjahren haben wir uns nicht an die Grenzen des Bremer Datenteils gehalten: Die Gesamtdaten des Campusfiles kodieren Geburtsjahre vor als . Und damit haben wir als linken Rand der Intervalle gewählt. In der Bremer Teilauswahl ist aber der älteste Befragte geboren. Wir hätten dies als untere Intervallgrenze für die Bremer Teilstichprobe wählen können, aber natürlich auch jeden kleineren Wert, etwa auch Werte vor ). Abbildung 5.7: Kernschätzer. Man kann das Problem der Wahl der Intervallgrenzen umgehen, indem man mehrere Startwerte auswählt und die Höhen der resultierenden Histogramme mittelt. Man kann sich aber auch ganz davon lösen, die Anzahl von Beobachtungen in fix vorgegebenen Intervallen zu betrachten. Dazu nimmt man die beobachteten Werte selbst und weist jedem Wert gleich große Rechtecke zu. Addiert man an jeder Stelle der x-Achse die Höhen der Rechtecke, erhält man eine entsprechende Treppenfunktion. Die Situation ist in Abbildung . angedeutet. Die fünf Punkte sind . , . , . und . , die Breite der Rechtecke jeweils . . Bei dieser Methode gibt es keine Abhängigkeit von den Intervallgrenzen mehr. Sie werden vollständig von den Daten und den gewählten Breiten der Rechtecke bestimmt. Es ist nun naheliegend, noch einen Schritt weiter zu gehen und an Stelle der Rechtecke beliebige symmetrische unimodale Funktionen zu nehmen. Diese Funktionen nennt man Kerne. Legt man an jeden Datenpunkt eine Kopie der Kernfunktion und berechnet an allen Stellen der x-Achse die Summe der dortigen Kernfunktionen, erhält man einen Kerndichteschätzer. Sind (x , x , ..., xn) die Daten, dann lässt sich der Kerndichteschätzer an der Datenbeschreibung: Eine Variable Stelle t als f̂ (t) := n n i= k(t xi), schreiben, wobei k(.) die Kernfunktion ist. Je glatter nun diese Kernfunktionen sind, desto glatter sind die daraus konstruierten Kurven. Die wohl am häufigsten benutzten Kernfunktionen sind Gauss π e t / Epanechnikov t für t < , sonst Der Gauss-Kern ist auf allen reellen Zahlen definiert. Will man also einen Kerndichteschätzer berechnen, dann muss man an jeder Stelle, an der man den Dichteschätzer berechnen will, über alle Datenpunkte addieren. Dagegen hat der Epanechnikov-Kern einen kompakten Träger, so dass weit entfernte Datenpunkte bei der Summenbildung unberücksichtigt bleiben können. Nun muss man sich noch überlegen, wie man die „Breite“ solcher Kernfunktionen festlegen kann. Dazu normiert man zunächst wie schon bei den Histogrammen die Kernfunktionen, so dass die Fläche unter ihren Graphen gerade ist. Dann ist auch die Fläche unter dem Kerndichteschätzer , denn f̂ (t) dt = n n i= k(t xi) dt = n n i= k(t xi) dt = . Nun braucht man noch eine weitere Normierung, weil man ja immer noch die Kerne etwas zusammenquetschen und dafür die „Breite“ größer wählen kann, ohne die Normierung auf die Fläche zu verletzen. Denn für alle h > ist h k(t/h) dt = k(t) dt. Dazu setzt man noch t k(t) dt = . Erfüllt k(.) diese Bedingung, dann kann man die „Breite“ einer Kernfunktion durch den Parameter h in der Form kh(t) = hk(t/h) ausdrücken. Diese „Breite“ wird oft Bandbreite genannt. Nun kann man fragen, wie man am besten die Bandbreite von Kernen wählt. Dazu gibt es umfangreiche Ergebnisse in der Literatur und R bietet mehrere Möglichkeiten, auf die wir hier nicht eingehen können. Betrachten wir noch einmal die Geburtsjahrgänge aus denMikrozensusdaten. Wir erhalten einen Kerndichteschätzer der Altersverteilungen für die BRD und Bremen durch > plot(density(dat2$ef33,from=1906,to=2002),main="",ylab="",lty=2) > lines(density(dat$ef33,from=1906,to=2002),lty=1) . Übungsaufgaben (a) (b) Abbildung 5.8: Kerndichteschätzer: Geburtsjahre im Mikrozensus , durchgezogene Linie: BRD, gepunktet: Bremen, a) automatisch gewählte Bandbreite, b) Ein Drittel dieser Bandbreite. Der Befehl density() berechnet die Dichteschätzer und wählt dazu automatisch eine Bandbreite. Die Ergebnisse sind in Abbildung . wiedergegeben. Zum Vergleich ist rechts auch noch ein Kerndichteschätzer mit einem Drittel dieser Bandbreite dargestellt. Diese Version ist natürlich viel unregelmäßiger. . Übungsaufgaben 1) Geben Sie bitte die folgenden Befehle ein: set.seed(123) x < round(rlnorm(1000)∗1000) Die Befehle erzeugen einen Vektor mit Elementen, der gerundete log-normal verteilte Zufallszahlen enthält. Er wird in den folgenden Aufgaben verwandt. a) Berechnen Sie die Verteilungsfunktion des Vektors x und plotten Sie sie. b) Welche Maßzahlen werden durch den Befehl summary(x) berechnet? c) Berechnen Sie die Dezile (die , , . . . , Quantile). d) Plotten Sie einen Boxplot und drucken Sie ihn aus. e) Das geometrische Mittel wird verwandt, wenn es sich um multiplikative Verknüpfungen, z.B. relatives Wachstum handelt: x̄G := n i= x /n i . Es ist also das Produkt der n ten Wurzeln der Elemente von x. Berechnen Sie das geometrische Mittel von x. Einen knappen Überblick gibt Jeffrey S. Simonoff: Smoothing Methods in Statistics, Springer . Ohne weitere Argumente verwendet density() einen Gausschen Kern und berechnet die Bandbreite (die Standardabweichung des Kerns) durch . min(s(X), IQR(X)/ . )/n / . Datenbeschreibung: Eine Variable f) Vergleichen Sie log(x̄G) mit demMittelwert der Variablen log(x). g) Plotten Sie einen Boxplot von log(x) und vergleichen Sie das Ergebnis mit dem vorherigen Boxplot. Ist die Verteilung „symmetrischer“? Wie könnte man ein Maß für „symmetrisch“ definieren? h) Plotten Sie einen Kerndichteschätzer von x und einen Kerndichteschätzer von log(x). i) Schreiben Sie eine Funktion, die alle rohen Momente der Ordnung , . . . , aus demVektor x berechnet. Nutzen Sie dazu die Funktion lapply(). j) Könnten Sie die ersten Momente berechnen? Was ist die größte Zahl, die Sie auf ihrem Rechner mit R darstellen können? Benutzen Sie dazu den Befehl .Machine, der die numerischen Grenzen Ihres Rechners (für R) darstellt. k) Berechnen Sie die Standardabweichung sd() von x. Berechnen Sie anschließend die relativen Häufigkeiten P( X M(X) > a sd(X)) für a = , . , , . . l) Vergleichen Sie das Ergebnis der letzten Aufgabe mit dem Ergebnis, das sich aus Tschebyscheffs Ungleichung ergibt: P( X M(X) > a sd) /a

Chapter Preview

References

Zusammenfassung

Vorteile

- Einführung in die statistische Analyse mit R für Wirtschafts- und Sozialwissenschaftler

- Inklusive hilfreicher Tipps wie "Ansprechende Grafiken mit R gestalten"

Zum Thema

R ist ein Statistikprogramm, das kostenlos über das Internet verbreitet wird und dessen Source Codes frei zugänglich sind.

Aufgrund dieses kostenlosen Angebots gehen immer mehr Dozenten dazu über, neben SPSS auch R zu lehren bzw. SPSS durch R zu ersetzen.

In R steht dem Nutzer die gesamte Bandbreite statistischer Verfahren zur Verfügung. Durch die eigenständige Programmierumgebung ist die Software sehr flexibel und erlaubt notwendige Modifikationen und Erweiterungen verfügbarer Prozeduren.

Zum Werk

Dieses Buch führt leicht verständlich in die statistische Analyse mit R ein. Anhand von Beispielen wird die Umsetzung der wichtigsten Methoden der Statistik, wie sie üblicherweise in den Grundkursen gelehrt werden, mit R vorgestellt.

Das Buch verfolgt entsprechend zwei Ziele:

1. Vorstellung der statistischen Methoden,

2. Benutzung des Werkzeuges R zur Analyse von Daten.

Inhalt

- Grundlagen von R

- Datenbehandlung und graphische Darstellungen mit R

- Datenbeschreibungen (deskriptive Statistik)

- Wahrscheinlichkeitsverteilungen

- Regressionsanalysen

- Optimierungsverfahren

- Simulationen mit R

Neben vielen neuen, wirtschaftsorientierten Beispielen wird nun auch in die Paneldatenanalyse und Stichprobentheorie eingeführt.

Zu den Autoren

Dr. Andreas Behr ist wissenschaftlicher Mitarbeiter am Institut für Statistik und Ökonometrie der Universität Münster.

Dr. Ulrich Pötter ist wissenschaftlicher Mitarbeiter am Institut für Statistik der Universität Bochum.

Zielgruppe

Für Studierende und Dozenten der Wirtschaftswissenschaften im Bachelor an Universitäten und Fachhochschulen.