10 Die Maximum-Likelihood-Methode in:

Andreas Behr, Ulrich Pötter

Einführung in die Statistik mit R, page 166 - 179

2. Edition 2010, ISBN print: 978-3-8006-3599-3, ISBN online: 978-3-8006-4878-8, https://doi.org/10.15358/9783800648788_166

Series: Vahlens Kurzlehrbücher

Bibliographic information
D M -L -M Die Maximum-Likelihood-Methode ist ein ausgesprochen wichtiges Konzept zur Ermittlung von Schätzfunktionen. Ausgehend von einem Wahrscheinlichkeitsmodell und einer angenommenen Verteilung werden für vorliegende Daten die Parameter des Modells so geschätzt, dass sich für die vorliegenden Daten eine maximale Wahrscheinlichkeit des Auftretens ergibt. Anhand von einfachen Beispielen verdeutlichen wir in diesem Kapitel die Grundidee dieser Schätzmethode. 10.1 Die Leitidee 10.2 Maximum-Likelihood-Schätzung 10.2.1 Maximum-Likelihood: Binomialverteilung 10.2.2 Maximum-Likelihood: Poisson-Verteilung 10.2.3 Maximum-Likelihood: Normalverteilung 10.3 Gütebeurteilung von ML-Schätzern 10.3.1 Likelihoodquotienten 10.3.2 Eine Daumenregel für den Likelihoodquotienten 10.3.3 Fisher-Information 10.3.4 Beispiel Binomialverteilung 10.4 Übungsaufgaben . Die Leitidee Die plausible Leitidee dieser Methode ist: Man wähle als Schätzwert für einen unbekannten Parameter jenen numerischen Wert, der den beobachteten Werten die maximale Wahrscheinlichkeit des Auftretens gibt. Betrachtet sei als erstes Beispiel das Urnenmodell: Es existieren Kugelurnen, mit den Anteilen θ = . , θ = . und θ = . roter Kugeln. Es liegen n = Ziehungen (mit Zurücklegen) mit x = und damit x/n = . vor. x bezeichne die Anzahl roter Kugeln unter den Ziehungen. Es ist unbekannt und soll erschlossen werden, aus welcher Urne diese Ziehungen stammen. Zunächst wird gefragt: Mit Die Maximum-Likelihood-Methode welchen Wahrscheinlichkeiten könnte ein solches Ziehungsergebnis aus den Urnen hervorgehen? Die Wahrscheinlichkeiten nach der Binomialverteilung Pr(X = x) = nx θ x ( θ)n x findet man mit Hilfe der Funktion dbinom() in R. Diese Funktion gibt als Wert die mittels der Binomialverteilung berechnete Wahrscheinlichkeit zurück. Als erstes Argument ist die Zahl der roten Kugeln x, als zweites die Zahl der Ziehungen n und als drittes die Wahrscheinlichkeit θ anzugeben. Für die erste Kugelurne finden wir auf diese Weise: > dbinom(9,20,0.2) [1] 0.007386959 Für die beiden weiteren Kugelurnen ergibt sich: > dbinom(9,20,0.4) [1] 0.1597385 > dbinom(9,20,0.6) [1] 0.07099488 Die Urne gibt also dem vorliegenden Ziehungsergebnis dieWahrscheinlichkeit . , Urne die Wahrscheinlichkeit . und Urne die Wahrscheinlichkeit . . Da wir eher mit Ereignissen rechnen, die eine vergleichsweise hohe Wahrscheinlichkeit haben als mit vergleichsweise unwahrscheinlichen Ereignissen, werden wir am ehesten vermuten, dass die Ziehungen aus der Urne mit θ = . stammen. Man beachte die Umkehrung der stochastischen Schlussrichtung. Urne hat nicht die größte Wahrscheinlichkeit (diese „Wahrscheinlichkeit“ ist gar nicht definiert), sondern ihre Zusammensetzung gibt dem aufgetretenen Ziehungsergebnis die größte Wahrscheinlichkeit. R.A. Fisher hat dafür den Ausdruck „likelihood“ (im Unterschied zu „probability“) vorgeschlagen. In der deutschen Literatur wird dieser englische Ausdruck zuweilen mit „Mutmaßlichkeit“ übersetzt. . Maximum-Likelihood-Schätzung . . Maximum-Likelihood: Binomialverteilung Betrachten wir nun ein zweites Beispiel. Diesmal liegt eine Ziehung (mit Zurücklegen) von n = , davon x = roten, Kugeln vor. Der unbekannte Anteil θ an roten Kugeln in der Urne soll geschätzt werden. Wir schreiben für die ZufallsvariablenX = X + . . . +X , wobeiXi = sein soll, wenn eine rote Kugel gezogen wird, sonst. Für die Realisationen dieser Zufallsvariablen schreiben wir analog x = x + . . . +x . Wir ordnen nun allen möglichenWerten von θ die Wahrscheinlichkeiten zu, die diese θ der gefundenen Realisation (x , . . . , x ) geben: L (θ) = Prθ(X = ) = θ ( θ) . Maximum-Likelihood-Schätzung Die Umkehrung der Schlussrichtung hat ihre mathematische Entsprechung darin, dass die Wahrscheinlichkeitsverteilungen, deren Parameter geschätzt werden sollen, umgedeutet werden: Die Parameter werden als Variable (Unbekannte), die Realisationen der Zufallsvariablen (x , . . . , xn) als bekannte feste Werte behandelt. Aus dieser Umdeutung der Wahrscheinlichkeitsfunktion (bzw. Dichtefunktion) entsteht die Likelihoodfunktion. Um die Likelihoodfunktion graphisch darzustellen, erzeugen wir einen Vektor theta, berechnen für jeden Wert dieses Vektors die Wahrscheinlichkeit, die dieser Wert den Realisationen gibt und sammeln diese Wahrscheinlichkeiten in dem Vektor like. Üblich ist die Darstellung normierter Likelihoodfunktionen, deren maximaler Wert ist. Hierzu dividiert man alle berechneten Likelihoodwerte durch das Maximum der Likelihood über alle Parameter. DasErgebnis ist Abbildung . : > theta < seq(0.01,0.99,0.01) > like < dbinom(8,10,theta) > liken < like/max(like) > plot(theta,liken,type=ŠlŠ,xlab=expression(theta), + ylab=expression(paste("L(",theta,")",sep=""))) θ θ (a) θ θ (b) Abbildung 10.1: Likelihood- (a) und Log-Likelihoodfunktion (b) Muss man sich für einen einzigen Wert der möglichen θ entscheiden und diesen als Schätzwert θ̂ wählen, dann liegt es nahe, denjenigen Wert zu wählen, der dem vorliegenden Ziehungsergebnis die höchste Wahrscheinlichkeit gibt, selbst also die höchste Likelihood hat. In unserem Fall können wir diesen Wert aus dem Vektor theta wählen: > theta.max < theta[which.max(like)] In diesem einfachen Beispiel hätten wir den Maximum-Likelihood-Schätzer auch analytisch ermitteln können. Wir betrachten den allgemeinen Fall. Es liegen n Ziehungen vor, von denen x rote Kugeln ergaben. x und n werden als feste Werte, der Parameter θ als Variable betrachtet. Durch diese Umdeu- Die Maximum-Likelihood-Methode tung wird aus der Wahrscheinlichkeitsfunktion der Binomialverteilung die Likelihoodfunktion L θ n, x = nx θ x ( θ)n x Man findet den Wert θ, der die Likelihoodfunktion maximiert (der also x die maximale Wahrscheinlichkeit gibt), indem man L θ n, x nach θ ableitet und die Ableitung gleich Null setzt. Denn L(θ n, x) ist als Funktion von θ im Bereich [ , ] eine stetig differenzierbare Funktion. Oft ist es leichter, statt mit der Likelihood mit deren Logarithmus zu rechnen, weil dann Produkte zu Summen werden, die sich einfacher differenzieren lassen. Da der Logarithmus eine monotone Transformation ist, besitzt die Funktion log L θ n, x , die Log-Likelihoodfunktion, an der gleichen Stelle wie L θ n, x ihr Maximum. In unserem Beispiel lautet die Log- Likelihoodfunktion: log L(θ x, n) = log nx + x log θ + (n x) log( θ) Die Log-Likelihoodfunktion der Likelihood aus Abbildung . ist rechts in Abbildung . für einen Teil des Definitionsbereichs dargestellt. Die erste Ableitung der Log-Likelihoodfunktion wird üblicherweise als Scorefunktion U (θ) bezeichnet. In dem Beispiel lautet die Scorefunktion: U (θ) = ∂ log L(θ x, n) ∂θ = x θ n x θ Aus U(θ̂) = ergibt sich θ̂(n x) = ( θ̂)x oder θ̂ = x/n. Überprüfen wir noch, dass dies ein Maximum ist: ∂ log L(θ x, n) ∂θ = ∂ xθ (n x) ( θ) ∂θ = x θ n x ( θ) Setzt man den gefundenen Schätzer θ̂ = x/n ein, findet man ∂ log L(θ x, n) ∂θ = x x n (n x) x n und sieht, dass beide Summanden nicht positiv sind und mindestens ein Summand negativ ist. Folglich ist θ̂ = x/n einMaximum-Likelihood-Schätzwert für θ. Es ist die relative Häufigkeit der Ziehungen, deren Erwartungswert im klassischen Modell gerade θ ist. Erwartungstreue ist bei Maximum-Likelihood-Schätzwerten i.d.R. nicht zu erwarten. Denn Maximum-Likelihood-Schätzer haben eine hilfreiche Eigenschaft, die der Erwartungstreue entgegensteht: Ist g : Θ R eine Funktion der Parameter, etwa wenn man etwas über die Odds θ/( θ) statt über die θ in der Binomialverteilung wissen möchte, dann ist der Maximum- Likelihood-Schätzer von g(θ) gerade g(θ̂), also der Funktionswert der Funktion g ausgewertet an der Stelle des Maximum-Likelihood-Schätzers. 5 10 35 83 _W iS o B eh r P öt te r 2A - B g 5 . Maximum-Likelihood-Schätzung . . Maximum-Likelihood: Poisson-Verteilung Eine Poisson-verteilte ZufallsvariableXmit dem Parameter λ nimmt mit der folgenden Wahrscheinlichkeit eine bestimmte Ausprägung x (x N ) an: Pr(X = x) = e λ λx x! Die Poisson-verteilte ZufallsvariableX hat die besondere Eigenschaft, dass Erwartungswert und Varianz identisch sind, also E (X) = V(X) = λ gilt. Die beiden typischen Anwendungsbereiche der Poisson-Verteilung sind die als Approximationsverteilung der Binomialverteilung und der Modellierung stochastischer Prozesse. Wir gehen aus von vorliegenden Realisationen X = (x , . . . , xn) von n unabhängigen und identisch Poisson-verteilten ZufallsvariablenXi. Der Parameter λ soll nun auf Basis der vorliegenden Realisationen geschätzt werden. Das heißt, λ ist nun variabel und die vorliegenden Realisationen xi sind fix. Als Schätzmethode wählen wir die Maximum-Likelihood-Methode, d.h. wir suchen das λ, das die Likelihood bzw. die Log-Likelihood maximal werden lässt. Die Likelihood unabhängiger Ziehungen ergibt sich als Produkt der Wahrscheinlichkeiten der einzelnen Realisationen xi: L(λ X) = n i= e λ λxi xi! = e nλ n i= λxi xi! Die Log-Likelihood ist dann log L(λ x) = nλ + log(λ) n i= xi n i= log(xi!) Ableitung nach dem Parameter λ und Nullsetzen ergibt U(λ̂) = ∂ log L(λ x) ∂λ λ=λ̂ = n + λ̂ n i= xi = λ̂ = n n i= xi = M(X) Der Maximum-Likelihood-Schätzer λ̂ ist somit das arithmetische Mittel der Realisationen xi. Da wir zudem finden ∂ log L(λ x) ∂λ λ=λ̂ = λ̂ n i= xi < ist gewährleistet, dass es sich um ein Maximum handelt. Auch hier wollen wir ein Beispiel betrachten. Es liegen Realisationen einer Poisson-verteilten Zufallsvariablen mit dem Parameter λ = vor. Wir veranschaulichen uns die Likelihood- und die Log-Likelihoodfunktion mit Abbildung . . 6 10 35 83 _W iS o B eh r P öt te r 2A - B g 6 Die Maximum-Likelihood-Methode > set.seed(123) > x < rpois(10,3);x > l < seq(0,10,0.01);l > like < apply(matrix(l),1,function(z) prod(dpois(x,z)));like > likeN < like/max(like) > llike < log(like) > llikeN < llike/max(llike) λ λ (a) λ λ (b) Abbildung 10.2: Likelihood- (a) und Log-Likelihoodfunktion (b) . . Maximum-Likelihood: Normalverteilung Für eine normalverteilte ZufallsvariableX liegen n unabhängig identisch verteilte Realisationen vor. Die Werte seien mit xi (i = , ..., n) bezeichnet. Die Dichtefunktion lautet: ϕ(x) = σ π e (x µ) σ Ausgegangen wird nun von der Wahrscheinlichkeit dafür, dass alle n x-Werte gemeinsam in den Ziehungen aufgetreten sind. Da die Zufallsvariablen stochastisch unabhängig sind und jedes xi mit einer Wahrscheinlichkeit proportional zu ϕ(xi) auftritt, beträgt die Wahrscheinlichkeit für das gemeinsame Auftreten der n Realisationen: ϕ(x )ϕ(x ) . . . ϕ(xn)dx . . . dxn = σn π n e n i= (xi µ) / σ dx . . . dxn Die Wahrscheinlichkeit für diese beobachteten Werte hängt somit von den beiden Parametern der Normalverteilung, dem Erwartungswert µ und der . Maximum-Likelihood-Schätzung Varianz σ (bzw. Standardabweichung σ) ab. Bestimmte Normalverteilungsparameter geben den Realisationen die dargestellte Wahrscheinlichkeit, die zur Likelihood umgedeutet wird. Die xi sind nun feste Werte, die beiden Normalverteilungsparameter µ und σ sind Variable. Die Likelihoodfunktion lautet damit: L(µ, σ x , ..., xn) = σn π n e n i= (xi µ) / σ Die Maximum-Likelihood-Schätzwerte µ̂ und σ̂ erhält man durch partielles Differenzieren von log L(.) nach µ und σ und Nullsetzen der partiellen Ableitungen. Die Scorefunktion hat also nun als Wert einen Vektor mit zwei Elementen, den partiellen Ableitungen nach µ und σ . Zunächst zur partiellen Ableitung nach µ: ∂ log L ∂µ = σ n i= (xi µ) Wir setzen die partielle Ableitung null, um das Maximum zu finden: ∂ log L ∂µ µ=µ̂ = σ n i= (xi µ̂) = n i= (xi µ̂) = µ̂ = n n i= xi Das arithmetische Mittel M(X) ist der Maximum-Likelihood-Schätzwert für den Erwartungswert µ der Normalverteilung. Durch Nullsetzen der ersten Ableitung der Log-Likelihoodfunktion nach σ erhält man den die Likelihoodfunktion maximierenden Schätzwert σ̂ : ∂ log L ∂σ σ=σ̂ = n σ̂ σ̂ n i= (xi µ) = σ̂ n i= (xi µ) n σ̂ = σ̂ = n n i= (xi µ) = M((X µ) ) und σ̂ = σ̂ und bei Verwendung des ML-Schätzers M(X) für µ: σ̂ = (M(X M(X)) ) / . Nachrechnen zeigt, dass (µ̂, σ̂) = (M(X), (M(X M(X)) ) / ) tatsächlich die Log-Likelihood in beiden Parametern maximiert. Der ML-Schätzwert σ̂ ist ein Beispiel dafür, dass Maximum-Likelihood- Schätzwerte nicht notwendigerweise auch erwartungstreu sein müssen. Üblicherweise benutzt man den erwartungstreuen Schätzwert var(X) = n/(n )σ̂ , der im übrigen auch ohne Annahmen über eine Verteilungsklasse wie die Normalverteilung erwartungstreu ist. Jedoch ist der Unterschied bei großem n unbedeutend. Betrachten wir hierzu ein Beispiel in R. Wir erzeugen Realisationen einer standardnormalverteilten Zufallsvariablen, die wir dem Vektor x zuweisen: Die Maximum-Likelihood-Methode > set.seed(123) > x < rnorm(5);x [1] 0.56047565 0.23017749 1.55870831 0.07050839 0.12928774 Wir unterstellen nun, dass die zugrundeliegenden Parameter der Normalverteilung nicht bekannt sind und berechnen die Wahrscheinlichkeit für die vorliegenden Realisationen bei µ = . und σ = . : > prod(dnorm(x,mean=0.5,sd=1.5)) [1] 0.0006681332 In unserem Beispiel finden wir die beiden ML-Schätzwerte mit > mean(x);sd(x)∗sqrt(4/5) [1] 0.1935703 [1] 0.7254 Der Wert der Likelihood an den ML-Schätzwerten ergibt sich als > prod(dnorm(x,mean(x),sd(x)∗sqrt(4/5))) [1] 0.004129775 Der Verlauf der Likelihoodfunktion ist in Abbildung . dargestellt. Abbildung 10.3: Die Likelihood in Abhängigkeit von µ und σ . Gütebeurteilung von ML-Schätzern In diesem Kapitel werden Methoden vorgestellt, mit denen Aussagen über die Güte der Maximum-Likelihood-Schätzer gemacht werden können. Hierbei werden verschiedene konkurrierende Verfahren, die zum Teil unterschiedlich strenge Annahmen erfordern, gegenübergestellt. . . Likelihoodquotienten Betrachten wir nochmals das Urnenbeispiel: Wir haben Urnen mit den Anteilen θ = . , θ = . und θ = . roter Kugeln und Ziehungen mit . Gütebeurteilung von ML-Schätzern Zurücklegen aus einer der drei Urnen mit x = . Damit ergibt sich x/n = . . Für die drei Urnen ergibt sich: Pr x = n = , θ = . = L(Urne n = , x = ) = . Pr x = n = , θ = . = L(Urne n = , x = ) = . Pr x = n = , θ = . = L(Urne n = , x = ) = . Die Likelihood Werte addieren sich nicht zu . Sie sind eben Wahrscheinlichkeiten für diese Ziehungsergebnisse, aber nicht Wahrscheinlichkeiten für die „Richtigkeit“ der Parameter. Naheliegend ist es, die Likelihoods, also die Mutmaßlichkeiten für die Parameter, zu vergleichen. Betrachten wir die Relation der Likelihoods der Parameter θ = . und θ = . : L (Urne ) L (Urne ) = . . . > dbinom(9,20,0.2)/dbinom(9,20,0.4) [1] 0.04624408 Wir sehen, dass dieses Verhältnis (Likelihoodquotient) kleiner als ist, bzw. Urne gut die -fache Mutmaßlichkeit wie Urne hat. Dies spricht nun sehr für Urne und gegen Urne . Genaue Wahrscheinlichkeitsaussagen sind allerdings auf diese Weise nicht möglich. . . Eine Daumenregel für den Likelihoodquotienten Von R.A. Fisher stammt der Vorschlag, einen Bereich für den gesuchten Parameter zu bestimmen, so dass die darin enthaltenen Parameter eine ausreichende relative Mutmaßlichkeit besitzen. Nach Fisher sind Parameter mit einem Likelihoodquotienten von weniger als / „... obviously open to grave suspicion“. Betrachten wir die Bestimmung eines solchen Vertrauensintervalls im Falle der Binomialverteilung für eine Realisation mit n = und x = . Die Berechnung der Likelihood wurde ja bereits im vorherigen Kapitel dargestellt. Die numerische Bestimmung soll wieder über eine Grid-Search erfolgen. Unterund oberhalb von θ̂ suchen wir die Stellen, an denen die normierte Likelihood noch mindestens den Wert / hat: > x < 8 > n < 10 > theta < seq(0,1,0.01) > like < dbinom(x,n,theta) > liken < like/max(like) > that < theta[which.max(like)] > t.u < min(theta[liken>=1/15]) > t.o < max(theta[liken>=1/15]) Die Maximum-Likelihood-Methode Das so gefundene Vertrauensintervall mit den beiden gefundenen theta-Werten ist aufgrund der Form der Likelihoodfunktion asymmetrisch: > conf.norm < c(t.u, t.o);conf.norm [1] 0.45 0.97 Das Vorgehen ist schematisch in Abbildung . dargestellt: > plot(theta,liken,type=ŠlŠ,xlab=expression(theta), + lwd=2,ylab=expression(paste("L(",theta,")",sep=""))) > lines(theta,rep(1/15,length(theta)),lty=3) > segments(t.u, 0.05,t.u,1/15,lwd=3) > segments(t.o, 0.05,t.o,1/15,lwd=3) θ θ Abbildung 10.4: Vertrauensintervall für θ Problematisch ist natürlich, dass die gewählte Grenze / theoretisch nicht begründet, sondern ein willkürlich gewählter Wert ist. Allerdings verhält sich dies bei den üblicherweise gewählten Irrtumswahrscheinlichkeiten ebenso. . . Krümmung der Likelihood, Fisher-Information und Varianz des ML-Schätzers Betrachten wir die Abbildung der Likelihood im vorherigen Abschnitt, dann ist intuitiv einsichtig, dass unsere ML-Schätzung umso verlässlicher ist, je stärker die Krümmung der Likelihood bzw. der Log-Likelihood am ML-Schätzer ist. Die Krümmung der Log-Likelihood wird durch die zweite Ableitung der Log-Likelihoodfunktion angegeben. Zur einfacheren Darstellung betrachten wir im Folgenden θ als Skalar. Ist θ ein Vektor mit mehreren gesuchten Parametern, gelten die nachstehen Ausführungen analog. Da wir das Maximum der Log-Likelihood betrachten (Rechtskrümmung, . Ableitung < ), ändern wir das Vorzeichen, so dass wir einen positiven Wert . Gütebeurteilung von ML-Schätzern der . Ableitung erhalten. Der Erwartungswert der negativen zweiten Ableitung der Log-Likelihood wird als Fisher-Information bezeichnet: I (θ) = Eθ ∂ log L(θ) ∂θ Ein nützliches Resultat ist die folgende Bartlett-Identität: I (θ) = Eθ ∂ log L ∂θ = Eθ ∂ log L ∂θ = V(U(θ)) Der negative Erwartungswert der . Ableitung entspricht dem Erwartungswert der quadrierten Scorefunktion und damit derenVarianz, da der Erwartungswert der Scorefunktion ist. Die Inverse von I (θ) gibt die Untergrenze der Varianz des Schätzers an (Cramér-Rao-Schranke): I (θ) V θ̂ Je höher der Wert der Fisher-Information, desto höher ist die Verlässlichkeit des ML-Schätzers im Sinne einer geringen Varianz. Bis auf einfache Spezialfälle ist die Fisher-Information eine Funktion, die von dem zu schätzenden Parameter θ abhängt. Zudem ist der Erwartungswert meist nicht oder nur sehr aufwendig bestimmbar, so dass anstelle des Erwartungswertes die beobachtete Fisher-Information als Näherung verwandt wird: Î (θ) = n i= ∂ log L(θ xi) ∂θ Bei vielen Anwendungen ist auch die Ermittlung der . Ableitung problematisch, so dass als weitere Alternative die Fisher-Information über das Quadrat des am ML-Schätzer ausgewerteten Vektors der Scorefunktion (an den n Beobachtungen xi) approximiert wird: Î (θ) = n i= (U(θ)) Maximum-Likelihood-Schätzer sind oft approximativ normalverteilt mit Varianz /I(θ). Wüsste man, dass der betrachtete ML-Schätzer bei gegebenem n schon annähernd normalverteilt wäre, ließe sich, ausgehend von demML- Schätzer und der Fisher-Information ausgewertet an der Stelle desML-Schätzers, ein Konfidenzintervall für den Parameter θ bestimmen, denn dann ist: Prθ(θ̂ u α/ I(θ̂) / θ θ̂ + u α/ I(θ̂) / ) α Die Maximum-Likelihood-Methode . . Beispiel Binomialverteilung Betrachten wir nun erneut das Beispiel der Binomialverteilung. Es liegt uns eine Realisation x einer binomialverteilten Zufallsvariablen mit Parameter θ und fixem n vor. Die Likelihoodfunktion, die Log-Likelihood, die Scorefunktion und die . Ableitung der Log-Likelihood lauten: L θ n, x = nx θ x ( θ)n x log L(θ x, n) = log nx + x log θ + (n x) log( θ) U (θ) = x θ n x θ , ∂ log L(θ x, n) ∂θ = x θ n x ( θ) Der Erwartungswert der negativen zweiten Ableitung, die Fisher-Information, ist: I (θ) = E ∂ log L(θ) ∂θ = E ∂U(θ) ∂θ = n θ( θ) Wie zu erwarten war, erhalten wir das n-fache der Inversen der Varianz der Bernoulli-Verteilung. Einsetzen der Beispielwerte aus dem vorherigen Kapitel (n = und x = ) ergibt für unser Beispiel I( / ) = . . Wir benutzen R, um Graphiken der Log-Likelihood, der Scorefunktion und der Informations- Funktion zu erzeugen: > x < 8 > n < 10 > theta < seq(0.7,.9,0.01) > like < dbinom(8,10,theta) > liken < like/max(like) > logl < log(liken) > score < 8/theta (10 8)/(1 theta) > Ąsher < n/theta/(1 theta) > that < x/n > ihat < n/that/(1 that);ihat [1] 62.5 > plot(theta,logl,type=ŠlŠ,xlab=expression(theta),lwd=2, + ylab=expression(paste("lnL(",theta,")"))) > segments(that,min(logl),that,max(logl)) > plot(theta,score,type=ŠlŠ,xlab=expression(theta),lwd=2, + ylab=expression(paste("S(",theta,")"))) > segments(that,min(score),that,0) > plot(theta,Ąsher,type=ŠlŠ,xlab=expression(theta),lwd=2, + ylab=expression(paste("I(",theta,")"))) > segments(that,min(Ąsher),that,ihat) Die über die ausgewertete Fisher-Information berechnete Varianz bzw. Standardabweichung ergibt sich für das Beispiel als: . Gütebeurteilung von ML-Schätzern θ θ (a) θ θ (b) θ θ (c) Abbildung 10.5: Log-Likelihood (a), Scorefunktion (b), Fisher-Information (c) > s < sqrt(1/ihat);s [1] 0.1264911 Ein approximatives Konfidenzintervall für den Parameter θ lässt sich dann folgendermaßen berechnen: > unten < that 1.96∗s;unten [1] 0.5520774 > oben < that+1.96∗s;oben [1] 1.047923 Konfidenzintervalle, die so berechnet werden, enthalten vor der Realisierung derWertemit einerWahrscheinlichkeit von näherungsweise den gesuchten Parameter θ . Das Intervall ist nicht nur sehr groß, es geht auch über den Wert hinaus. Das Konfidenzintervall umfasst somit auch unmögliche Werte. Um ein Konfidenzintervall zu erhalten, das strikt im Intervall [ , ] liegt, kann man zunächst ein Konfidenzintervall für eine passend gewählte Funktion des Parameters θ berechnen und das Konfidenzintervall anschließend zurücktransformieren. Wählt man g(η) = θ mit g(η) := eη/( + eη) dann ist η = g (θ) = log(θ/( θ)) Damit ist der Definitionsbereich des Parameters η nicht mehr beschränkt. Die Likelihoodfunktion als Funktion von η ist gerade L(g(η)). Ein Konfidenzintervall für η erhält man über die entsprechende Fisher-Informationsmatrix, die in diesem Fall durch I(η) = ng(η)( g(η)) gegeben ist. Ein -Intervall für η ist dann u(η̂) := η̂ u α/ I η̂ / η η̂ + u α/ I η̂ / =: o(η̂) Da g strikt monoton ist, gilt α Prη η [u(η̂), o(η̂)] = Prη g(η) [g(u(η̂)), g(o(η̂))] Die Maximum-Likelihood-Methode Nutzt man noch die Invarianz des ML-Schätzers aus, also η̂ = g (θ̂), dann ergibt sich in unserem Beispiel: > etahat < log(that/(1 that)) > ieta < n∗that∗(1 that) > ueta < etahat 1.96/sqrt(ieta) > oeta < etahat + 1.96/sqrt(ieta) > u < exp(ueta)/(1+exp(ueta));u [1] 0.4592849 > o < exp(oeta)/(1+exp(oeta));o [1] 0.9495885 Das Intervall respektiert jetzt zumindest die Restriktion θ [ , ]. Allerdings ist es nur unwesentlich kürzer als die erste Variante. Auf der anderen Seite ähnelt es demKonfidenzintervall der Likelihood-Quotientenregel aus Abschnitt . . . . Übungsaufgaben 1) Betrachten Sie die Poisson-Verteilung: Pr(X = x) = exp( θ)θx/x!. Zeichnen Sie eine Graphik, die die Wahrscheinlichkeiten für x , , , . . . , und θ , enthält. 2) Sie finden beim Lesen eines Buches viele typographische Fehler und vermuten, dass die Fehleranzahl je Seite unabhängig von der Fehlerzahl auf anderen Seiten Poisson-verteilt ist. Der Vektor x enthalte die Fehlerzahlen von n verschiedenen untersuchten Seiten. Wie lautet die Likelihood für diese Werte? Schreiben Sie eine Funktion, die Ihnen die Likelihood für gegebene Werte x und einen vorgegebenen Vektor theta zurückgibt. a) Zeichnen Sie die (normierte) Likelihood für die Werte x = ( , , , , , , , ). b) Zeichnen Sie die Log-Likelihood. c) Zeichnen Sie die Scorefunktion. d) Ermitteln Sie den ML-Schätzer für θ ausgehend von Ihrer analytischen Lösung. 3) Simulieren Sie mit je Simulationen für n = , , und θ = . , . , . die Überdeckungswahrscheinlichkeiten der beiden Konfidenzintervalle des letzten Abschnitts. Erzeugen Sie dazu für jede Kombination von n, θ binomialverteilte Pseudozufallszahlen und berechnen Sie die die beiden Konfidenzintervalle. Zählen Sie dann, wie oft Ihr θ in den Intervallen enthalten ist. Einen guten Überblick über verschiedene weitere Konfidenzintervallkonstruktionen für θ geben L.D. Brown, T.T. Cai, A. DasGupta: Interval estimation for a binomial proportion. Statistical Science , , - .

Chapter Preview

References

Zusammenfassung

Vorteile

- Einführung in die statistische Analyse mit R für Wirtschafts- und Sozialwissenschaftler

- Inklusive hilfreicher Tipps wie "Ansprechende Grafiken mit R gestalten"

Zum Thema

R ist ein Statistikprogramm, das kostenlos über das Internet verbreitet wird und dessen Source Codes frei zugänglich sind.

Aufgrund dieses kostenlosen Angebots gehen immer mehr Dozenten dazu über, neben SPSS auch R zu lehren bzw. SPSS durch R zu ersetzen.

In R steht dem Nutzer die gesamte Bandbreite statistischer Verfahren zur Verfügung. Durch die eigenständige Programmierumgebung ist die Software sehr flexibel und erlaubt notwendige Modifikationen und Erweiterungen verfügbarer Prozeduren.

Zum Werk

Dieses Buch führt leicht verständlich in die statistische Analyse mit R ein. Anhand von Beispielen wird die Umsetzung der wichtigsten Methoden der Statistik, wie sie üblicherweise in den Grundkursen gelehrt werden, mit R vorgestellt.

Das Buch verfolgt entsprechend zwei Ziele:

1. Vorstellung der statistischen Methoden,

2. Benutzung des Werkzeuges R zur Analyse von Daten.

Inhalt

- Grundlagen von R

- Datenbehandlung und graphische Darstellungen mit R

- Datenbeschreibungen (deskriptive Statistik)

- Wahrscheinlichkeitsverteilungen

- Regressionsanalysen

- Optimierungsverfahren

- Simulationen mit R

Neben vielen neuen, wirtschaftsorientierten Beispielen wird nun auch in die Paneldatenanalyse und Stichprobentheorie eingeführt.

Zu den Autoren

Dr. Andreas Behr ist wissenschaftlicher Mitarbeiter am Institut für Statistik und Ökonometrie der Universität Münster.

Dr. Ulrich Pötter ist wissenschaftlicher Mitarbeiter am Institut für Statistik der Universität Bochum.

Zielgruppe

Für Studierende und Dozenten der Wirtschaftswissenschaften im Bachelor an Universitäten und Fachhochschulen.