Content

22. Differentialrechnung im Rn in:

Michael Merz, Mario V. Wüthrich

Mathematik für Wirtschaftswissenschaftler, page 647 - 686

Die Einführung mit vielen ökonomischen Beispielen

1. Edition 2012, ISBN print: 978-3-8006-4482-7, ISBN online: 978-3-8006-4483-4, https://doi.org/10.15358/9783800644834_647

Bibliographic information
Kapitel22 Differentialrechnung im Rn Kapitel 22 Differentialrechnung im Rn 22.1 Partielle Differentiation In den Kapiteln 15 bis 18 wurde immer wieder deutlich, dass bei der Untersuchung reellwertiger Funktionen f : D ⊆ R −→ R in einer Variablen die Frage im Vordergrund steht, wie sich die Funktionswerte f (x) bei Änderungen des Argumentes x verhalten. Bei der Betrachtung dieser Fragestellung haben sich die Begriffe Stetigkeit und vor allem Differenzierbarkeit als die entscheidenden Eigenschaften erwiesen. Es ist daher nicht verwunderlich, dass diese beiden Konzepte auch für die Analyse des Änderungsverhaltens von reellwertigen Funktionen f : D ⊆ Rn −→ R in n Variablen von zentraler Bedeutung sind. Während der Stetigkeitsbegriff bereits in Abschnitt 21.7 auf reellwertige Funktionen in n Variablen verallgemeinert wurde, erfolgt dies für den Differenzierbarkeitsbegriff in diesem Kapitel. Die dabei resultierenden Erkenntnisse führen zu leistungsfähigen Werkzeugen für die Lösung von Optimierungsproblemen und zur Approximation von reellwertigen Funktionen in n Variablen. Bei der Untersuchung des Änderungsverhaltens einer Funktion f : D ⊆ Rn −→ R in n ≥ 2 Variablen ist im Wesentlichen nur zu beachten, dass die Annäherung x → x0 an eine Stelle x0 ∈ D nun nicht mehr nur aus zwei, sondern aus unendlich vielen verschiedenen Richtungen erfolgen kann. Betrachtet man zum Beispiel die reellwertige Funktion f : D ⊆ R2 −→ R, (x, y) %→ f (x, y) in Abbildung 22.1, dann ist zu beobachten, dass man sich in der x-y-Ebene der Stelle x0 = (x0, y0)T parallel zur x-Achse oder parallel zur y-Achse annähern kann. Es ist aber natürlich auch genauso gut möglich, sich in der x-y-Ebene der Stelle x0 aus jeder anderen Richtung anzunähern. Da jedoch der Graph von f offensichtlich je nach Annäherungsrichtung an die Stelle x0 eine andere Steigung aufweist, resultieren hierbei verschiedene sogenannte Richtungsableitungen. Partieller Differenzenquotient Bei der Untersuchung des Änderungsverhaltens einer reellwertigen Funktion f : D ⊆ Rn −→ R in n Variablen sind vor allem die Veränderungen von f entlang einer der n Koordinatenachsen von Bedeutung. Für eine solche Betrachtung ist eine Verallgemeinerung von Definition 16.1 auf reellwertige Funktionen in n Variablen erforderlich. Dies führt zum Begriff des partiellen Differenzenquotienten: Definition 22.1 (Partieller Differenzenquotient einer Funktion in n Variablen) Es sei f : D ⊆ Rn −→ R eine reellwertige Funktion auf einer offenen Menge D mit x, x+ x ·ei ∈ D und x = 0 sowie dem i-ten Einheitsvektor ei=(0, . . . , 1, . . . , 0)T ∈ R n. Dann heißt f (x + x · ei )− f (x) x (22.1) = f (x1, . . . , xi+ x, . . . , xn)−f (x1, . . . , xi , . . . , xn) x partieller Differenzenquotient der Funktion f in x bezüglich der i-ten Variablen. Der partielle Differenzenquotient (22.1) beschreibt die relative Änderung von f an der Stelle x, wenn die i-te Variable xi um den Wert x verändert wird und gleichzeitig die anderen n− 1 Variablen xj mit j = i konstant gehalten werden. Er ist damit ein Maß für die „mittlere Steigung“ der Funktion f zwischen den beiden Stellen x und x+ x · ei , wenn man sich entlang der i-ten Achse bewegt. Das heißt, der partielle Differenzenquotient (22.1) entspricht geometrisch der Steigung der Sekante s durch die beiden Punkte (x, f (x)) und (x + x · ei , f (x + x · ei )) auf dem Graphen von f (vgl. Abbildung 22.1 für den Fall n = 2). x y z s(x, y ) f (x, y ) y0 Δ y x 0 x 0 + Δ x Δ x Abb. 22.1: Partieller Differenzenquotient f (x0+ x,y0)−f (x0,y0) x einer reellwertigen Funktionf : R2→R, (x,y) %→f (x,y)bezüglich der ersten Variablen x als Steigung der Sekante s durch die beiden Punkte (x0,y0,f (x0,y0)) und (x0+ x,y0,f (x0+ x,y0)) 652 Kapitel 2222.1 Partielle Differentiation Partieller Differentialquotient und erste partielle Ableitung Der Grenzübergang x → 0 beim partiellen Differenzenquotienten (22.1) führt zu der folgenden Definition der partiellen Differenzierbarkeit einer reellwertigen Funktion f : D ⊆ Rn −→ R bezüglich der i-ten Variablen: Definition 22.2 (Partielle Differenzierbarkeit einer Funktion in n Variablen) Es sei f : D⊆Rn −→R eine reellwertige Funktion auf einer offenen Menge D. Dann heißt f an der Stelle x bezüglich der i-ten Variablen partiell differenzierbar, wenn der Grenzwert lim x→0 f (x + x · ei )− f (x) x =: ∂f (x) ∂xi (22.2) existiert. Der Grenzwert ∂f (x) ∂xi wird dann als erste partielle Ableitung, partieller Differentialquotient oder partielle Ableitung erster Ordnung von f an der Stelle x bezüglich xi bezeichnet. Die Funktion f heißt auf der Menge E ⊆ D bezüglich der i-ten Variablen partiell differenzierbar, falls f an jeder Stelle x ∈ E bezüglich xi partiell differenzierbar ist. Die Funktion ∂f ∂xi : E −→ R, x %→ ∂f (x) ∂xi wird dann als erste partielle Ableitung oder partielle Ableitungsfunktion erster Ordnung von f in xi auf der Menge E bezeichnet. Gilt sogar E = D, dann heißt f bezüglich xi partiell differenzierbar. Ist die Funktion f an der Stelle x bezüglich aller n Variablen x1, . . . , xn (einmal) partiell differenzierbar, dann heißt sie in x partiell differenzierbar. Die Funktion f wird partiell differenzierbar genannt, falls f für alle x ∈ D (einmal) partiell differenzierbar ist. Sind die ersten partiellen Ableitungen von f zusätzlich stetig, dann wird f als stetig partiell differenzierbar bezeichnet. Gemäß Definition 22.2 wird die erste partielle Ableitung einer Funktion f : D ⊆ Rn −→ R bezüglich der Variablen xi dadurch gebildet, dass bis auf die Variable xi alle anderen Variablen xj mit j = i als Konstanten betrachtet werden. Die auf diese Weise resultierende reellwertige Funktion in nur einer Variablen xi wird dann in gewohnter Weise nach xi abgeleitet (vgl. hierzu auch die Definition 16.2 zur Differenzierbarkeit einer reellwertigen Funktion in einer Variablen). Das heißt, die partielle Ableitung einer reellwertigen Funktion f in n Variablen lässt sich vollkommen analog zu einer Funktion in einer Variablen ermitteln. Damit lassen sich insbesondere alle Rechen- und Ableitungsregeln aus Abschnitt 16.4, wie z. B. die Produkt-, die Quotienten- und die Kettenregel, zur Berechnung von partiellen Ableitungen einsetzen (vgl. Beispiel 22.3). Für n = 1 stimmt die erste partielle Ableitung natürlich mit der (gewöhnlichen) ersten Ableitung überein. Die Abbildung 22.2 zeigt den Graphen einer reellwertigen Funktion f : D ⊆ R2 −→ R, (x, y) %→ f (x, y) in zwei Variablen, die an der Stelle x0 = (x0, y0)T ∈ D partiell differenzierbar ist. Durch die Stelle x0 verlaufen parallel zur x-z-Ebene und parallel zur y-z-Ebene zwei Ebenen, die aus dem Graphen von f zwei Kurven herausschneiden, die sich im Punkt ( x0, y0, f (x0, y0) ) schneiden. Diese Kurven können als Graphen zweier reellwertiger Funktionen x %→ f1(x) := f (x, y0) und y %→ f2(y) := f (x0, y) in den Variablen x bzw. y aufgefasst werden. Diese beiden Funktionen werden als partielle Funktionen von f bezeichnet und entstehen aus f dadurch, dass im ersten Fall x als f2(y) = f (x 0, y) f1(x ) = f (x, y 0)f (x, y ) z y x x 0 y0 Abb. 22.2: Partiell differenzierbare reellwertige Funktion f : R2 −→ R, (x, y) %→ f (x, y) mit den beiden partiellen Funktionen x %→ f1(x) = f (x, y0) und y %→ f2(y) = f (x0, y) sowie den beiden partiellen Ableitungen ∂f (x0) ∂x und ∂f (x0) ∂y als Steigungen der Tangenten von f1 und f2 an der Stelle x0 =(x0, y0)T 653 Kapitel 22 Differentialrechnung im Rn Variable und y als Konstante mit dem Wert y0 und im zweiten Fall y als Variable und x als Konstante mit dem Wert x0 betrachtet wird. Die beiden partiellen Ableitungen ∂f (x0) ∂x und ∂f (x0) ∂y von f an der Stelle x0 geben die Steigungen der partiellen Funktion f1 bzw. f2 an der Stelle x0 an und sind durch die eingezeichneten Tangenten verdeutlicht. Man sagt daher auch, dass die partiellen Ableitungen ∂f (x0) ∂x und ∂f (x0) ∂y die Steigungen des Graphen von f in x- bzw. y-Richtung an der Stelle x0 angeben. Diese Interpretation gilt völlig analog auch für reellwertige Funktionen mit n > 2 Variablen. C. G. J. Jacobi Für die erste partielle Ableitung von f : D ⊆ Rn −→ R an der Stelle x ∈ D bezüglich der Variablen xi sind neben ∂f (x) ∂xi auch die Schreibweisen ∂f (x1, . . . , xn) ∂xi , fxi (x1, . . . , xn) oder fxi (x) gebräuchlich. Die Symbolik ∂f (x) ∂xi wurde im Jahre 1837 vom deutschen Mathematiker Carl Gustav Jacob Jacobi (1804–1851) eingeführt, der zu den produktivsten und vielseitigsten Mathematikern zählt und deshalb von vielen als „Euler des 19. Jahrhunderts“ bezeichnet wird. Die Verwendung des Symbols „∂“ anstelle von „d“ soll daran erinnern, dass die partielle Ableitung ∂f (x) ∂xi das Verhalten von f lediglich bezüglich einer Veränderung der Variablen xi angibt, während die anderen Variablen als Konstanten betrachtet werden. Im folgenden Beispiel wird deutlich, dass für eine reellwertige Funktion in n Variablen die Berechnung der ersten partiellen Ableitungen völlig analog zur Berechnung der ersten Ableitung einer reellwertigen Funktion in einer Variablen erfolgt. Beispiel 22.3 (Berechnung von ersten partiellen Ableitungen) a) Die reellwertige Funktion f : R3−→R, (x1, x2, x3) %→x21 + x22 + 4x1x3 ist partiell differenzierbar und die drei partiellen Ableitungen lauten ∂f (x1, x2, x3) ∂x1 = 2x1 + 4x3, ∂f (x1, x2, x3) ∂x2 = 2x2 und ∂f (x1, x2, x3) ∂x3 = 4x1. b) Die reellwertige Funktion f : R2 →R, (x, y) %→xey ist partiell differenzierbar und die beiden partiellen Ableitungen sind gegeben durch ∂f (x, y) ∂x = ey und ∂f (x, y) ∂y = xey. c) Die reellwertige Funktion f : R2 −→ R, (x, y) %→ 2xey + 3 sin(xy) ist partiell differenzierbar und die beiden partiellen Ableitungen lauten ∂f (x, y) ∂x = 2ey + 3y cos(xy) und ∂f (x, y) ∂y = 2xey + 3x cos(xy). d) Die reellwertige Funktion f : Rn \ {0} −→ R, x %→ 1 x21 + . . .+ x2n ist partiell differenzierbar und die n partiellen Ableitungen sind gegeben durch ∂f (x) ∂xi = −2xi( x21 + . . .+ x2n )2 für i = 1, . . . , n. e) Die reellwertige Funktion f : (−1,∞)× R2 −→ R, (x1, x2, x3) %→ 4x1x3 + 2x 2 2 ex2 + √ x31 + 1 x23 + 2 ist partiell differenzierbar und für die drei partiellen Ableitungen erhält man ∂f (x1, x2, x3) ∂x1 = 4x3 ex2 + 3x 2 1 2 √ x31 + 1(x23 + 2) , ∂f (x1, x2, x3) ∂x2 = 4x2e x2 − (4x1x3 + 2x22 )ex2 e2x2 = 4x2 − 4x1x3 − 2x 2 2 ex2 , ∂f (x1, x2, x3) ∂x3 = 4x1 ex2 + −2x3 √ x31 + 1 (x23 + 2)2 . Eine gute und etwas umfangreichere Übung für den Umgang mit partiellen Ableitungen ist die Berechnung der sogenannten Optionsgriechen im Black-Scholes-Modell (vgl. Beispiel 21.52). 654 Kapitel 2222.1 Partielle Differentiation Beispiel 22.4 (Berechnung der Optionsgriechen , , P und ) In Beispiel 21.52 wurden europäische Call- und Put-Optionen betrachtet, deren Preise C (r, σ, St ,K, T − t) bzw. P (r, σ, St ,K, T − t) zum Zeitpunkt t < T sich im Black-Scholes-Modell mit Hilfe der Black-Scholes-Formel (21.16)–(21.17) analytisch berechnen lassen. Die ersten partiellen Ableitungen der Optionspreise C (r, σ, St ,K, T − t) und P (r, σ, St ,K, T − t) nach den Modellparametern St (Preis des Basisinstrumentes), t (Zeit), r (risikoloser Zinssatz) und σ (Volatilität) werden Optionsgriechen (Optionssensitivitäten) oder einfach kurz Griechen (engl. Greeks) genannt, da sie mit griechischen Großbuchstaben bezeichnet werden. Man unterscheidet die Optionsgriechen , , P und . Ein weiterer wichtiger Optionsgrieche ist und wird in Beispiel 22.10 ermittelt. Die Optionsgriechen sind ein wichtiges Werkzeug für das Risikomanagement und werden zum Beispiel herangezogen, um Wertpapierportfolios bezüglich des Risikos einer Veränderung der Modellparameter zu beurteilen und zu kontrollieren. Im Folgenden werden die Optionsgriechen , , P und für europäische Call-Optionen hergeleitet. Die Optionsgriechen für europäische Put-Optionen lassen sich völlig analog berechnen. Gemäß Beispiel 21.52 lautet die Black-Scholes-Formel für den Preis einer europäischen Call-Option C (r, σ, St ,K, T − t) = St (d1) −K exp (−r(T − t)) (d2) mit d1 := ln ( St K ) σ √ T − t + √ T − t σ ( r + σ 2 2 ) und d2 := d1 − σ √ T − t . Für die Bestimmung der Optionsgriechen ist die folgende Beziehung zwischen den Werten der ersten Ableitung ϕ := ′ der Standardnormalverteilung an den Stellen d1 und d2 hilfreich (für die Definition von siehe (19.56)): ϕ(d2)= 1√ 2π exp ( −d 2 2 2 ) = 1√ 2π exp ( −1 2 ( d21 −2d1σ √ T −t+σ 2(T −t) )) =exp ( d1σ √ T −t− 1 2 σ 2(T −t) ) 1√ 2π exp ( −d 2 1 2 ) = St Ke−r(T−t) ϕ(d1) (22.3) Damit erhält man für die vier Optionsgriechen , , P und : a) Delta : Das Optionsdelta ist die erste partielle Ableitung des Optionspreises nach dem Wert St des Basisinstrumentes und ist die bedeutendste Optionssensitivität. Mit der Produktregel folgt := ∂C(r, σ, St , K, T − t) ∂St (22.4) = (d1)+ St ∂ (d1) ∂St −Ke−r(T−t) ∂ (d2) ∂St und mit der Kettenregel sowie (21.18) erhält man weiter ∂ (d1) ∂St = ϕ(d1) ∂d1 ∂St und ∂ (d2) ∂St = ϕ(d2) ∂d2 ∂St = ϕ(d2) ∂d1 ∂St . Eingesetzt in (22.4) liefert dies zusammen mit (22.3) = (d1)+ Stϕ(d1) ∂d1 ∂St −Ke−r(T−t)ϕ(d2) ∂d1 ∂St = (d1)+ Stϕ(d1) ∂d1 ∂St −Ke−r(T−t) St Ke−r(T−t) ϕ(d1) ∂d1 ∂St = (d1) ≥ 0. (22.5) Das Optionsdelta ist eine Sensitivitätskennzahl, die angibt, welchen Einfluss der Wert St des Basisinstrumentes auf den Wert der Option hat (vgl. Abbildung 22.3, links). Zum Beispiel besitzt = 0,5 die Interpretation, dass eine Kursveränderung beim Basisinstrument in der Höhe von 1€ in linearer Näherung bei der Call-Option eine Wertveränderung von 0,5€ bewirkt. Das heißt, zwei Call-Optionen sind so riskant wie ein Basisinstrument. 655 Kapitel 22 Differentialrechnung im Rn b) Theta : Das Optionstheta ist die erste partielle Ableitung des Optionspreises nach der Zeit t . Mit der Produktregel erhält man := ∂C(r, σ, St , K, T − t) ∂t (22.6) =St ∂ (d1) ∂t −Kre−r(T−t) (d2)−Ke−r(T−t)∂ (d2) ∂t und mit der Kettenregel sowie (21.18) folgt weiter ∂ (d1) ∂t = ϕ(d1) ∂d1 ∂t und ∂ (d2) ∂t = ϕ(d2) ∂d2 ∂t = ϕ(d2) ( ∂d1 ∂t + σ 2 √ T − t ) . Dies in (22.6) eingesetzt liefert zusammen mit (22.3): = Stϕ(d1) ∂d1 ∂t −Kre−r(T−t) (d2) −Ke−r(T−t)ϕ(d2) ( ∂d1 ∂t + σ 2 √ T − t ) = Stϕ(d1) ∂d1 ∂t −Kre−r(T−t) (d2) − Stϕ(d1) ( ∂d1 ∂t + σ 2 √ T − t ) = −Ke−r(T−t) ( r (d2)+ σ 2 √ T − t ϕ(d2) ) ≤ 0 Das Optionstheta ist eine Sensitivitätskennzahl, die angibt, wie sich der Wert der Option verändert, wenn sich die Restlaufzeit T − t ändert. Mit abnehmender Restlaufzeit T − t , also zunehmender Laufzeit t , verringert sich der Wert der Call-Option und es findet somit ein Wertverfall statt. c) Rho P: Das Optionsrho P ist die erste partielle Ableitung des Optionspreises nach dem risikolosen Zinssatz r . Mit der Produktregel folgt P := ∂C(r, σ, St , K, T − t) ∂r = St ∂ (d1) ∂r +K(T − t)e−r(T−t) (d2) −Ke−r(T−t) ∂ (d2) ∂r , (22.7) und die Kettenregel in Verbindung mit (21.18) liefert weiter ∂ (d1) ∂r = ϕ(d1) ∂d1 ∂r und ∂ (d2) ∂r = ϕ(d2) ∂d2 ∂r = ϕ(d2) ∂d1 ∂r . Eingesetzt in (22.7) liefert dies zusammen mit (22.3): P = Stϕ(d1) ∂d1 ∂r +K(T − t)e−r(T−t) (d2) −Ke−r(T−t)ϕ(d2) ∂d1 ∂r = K(T − t)e−r(T−t) (d2) ≥ 0 Das Optionsrho gibt die Wertveränderung an, wenn sich der risikofreie Marktzinssatz r ändert. Für Call- Optionen ist das Optionsrho stets nichtnegativ (vgl. Abbildung 22.3, rechts). d) Vega (Lambda) : Das Optionsvega ist die erste partielle Ableitung des Optionspreises nach der Volatilität σ . Diese partielle Ableitung stimmt für europäische Call- und Put-Optionen überein. Man erhält := ∂C(r, σ, St , K, T − t) ∂σ = St ∂ (d1) ∂σ −Ke−r(T−t) ∂ (d2) ∂σ , (22.8) und mit der Kettenregel sowie (21.18) folgt weiter ∂ (d1) ∂σ = ϕ(d1) ∂d1 ∂σ und ∂ (d2) ∂σ = ϕ(d2) ∂d2 ∂σ = ϕ(d2) ( ∂d1 ∂σ −√T − t ) . Eingesetzt in (22.8) liefert dies mit (22.3): =Stϕ(d1) ∂d1 ∂σ −Ke−r(T−t)ϕ(d2) ( ∂d1 ∂σ −√T −t ) =√T − t Stϕ(d1) ≥ 0 Das Optionsvega gibt an, wie stark der Wert der Option auf Änderungen der Volatilität reagiert. Gradient und Tangentialhyperebene Ist f : D ⊆ Rn −→ R an der Stelle x ∈ D eine partiell differenzierbare Funktion, dann besitzt sie dort genau n erste partielle Ableitungen. Werden diese zu einem n-dimensionalen Vektor zusammengefasst, dann erhält man den Gradienten von f an der Stelle x: 656 Kapitel 2222.1 Partielle Differentiation 0 20 40 60 80 100 0 0.2 0.4 0.6 0.8 1 Δ(S t) 0 20 40 60 80 100 0 20 40 60 80 100 120 Ρ(S t) Abb. 22.3: Optionsdelta (links) und Optionsrho P (rechts) in Abhängigkeit vom Wert St des zugrunde liegenden Basisinstrumentes für T − t = 20, r = 0,1, σ = 0,2 und K = 40€ Definition 22.5 (Gradient einer reellwertigen Funktion in n Variablen) Es sei f : D ⊆ Rn −→ R eine reellwertige Funktion, die an der Stelle x ∈ D partiell differenzierbar ist. Dann heißt der n-dimensionale Vektor grad f (x) := ( ∂f (x) ∂x1 , . . . , ∂f (x) ∂xn )T Gradient von f an der Stelle x. W. R. Smith Die n Komponenten des Gradienten grad f (x) geben die Steigungen von f in Richtung der n verschiedenen Koordinatenachsen an. Anstelle von grad f (x) wird häufig auch die Schreibweise ∇f (x) = ( ∂f (x) ∂x1 , . . . , ∂f (x) ∂xn )T verwendet, wobei das umgekehrte Delta ∇ als Nabla bezeichnet wird. Diese Bezeichnung stammt vom schottischen Theologen und Physiker William Robertson Smith (1846–1894), den die Form des Zeichens ∇ an eine antike Harfe (gr. „nabla“) erinnerte. In Abschnitt 16.2 wurde erläutert, dass eine reellwertige Funktion f : D ⊆ R −→ R in einer Variablen, die an einer Stelle x0 ∈ D differenzierbar ist, dort eine Tangente t mit der Funktionsgleichung t (x) = f (x0)+ f ′(x0) · (x − x0) (22.9) besitzt und die Werte t (x) für x ∈ D „in der Nähe“ von x0 oftmals gute lineare Approximationen für die Funktionswerte f (x) darstellen. Für eine an der Stelle x0 = ( x (0) 1 , . . . , x (0) n )T partiell differenzierbare Funktion f : D ⊆ Rn −→ R in n Variablen gilt nun eine entsprechende Aussage. Denn die Funktion f besitzt dann an dieser Stelle eine sogenannte Tangentialhyperebene t mit der Funktionsgleichung t (x)=f (x0)+ ∂f (x0) ∂x1 ·(x1−x(0)1 )+. . .+ ∂f (x0) ∂xn · (xn−x(0)n ) =f (x0)+grad f (x0)T (x − x0). (22.10) Die Tangentialhyperebene t ist eine Hyperebene im Rn+1 (vgl. Definition 7.18), die an der Stelle x0 den gleichen Funktionswert und in Richtung der n Koordinatenachsen auch die 657 Kapitel 22 Differentialrechnung im Rn gleichen Steigungen wie die Funktion f aufweist. Das heißt, es gilt t (x0)=f (x0) und ∂t (x0) ∂xi = ∂f (x0) ∂xi für alle i=1, . . . , n und t wird damit von den Tangenten der n partiellen Funktionen f1, . . . , fn an der Stelle x0 aufgespannt. Die Tangentialhyperebene t berührt somit die Funktion f an der Stelle x0 und für ein x ∈ D „in der Nähe“ von x0 ist der Wert t (x) eine lineare Approximation für den Funktionswert f (x). Für Funktionen in n = 1 Variablen vereinfacht sich (22.10) mit x0 = x0 zu t (x)=f (x0)+ ∂f (x0) ∂x · (x − x0)=f (x0)+f ′(x0) · (x−x0), also zur Tangentengleichung (22.9). Für n = 2 Variablen erhält man aus (22.10) mit x0 = (x0, y0)T t (x, y) = f (x0, y0)+ ∂f (x0, y0) ∂x · (x − x0) + ∂f (x0, y0) ∂y · (y − y0) die Funktionsgleichung einer Ebene im R3, der sogenannten Tangentialebene von f an der Stelle (x0, y0) (vgl. Abbildung 22.4). Abb. 22.4: Partiell differenzierbare reellwertige Funktion f : R2 −→ R, (x, y) %→ f (x, y) mit der von den Tangenten der beiden partiellen Funktionen x %→ f1(x) = f (x, y0) und y %→ f2(y) = f (x0, y) aufgespannten Tangentialebene t an der Stelle (x0, y0) Beispiel 22.6 (Gradienten und Tangentialhyperebenen) a) Eine affin-lineare Funktion f : Rn −→ R, x %→ a0 + ∑ni=1 aixi = a0 + aT x mit a = (a1, . . . , an)T ist partiell differenzierbar und besitzt an der Stelle x ∈ Rn den Gradienten grad f (x) = (a1, . . . , an )T = a. Für die Tangentialhyperebene t an der Stelle x0 ∈ Rn erhält man somit t (x) = f (x0)+ grad f (x0)T (x − x0) = a0 + aT x0 + aT (x − x0)=a0 + aT x = f (x). Die Tangentialhyperebene t einer affin-linearen Funktion f ist somit unabhängig von der Stelle x0 ∈ Rn und ihre Funktionsgleichung stimmt an jeder Stelle x∈Rn mit der Funktionsgleichung von f überein. b) Ein Polynom p : Rn → R, x %→ ∑m1k1=0 ∑m2 k2=0 · · ·∑mn kn=0 ak1k2 ...knx k1 1 x k2 2 · · · xknn ist partiell differenzierbar und für seinen Gradienten an der Stelle x ∈ Rn gilt gradp(x) = ⎛ ⎜⎜ ⎝ ∂p(x) ∂x1 ... ∂p(x) ∂xn ⎞ ⎟⎟ ⎠ = ⎛ ⎜ ⎜ ⎝ ∑m1 k1=1 ∑m2 k2=0 · · · ∑mn kn=0 ak1k2 ...kn k1x k1−1 1 x k2 2 · · · xknn ...∑m1 k1=0 ∑m2 k2=0 · · · ∑mn kn=1 ak1k2 ...kn knx k1 1 x k2 2 · · · xkn−1n ⎞ ⎟⎟ ⎠. c) Die reellwertige Funktion f : R2 −→ R, (x, y) %→ x4 −3x3y2 +y ist partiell differenzierbar und besitzt an der Stelle x ∈ R2 den Gradienten grad f (x) = ( 4x3 − 9x2y2 −6x3y + 1 ) . Die Tangentialhyperebene von f an der Stelle x0 = (1, 1)T lautet somit t (x, y) = f (1, 1)+ grad f (1, 1)T ( x − 1 y − 1 ) = −1 + (−5,−5) ( x − 1 y − 1 ) = 9 − 5x − 5y (vgl. Abbildung 22.9, links). 658 Kapitel 2222.1 Partielle Differentiation d) Die Funktion f : R3 −→ R, (x1, x2, x3) %→ ex1+2x2 +2x1 sin(x3)+x1x2x23 ist partiell differenzierbar und für den Gradienten von f an der Stelle x ∈ R3 erhält man grad f (x) = ⎛ ⎜⎜ ⎝ ∂f (x) ∂x1 ∂f (x) ∂x2 ∂f (x) ∂x3 ⎞ ⎟⎟ ⎠ = ⎛ ⎝ ex1+2x2 + 2 sin(x3)+ x2x23 2ex1+2x2 + x1x23 2x1 cos(x3)+ 2x1x2x3 ⎞ ⎠ . Die Tangentialhyperebene von f an der Stelle x0 = 0 ist somit gegeben durch t (x) = f (0)+ grad f (0)T (x − 0) = 1 + (1, 2, 0) ⎛ ⎝ x1 x2 x3 ⎞ ⎠ = 1 + x1 + 2x2. Partielle Differenzierbarkeit versus Stetigkeit Mit den ersten partiellen Ableitungen ∂f (x) ∂xi existiert ein leistungsfähiges Hilfsmittel, mit dem das Änderungsverhalten einer reellwertigen Funktion f : D ⊆ Rn −→ R an einer Stelle x ∈ D parallel zu den n Koordinatenachsen untersucht werden kann. Dies folgt unmittelbar aus der Definition der ersten partiellen Ableitung und bedeutet, dass aus der Kenntnis des Funktionswertes f (x1, . . . , xn) mit Hilfe der ersten partiellen Ableitung ∂f (x) ∂xi Informationen bezüglich des Funktionswertes f (x1, . . . , xi + xi, . . . , xn) für „hinreichend kleine“ xi gewonnen werden können. Die Leistungsfähigkeit der ersten partiellen Ableitung ist allerdings auch beschränkt. Denn obwohl mit Hilfe der n ersten partiellen Ableitungen gewisse Aussagen über die Funktionswerte f (x1 + x1, . . . , xn) , . . . , f (x1, . . . , xn + xn) möglich sind, wenn f (x1, . . . , xn) bekannt ist, versagen sie, wenn z. B. Informationen über den Funktionswert f (x1 + x1, x2 + x2, x3, . . . , xn) benötigt werden, also wenn zwei oder mehr Argumente gleichzeitig verändert werden. Um auch das Änderungsverhalten von f entlang einer beliebigen Richtung untersuchen zu können, die nicht parallel zu einer der n Koordinatenachsen ist, werden die beiden leistungsfähigeren Ableitungskonzepte Richtungsableitung und totales Differential benötigt, die Gegenstand von Abschnitt 22.3 sind. Aufgrund der begrenzten Aussagekraft von ersten partiellen Ableitungen ist es auch nicht verwunderlich, dass eine partiell differenzierbare Funktion f : D ⊆ Rn −→ R nicht stetig zu sein braucht. Denn während in der Definition der partiellen Differenzierbarkeit nur Grenzwerte bezüglich der Änderung einer Variablen betrachtet werden (vgl. Definition 22.2), erfolgt in der Definition der Stetigkeit die Betrachtung des Grenzwertes bezüglich der Veränderung aller n Variablen, also entlang einer beliebigen Richtung (vgl. Definition 21.47). Im folgenden Beispiel wird dieser Sachverhalt deutlich: Beispiel 22.7 (Partielle Differenzierbarkeit impliziert nicht Stetigkeit) In Beispiel 21.48d) wurde gezeigt, dass die reellwertige Funktion f : R2 −→ R, (x, y) %→ f (x, y) = { xy x2+y2 für (x, y) = (0, 0) 0 für (x, y) = (0, 0) an jeder Stelle (x, y) = (0, 0) stetig und an der Stelle (0, 0) unstetig ist (vgl. Abbildung 21.15, rechts). Die Funktion f ist an Stellen (x, y) = (0, 0) offensichtlich partiell differenzierbar und mit Hilfe der Quotientenregel erhält man die ersten partiellen Ableitungen ∂f (x, y) ∂x = y(x 2+y2)−2x2y (x2+y2)2 =y y2−x2 (x2+y2)2 (22.11) und ∂f (x, y) ∂y = x(x 2+y2)−2xy2 (x2+y2)2 =x x2−y2 (x2+y2)2 . (22.12) Weiter gilt f (x, 0) = 0 und f (0, y) = 0 für alle x, y ∈ R. Bei den beiden partiellen Funktionen f1 : R −→ R, x %→ f1(x) := f (x, 0) und f2 : R −→ R, y %→ f2(y) := f (0, y) handelt es sich folglich um konstante Funktionen in einer Variablen. Die partiellen Funktionen f1 und f2 sind somit differenzierbar und besitzen jeweils als erste Ableitung überall den Wert 0. Da jedoch die beiden ersten Ableitungsfunktionen f ′1 und f ′ 2 mit den ersten partiellen 659 Kapitel 22 Differentialrechnung im Rn Ableitungen ∂f (x,y) ∂x bzw. ∂f (x,y) ∂y von f übereinstimmen, ist f auch an der Stelle (0, 0) partiell differenzierbar und für die ersten partiellen Ableitungen von f gilt ∂f (x,y) ∂x = ∂f (x,y) ∂y = 0. Folglich ist die Funktion f zwar nicht überall stetig, sie ist aber überall partiell differenzierbar und besitzt den Gradienten grad f (x, y) = ⎧ ⎪⎪⎪⎪⎨ ⎪⎪⎪⎪⎩ ( y y2−x2 (x2+y2)2 x x2−y2 (x2+y2)2 ) für (x, y) = (0, 0) ( 0 0 ) für (x, y) = (0, 0) . Das letzte Beispiel zeigt somit, dass bei einer reellwertigen Funktion in nVariablen die partielle Differenzierbarkeit nicht die Stetigkeit impliziert. Mit Folgerung 22.20 wird sich jedoch zeigen, dass eine an der Stelle x0 stetig partiell differenzierbare Funktion f : D ⊆ Rn −→ R dort auch stetig ist. 22.2 Höhere partielle Ableitungen Partielle Ableitung höherer Ordnung Die ersten partiellen Ableitungen ∂f ∂xi : D ⊆ Rn −→ R einer reellwertigen Funktion f : D ⊆ Rn −→ R sind reellwertige Funktionen in n Variablen, die selbst wieder partiell differenzierbar sein können. Man sagt dann, dass f zweimal partiell differenzierbar ist. Völlig analog sind partielle Ableitungen der Ordnung drei, vier usw. definiert. Dies führt zu der folgenden Definition für höhere partielle Ableitungen: Definition 22.8 (Höhere partielle Ableitungen) Es sei f : D ⊆ Rn −→ R eine partiell differenzierbare Funktion. Dann heißt f k-mal partiell differenzierbar auf E ⊆ D, falls alle partiellen Ableitungen der Ordnung k − 1 auf E partiell differenzierbar sind. Gilt E = D, dann wird f als k-mal partiell differenzierbar bezeichnet. Sind alle partiellen Ableitungen k-ter Ordnung zusätzlich stetig, dann heißt f k-mal stetig partiell differenzierbar. Von besonders großer Bedeutung für wirtschaftswissenschaftliche Anwendungen sind die partiellen Ableitungen zweiter Ordnung. Ist f : D⊆Rn−→R eine zweimal partiell differenzierbare Funktion, dann werden für die zweite partielle Ableitung (partielle Ableitung zweiter Ordnung) von f an der Stelle x ∈ D nach der i-ten und j -ten Variable die Schreibweisen ∂2f (x) ∂xj ∂xi oder fxixj (x) (22.13) verwendet. Dabei ist zu beachten, dass bei der Bildung von ∂2f (x) ∂xj ∂xi zuerst bezüglich xi und anschließend nach xj differenziert wird. Im Falle von i = j schreibt man für (22.13) auch vereinfachend ∂2f (x) ∂x2i . Bei einer zweimal partiell differenzierbaren Funktion f in n Variablen gibt es offensichtlich insgesamt n2 partielle Ableitungen zweiter Ordnung. Das heißt insbesondere, dass im Falle von n = 1 lediglich eine „partielle“ Ableitung zweiter Ordnung existiert. Diese stimmt dann natürlich mit der (gewöhnlichen) zweiten Ableitung überein. Sind bei einer zweimal partiell differenzierbaren Funktion die partiellen Ableitungen zweiter Ordnung selbst wieder partiell differenzierbar, dann existieren n3 partielle Ableitungen dritter Ordnung. Für diese werden entsprechend die Schreibweisen ∂3f (x) ∂xk∂xj ∂xi oder fxixj xk (x) bzw. im Falle von i = j = k die abkürzende Schreibweise ∂3f (x) ∂x3i verwendet. Völlig analog werden partielle Ableitungen der Ordnung vier, fünf usw. bezeichnet. Das folgende Beispiel zeigt, dass die Berechnung der höheren partiellen Ableitungen völlig analog zur Bestimmung der ersten partiellen Ableitungen erfolgt. Das heißt insbesondere, dass die herkömmlichen Ableitungsregeln gelten. Beispiel 22.9 (Berechnung von höheren partiellen Ableitungen) a) Die reellwertige Funktion f : R2 −→ R, (x, y) %→ x3 + exy ist beliebig oft partiell differenzierbar und für die beiden ersten partiellen Ableitungen erhält man ∂f (x, y) ∂x = 3x2 + yexy und ∂f (x, y) ∂y = xexy. 660 Kapitel 2222.2 Höhere partielle Ableitungen Ihre vier partiellen Ableitungen zweiter Ordnung sind gegeben durch ∂2f (x, y) ∂x2 = 6x + y2exy und ∂ 2f (x, y) ∂y2 = x2exy sowie ∂2f (x, y) ∂y∂x = exy + xyexy = ∂ 2f (x, y) ∂x∂y (vgl. Abbildung 22.5, links). b) Die reellwertige Funktion f : (1,∞)× R −→ R, (x, y) %→ 3x2y3 + 2y ln(x) ist beliebig oft partiell differenzierbar und für die beiden ersten partiellen Ableitungen gilt ∂f (x, y) ∂x = 6xy3 + 2y x und ∂f (x, y) ∂y = 9x2y2 + 2 ln(x). Die vier partiellen Ableitungen zweiter Ordnung sind gegeben durch ∂2f (x, y) ∂x2 =6y3 − 2 y x2 und ∂2f (x, y) ∂y2 =18x2y x −2 −1 0 1 2 y −2 −1 0 1 2 0 20 40 60 f (x, y) = x3 + exp (xy) x 1 2 3 4 5 y −2 −1 0 1 2 −600 −400 −200 0 200 400 600 f (x, y) = 3x2y3 + 2y ln(x) Abb. 22.5: Reellwertige Funktionen f : R2 −→ R, (x, y) %→ x3 + exy (links) und f : (1,∞)×R −→ R, (x, y) %→ 3x2y3 + 2y ln(x) (rechts) sowie ∂2f (x, y) ∂y∂x = 18xy2 + 2 x = ∂ 2f (x, y) ∂x∂y (vgl. Abbildung 22.5, rechts). Im folgendem Anwendungsbeispiel wird der Optionsgrieche berechnet. Er ist als die partielle Ableitung zweiter Ordnung des Optionspreises bezüglich des Wertes des Basisinstrumentes definiert. Beispiel 22.10 (Berechnung des Optionsgriechen ) In Beispiel 22.4 wurden bereits die Optionsgriechen , , P und für eine europäische Call-Option berechnet. Diese vier Optionsgriechen sind die ersten partiellen Ableitungen des Preises C (r, σ, St ,K, T − t) einer europäischen Call-Option bezüglich der Modellparameter St , t , r und σ . 661 Kapitel 22 Differentialrechnung im Rn Ein weiterer Optionsgrieche ist das Optionsgamma , das als die zweite partielle Ableitung des Optionspreises nach dem Wert St des Basisinstrumentes festgelegt ist. Analog zum Optionsvega stimmt das Optionsgamma für europäische Call-Optionen mit dem Optionsgamma für europäische Put-Optionen überein. Mit dem Ergebnis für das Optionsdelta (vgl. (22.5)) und (21.18) erhält man : = ∂ 2C(r, σ, St ,K, T − t) ∂S2t = ∂ ∂St = ∂ (d1) ∂St = ϕ(d1) ∂d1 ∂St = ϕ(d1) 1 Stσ √ T − t ≥ 0. Das Optionsgamma ist eine Sensitivitätskennzahl, die angibt, wie stark das Optionsdelta auf eine Wertveränderung des Basisinstrumentes reagiert. Wegen ≥ 0 ist der Optionspreis eine konvexe Funktion des Basiswertes St . Bedeutung der Reihenfolge beim partiellen Differenzieren Bei der Betrachtung des Beispiels 22.9 fällt auf, dass bei beiden reellwertigen Funktionen die partiellen Ableitungen ∂2f (x,y) ∂y∂x und ∂ 2f (x,y) ∂x∂y für beliebige (x, y) übereinstimmen. Das heißt, bei diesen beiden Funktionen spielt es keine Rolle, ob zuerst bezüglich der Variablen x oder zuerst bezüglich der Variablen y partiell abgeleitet wird. Wie jedoch das folgende Beispiel zeigt, gilt dies nicht allgemein. Das heißt, es existieren durchaus reellwertige Funktionen, bei denen es beim partiellen Differenzieren auf die Reihenfolge der Variablen ankommt. Beispiel 22.11 (Reihenfolge der Variablen beim partiellen Differenzieren) Die reellwertige Funktion f : R2 −→R, (x, y) %→ { xy x2−y2 x2+y2 für (x, y) = (0, 0) 0 für (x, y) = (0, 0) ist partiell differenzierbar für alle (x, y) = (0, 0). Da ferner f (x, 0) = f (0, y) = 0 für alle x, y ∈ R gilt, ist f auch an der Stelle (0, 0) partiell differenzierbar und für die beiden ersten partiellen Ableitungen von f an dieser Stelle gilt ∂f (0, 0) ∂x = ∂f (0, 0) ∂y = 0. Für (x, y) = (0, 0) erhält man nach kurzer Rechnung die beiden ersten partiellen Ableitungen ∂f (x, y) ∂x = y ( x2 − y2 x2 + y2 + 4x2y2 (x2 + y2)2 ) und ∂f (x, y) ∂y = x ( x2 − y2 x2 + y2 − 4x2y2 (x2 + y2)2 ) . Damit folgt für die zweiten partiellen Ableitungen ∂ 2f (x,y) ∂y∂x und ∂ 2f (x,y) ∂x∂y an der Stelle (0, 0) ∂2f (0, 0) ∂y∂x = lim y→0 ∂f (0,y) ∂x − ∂f (0,0) ∂x y = lim y→0 −y y = −1 bzw. ∂2f (0, 0) ∂x∂y = lim x→0 ∂f (x,0) ∂y − ∂f (0,0) ∂y x = lim x→0 x x = 1. Folglich gilt ∂ 2f (0,0) ∂y∂x =∂2f (0,0) ∂x∂y (vgl. Abbildung 22.6, links). H. A. Schwarz Nach diesem Negativbeispiel stellt sich unmittelbar die Frage, ob nicht durch zusätzliche Annahmen über die Eigenschaften der Funktion f sichergestellt werden kann, dass es beim Differenzieren auf die Reihenfolge der Variablen nicht ankommt. Der folgende nach dem deutschen Mathematiker Hermann Amandus Schwarz (1843–1921) benannte Satz von Schwarz liefert ein solches Ergebnis. Er besagt, dass bei einer q-mal stetig partiell differenzierbaren Funktion die Reihenfolge, in der die partiellen Differentiationen der Ordnung p ≤ q nach den einzelnen Variablen durchgeführt werden, für das Ergebnis nicht entscheidend ist. Der Satz von Schwarz sagt damit insbesondere aus, dass in den meisten praxisrelevanten Fällen beim partiellen Ableiten nicht auf die Reihenfolge geachtet werden muss. Satz 22.12 (Satz von Schwarz) Die Funktion f : D ⊆ Rn −→ R sei q-mal stetig partiell differenzierbar, dann sind die partiellen Ableitungen der Ordnung p ≤ q unabhängig von der Reihenfolge der partiellen Differentiationen. 662 Kapitel 2222.2 Höhere partielle Ableitungen x −4 −2 0 2 4 y −4 −2 0 2 4 −4 −2 0 2 4 f (x, y) = xy x 2 − y2 x2 + y2 x 0.0 0.5 1.0 1.5 2.0 y 0.5 1.0 1.5 2.0 2.5 3.02 4 6 8 f (x, y) = yx Abb. 22.6: Reellwertige Funktionen f : R2 −→ R mit f (x, y) = xy x2−y2 x2+y2 für (x, y) = (0, 0) und f (0, 0) = 0 (links) und f : R× (0,∞) −→ R, (x, y) %→ yx (rechts) Beweis: Der Beweis erfolgt unter Verwendung des Mittelwertsatzes der Differentialrechnung und ist nicht schwierig, aber etwas langwierig. Es wird daher z. B. auf Heuser [26], Seiten 249– 251 verwiesen. Hesse-Matrix L. O. Hesse Ist eine reellwertige Funktion f : D ⊆ Rn −→ R zweimal partiell differenzierbar, dann besitzt sie n2 partielle Ableitungen zweiter Ordnung ∂ 2f (x) ∂xj ∂xi . Da die zweiten partiellen Ableitungen zum Beispiel bei der Untersuchung der Krümmungseigenschaften und der Bestimmung der Extrema von f sehr hilfreich sind, ist es zweckmäßig, diese zu einer n×n-Matrix zusammenzufassen. Man erhält dann die nach dem deutschen Mathematiker Ludwig Otto Hesse (1811–1874) benannte Hesse-Matrix: Definition 22.13 (Hesse-Matrix) Die Funktion f : D ⊆ Rn −→ R sei zweimal partiell differenzierbar mit den zweiten partiellen Ableitungen ∂ 2f (x) ∂xj ∂xi für i, j = 1, . . . , n. Dann heißt die n× n-Matrix Hf (x) := ⎛ ⎜⎜ ⎜⎜ ⎜⎜ ⎜ ⎝ ∂2f (x) ∂x21 ∂2f (x) ∂x1∂x2 . . . ∂2f (x) ∂x1∂xn ∂2f (x) ∂x2∂x1 ∂2f (x) ∂x22 . . . ∂2f (x) ∂x2∂xn ... ... . . . ... ∂2f (x) ∂xn∂x1 ∂2f (x) ∂xn∂x2 . . . ∂2f (x) ∂x2n ⎞ ⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎠ (22.14) Hesse-Matrix von f an der Stelle x ∈ D. Im Falle einer zweimal stetig partiell differenzierbaren Funktion f : D ⊆ Rn −→ R erhält man mit dem Satz von Schwarz (vgl. Satz 22.12) ∂2f (x) ∂xj ∂xi = ∂ 2f (x) ∂xi∂xj (22.15) für alle i, j = 1, . . . , n und x ∈ D. Das heißt, für die Hesse- Matrix (22.14) gilt das folgende Resultat: 663 Kapitel 22 Differentialrechnung im Rn Folgerung 22.14 (Symmetrie der Hesse-Matrix) Die Funktion f : D ⊆ Rn −→ R sei zweimal stetig partiell differenzierbar. Dann ist die Hesse-Matrix Hf (x) für alle x ∈ D symmetrisch. Beweis: Die Behauptung folgt unmittelbar aus der Definition 22.13 und (22.15). Im folgenden Beispiel wird die Berechnung der Hesse-Matrix demonstriert. Beispiel 22.15 (Hesse-Matrizen) a) Die reellwertige Funktion f : R2 −→ R, (x, y) %→ x3 + exy besitzt an der Stelle (x, y) ∈ R2 den Gradienten und die Hesse-Matrix grad f (x) = ( 3x2 + yexy xexy ) bzw. Hf (x) = ( 6x + y2exy exy + xyexy exy + xyexy x2exy ) (vgl. Beispiel 22.9a)). b) Die reellwertige Funktion f : (1,∞) × R −→ R, (x, y) %→3x2y3+2y ln(x) besitzt an der Stelle (x, y) ∈(1,∞)×R den Gradienten und die Hesse-Matrix grad f (x) = ( 6xy3 + 2 y x 9x2y2 + 2 ln(x) ) bzw. Hf (x) = ( 6y3 − 2 y x2 18xy2 + 2 x 18xy2 + 2 x 18x2y ) (vgl. Beispiel 22.9b)). c) Die reellwertige Funktion f : R × (0,∞) −→ R, (x, y) %→ yx ist beliebig oft stetig partiell differenzierbar. Für die beiden partiellen Ableitungen erster Ordnung erhält man ∂f (x, y) ∂x = yx ln(y) und ∂f (x, y) ∂y = xyx−1. Die vier partiellen Ableitungen zweiter Ordnung sind gegeben durch ∂2f (x, y) ∂x2 = yx (ln(y))2 und ∂2f (x, y) ∂y2 = x(x − 1)yx−2 sowie ∂2f (x, y) ∂y∂x = xyx−1 ln(y)+ yx−1 = ∂ 2f (x, y) ∂x∂y . Der Gradient und die Hesse-Matrix von f an der Stelle (x, y) ∈ R× (0,∞) sind somit gegeben durch grad f (x) = ( yx ln(y) xyx−1 ) bzw. Hf (x)= ( yx (ln(y))2 xyx−1 ln(y)+yx−1 xyx−1 ln(y)+yx−1 x(x − 1)yx−2 ) . Beispielsweise erhält man an der Stelle x = (1, 1)T den Gradienten und die Hesse-Matrix grad f (1, 1) = ( 0 1 ) bzw. Hf (1, 1) = ( 0 1 1 0 ) (vgl. Abbildung 22.6, rechts). 22.3 Totale Differenzierbarkeit Totale Ableitung In Abschnitt 22.1 wurde der Begriff der partiellen Ableitung einer reellwertigen Funktion f : D ⊆ Rn −→ R eingeführt. Dabei wurde deutlich, dass bei der Bildung der ersten partiellen Ableitung ∂f (x) ∂xi (22.16) an der Stelle x ∈ D bezüglich der i-ten Variablen xi die verbleibenden n − 1 Variablen xj mit j = i als Konstanten betrachtet werden. Die erste partielle Ableitung (22.16) gibt also lediglich das Änderungsverhalten von f in Form ihrer Steigung entlang der i-ten Koordinatenachse an und besitzt somit die konzeptionelle Schwäche, dass sie das Verhalten von f nur in einer „eindimensionalen Umgebung“ von x quantifiziert. Dies hat zum Beispiel zur Folge, dass aus der partiellen Differenzierbarkeit von f an einer Stelle x ∈ D im Allgemeinen nicht folgt, dass die Funktion dort auch stetig ist. Bei der Untersuchung von f auf Stetigkeit an der Stelle x wird nämlich der Grenzwert von f bezüglich der Veränderung aller n Variablen betrachtet (vgl. Beispiel 22.7). 664 Kapitel 2222.3 Totale Differenzierbarkeit Zur Untersuchung des Änderungsverhaltens einer Funktion f : D ⊆ Rn −→ R in einer kompletten n-dimensionalen Umgebung einer Stelle x ∈ D wird ein leistungsfähigerer Ableitungsbegriff benötigt. Das Konzept der totalen Differenzierbarkeit ist ein solches Ableitungskonzept. Es führt zum Begriff des totalen Differentials, das die Veränderung von f in einer Umgebung von x bei simultaner Änderung aller nVariablen angibt. Das totale Differential ist damit das eigentliche Analogon des gewöhnlichen Ableitungsbegriffes für eine Funktion in einer Variablen. Zur Motivation der folgenden Definition für die totale Differenzierbarkeit ist es hilfreich, die Differenzierbarkeit für eine reellwertige Funktion in nur einer Variablen zu rekapitulieren. In Abschnitt 16.2 wurde für eine reellwertige Funktion f : D ⊆ R −→ R die Differenzierbarkeit an einer Stelle x0 ∈ D durch die Existenz des Grenzwertes lim x→0 f (x0 + x)− f (x0) x =: f ′(x0) (22.17) definiert und der Grenzwert f ′(x0) als erste Ableitung von f an der Stelle x0 bezeichnet. Aus (22.17) erhält man für die Differenzierbarkeit von f an der Stelle x0 die äquivalente Formulierung f (x0 + x)− f (x0) = f ′(x0) x + r( x), (22.18) wobei r( x) eine reellwertige Funktion von x mit der Eigenschaft lim x→0 r( x) x = 0 ist. Das heißt, die Funktion r konvergiert für x → 0 noch schneller als x gegen Null. Die Darstellung (22.18) erlaubt eine einfache Verallgemeinerung des Differenzierbarkeitsbegriffes von reellwertigen Funktionen in einer Variablen auf reellwertige Funktionen in n Variablen und führt zum Konzept der totalen Differenzierbarkeit. Definition 22.16 (Totale Differenzierbarkeit einer Funktion in n Variablen) Es sei f : D ⊆ Rn −→ R eine reellwertige Funktion auf einer offenen Menge D. Dann heißt f total (oder vollständig) differenzierbar in x0 ∈ D, wenn es einen Vektor a ∈ Rn und eine reellwertige Funktion r gibt, so dass f in einer Umgebung von x0 die Darstellung f (x0 + x)− f (x0) = aT x + r( x) mit lim x→0 r( x) ‖ x‖ = 0 (22.19) besitzt. Der Vektor a wird totale Ableitung von f an der Stelle x0 genannt und mit f ′(x0) bezeichnet. Die reelle Zahl f ′(x0)T x heißt totales oder vollständiges Differential von f an der Stelle x0. Ist die Funktion f an jeder Stelle x0 ∈ E total differenzierbar, dann heißt f total oder vollständig differenzierbar auf der Menge E ⊆ D. Gilt sogar E = D, dann heißt f kurz total oder vollständig differenzierbar und die vektorwertige Funktion f ′ : D ⊆ Rn −→ Rn, x %→ f ′(x) wird totale Ableitungsfunktion von f genannt. Ist f : D ⊆ Rn −→ R eine an der Stelle x0 ∈ D total differenzierbare Funktion und x ≈ 0, dann folgt aus der Definition der totalen Ableitung, dass f (x0 + x) ≈ f (x0)+ f ′(x0)T x gilt. Das heißt, der Wert f (x0)+ f ′(x0)T x ist für Vektoren x = x0 + x, welche hinreichend nahe bei x0 liegen, oft eine gute lineare Approximation für die Funktionswerte f (x). Diese Approximation ist in der Regel umso besser, je näher x bei x0 liegt. Die totale Ableitung einer reellwertigen Funktion in n Variablen verhält sich somit völlig analog zur (gewöhnlichen) Ableitung bei einer reellwertigen Funktion in einer Variablen (vgl. (16.8)). Bei Verwendung der Schreibweise f ′ für die totale Ableitung einer total differenzierbaren Funktion f : D ⊆ Rn −→ R ist jedoch zu beachten, dass f ′ nicht reellwertig ist wie f , sondern vektorwertig mit einem n-dimensionalen Bild f ′(x) ∈ Rn. Eigenschaften total differenzierbarer Funktionen Das totale Differential f ′(x0)T x = aT x = n∑ i=1 ai xi beschreibt die Veränderung von f an einer Stelle x0 bei kleinen Änderungen x1, . . . , xn in den n Variablen 665 Kapitel 22 Differentialrechnung im Rn x1, . . . , xn. Das heißt, mit Hilfe des totalen Differentials ist es im Gegensatz zu partiellen Ableitungen möglich, die Veränderung von f bei simultaner Änderung aller n Variablen zu untersuchen. Die Aussage des folgenden Satzes, dass totale Differenzierbarkeit stets auch Stetigkeit und partielle Differenzierbarkeit impliziert, ist daher nicht verwunderlich. Satz 22.17 (Eigenschaften total differenzierbarer reellwertiger Funktionen) Es sei f : D ⊆ Rn −→ R eine an der Stelle x0 ∈ D total differenzierbare Funktion mit der totalen Ableitung f ′(x0) ∈ Rn. Dann gilt: a) f ist in x0 stetig. b) f ist in x0 partiell differenzierbar und besitzt die totale Ableitung f ′(x0) = grad f (x0). Beweis: Zu a): Da f in x0 total differenzierbar ist, gilt f (x0 + x)− f (x0) = aT x + r( x) mit lim x→0 r( x) ‖ x‖ = 0 (vgl. (22.19)). Wegen lim x→0 aT x = 0 folgt daraus lim x→x0 f (x) = lim x→0 f (x0 + x) = f (x0), also die Stetigkeit von f an der Stelle x0 (vgl. Definition 21.47). x y z dx dy dydx ∂ f ∂y ∂ f ∂x ∂ f ∂x dx ∂ f ∂y dy d f f (x, y ) ( x, y, f(x, y )) (x + dx, y + dy, f(x, y ) + d f ) infinitesimales Element Abb. 22.7: Graphische Veranschaulichung des Differentials df = ∂f (x0,y0) ∂x dx + ∂f (x0,y0) ∂y dy an der Stelle (x0, y0) bei einer reellwertigen Funktion f : R2 −→ R, (x, y) %→ f (x, y) Zu b): Mit (22.2) und (22.19) folgt für die n partiellen Ableitungen von f an der Stelle x0 ∂f (x0) ∂xi = lim x→0 f (x0 + x · ei )− f (x0) x = lim x→0 aT ( x · ei )+ r( x · ei ) x = lim x→0 ai x + r( x · ei ) x = ai für alle i = 1, . . . , n. Folglich gilt f ′(x0) = a = ( ∂f (x0) ∂x1 , . . . , ∂f (x0) ∂xn )T = grad f (x0). In den Natur- und Wirtschaftswissenschaften werden bei der Untersuchung der Auswirkungen infinitesimaler Änderungen in den n unabhängigen Variablen x = (x1, . . . , xn)T auf den Funktionswert f (x) einer total differenzierbaren Funktion f : D ⊆ Rn −→ R häufig die Bezeichnungen dx := (dx1, . . . , dxn)T := x und df := f ′(x0)T dx verwendet. Zusammen mit f ′(x0) = grad f (x0) (vgl. Satz 22.17b)) liefert dies für das totale Differential f ′(x0)T x die intuitivere Schreibweise df = n∑ i=1 ∂f (x0) ∂xi dxi (22.20) (vgl. Abbildung 22.7). 666 Kapitel 2222.3 Totale Differenzierbarkeit Totale Differentiale treten in vielen ökonomischen Fragestellungen auf. Das folgende Beispiel entstammt der Wachstumstheorie, also dem Bereich der Volkswirtschaftslehre, der sich mit der Erklärung der Ursachen von Wirtschaftswachstum befasst: Beispiel 22.18 (Totales Differential in der Wachstumstheorie) Die Wachstumstheorie beschäftigt sich mit der Erklärung der zeitlichen Veränderung des Bruttoinlandsproduktes (BIP), also dem Gesamtwert aller Güter (Waren und Dienstleistungen), die innerhalb eines Jahres innerhalb der Landesgrenzen einer Volkswirtschaft hergestellt werden und dem Endverbrauch dienen. Wird angenommen, dass das Bruttoinlandsprodukt S einer gegebenen Volkswirtschaft über die makroökonomische Produktionsfunktion f von der Arbeit L, dem Bruttoanlagevermögen V der Volkswirtschaft und Zeit t abhängt, dann führt dies zu der reellwertigen Funktion f : (0,∞)3 −→ R, (L, V, t) %→ f (L, V, t) mit S := f (L, V, t). Wird von der Produktionsfunktion f angenommen, dass sie total differenzierbar ist, dann erhält man mit der Schreibweise (22.20) für das totale Differential die Darstellung dS= ∂f (L, V, t) ∂L dL+ ∂f (L, V, t) ∂V dV + ∂f (L, V, t) ∂t dt. Das heißt, die (infinitesimale) Änderung dS des Bruttoinlandsproduktes S ergibt sich als gewichtete Summe der (infinitesimalen) Veränderungen von Arbeit (dL), Bruttoanlagevermögen (dV ) und der Zeit (dt), wobei die Gewichte durch die Grenzraten ∂f (L,V,t) ∂L , ∂f (L,V,t) ∂V und ∂f (L,V,t) ∂t gegeben sind. In Abschnitt 24.2 ist ein weiteres Beispiel zum Vorkommen des totalen Differentials in den Wirtschaftswissenschaften zu finden (siehe Beispiel 24.8). In Beispiel 22.7 wurde bereits gezeigt, dass eine an der Stelle x0 partiell differenzierbare Funktion f dort nicht notwendigerweise stetig, also gemäß Satz 22.17a) auch nicht unbedingt total differenzierbar zu sein braucht. Mit anderen Worten: Die Existenz aller partiellen Ableitungen erster Ordnung ist nur eine notwendige, aber keineswegs eine hinreichende Bedingung für die totale Differenzierbarkeit. Partielle Differenzierbarkeit von f bedeutet nicht mehr und nicht weniger, als dass die ersten partiellen Ableitungen von f berechnet werden können. Aus diesem Grund wird der Gradient einer reellwertigen Funktion an einer Stelle x0 auch nur dann totale Ableitung von f an der Stelle x0 genannt und mit f ′(x0) bezeichnet, wenn f an der Stelle x0 tatsächlich auch total differenzierbar ist. Glücklicherweise ist es in den meisten konkreten Anwendungen nicht erforderlich, die etwas kompliziertere Bedingung (22.19) zu verifizieren, da die auftretenden reellwertigen Funktionen meist nicht nur partiell differenzierbar, sondern die partiellen Ableitungen zusätzlich auch noch stetig sind. Wie der folgende Satz zeigt, gilt in diesem Fall, dass die Funktion sogar total differenzierbar ist. Satz 22.19 (Stetig partielle Differenzierbarkeit & totale Differenzierbarkeit) Ist f : D ⊆ Rn −→ R eine an der Stelle x0 ∈ D stetig partiell differenzierbare Funktion, dann ist f in x0 auch total differenzierbar. Beweis: Siehe z. B. Walter [68], Seiten 83–84. Gemäß Satz 22.19 ist eine reellwertige Funktion f : D ⊆ R n −→ R genau dann eine stetig partiell differenzierbare Funktion, wenn sie total differenzierbar ist mit stetigen ersten partiellen Ableitungen. Aus diesem Grund werden stetig partiell differenzierbare Funktionen oft auch kurz stetig (total) differenzierbare Funktionen genannt. Da nach Satz 22.17a) total differenzierbare Funktionen auch stetig sind, folgt unmittelbar aus dem letzten Satz, dass stetig partiell differenzierbare Funktionen auch stetig sind. Folgerung 22.20 (Stetig partielle Differenzierbarkeit und Stetigkeit) Ist f : D ⊆ Rn −→ R eine an der Stelle x0 ∈ D stetig partiell differenzierbare Funktion, dann ist f in x0 auch stetig. Beweis: Siehe Erläuterungen unmittelbar vor Folgerung 22.20. 667 Kapitel 22 Differentialrechnung im Rn In Abbildung 22.8 sind die erzielten Erkenntnisse bezüglich der Differenzierbarkeit einer reellwertigen Funktion in n Variablen noch einmal zusammengefasst. f stetig partiell differenzierbar f (total) differenzierbar f partiell differenzierbar & stetig Abb. 22.8: Zusammenhang zwischen partieller Differenzierbarkeit, totaler Differenzierbarkeit und Stetigkeit bei einer reellwertigen Funktion f : D ⊆ Rn −→ R Beispiel 22.21 (Totale Differenzierbarkeit) a) Die reellwertige Funktion f : R2 −→ R, (x, y) %→ x4 − 3x3y2 + y besitzt die ersten partiellen Ableitungen ∂f (x, y) ∂x = 4x3 − 9x2y2 und ∂f (x, y) ∂y = −6x3y + 1. Da diese partiellen Ableitungen stetig sind, ist f stetig partiell differenzierbar und damit insbesondere total differenzierbar mit der totalen Ableitung f ′ : R2 −→ R2, x %→ f ′(x) = ( 4x3 − 9x2y2 −6x3y + 1 ) (vgl. Abbildung 22.9, links). b) Die reellwertige Funktion g : R2 −→ R, (x, y) %→ x2y + xy sin(xy) besitzt die ersten partiellen Ableitungen ∂g(x, y) ∂x = 2xy + y sin(xy)+ xy2 cos(xy) und ∂g(x, y) ∂y = x2 + x sin(xy)+ x2y cos(xy). Aufgrund der Stetigkeit dieser beiden partiellen Ableitungen folgt, dass g total differenzierbar ist mit der totalen Ableitung g′ : R2 −→ R2, x %→ g′(x) = ( 2xy + y sin(xy)+ xy2 cos(xy) x2 + x sin(xy)+ x2y cos(xy) ) (vgl. Abbildung 22.9, rechts). c) Die quadratische Funktion f : Rn −→ R, x %→c+bT x+xT A x=c+ n∑ i=1 bixi+ n∑ i=1 n∑ j=1 aij xixj mit c ∈ R, b = (b1, . . . , bn)T ∈ Rn und einer n×n- Matrix A = (aij )n,n ist partiell differenzierbar und besitzt die stetigen partiellen Ableitungen ∂f (x1, . . . , xn) ∂xk =bk+ n∑ j=1 j =k akj xj+ n∑ i=1 i =k aikxi + 2akkxk = bk + n∑ j=1 akj xj + n∑ i=1 aikxi für k = 1, . . . , n. Die quadratische Funktion f ist somit total differenzierbar und besitzt die totale Ableitung f ′ : Rn −→ R, x %→ f ′(x) = ⎛ ⎜ ⎝ b1 +∑nj=1 a1j xj + ∑n i=1 ai1xi ... bn +∑nj=1 anj xj + ∑n i=1 ainxi ⎞ ⎟ ⎠ = b + (A + AT ) x. Ist die Matrix A zusätzlich symmetrisch, dann gilt A = AT und die totale Ableitung vereinfacht sich somit zu f ′ : Rn −→ R, x %→ f ′(x) = b + 2A x. Dieses Ergebnis ist das Analogon zu der bekannten Ableitungsregel (c + bx + ax2)′ = b + 2ax für reellwertige Funktionen in einer Variablen. d) In den Beispielen 21.48d) und 22.7 wurde gezeigt, dass die reellwertige Funktion f : R2 −→ R, (x, y) %→ f (x, y) = { xy x2+y2 für (x, y) = (0, 0) 0 für (x, y) = (0, 0) zwar überall partiell differenzierbar, aber nur an Stellen (x, y) = (0, 0) auch stetig ist. Mit Satz 22.17a) folgt daher, dass f an der Stelle (0, 0) auch nicht total differenzierbar sein kann. Da jedoch die beiden 668 Kapitel 2222.3 Totale Differenzierbarkeit x −4 −2 0 2 4 y −4 −2 0 2 4 −2000 −1000 0 1000 2000 3000 f (x, y) = x4 − 3x3y2 + y x −4 −2 0 2 4 y −4 −2 0 2 4 −50 0 50 g(x, y) = x2y + xy sin(xy) Abb. 22.9: Reellwertige Funktionen f : R2 −→ R, (x, y) %→ x4 − 3x3y2 + y (links) und g : R2 −→ R, (x, y) %→ x2y + xy sin(xy) (rechts) partiellen Ableitungen von f für (x, y) = (0, 0) stetig sind (vgl. (22.11)–(22.12)), folgt mit Satz 22.19, dass die Funktion f für (x, y) = (0, 0) total differenzierbar ist. Die Funktion f besitzt somit auf R2 \{0} die totale Ableitung f ′ : R2 \ {0} −→ R2, x %→ f ′(x) = ⎛ ⎝ y y2−x2 (x2+y2)2 x x2−y2 (x2+y2)2 ⎞ ⎠ . Rechenregeln für total differenzierbare Funktionen Bei der Betrachtung reellwertiger Funktionen in einer Variablen haben sich die verschiedenen existierenden Ableitungsregeln (vgl. Abschnitt 16.4) als unentbehrlich erwiesen. Glücklicherweise existieren für die totale Ableitung reellwertiger Funktionen in n Variablen analoge Hilfsmittel. Der folgende Satz besagt, dass Summen, Differenzen, Produkte und Quotienten total differenzierbarer Funktionen wieder total differenzierbar sind und die zugehörige totale Ableitung mit analogen Differentiationsregeln wie im Falle von reellwertigen Funktionen in einer Variablen berechnet werden kann. Satz 22.22 (Rechenregeln für totale Ableitungen) Es seien f : D ⊆ Rn −→ R und g : D ⊆ Rn −→ R zwei reellwertige Funktionen, die an der Stelle x0 ∈ D total differenzierbar sind und α ∈ R. Dann sind die reellwertigen Funktionen f + g, f − g, fg und αf ebenfalls an der Stelle x0 total differenzierbar. Gilt zusätzlich g(x0) = 0, dann ist auch die Funktion fg an der Stelle x0 total differenzierbar. Für die totalen Ableitungen gilt: a) (f + g)′(x0) = f ′(x0)+ g′(x0) b) (f − g)′(x0) = f ′(x0)− g′(x0) c) (fg)′(x0) = f ′(x0)g(x0)+ f (x0)g′(x0) (Produktregel) d) (αf )′(x0) = αf ′(x0) e) ( f g )′ (x0) = f ′(x0)g(x0)−f (x0)g′(x0)g2(x0) (Quotientenregel) Beweis: Der Beweis verläuft weitgehend analog zum Beweis der entsprechenden Aussagen für reellwertige Funktionen in einer Variablen (vgl. Satz 16.6). 669 Kapitel 22 Differentialrechnung im Rn Die Anwendung von Satz 22.22 wird im folgenden Beispiel demonstriert: Beispiel 22.23 (Rechenregeln für totale Ableitungen) Für die Summe und die Differenz der beiden total differenzierbaren Funktionen f : R2 −→ R, (x, y) %→ x4 − 3x3y2 + y und g : R2 −→ R, (x, y) %→ x2y + xy sin(xy) erhält man mit Satz 22.22a) und b) und den Ergebnissen aus Beispiel 22.21a) und b) für ein x0 = (x0, y0)T ∈ R2 die totalen Ableitungen (f + g)′(x0) = ( 4x3 − 9x2y2 + 2xy + y sin(xy)+ xy2 cos(xy) −6x3y + 1 + x2 + x sin(xy)+ x2y cos(xy) ) und (f − g)′(x0) = ( 4x3 − 9x2y2 − 2xy − y sin(xy)− xy2 cos(xy) −6x3y + 1 − x2 − x sin(xy)− x2y cos(xy) ) . Ein weiteres wichtiges Hilfsmittel ist die folgende Verallgemeinerung der Kettenregel in Satz 16.8. Sie bezieht sich auf die Differentiation der Komposition f ◦g einer reellwertigen Funktion f : D ⊆ Rn −→ R in n Variablen und einer vektorwertigen Funktion g : I ⊆ R −→ Rn in einer Variablen mit g(I) ⊆ D. Die Komposition f ◦ g : I ⊆ R −→ R ist I ⊆ R D⊆ Rn R g f f ◦g Abb. 22.10: Komposition f ◦ g : I ⊆ R −→ R einer vektorwertigen Funktion g : I ⊆ R −→ Rn in einer Variablen mit einer reellwertigen Funktion f : D ⊆ Rn −→ R in n Variablen somit eine reellwertige Funktion in einer Variablen (vgl. Abbildung 22.10). Zur Differentiation von f ◦g an einer Stelle t0 ∈ I wird für die vektorwertige Funktion g durch gi : I ⊆ R −→ R, t %→ gi(t) := (g(t))i die i-te Koordinatenfunktion von g definiert und die Funktion g an der Stelle t0 ∈ I als differenzierbar bezeichnet, wenn alle ihre n Koordinatenfunktionen g1, . . . , gn dort differenzierbar sind. In diesem Fall wird g′(t0) := ( g′1(t0), . . . , g ′ n(t0) )T erste Ableitung von g an der Stelle t0 genannt. Für die erste Ableitung der Komposition f ◦g : I ⊆ R −→ R gilt der folgende Satz: Satz 22.24 (Differenzierbarkeit von Kompositionen (verallg. Kettenregel)) Es seien g : I ⊆ R −→ Rn eine an der Stelle t0 ∈ I differenzierbare vektorwertige Funktion auf einem offenen Intervall I und f : D ⊆ Rn −→ R eine reellwertige Funktion auf einer offenen MengeD ⊆ Rn mit g(I) ⊆ D, die an der Stelle x0 = g(t0) total differenzierbar ist. Dann ist auch die Komposition f ◦ g : I ⊆ R −→ R an der Stelle t0 differenzierbar und besitzt dort die erste Ableitung (f ◦ g)′(t0) = f ′(x0)T g′(t0) = grad f (g(t0))T g′(t0) = n∑ i=1 ∂f (g(t0)) ∂xi g′i (t0). (22.21) 670 Kapitel 2222.3 Totale Differenzierbarkeit Beweis: Für den Differenzenquotienten von f ◦g an der Stelle t0 ∈ I gilt (f ◦ g)(t0 + t)− (f ◦ g)(t0) t (22.22) = f (g(t0 + t))−f (g(t0))−f ′ (x0)T (g(t0+ t)−g(t0)) ‖g(t0+ t)−g(t0)‖ × ‖g(t0+ t)− g(t0)‖ t + f ′ (x0)T (g(t0 + t)− g(t0)) t . Aus der Differenzierbarkeit von g an der Stelle t0 folgt g(t0 + t) → g(t0) für t → 0 und, da f an der Stelle x0 = g(t0) total differenzierbar ist, gilt (22.19) (mit x0 + x = g(t0 + t), x0 = g(t0) und a = f ′ (x0)) und damit insbesondere auch lim t→0 f (g(t0+ t))−f (g(t0))−f ′(x0)T(g(t0+ t)−g(t0)) ‖g(t0+ t)−g(t0)‖ =0. Weiter folgt aus der Differenzierbarkeit von g an der Stelle t0 lim t→0 ‖g(t0 + t)− g(t0)‖ t = ∥∥g′(t0) ∥ ∥ . Aus (22.22) erhält man somit (f ◦ g)′(t0) = lim t→0 (f ◦ g)(t0 + t)− (f ◦ g)(t0) t = lim t→0 f ′ (x0)T (g(t0 + t)− g(t0)) t = f ′ (x0)T lim t→0 g(t0 + t)− g(t0) t = f ′ (x0)T ⎛ ⎜ ⎝ g′1(t0) . . . g′n(t0) ⎞ ⎟ ⎠ . Das heißt, die Funktion f ◦g ist an der Stelle t0 differenzierbar und zusammen mit Satz 22.17b) folgt weiter, dass sie dort die erste Ableitung (22.21) besitzt. Die verallgemeinerte Kettenregel (22.21) besagt somit, dass die erste Ableitung der Komposition f ◦ g einer reellwertigen Funktion f : D ⊆ Rn −→ R in n Variablen und einer vektorwertigen Funktion g : I ⊆ R −→ Rn in einer Variablen analog zum Fall zweier reeller Funktionen einfach als Produkt der totalen Ableitung f ′ (x0) = grad f (g(t0)) der „äußeren“ Funktion f und der Ableitung g′(t0) der „inneren“ Funktion g geschrieben werden kann. Man kann sich daher auch die verallgemeinerte Kettenregel (22.21) durch den einfachen Merksatz „äußere Ableitung mal innere Ableitung“ einprägen. Die Anwendung der verallgemeinerten Kettenregel wird im folgenden Beispiel demonstriert: Beispiel 22.25 (Anwendung der verallgemeinerten Kettenregel) a) Betrachtet werden die beiden Funktionen g :R→R2, t %→ g(t) = (2t4, 3 cos(t))T und f : R2 → R, (x, y) %→ f (x, y) = 2x2 sin(y). Dann ist f ◦ g differenzierbar und für die erste Ableitung erhält man (f ◦ g)′(t) = ∂f (g(t)) ∂x g′1(t)+ ∂f (g(t)) ∂y g′2(t) = 4x sin(y)8t3 + 2x2 cos(y) (−3 sin(t)) = 32xt3 sin(y)− 6x2 cos(y) sin(t). Mit x = 2t4 und y = 3 cos(t) folgt daraus weiter (f ◦ g)′(t) = 64t7 sin (3 cos(t)) − 24t8 cos (3 cos(t)) sin(t). Die direkte Differentiation der reellen Funktion f ◦ g : R −→ R, t %→ f (g1(t), g2(t)) = 8t8 sin (3 cos(t)) mit Hilfe der Produktregel und der Kettenregel für reelle Funktionen (vgl. Satz 16.6c) bzw. Satz 16.8) liefert dasselbe Ergebnis (vgl. Abbildung 22.11, links). b) Betrachtet werden die Funktionen g : R −→ R3, t %→ g(t) = (2t2, 3 sin(t), cos(t))T und f : R3 −→ R, (x1, x2, x3) %→ f (x1, x2, x3) = e2x1x2x3 . Dann ist f ◦ g differenzierbar und für die erste Ableitung erhält man (f ◦ g)′(t) = ∂f (g(t)) ∂x1 g′1(t)+ ∂f (g(t)) ∂x2 g′2(t)+ ∂f (g(t)) ∂x3 g′3(t) = 2x2x3e2x1x2x3 4t + 2x1x3e2x1x2x3 3 cos(t) + 2x1x2e2x1x2x3(− sin(t)) = (8tx2x3 + 6x1x3 cos(t)− 2x1x2 sin(t) ) e2x1x2x3 . Mit x1 = 2t2, x2 = 3 sin(t) und x3 = cos(t) folgt daraus weiter (f ◦ g)′(t) = (24t sin(t) cos(t)+ 12t2 cos2(t) − 12t2 sin2(t))e12t2 sin(t) cos(t). Die direkte Differentiation der reellen Funktion f ◦ g : R −→ R, t %→ f (g1(t), g2(t), g3(t)) = e12t2 sin(t) cos(t) mit Hilfe der Produktregel und der Kettenregel für reelle Funktionen liefert natürlich auch hier dasselbe Ergebnis (vgl. Abbildung 22.11, rechts). 671 Kapitel 22 Differentialrechnung im Rn −1 −0.5 0 0.5 1 2 4 6 8 f (g(t)) −1 −0.5 0 0.5 1 20 40 60 80 100 f (g(t)) Abb. 22.11: Reelle Funktionen f ◦ g : R −→ R, t %→ 8t8 sin (3 cos(t)) (links) und f ◦ g : R −→ R, t %→ e12t2 sin(t) cos(t) (rechts) Titelblatt des Buchs „Methodus inveniendi lineas curvas“ von L. Euler (1744) Eine wichtige Folgerung der verallgemeinerten Kettenregel (22.21) ist das nach dem Schweizer Mathematiker Leonhard Euler (1707–1783) benannte Theorem von Euler. Es liefert für homogene und total differenzierbare Funktionen f : D ⊆ Rn −→ R mit der Eigenschaft f (γ x1, . . . , γ xn) = γ βf (x1, . . . , xn) (22.23) für alle x∈D und γ >0 eine Aussage über die Beziehung zwischen dem Homogenitätsgrad β von f und ihren n partiellen Ableitungen. Folgerung 22.26 (Theorem von Euler für homogene Funktionen) Ist f : D ⊆ Rn −→ R eine homogene und total differenzierbare Funktion vom Grad β ∈ R, dann gilt für alle x ∈ D β = 1 f (x) n∑ i=1 ∂f (x) ∂xi xi . (22.24) Beweis: Es sei x ∈ D ⊆ Rn beliebig, aber fest gewählt und g : (0,∞) −→ Rn, γ %→ γ x. Dann ist die Komposition f ◦g : (0,∞) −→ R, γ %→ f (γ x) differenzierbar und mit der Kettenregel (22.21) erhält man für ihre erste Ableitung (f ◦ g)′(γ )= n∑ i=1 ∂f (g(γ )) ∂xi g′i (γ )= n∑ i=1 ∂f (γ x) ∂xi xi . (22.25) Aus (22.23) folgt andererseits (f ◦ g)′(γ ) = f ′ (γ x) = βγ β−1f (x1, . . . , xn). (22.26) Gleichsetzen von (22.25) und (22.26) liefert somit βγ β−1f (x1, . . . , xn) = n∑ i=1 ∂f (γ x) ∂xi xi . Für γ = 1 folgt daraus schließlich βf (x1, . . . , xn) = n∑ i=1 ∂f (x) ∂xi xi und damit auch die Behauptung. Die Gleichung (22.24) bezeichnet man als Eulersche Homogenitätsrelation. Im folgenden Beispiel wird das Theorem von Euler auf die CES- und die Cobb-Douglas-Produktionsfunktion aus Beispiel 21.35 angewendet: 672 Kapitel 2222.4 Richtungsableitung Beispiel 22.27 (Theorem von Euler bei Produktionsfunktionen) a) Die CES-Produktionsfunktion f : (0,∞)n −→ R, x %→f (x)=α0 ( n∑ i=1 αix d i )1 d mit α0,. . . ,αn,d∈(0,∞) ist total differenzierbar und mit der Kettenregel für reellwertige Funktionen in einer Variablen (vgl. Satz 16.8) erhält man für ihre partiellen Ableitungen (sogenannte partielle Grenzproduktivitäten) ∂f (x) ∂xi =α0 1 d αidx d−1 i ( n∑ i=1 αix d i ) 1 d −1 (22.27) = αix d−1 i n∑ i=1 αix d i α0 ( n∑ i=1 αix d i ) 1 d = αix d−1 i n∑ i=1 αix d i f (x) für alle i = 1, . . . , n. Die i-te partielle Grenzproduktivität ∂f (x) ∂xi gibt den zusätzlichen Wert an, der durch eine zusätzliche Einheit des i-ten Produktionsfaktors generiert wird. Mit dem Theorem von Euler (vgl. Folgerung 22.26) erhält man für den Grad β der CES- Produktionsfunktion β = 1 f (x) n∑ i=1 ∂f (x) ∂xi xi = 1 f (x) n∑ i=1 αix d−1 i n∑ i=1 αix d i f (x)xi = n∑ i=1 αix d i n∑ i=1 αix d i = 1. Die CES-Produktionsfunktion ist also linear-homogen (vgl. Beispiel 21.35a)). b) Die Cobb-Douglas-Produktionsfunktion f : (0,∞)n −→ R, x %→ f (x) = α0 n∏ i=1 x αi i mit α0, . . . , αn ∈ (0,∞) ist ebenfalls total differenzierbar und für ihre partiellen Grenzproduktivitäten gilt ∂f (x) ∂xi =α0αixαi−1i n∏ j=1 j =i x αj j =α0 αi xi n∏ j=1 x αj j = αi xi f (x) (22.28) für alle i = 1, . . . , n. Mit dem Theorem von Euler erhält man somit für den Grad β der Cobb-Douglas- Produktionsfunktion β= 1 f (x) n∑ i=1 ∂f (x) ∂xi xi= 1 f(x) n∑ i=1 αi xi f(x)xi= n∑ i=1 αi. Die Cobb-Douglas-Produktionsfunktion ist somit homogen vom Grad ∑n i=1 αi (vgl. Beispiel 21.35b)). 22.4 Richtungsableitung Die partielle Ableitung ∂f (x0) ∂xi einer reellwertigen Funktion f : D ⊆ Rn −→ R an der Stelle x0 ∈ D ist die Ableitung der partiellen Funktion t %→ fi(t) := f (x0 + t · ei ) (22.29) an der Stelle t = 0 (vgl. (22.1)). Das heißt, sie gibt Aufschluss über das Änderungsverhalten von f an der Stelle x0, wenn von den n Variablen nur die i-te Variable variiert wird. Sie ist also die Ableitung von f entlang der i-ten Koordinatenachse (vgl. auch Abbildung 22.2). Es ist jedoch auf völlig natürliche Weise auch möglich, die Steigung von f für jede andere Richtung zu bestimmen. Dazu ist es lediglich erforderlich, in (22.29) den i-ten Einheitsvektor ei durch einen beliebigen anderen Richtungsvektor r, d. h. einen Vektor r ∈ Rn mit ‖r‖ = 1, zu ersetzen. Der Graph der dadurch resultierenden Funktion t %→ fr(t) := f (x0 + t · r) (22.30) durchläuft dann den Graphen von f in Richtung r und die Steigung der Funktion fr an der Stelle t = 0 gibt die Steigung von f an der Stelle x0 in Richtung r an (vgl. Abbildung 22.12). Diese Beobachtung motiviert die folgende Definition des Begriffes der Richtungsableitung: 673 Kapitel 22 Differentialrechnung im Rn x y z f (x, y ) f r1 (t) = f (x 0 + t · r1) f r2 (t) = f (x 0 + t · r2) r2r1 (x 0 , y0) x 0 y0 Abb. 22.12: Reellwertige Funktion f : R2 −→ R, (x, y) %→ f (x, y) mit zwei Funktionen t %→ fr1 (t) = f (x0 + t · r1) und t %→ fr2 (t) = f (x0 + t · r2) sowie den Richtungsableitungen ∂f (x0)∂r1 und ∂f (x0) ∂r2 als Steigungen der Tangente von fr1 bzw. fr2 an der Stelle (x0, y0) Definition 22.28 (Richtungsableitung) Es seien f : D ⊆ Rn −→ R eine reellwertige Funktion auf einer offenen Menge D und r ∈ Rn mit ‖r‖ = 1. Dann heißt f an der Stelle x0 in Richtung r differenzierbar, wenn der Grenzwert lim t→0 f (x0 + t · r)− f (x0) t =: ∂f (x0) ∂r (22.31) existiert. Der Grenzwert ∂f (x0) ∂r wird dann als Richtungsableitung von f an der Stelle x0 in Richtung r bezeichnet. In Abbildung 22.12 ist die geometrische Bedeutung der Richtungsableitung ∂f (x0) ∂r als Steigung von f in Richtung r durch die Tangente von fr(t) an der Stelle t = 0 veranschaulicht. Die partielle Ableitung von f an der Stelle x0 bezüglich der Variablen xi erhält man als spezielle Richtungsableitung von f an der Stelle x0 in Richtung des i-ten Einheitsvektors ei . Das heißt, es gilt ∂f (x0) ∂xi = ∂f (x0) ∂ei für alle i = 1, . . . , n. Das folgende Beispiel verdeutlicht, wie die Richtungsableitung direkt, d. h. nur mit Hilfe der Definition 22.28, ermittelt werden kann: Beispiel 22.29 (Direkte Berechnung der Richtungsableitung) Betrachtet wird die reellwertige Funktion f : R2 −→ R, (x, y) %→ 2x2 + y2 mit der totalen Ableitung f ′(x, y) = grad f (x, y) = (4x, 2y)T . Es seien nun x = (x, y)T ∈R2 eine beliebige Stelle und r = (r1, r2)T ∈ R2 mit ‖r‖ = 1 ein beliebiger Richtungsvektor. Dann gilt für t = 0 f (x+t · r)−f (x) t = 2(x+tr1) 2+(y+tr2)2−2x2−y2 t = 2t (2xr1 + yr2)+ t 2(2r21 + r22 ) t = 2(2xr1 + yr2)+ t (2r21 + r22 ) und für t → 0 folgt daraus ∂f (x,y) ∂r = lim t→0 f (x + t · r)− f (x) t = 4xr1 + 2yr2 = f ′(x, y)T r. Das heißt, die Funktion f ist an jeder Stelle (x,y)∈R2 in jede Richtung r differenzierbar und die Richtungsableitung ist gegeben durch ∂f (x,y) ∂r = f ′(x, y)T r = grad f (x, y)T r. 674 Kapitel 2222.4 Richtungsableitung Zusammenhang Richtungsableitung und totale Ableitung Im obigen Beispiel ergab sich die Richtungsableitung ∂f (x) ∂r an der Stelle x als Skalarprodukt f ′(x)T r der totalen Ableitung f ′(x) und des Richtungsvektors r. Der folgende Satz zeigt, dass dies kein Zufall ist, und stellt einen direkten Zusammenhang zwischen totaler Ableitung und Richtungsableitung her. Er besagt, dass für eine an der Stelle x total differenzierbare Funktion f die Richtungsableitung ∂f (x) ∂r in jede beliebige Richtung r existiert und sich als „gewichtete Summe“ der partiellen Ableitungen von f mit den Koordinaten von r als Gewichten darstellen lässt. Satz 22.30 (Totale Ableitung und Richtungsableitung) Es sei f : D ⊆ Rn −→ R eine an der Stelle x0 ∈ D total differenzierbare Funktion. Dann existieren alle Richtungsableitungen von f an der Stelle x0 und es gilt ∂f (x0) ∂r = f ′(x0)T r = grad f (x0)T r = n∑ i=1 ∂f (x0) ∂xi ri (22.32) für alle r = (r1, . . . , rn)T ∈ Rn mit ‖r‖ = 1. Beweis: Es seien r = (r1, . . . , rn)T ∈ Rn mit ‖r‖ = 1 beliebig gewählt und g : (−ε, ε) −→ Rn, t %→ x0 + t ·r mit g(−ε, ε) ⊆ D für ein hinreichend kleines ε > 0. Dann ist g differenzierbar mit g′(0) = r und es gilt fr(t) := f (x0 + t · r) = (f ◦ g)(t) für alle t ∈ (−ε, ε). Da f nach Voraussetzung an der Stelle x0 = g(0) total differenzierbar ist, folgt mit Satz 22.24, dass auch fr = f ◦ g an der Stelle t = 0 differenzierbar ist, und damit die Richtungsableitung von f an der Stelle x0 in Richtung r gleich der ersten Ableitung von f ◦ g an der Stelle t = 0 ist. Mit der verallgemeinerten Kettenregel (22.21) erhält man somit ∂f (x0) ∂r = (f ◦ g)′(0) = f ′(x0)T g′(0) = grad f (x0)T r = n∑ i=1 ∂f (x0) ∂xi ri . Mit (22.32) lässt sich die Richtungsableitung im Falle ihrer Existenz leicht berechnen. Beispiel 22.31 (Berechnung der Richtungsableitung) a) Für die reellwertige Funktion f : R2 −→ R, (x, y) %→ 2x2 + y2 aus Beispiel 22.29 erhält man für eine beliebige Stelle x = (x, y)T ∈ R2 und einen beliebigen Richtungsvektor r = (r1, r2)T ∈ R2 mit (22.32) die Richtungsableitung ∂f (x0) ∂r = (4x, 2y) ( r1 r2 ) = 4xr1 + 2yr2. b) Die reellwertige Funktion f : R2 −→ R, (x, y) %→ x2 − y2 besitzt an einer beliebigen Stelle x = (x, y)T ∈ R2 in Richtung der Diagonalen r = (√ 2 2 , √ 2 2 )T ∈ R2 die Ableitung ∂f (x0) ∂r = (2x,−2y) (√ 2 2√ 2 2 ) = √2x −√2y = √2(x − y). Damit ist die Ableitung in Richtung der Diagonalen für x = y stets gleich Null. Gradient als Richtung des steilsten Anstieges Es seien f : D ⊆ Rn −→ R eine an der Stelle x0 ∈ D total differenzierbare Funktion und r ∈ Rn ein beliebiger Richtungsvektor mit ‖r‖ = 1. Mit der Cauchy-Schwarzschen Ungleichung (7.16) und (22.32) erhält man dann für den Betrag der Ableitung von f an der Stelle x0 in Richtung r die Abschätzung ∣∣ ∣∣ ∂f (x0) ∂r ∣ ∣∣ ∣ ≤ ‖grad f (x0)‖ · ‖r‖ = ‖grad f (x0)‖ . (22.33) Das heißt, der Betrag der Richtungsableitung ∂f (x0) ∂r von f an der Stelle x0 ist für jeden Richtungsvektor r kleiner oder gleich der Norm des Gradienten von f an dieser Stelle. Gilt für den Gradienten grad f (x0) = 0, dann kann durch v0 := grad f (x0)‖grad f (x0)‖ der normierte Gradient von f an der Stelle x0 gebildet werden und mit (22.32) folgt für die Richtungsableitung von f 675 Kapitel 22 Differentialrechnung im Rn x y z y0 x 0 f (x, y ) grad f (x 0 , y0) Abb. 22.13: Reellwertige Funktion f : R2 −→ R, (x, y) %→ f (x, y) und der Gradient grad f (x0) ∈ R2 als Richtung des steilsten Anstieges von f an der Stelle (x0, y0) in Richtung v0 ∂f (x0) ∂v0 = grad f (x0)T grad f (x0)‖grad f (x0)‖ = ‖grad f (x0)‖ 2 ‖grad f (x0)‖ = ‖grad f (x0)‖ . Zusammen mit (22.33) zeigt dies, dass die Richtungsableitung in Richtung des normierten Gradienten x0 maximal ist. Mit anderen Worten: Der Gradient grad f (x0) gibt die Richtung des steilsten Anstieges von f an der Stelle x0 an, und sein Betrag ist gerade dieser stärkste Anstieg (vgl. Abbildung 22.13). Diese Eigenschaft bildet den theoretischen Hintergrund der sogenannten Gradientenverfahren, die für die Ermittlung von lokalen Minima und Maxima reellwertiger Funktionen in n Variablen von großer praktischer Bedeutung sind (siehe z. B. Alt [2] und Papageorgiou [53]). Gilt grad f (x0) = 0, dann folgt aus (22.33) unmittelbar ∣∣ ∣∣ ∂f (x0) ∂r ∣ ∣∣ ∣ = 0 für alle Richtungsvektoren r ∈ Rn. Das heißt, in diesem Fall verschwinden alle Richtungsableitungen von f an der Stelle x0. 22.5 Partielle Änderungsraten und partielle Elastizitäten In Abschnitt 16.9 wurden für reellwertige Funktionen f : D ⊆ R −→ R in einer Variablen x die Begriffe Änderungsrate und Elastizität eingeführt. Dabei wurde deutlich, dass sich Änderungsraten und Elastizitäten gegenüber gewöhnlichen Differentialquotienten (d. h. ersten Ableitungen) dadurch auszeichnen, dass sie nicht absolute Änderungen dx und dy, sondern relative Änderungen dx x und dy y der unabhängigen und abhängigen Variablen x bzw. y in Bezug zueinander setzen. Eine solche Quantifizierung der Auswirkung der unabhängigen Variablen x auf die abhängige Variable y = f (x) erweist sich bei vielen ökonomischen Fragestellungen als deutlich aussagekräftiger. Mit Hilfe partieller Ableitungen ist es nun möglich, auch für reellwertige Funktionen f : D ⊆ Rn −→ R in n Variablen x1, . . . , xn völlig analog die Begriffe partielle Änderungsrate und partielle Elastizität einzuführen. Definition 22.32 (Partielle Änderungsrate und partielle Elastizität) Es seien f : D ⊆ Rn −→ R eine partiell differenzierbare Funktion und x0 ∈ D mit f (x0) = 0, dann heißt 676 Kapitel 2222.5 Partielle Änderungsraten und partielle Elastizitäten a) ρf,xi (x0) := ∂f (x0)∂xi · 1f (x0) partielle Änderungsrate und b) εf,xi (x0) := ∂f (x0)∂xi · xi f (x0) partielle Elastizität von f bezüglich xi an der Stelle x0. Die partielle Änderungsrate ρf,xi (x) entspricht der Veränderung ∂f (x) ∂xi der Funktion f in Richtung der i-ten Koordinatenachse an der Stelle x bezogen auf den Funktionswert f (x), wenn die anderen n− 1 Variablen xj mit j = i konstant gehalten werden. Anstelle von Änderungsrate spricht man daher oft auch von prozentualer Änderung der Funktion f bezüglich xi an der Stelle x. Dagegen quantifiziert die partielle Elastizität εf,xi (x) die Veränderung ∂f (x) ∂xi der Funktion f in Richtung der i-ten Koordinatenachse an der Stelle x bezogen auf den Wert der Durchschnittsfunktion f (x) xi , wobei die anderen n−1 Variablen xj mit j = i wieder als konstant betrachtet werden. Das heißt, die partielle Elastizität berücksichtigt das Ausgangsniveau der abhängigen Variablen y = f (x) und der i-ten unabhängigen Variablen xi . Zwischen der partiellen Änderungsrate und der partiellen Elastizität bezüglich der Variablen xi besteht offensichtlich wieder die Beziehung εf,xi (x) = xiρf,xi (x). Mit der Eulerschen Homogenitätsrelation (22.24) erhält man unmittelbar den folgenden Zusammenhang zwischen dem Homogenitätsgrad und den partiellen Elastizitäten einer homogenen und total differenzierbaren Funktion f : Folgerung 22.33 (Partielle Elastizitäten und Homogenitätsgrad) Ist f :D⊆Rn −→R eine homogene und total differenzierbare Funktion vom Grad β ∈ R, dann gilt für alle x∈D β = n∑ i=1 εf,xi (x). Beweis: Mit der Eulerschen Homogenitätsrelation (22.24) erhält man β = 1 f (x) n∑ i=1 ∂f (x) ∂xi xi = n∑ i=1 ∂f (x) ∂xi · xi f (x) = n∑ i=1 εf,xi (x). Analog zur Elastizität bei einer reellwertigen Funktion in einer Variablen lässt sich auch die partielle Elastizität εf,xi (x) anschaulich – aber nicht ganz korrekt – als die prozentuale Änderung der abhängigen Variablen y = f (x) bei einer Ver- änderung der unabhängigen Variablen xi um 1% interpretieren. Mit (16.19) erhält man für die partielle Elastizität bezüglich der Variablen xi die alternative Darstellung εf,xi (x) = 1 1 xi ∂f (x) ∂xi f (x) = 1 ∂ ln(xi ) ∂xi ∂ ln (f (x)) ∂xi = ∂ ln (f (x)) ∂ ln(xi) . Die Rechenregeln für Änderungsraten aus Satz 16.46a)– e) und die Rechenregeln für Elastizitäten aus Folgerung 16.47a)–e) besitzen völlig analog auch für partielle Änderungsraten bzw. partielle Elastizitäten Gültigkeit. Beispiel 22.34 (Partielle Änderungsraten und partielle Elastizitäten) a) Die CES-Produktionsfunktion f : (0,∞)n −→ R, x %→f (x)=α0 ( n∑ i=1 αix d i ) 1 d mit α0, . . . , αn, d ∈ (0,∞) besitzt die partiellen Ableitungen (partiellen Grenzproduktivitäten) ∂f (x) ∂xi = αix d−1 i n∑ i=1 αix d i f (x) für alle i = 1, . . . , n (vgl. Beispiel 22.27a)). Für die partiellen Änderungsraten und die partiellen Elastizitäten erhält man somit ρf,xi (x) = ∂f (x) ∂xi · 1 f (x) = αix d−1 i n∑ i=1 αix d i bzw. εf,xi (x) = xiρf,xi (x) = αix d i n∑ i=1 αix d i für alle i = 1, . . . , n. Die partiellen Änderungsraten ρf,xi (x) und die partiellen Elastizitäten εf,xi (x) hängen somit von den Inputs xi aller n Produktionsfaktoren ab. b) Die Cobb-Douglas-Produktionsfunktion f : (0,∞)n −→ R, x %→ f (x) = α0 n∏ i=1 x αi i 677 Kapitel 22 Differentialrechnung im Rn mit α0, . . . , αn ∈ (0,∞) besitzt die partiellen Ableitungen ∂f (x) ∂xi = αi xi f (x) für alle i = 1, . . . , n (vgl. Beispiel 22.27b)). Für die partiellen Änderungsraten und die partiellen Elastizitäten gilt somit ρf,xi (x) = ∂f (x) ∂xi · 1 f (x) = αi xi bzw. εf,xi (x) = xiρf,xi (x) = αi für alle i = 1, . . . , n. Das heißt, die partielle Änderungsrate ρf,xi (x) für den i-ten Produktionsfaktor ist nur vom Input xi des i-ten Produktionsfaktors abhängig und fällt streng monoton mit wachsendem xi . Die partiellen Elastizitäten εf,xi (x) sind sogar von den Inputs aller n Produktionsfaktoren unabhängig und stimmen jeweils mit den in der Cobb-Douglas- Produktionsfunktion f auftretenden Exponenten αi überein. Ein weiteres typisches Beispiel für eine partielle Elastizität ist das Optionsomega in der Optionspreistheorie. Mit seiner Hilfe lässt sich das Phänomen des Hebeleffektes bei Optionen erklären: Beispiel 22.35 (Optionselastizität ) In den beiden Beispielen 22.4 und 22.10 wurden für eine europäische Call-Option bereits die fünf Optionsgriechen , , P, und im Black-Scholes-Modell ermittelt. Eine weitere wichtige Kennzahl für die Sensitivität einer europäischen Option ist das Optionsomega , das als partielle Elastizität des Optionspreises C(r, σ, St ,K, T − t) bezüglich des Wertes St > 0 des zugrunde liegenden Basisinstrumentes definiert ist. Mit dem Ergebnis für das Optionsdelta (vgl. (22.5)) und (21.16) erhält man für das Optionsomega einer europäischen Call-Option = ∂C(r, σ, St , K, T − t) ∂St · St C(r, σ, St , K, T − t) = (d1)St St (d1)−Ke−r(T−t) (d2) > 1. Das Optionsomega wird auch als Optionselastizität, Hebel oder Leverage der Option bezeichnet und ist der Verstärkungsfaktor (Hebel), den eine europäische Option gegenüber dem zugrunde liegenden Basisinstrument bezüglich des Gewinnes bzw. Verlustes aufweist. Das Optionsomega gibt in linearer Näherung an, um wieviel Prozent sich der Optionspreis ändert, wenn sich der Preis des Basisinstrumentes um 1% verändert. Im Gegensatz zum Optionsdelta ist stets größer als Eins. Bei einer europäischen Call-Option bewirkt somit ein Kursanstieg (Kursabfall) des Basisinstrumentes um 1% eine theoretische Wertzunahme (Wertverringerung) bei der Option von mehr als · 1% > 1%. Dieses Phänomen wird als Hebeleffekt von Optionen bezeichnet. Zum Beispiel bewirkt ein Kursanstieg (Kursabfall) eines Basisinstrumentes um 1% bei einer europäischen Call-Option mit = 7 eine Werterhöhung (Wertverringerung) von 7%. Europäische Optionen reagieren somit elastisch bezüglich des zugrunde liegenden Basisinstrumentes (vgl. Tabelle 16.1). Bei der Betrachtung von Nachfragefunktionen fi : (0,∞)n −→ R, (p1, . . . , pn) %→ fi(p1, . . . , pn) für n verschiedene Güter i = 1, . . . , n in Abhängigkeit von den Preisen p1, . . . , pn > 0 für diese Güter, kommen in der Mikroökonomie häufig auch sogenannte Kreuzelastizitäten (Kreuzpreiselastizitäten) zum Einsatz. Unter der Kreuzelastizität von Gut i in Bezug auf den Preis von Gut j versteht man εfi ,pj (p1, . . . , pn) = ∂fi(p1, . . . , pn) ∂pj · pj fi(p1, . . . , pn) . Dabei gilt im Allgemeinen εfi ,pj (p1, . . . , pn) = εfj ,pi (p1, . . . , pn), wobei jedoch εfi ,pj (p1, . . . , pn) und εfj ,pi (p1, . . . , pn) dasselbe Vorzeichen haben. Wenn die Kreuzelastizität εfi ,pj (p1, . . . , pn) positiv ist, also die Nachfrage nach Gut i mit steigendem Preis von Gut j zunimmt, dann handelt es sich um Substitutionsgüter. Das heißt, bei einer Preiserhöhung kann der Konsument von einem Gut auf das andere Gut ausweichen, da die beiden Güter dieselben oder ähnliche Bedürfnisse stillen (z. B. Margarine und Butter). Gilt dagegen, dass die Kreuzelastizität εfi ,pj (p1, . . . , pn) negativ ist, also die Nachfrage nach Gut i fällt, wenn sich der Preis von Gut j erhöht, dann spricht man von Komplementärgütern. Die beiden Güter werden dann gemeinsam nachgefragt, weil sie sich in ihrem Nutzen gegenseitig ergänzen (z. B. Drucker und Druckerpatrone). 678 Kapitel 2222.6 Implizite Funktionen 22.6 Implizite Funktionen Explizite und implizite Zuordnungsvorschrift Bei den bisher vorgestellten Methoden zur Untersuchung einer reellwertigen Funktion f : D ⊆ Rn −→ R in n Variablen wurde stets vorausgesetzt, dass die Funktion f durch eine explizite Zuordnungsvorschrift y = f (x1, . . . , xn) definiert ist. In vielen wirtschaftswissenschaftlichen Problemstellungen ist jedoch der funktionale Zusammenhang zwischen den unabhängigen Variablen x1, . . . , xn und der abhängigen Variablen y nicht explizit, sondern lediglich implizit in Form einer Gleichung f (x1, . . . , xn, y) = 0 (22.34) mit einer reellwertigen Funktion f : D×(a, b)⊆Rn+1−→R in n + 1 Variablen gegeben. Dabei bedeutet die Zahl 0 auf der rechten Seite von Gleichung (22.34) keine Einschränkung der Allgemeinheit, da ein Wert c = 0 auf der rechten Seite von (22.34) einfach von f subtrahiert werden kann. In einer solchen Situation entsteht dann zwangsläufig die Frage, ob die Gleichung (22.34) eindeutig nach y aufgelöst werden kann oder nicht. Das heißt, ob es eine reellwertige Funktion g : E ⊆ D −→ (a, b) in n Variablen mit der Eigenschaft y = g(x1, . . . , xn) (22.35) gibt, so dass bei Einsetzen von g(x1, . . . , xn) in die Gleichung (22.34) anstelle der Variablen y die Gleichung f (x1, . . . , xn, g(x1, . . . , xn)) = 0 für alle x = (x1, . . . , xn)T ∈ E erfüllt ist. Falls eine solche Funktion g existiert, wird sie als implizite Funktion bezeichnet und man sagt, dass g durch die Gleichung (22.34) implizit definiert wird. In diesem Fall wird auf der Teilmenge E ⊆ D durch die Funktion g mittels (22.35) eine explizite Zuordnungsvorschrift zwischen den Variablen x1, . . . , xn und der Variablen y hergestellt. Im Allgemeinen ist es jedoch nicht möglich, eine Gleichung (22.34) eindeutig nach der Variablen y aufzulösen. Dies wird bereits am einfachen Beispiel der Gleichung f (x, y) = x2 + y2 − 1 = 0 (22.36) für die reellwertige Funktion f : R2 −→ R, (x, y) %→ f (x, y) = x2 + y2 − 1 zur Beschreibung des Einheitskreises deutlich. Denn zu einem gegebenen x ∈ R gibt es im Fall |x| > 1 kein y, im Fall |x| = 1 den eindeutig bestimmten Wert y = 0 und im Fall |x| < 1 die beiden Werte y = √1 − x2 und y = −√1 − x2, welche die Gleichung (22.36) lösen. Das heißt, je nach Wahl von x ∈ R gibt es für (22.36) keine, genau eine oder mehrere Lösungen y=g(x). Eine eindeutige Auflösung der Gleichung (22.36) „im Großen“ – d. h. für alle x ∈ R – nach der Variablen y ist also nicht möglich. Die Lösung der Aufgabe muss daher bescheidener formuliert werden, indem eine Auflösung der Gleichung (22.36) lediglich „im Kleinen“ – d. h. für alle (x, y) ∈ R2 in der Nähe einer Stelle (x0, y0) ∈ R2 – angestrebt wird. Es sind dann die folgenden drei Fälle zu unterscheiden (vgl. auch Abbildung 22.14, links): a) Für |x0| > 1 und y0 ∈ R besitzt die Gleichung (22.36) keine Lösung und es existiert damit in der Umgebung von (x0, y0) auch keine Auflösung nach der Variablen y. b) Für |x0| < 1 und y0 > 0 ist in einer Umgebung von (x0, y0) durch y = g1(x) = √ 1 − x2 eine eindeutige Auflösung der Gleichung (22.36) gegeben. Dies ist die eindeutige Auflösung von (22.36) im Bereich (−1, 1)× (0,∞) ⊆ R2. Das heißt, alle in diesem Bereich liegenden Nullstellen von f sind durch (x, g1(x)) beschrieben. Entsprechend ist für |x0| < 1 und y0 < 0 durch y = g2(x) = − √ 1 − x2 eine eindeutige Auflösung von (22.36) in einer Umgebung von (x0, y0) gegeben. Die im Bereich (−1, 1) × (−∞, 0) ⊆ R2 liegenden Nullstellen von f werden somit durch (x, g2(x)) beschrieben. c) Für |x0| = 1 und y0 = 0 gibt es in keiner Umgebung von (1, 0) eine eindeutige Auflösung nach der Variablen y. Satz von der impliziten Funktion Der folgende sogenannte Satz von der impliziten Funktion gehört zu den wichtigsten Sätzen der gesamten Analysis. Er gibt Auskunft darüber, wann eine Gleichung der Form f (x1, . . . , xn, y) = 0 in einer Umgebung einer Stelle x = (x1, . . . , xn)T eindeutig nach der Variablen y aufgelöst werden kann und auf diese Weise eine implizite Funktion y = g(x1, . . . , xn) in n Variablen definiert. 679 Kapitel 22 Differentialrechnung im Rn x y 1 g1(x) g2(x) f (x, y) = 0 2 0 x y f (x, y) = 0 x0 x1 y0 = g(x0) f (x, g(x)) = 0 a0 b0 U Abb. 22.14: Die Gleichung f (x, y) = x2 + y2 − 1 = 0 definiert lokal um (x0, y0) ∈ (−1, 1)× (0,∞) die implizite Funktion g1(x) =√ 1 − x2 und lokal um (x0, y0) ∈ (−1, 1)× (−∞, 0) die implizite Funktion g2(x) = − √ 1 − x2 (links) und die reellwertige Funktion f : D× (a, b) ⊆ R2 −→ R definiert in den Umgebungen U von x0 und (a0, b0) von y0 eine eindeutige implizite Funktion g : U −→ (a0, b0) mit f (x, g(x)) = 0 Satz 22.36 (Satz von der impliziten Funktion) Es seien D ⊆ Rn eine offene Menge, f : D × (a, b) ⊆ R n+1 −→ R eine stetig partiell differenzierbare Funktion und (x0, y0) ∈ D × (a, b) mit den Eigenschaften f (x0, y0) = 0 und ∂f (x0, y0) ∂y = 0. (22.37) Dann gilt: a) Es gibt offene Umgebungen U ⊆ D von x0 und (a0, b0) ⊆ (a, b) von y0 mit der Eigenschaft, dass es zu jedem x ∈ U genau ein y ∈ (a0, b0) mit f (x, y) = 0 (22.38) gibt. Das heißt, durch die implizite Gleichung (22.38) wird jedem x ∈ U genau ein y ∈ (a0, b0) zugeordnet und die dadurch eindeutig bestimmte implizite Funktion g : U −→ (a0, b0) mit der Zuordnungsvorschrift y = g(x) erfüllt für alle x ∈ U die Gleichung f (x, g(x)) = 0. b) Die implizite Funktion g : U −→ (a0, b0) ist stetig partiell differenzierbar und für ihre partiellen Ableitungen gilt ∂g(x) ∂xi = − ∂f (x,g(x)) ∂xi ∂f (x,g(x)) ∂y (22.39) für alle i = 1, . . . , n. Beweis: Für den etwas umfangreicheren Beweis der Existenz und stetig partiellen Differenzierbarkeit der impliziten Funktion g : U −→ (a0, b0) siehe z. B. Erwe [13], Seiten 322–324. Zur Berechnung der partiellen Ableitung von g bezüglich der iten Variablen xi wird g als Funktion der Variablen xi betrachtet, während die übrigen n−1 Variablen xj mit j = i als Konstanten angesehen werden. Durch Ableiten der beiden Seiten der Gleichung f (x, g(x)) = 0 mit Hilfe der verallgemeinerten Kettenregel (vgl. Satz 22.24) erhält man dann ∂f (x, g(x)) ∂xi ∂xi ∂xi + ∂f (x, g(x)) ∂y ∂g(x) ∂xi = 0, also ∂g(x) ∂xi = − ∂f (x,g(x)) ∂xi ∂f (x,g(x)) ∂y . Der Satz 22.36 besagt, dass bei einer stetig partiell differenzierbaren Funktion f : D × (a, b) ⊆ Rn+1 −→ R an einer Stelle (x0, y0) ∈ D×(a, b) mit den Eigenschaften (22.37) zu jedem x in einer hinreichend kleinen Umgebung U von x0 genau ein y aus einer ebenfalls hinreichend kleinen Umgebung (a0, b0) von y0 existiert, so dass Gleichung (22.38) erfüllt ist. Das heißt, die Funktion f definiert implizit eine eindeutige reellwertige Funktion g : U −→ (a0, b0), x %→ g(x) = y, durch welche die Gleichung (22.38) lokal nach y aufgelöst wird. Für den Fall einer reellwertigen Funktion f in zwei Variablen ist dieser Sachverhalt in Abbildung 22.14, rechts veranschaulicht. Anhand von Abbildung 22.14, rechts wird ebenfalls deutlich, dass (22.37) die entscheidende Voraussetzung für die Gültig- 680 Kapitel 2222.6 Implizite Funktionen keit von Satz 22.36 ist. Zum Beispiel gilt an der Stelle (x0, y0) offenbar ∂f (x0,y0) ∂y = 0, denn die Tangente an die Isohöhenlinie If (0) = {(x, y) ∈ D × (a, b) : f (x, y) = 0} ist dort nicht senkrecht. Dies ermöglicht die Definition einer eindeutigen Zuordnung x %→ g(x) mit der Eigenschaft f (x, g(x)) = 0 in einer hinreichend kleinen Umgebung U von x0. An der Stelle (x1, y1) gilt dagegen ∂f (x1,y1) ∂y = 0, da die Tangente an die Isohöhenlinie If (0) dort senkrecht ist. In jeder noch so kleinen Umgebung U von x1 kann keine eindeutige Zuordnung x %→ g(x) mit f (x, g(x)) = 0 definiert werden, da die Isohöhenlinie If (0) aufgrund ihrer Bogengestalt in der unmittelbaren Umgebung von x1 zu jedem x-Wert zwei verschiedene y-Werte mit der Eigenschaft f (x, y) = 0 besitzt. Diese Beobachtung zeigt, dass (22.37) eine hinreichende Bedingung für die eindeutige Auflösbarkeit von f (x, y) = 0 nach der Variablen y ist. Man kann jedoch zeigen, dass (22.37) keine notwendige Bedingung ist. Der Satz von der impliziten Funktion macht jedoch nur eine Aussage bezüglich der Existenz und Eindeutigkeit der impliziten Funktion g. Er macht keine Aussage über die Zuordnungsvorschrift von g : U −→ (a0, b0) und die maximale Größe der Umgebung U . Dies ist auch nicht weiter verwunderlich, da es in vielen Fällen gar nicht möglich ist, die Funktion g explizit anzugeben. Ein Beispiel für einen solchen Fall ist die Gleichung f (x, y) = y + xy2 − exy, die durch elementare Umformungen nicht nach y aufgelöst werden kann, obwohl eine implizite Funktion g, z. B. in einer Umgebung der Stelle (0, 1), existiert (vgl. hierzu Beispiel 22.37b)). Die große Bedeutung des Satzes von der impliziten Funktion liegt darin begründet, dass die Funktion g mit der Eigenschaft f (x, g(x)) = 0 nicht bekannt zu sein braucht, und er dennoch eine Aussage über ihre Existenz und Eindeutigkeit liefert. Darüber hinaus ermöglicht er ohne Kenntnis der Zuordnungsvorschrift von g die partiellen Ableitungen ∂g(x) ∂xi von g aus den partiellen Ableitungen der Funktion f zu berechnen (vgl. (22.39)). Dieses Vorgehen wird als implizite Differentiation bezeichnet. Falls die partiellen Ableitungen erster Ordnung ∂g(x) ∂xi selbst wieder partiell differenzierbar sind, können durch partielles Ableiten von ∂g(x) ∂xi auch partielle Ableitungen höherer Ordnung von g bestimmt werden. Da man in vielen wirtschaftswissenschaftlichen Anwendungen, wie z. B. bei der komparativ-statischen Analyse von Gleichgewichtsbedingungen und der Aufdeckung von ökonomischen Substitutionseffekten, weniger an der Funktion g als an deren partiellen Ableitungen interessiert ist, besitzt der Satz von der impliziten Funktion für die Wirtschaftswissenschaften einen großen Nutzen. Beispiel 22.37 (Anwendung des Satzes von der impliziten Funktion) a) Die reellwertige Funktion f : R× (0,∞) −→ R, (x, y) %→ x2 + y2 − 1 ist stetig partiell differenzierbar und besitzt die ersten partiellen Ableitungen ∂f (x, y) ∂x = 2x und ∂f (x, y) ∂y = 2y mit ∂f (x,y) ∂y = 2y = 0 für alle y ∈ (0,∞). Es sei nun (x0, y0) := (0, 1). Dann gilt f (x0, y0) = 0, und mit dem Satz von der impliziten Funktion folgt, dass durch f in einer Umgebung um die Stelle (x0, y0) eine implizite und stetig differenzierbare Funktion g1 : U −→ (a0, b0) mit U ⊆ R, (a0, b0) ⊆ (0,∞) und f (x, g1(x)) = 0 für alle x ∈ U definiert wird. Aufgrund ihrer einfachen Gestalt kann die Gleichung f (x, y) = x2 + y2 − 1 = 0 durch elementare Umformungen sogar nach der Variablen y aufgelöst werden. Man erhält auf diese Weise für die implizite Funktion g1 die explizite Zuordnungsvorschrift y = g1(x) = √ 1 − x2. (22.40) Wegen y > 0 folgt aus (22.40), dass für die Umgebung U von x0 maximal das offene Intervall (−1, 1) gewählt werden kann. Die erste Ableitung von g1 auf U = (−1, 1) ist gegeben durch g′1(x) = − x√ 1 − x2 . Durch implizite Differentiation mittels der Ableitungsregel (22.39) resultiert natürlich das gleiche Ergebnis. Zusammen mit (22.40) erhält man nämlich g′1(x) = − ∂f (x,y) ∂x ∂f (x,y) ∂y = −2x 2y = −x y = − x√ 1 − x2 . Höhere Ableitungen von g erhält man durch weiteres Differenzieren von g′1. Völlig analog erhält man, dass 681 Kapitel 22 Differentialrechnung im Rn durch die reellwertige Funktion f : R× (−∞, 0) −→ R, (x, y) %→ x2 + y2 − 1 die implizite Funktion g2 : (−1, 1) −→ (−∞, 0), x %→ y = − √ 1 − x2 definiert wird (vgl. Abbildung 22.14, links). b) Die reellwertige Funktion f : R2 −→ R, (x, y) %→ y + xy2 − exy ist stetig partiell differenzierbar und besitzt die ersten partiellen Ableitungen ∂f (x, y) ∂x = y2 − yexy und ∂f (x, y) ∂y = 1 + 2xy − xexy. Es sei nun wieder (x0, y0) := (0, 1). Dann gilt f (x0, y0) = 0 und ∂f (x0,y0)∂y = 1 = 0 und mit dem Satz von der impliziten Funktion folgt, dass durch f in einer Umgebung um die Stelle (x0, y0) eine implizite und stetig differenzierbare Funktion g : U −→ (a0, b0) mit U ⊆ R, (a0, b0) ⊆ R und f (x, g(x)) = 0 für alle x ∈ U definiert wird. Im Gegensatz zu Beispiel a) ist jedoch eine Auflösung der Gleichung f (x, y) = y + xy2 − exy = 0 (22.41) nach der Variablen y durch elementare Umformungen nun nicht mehr möglich. Dennoch kann die erste Ableitung von g durch implizite Differentiation mit der Ableitungsregel (22.39) ermittelt werden. Man erhält dann g′(x) = − ∂f (x,y) ∂x ∂f (x,y) ∂y = − y 2 − yexy 1 + 2xy − xexy für alle x ∈ U . Für x = 0 lassen sich die Werte y = g(x), welche die Gleichung (22.41) lösen, zum Beispiel mit Hilfe des Regula-falsi- oder des Newton-Verfahrens (siehe Abschnitte 26.3 und 26.4) numerisch berechnen. Beispielsweise erhält man für x = 0,2 aus der Gleichung f (0,2, y) = y + 0,2y2 − e0,2y = 0 den Näherungswert y ≈ 1,018467. Zum Abschluss dieses Abschnittes wird der Nutzen des Satzes von der impliziten Funktion anhand einer Problemstellung aus der Produktionstheorie aufgezeigt: Beispiel 22.38 (Grenzrate der Substitution) Betrachtet wird die Cobb-Douglas-Produktionsfunktion f : (0,∞)2 −→ (0,∞), (x, y) %→ α0xα1yα2 mit α0,α1,α2 >0 für zwei Produktionsfaktoren (Inputs) x und y. Mit dieser Produktionsfunktion soll ein bestimmter Output c>0 erreicht werden. Das heißt, es interessieren alle Produktionsfaktorkombinationen (x, y) ∈ (0,∞)2, für die f (x, y) = α0xα1yα2 = c (22.42) gilt. Mit anderen Worten: es ist die Isoquante If (c) von f zum Produktionsniveau c gesucht. Definiert man dazu die reellwertige Funktion h : (0,∞)3→(0,∞), (x,c,y) %→h(x,c,y) :=f (x,y)−c, dann ist dies äquivalent dazu, dass man alle Lösungen der Gleichung h(x, c, y) = α0xα1yα2 − c = 0 bestimmt. Die Funktion h ist offensichtlich stetig partiell differenzierbar und besitzt die ersten partiellen Ableitungen ∂h(x, c, y) ∂x = α0α1xα1−1yα2 , ∂h(x, c, y) ∂c = −1 und ∂h(x, c, y) ∂y = α0α2xα1yα2−1, wobei es sich bei den beiden partiellen Ableitungen ∂h(x,c,y) ∂x und ∂h(x,c,y) ∂y um die partiellen Grenzproduktivitäten der Funktion f bezüglich der Produktionsfaktoren x und y handelt (vgl. Beispiel 22.27b)). Es sei nun (x0, y0) ∈ (0,∞)2 eine beliebige Produktionsfaktorkombination mit der Eigenschaft f (x0, y0) = α0xα10 yα20 = c, also h(x0, c, y0) = 0. Wegen ∂h(x,c,y) ∂y = 0 für alle (x, c, y) ∈ (0,∞)3 folgt mit dem Satz von der impliziten Funktion, dass durch h in 682 Kapitel 2222.6 Implizite Funktionen einer Umgebung der Stelle (x0, c, y0) eine implizite und stetig differenzierbare Funktion g : U −→ (a0, b0), (x, c) %→ y = g(x, c) mit U ⊆ (0,∞)2, (x0, c) ∈ U , (a0, b0) ⊆ (0,∞) und h (x, c, g(x, c)) = 0 für alle (x, c) ∈ U definiert wird. Durch g wird die Inputmenge y des zweiten Produktionsfaktors als Funktion der Inputmenge x des ersten Produktionsfaktors und des Produktionsniveaus c dargestellt. Die Funktion g ist zum Beispiel nützlich, wenn untersucht werden soll, wie die Veränderung der Inputmenge x des ersten Produktionsfaktors durch eine Veränderung der Inputmenge y des zweiten Produktionsfaktors ausgeglichen werden kann, wenn nach wie vor das Produktionsniveau c erreicht werden soll. Für die partielle Ableitung von g nach der Variablen x erhält man mit (22.39) ∂g(x, c) ∂x = − ∂h(x,c,y) ∂x ∂h(x,c,y) ∂y = −α0α1x α1−1yα2 α0α2xα1yα2−1 = −α1 α2 y x . Dieser Quotient wird als Grenzrate der Substitution des zweiten Produktionsfaktors y bezüglich des ersten Produktionsfaktors x bezeichnet. Die Funktion y = g(x, c) kann auch explizit angegeben werden. Mit der Produktionsgleichung (22.42) erhält man g(x, c) = y = ( c α0xα1 ) 1 α2 = ( c α0 ) 1 α2 x − α1α2 0 10 20 30 40 50 60 0 10 20 30 40 50 60 4 xy − 4 = 0 4 xy − 6 = 0 l l Abb. 22.15: Isoquanten der reellwertigen Funktionen h(x, 4, y) = 4√xy − 4 und h(x, 6, y) = 4√xy − 6 zum Niveau 0 und erkennt, dass U = (0,∞)2 und (a0, b0) = (0,∞) gewählt werden können. Durch partielles Ableiten von g nach x und Berücksichtigung von (22.42) erhält man für die Grenzrate der Substitution natürlich dasselbe Ergebnis wie zuvor: ∂g(x, c) ∂x = −α1 α2 ( c α0 ) 1 α2 x − α1α2 −1 = −α1 α2 ( α0x α1yα2 α0 ) 1 α2 x − α1α2 −1 = −α1 α2 y x Es gelte nun konkret α0 = 1, α1 = α2 = 14 sowie c = 4 bzw. c = 6. Dann folgt: h(x, 4, y) = 4√xy − 4 bzw. h(x, 6, y) = 4√xy − 6. Die Grenzrate der Substitution beträgt in diesem Fall ∂g(x,c) ∂x = − y x und ist somit gleich dem negativen Quotienten der Inputmengen x und y. Ferner ist die Grenzrate der Substitution unabhängig vom Produktionsniveau c > 0 und konstant, falls der Quotient y x konstant ist. Die Isoquante der Funktion h(x, 4, y) zum Niveau 0 besitzt somit beispielsweise im Punkt (16, 16) die gleiche Steigung wie die Isoquante der Funktion h(x, 6, y) zum Niveau 0 im Punkt (36, 36) (vgl. Abbildung 22.15). 683 Kapitel 22 Differentialrechnung im Rn 22.7 Taylor-Formel und Mittelwertsatz Taylor-Polynom Porträt von B. Taylor In Abschnitt 17.1 wurde gezeigt, wie eine (n+1)-mal differenzierbare Funktion f : I ⊆ R −→ R in einer Variablen „in der Nähe“ eines Entwicklungspunktes x0 ∈I durch das sogenannte Taylor- Polynom n-ten Grades Tn;x0 = n∑ k=0 f (k)(x0) k! (x − x0) k approximiert werden kann (vgl. Satz 17.5). Diese Ergebnisse werden nun auf reellwertige Funktionen in nVariablen verallgemeinert. Das heißt, es wird gezeigt, wie auch eine (n+ 1)-mal partiell differenzierbare Funktion f : D ⊆ Rn −→ R um einen Entwicklungspunkt x0 ∈ D durch ein Polynom n-ten Grades (in n Variablen) angenähert werden kann. In Abschnitt 22.1 wurde bereits deutlich, dass die Funktionswerte einer an der Stelle x0 ∈ D partiell differenzierbaren Funktion f : D ⊆ Rn −→ R für x ∈ D „in der Nähe“ von x0 = ( x (0) 1 , . . . , x (0) n )T durch die Tangentialhyperebene t (x)=f (x0)+ ∂f (x0) ∂x1 · ( x1−x(0)1 ) +. . .+ ∂f (x0) ∂xn ·(xn−x(0)n ) =f (x0)+ grad f (x0)T (x − x0) (22.43) von f an der Stelle x0 approximiert werden können (vgl. (22.10)). Die Tangentialhyperebene t besitzt an der Stelle x0 den gleichen Funktionswert und weist in Richtung der n Koordinatenachsen auch die gleichen Steigungen wie die Funktion f auf. Das heißt, es gilt t (x0) = f (x0) und ∂t (x0) ∂xi = ∂f (x0) ∂xi für i = 1, . . . , n. Die Tangentialhyperebene t berührt somit die Funktion f an der Stelle x0, und für ein x ∈ D hinreichend nahe bei x0 ist der Wert t (x) eine gute lineare Approximation für den Funktionswert f (x). Für den Spezialfall n = 1, d. h. einer Variable, vereinfacht sich (22.43) zu einer gewöhnlichen Tangentengleichung t (x)=f (x0)+ ∂f (x0) ∂x · (x − x0)=f (x0)+f ′(x0) · (x−x0), und für den Fall n = 2, d. h. zweier Variablen, zu der Funktionsgleichung t (x, y) = f (x0, y0)+ ∂f (x0, y0) ∂x · (x − x0) + ∂f (x0, y0) ∂y · (y − y0) einer Tangentialebene (vgl. Abbildung 22.4). Ein Vergleich mit Definition 21.28 zeigt, dass es sich bei der linearen Approximation (22.43) um ein Polynom ersten Grades in n Variablen handelt. Analog zu reellwertigen Funktionen in einer Variablen wird diese Approximation im Allgemeinen mit steigender Entfernung zwischen x und x0 immer schlechter. Es liegt daher nahe, auch im Falle von n Variablen zur Approximation der Funktion f Polynome höheren Grades in Betracht zu ziehen. Diese Überlegung führt zu sogenannten Taylor-Polynomen in n Variablen, die wie folgt definiert sind: Definition 22.39 (Taylor-Polynom m-ten Grades in n Variablen) Es seien f : D ⊆ Rn −→ R eine m-mal partiell differenzierbare Funktion in n Variablen und x0 =( x (0) 1 , . . . , x (0) n )T ∈ D. Dann heißt die Funktion Tm;x0 (x) := f (x0)+ m∑ k=1 pk;x0 (x) (22.44) mit den Polynomen pk;x0 (x) := 1 k! n∑ i1=1 · · · n∑ ik=1 ∂kf (x0) ∂xik · · · ∂xi1 (22.45) × (xi1 − x(0)i1 ) · . . . · (xik − x(0)ik ) Taylor-Polynom m-ten Grades in n Variablen der Funktion f um den Entwicklungspunkt x0. Analog zu reellwertigen Funktionen in einer Variablen wird ein Taylor-Polynom m-ten Grades speziell um den Entwicklungspunkt x0 = 0 oft auch nach dem schottischen Mathematiker Colin Maclaurin (1698–1746) als Maclaurinsches Polynom m-ten Grades bezeichnet. Bei dem Taylor-Polynom (22.44)–(22.45) handelt es sich um das n-dimensionale Analogon des Taylor-Polynoms in einer Variablen. Denn für n = 1 erhält man aus (22.44)–(22.45) Tm;x0 (x) = f (x0)+ m∑ k=1 f (k)(x0) k! (x − x0) k 684 Kapitel 2222.7 Taylor-Formel und Mittelwertsatz und damit das gewöhnliche Taylor-Polynom m-ten Grades in einer Variablen (vgl. (17.9)). Das Taylor-Polynom Tm;x0 hat mit der reellwertigen Funktion f gemeinsam, dass es auch durch den Punkt (x0, f (x0)) geht und an der Stelle x0 dieselben partiellen Ableitungen der Ordnungen k ≤ m wie die Funktion f besitzt. Das heißt, das Taylor-Polynom Tm;x0 stimmt mit der Funktion f an der Stelle x0 in allen Eigenschaften überein, die sich aus den partiellen Ableitungen bis zur Ordnung m ergeben. Für eine beliebige m-mal partiell differenzierbare Funktion f : D ⊆ Rn −→ R mit m ≥ 2 ist man in ökonomischen Anwendungen vor allem an den Taylor-Polynomen ersten und zweiten Grades von f interessiert. Hierfür werden die beiden ersten Polynome in (22.44) benötigt. Diese sind gegeben durch p1;x0 (x) = n∑ i=1 ∂f (x0) ∂xi ( xi − x(0)i ) = grad f (x0)T (x − x0) und p2;x0 (x) = 1 2 n∑ i1=1 n∑ i2=1 ∂2f (x0) ∂xi2∂xi1 ( xi1 − x(0)i1 ) · ( xi2 − x(0)i2 ) = 1 2 (x − x0)T Hf (x0) (x − x0) mit dem Gradienten und der Hesse-Matrix grad f (x0) = ⎛ ⎜⎜ ⎝ ∂f (x0) ∂x1 ... ∂f (x0) ∂xn ⎞ ⎟ ⎟ ⎠ bzw. Hf (x0) = ⎛ ⎜⎜ ⎜ ⎝ ∂2f (x) ∂x21 . . . ∂2f (x) ∂x1∂xn ... . . . ... ∂2f (x) ∂xn∂x1 . . . ∂2f (x) ∂x2n ⎞ ⎟⎟ ⎟ ⎠ von f an der Stelle x0. Die Taylor-Polynome ersten und zweiten Grades von f um den Entwicklungspunkt x0 ∈ D lauten somit T1;x0 (x) = f (x0)+ grad f (x0)T (x − x0) (22.46) bzw. T2;x0 (x) = f (x0)+ grad f (x0)T (x − x0) + 1 2 (x − x0)T Hf (x0) (x − x0). (22.47) Das heißt, das Taylor-Polynom T1;x0 stimmt mit der Funktionsgleichung der Tangentialhyperebene von f an der Stelle x0 überein (vgl. (22.10)). Beispiel 22.40 (Taylor-Polynome in n Variablen) a) Die reellwertige Funktion f : R× (0,∞) −→ R, (x, y) %→ yx ist beliebig oft stetig partiell differenzierbar und besitzt an der Stelle x0 = (1, 1)T den Gradienten und die Hesse-Matrix grad f (x0) = ( 0 1 ) bzw. Hf (x0) = ( 0 1 1 0 ) (vgl. Beispiel 22.15c)). Mit (22.46)–(22.47) erhält man für die Taylor-Polynome ersten und zweiten Grades von f um den Entwicklungspunkt x0 die Funktionsgleichungen T1;x0 (x) = 1 + (0, 1) ( x − 1 y − 1 ) = 1 + y − 1 = y und T2;x0 (x) = 1 + (0, 1) ( x − 1 y − 1 ) + 1 2 (x − 1, y − 1) ( 0 1 1 0 )( x − 1 y − 1 ) = y + (x − 1)(y − 1) = xy − x + 1. Zum Beispiel erhält man für den Funktionswert f (0,99, 1,01) ≈ 1,0098995 die lineare Approximation T1;x0 (0,99, 1,01)=1,01 und die quadratische Approximation T2;x0 (0,99, 1,01) = 0,99 · 1,01 − 0,99 + 1 = 1,0099. b) Die reellwertige Funktion f : R3 −→ R, (x, y, z) %→e2x+yz ist beliebig oft stetig partiell differenzierbar und besitzt an der Stelle x0 = (x0, y0, z0)T ∈ R3 den Gradienten und die Hesse-Matrix grad f (x0) = ⎛ ⎝ 2e2x0+y0z0 z0e 2x0+y0z0 y0e 2x0+y0z0 ⎞ ⎠ bzw. Hf (x0) =⎛ ⎝ 4e2x0+y0z0 2z0e2x0+y0z0 2y0e2x0+y0z0 2z0e2x0+y0z0 z20e 2x0+y0z0 (1+y0z0)e2x0+y0z0 2y0e2x0+y0z0 (1+y0z0)e2x0+y0z0 y20e2x0+y0z0 ⎞ ⎠ . 685 Kapitel 22 Differentialrechnung im Rn Mit (22.47) erhält man für das Taylor-Polynom zweiten Grades um den Entwicklungspunkt x0 =(0,0,0)T die Funktionsgleichung T2;x0 (x) = 1 + (2, 0, 0) ⎛ ⎝ x y z ⎞ ⎠ + 1 2 (x, y, z) ⎛ ⎝ 4 0 0 0 0 1 0 1 0 ⎞ ⎠ ⎛ ⎝ x y z ⎞ ⎠ = 1 + 2x + 2x2 + 1 2 zy + 1 2 yz = 1 + 2x + 2x2 + yz. Eine typische Anwendung der Approximation von reellwertigen Funktionen in n Variablen durch Taylor-Polynome ist das folgende Beispiel aus der Portfoliooptimierung: Beispiel 22.41 (Delta-Normal- und Delta-Gamma-Methode) In der bank- und versicherungswirtschaftlichen Praxis ist es aufgrund der aufsichtsrechtlichen Anforderungen an das Risikomanagement im Rahmen von Basel II (Banken) und Solvency II (Versicherungen) oftmals erforderlich, für ein Portfolio das Risikomaß Value-at-Risk zum Sicherheitsniveau q = 99% oder 99,5% zu bestimmen. Ein solches Portfolio kann aus verschiedenen risikobehafteten Finanztiteln wie z. B. Aktien, Anleihen, Optionen, Forwards, Futures, Swaps und Währungen bestehen. Der Value-at-Risk des Portfolios zum Sicherheitsniveau q gibt dann die Höhe des Verlustes an, den das Portfolio nach Ablauf einer Zeitperiode T (z. B. ein Tag oder ein Jahr) mit einer Wahrscheinlichkeit von q nicht überschreiten wird. Da die Interaktionen/Abhängigkeiten dermverschiedenen risikobehafteten Finanztitel untereinander nicht bekannt sind und deren gemeinsame Verteilung nicht bestimmt werden kann, wurden mit der Delta- Normal-Methode und der Delta-Gamma-Methode zwei einfache Näherungsverfahren zur Bestimmung des Valueat-Risks eines Portfolios entwickelt. Diese beiden Verfahren basieren auf der Approximation der funktionalen Zusammenhänge Xi(t) = fi (Z(t)) für i = 1, . . . , m zwischen den Werten X1(t), . . . , Xm(t) der m Finanztitel und dem Vektor Z(t) := (Z1(t), . . . , Zn(t))T mit den Werten der n verschiedenen Risikofaktoren (z. B. Marktzins, Aktienindizes, Wechselkurse oder Preisentwicklungen von Rohstoffen) zum Zeitpunkt t = T mittels eines Taylor-Polynoms ersten bzw. zweiten Grades. Dabei wird angenommen, dass die als Bewertungsfunktionen bezeichneten Funktionen fi : Rn −→ R zweimal partiell differenzierbar sind und dass der n-dimensionale Vektor Z := ⎛ ⎜ ⎝ Z1 ... Zn ⎞ ⎟ ⎠ := ⎛ ⎜ ⎝ Z1(T )− Z1(0) ... Zn(T )− Zn(0) ⎞ ⎟ ⎠ = Z(T )− Z(0) mit den Veränderungen Zi = Zi(T )− Zi(0) der n Risikofaktoren im Zeitraum [0, T ] einer n-dimensionalen Gauß-Verteilung genügt (zum Begriff der n-dimensionalen Gauß-Verteilung siehe Beispiel 21.34). Die Taylor-Approximationen ersten und zweiten Grades um den Entwicklungspunkt Z(0) lauten dann Xi(T ) = fi (Z(T )) ≈ fi (Z(0))+ grad fi(Z(0))T Z (22.48) bzw. Xi(T ) = fi (Z(T )) ≈ fi (Z(0))+ grad fi(Z(0))T Z + 1 2 ZT Hfi (Z(0)) Z (22.49) für alle i = 1, . . . , m und kleine Veränderungen Z1, . . . , Zn der n Risikofaktoren. Unter Zuhilfenahme der Verteilungsannahme für den Vektor Z lässt sich nun der Value-at-Risk des Portfolios mit der Approximation (22.48) analytisch (Delta-Normal- Methode) bzw. mit der Approximation (22.49) simulativ (Delta-Gamma-Methode) berechnen (für mehr Details siehe z. B. Albrecht-Maurer [1], Seiten 894–899 und Hull [29], Seiten 330–335). Eine weitere sehr bekannte Anwendung der Taylor-Approximation zweiten Grades ist die (heuristische) Herleitung des nach dem japanischen Mathematiker Kiyoshi Itō (1915– 2008) benannten Itō-Lemmas. Das Itō-Lemma ist eine Ver- 686 Kapitel 2222.7 Taylor-Formel und Mittelwertsatz K. Itō allgemeinerung der Kettenregel aus der Differentialrechnung für reellwertige Funktionen auf stochastische Prozesse. Es ist zum Beispiel ein wichtiges Hilfsmittel bei der Bewertung von Derivaten (für mehr Informationen siehe z. B. Hull [28] und Neftci [49]). Taylor-Formel Analog zu Funktionen in einer Variablen stellt sich auch bei der Verwendung eines Taylor-Polynoms Tm;x0 zur Approximation einer Funktion f in n Variablen in der Umgebung einer Stelle x0 unmittelbar die Frage, wie gut diese Näherung ist. Das heißt, man interessiert sich für die Größe des als mtes Restglied bezeichneten Approximationsfehlers Rm;x0 (x) := f (x)− Tm;x0 (x), der bei der Annäherung von f (x) durch Tm;x0 (x) entsteht. In der Regel ist der Approximationsfehler Rm;x0 (x) umso kleiner, je näher x beim Entwicklungspunkt x0 liegt. Der Entwicklungspunkt x0 sollte daher stets so gewählt werden, dass er möglichst nahe bei der zu approximierenden Stelle x liegt. Zur graphischen Veranschaulichung dieses Sachverhaltes siehe Abbildung 22.4. Es ist zu erkennen, dass die Approximation der Funktionswerte f (x, y) der reellwertigen Funktion f : R2 → R, (x, y) %→ f (x, y) durch die Tangentialebene t (x, y) an der Stelle (x0, y0) (d. h. durch das Taylor-Polynom ersten Grades T1;x0 ) umso besser ist, je näher (x, y) ∈ R2 am Entwicklungspunkt (x0, y0) liegt. Eine Antwort auf die Frage, wie gut das Taylor-Polynom Tm;x0 (x) den Funktionswert f (x) approximiert, gibt der folgende Satz, der nach dem britischen Mathematiker Brook Taylor (1685–1731) als Satz von Taylor in n Variablen bezeichnet wird. Satz 22.42 (Satz von Taylor in n Variablen) Es seien f : D ⊆ Rn −→ R eine (m + 1)-mal stetig partiell differenzierbare Funktion auf einer offenen und konvexen Menge D und x0, x ∈ D. Dann gilt f (x) = Tm;x0 (x)+ Rm;x0 (x) (22.50) mit dem m-ten Restglied (Lagrangesche Restgliedformel) Rm;x0 (x) := 1 (m+ 1)! n∑ i1=1 · · · n∑ im+1=1 ∂m+1f (ξ) ∂xim+1 · · · ∂xi1 × (xi1 − x(0)i1 ) · . . . · (xim+1 − x(0)im+1 ) und ξ := λx0 + (1 − λ)x für ein geeignetes λ ∈ (0, 1). Beweis: Der nicht schwere Beweis erfolgt über den Taylor- Satz für reellwertige Funktionen in einer Variablen (vgl. Satz 17.5). Für mehr Details siehe z. B. Henze-Last [24], Seiten 47–48. Sind die Beträge der im m-ten Restglied auftretenden partiellen Ableitungen auf der Menge D zusätzlich beschränkt, d. h. gibt es eine Konstante M > 0 mit ∣∣∣∣ ∂m+1f (x) ∂xim+1 · · · ∂xi1 ∣∣∣∣ ≤ M für alle x ∈ D, dann gilt wegen ( xi1 −x(0)i1 ) · . . . · ( xim+1 −x(0)im+1 ) ≤ ‖x−x0‖ · . . . · ‖x−x0‖ = ‖x−x0‖m+1 für das m-te Restglied die Abschätzung ∣∣Rm;x0 (x) ∣ ∣ ≤ Mn m+1 (m+ 1)! ‖x − x0‖ m+1 . Diese Ungleichung beschreibt die Qualität der Approximation von f durch das Taylor-Polynom Tm;x0 . Beispiel 22.43 (Anwendung der Taylor-Formel in n Variablen) Die reellwertige Funktion f : R2 −→ R, (x, y) %→ sin(x) sin(y) ist beliebig oft stetig partiell differenzierbar, wobei durch grad f (x0) = ( cos(x0) sin(y0) sin(x0) cos(y0) ) und Hf (x0) = (− sin(x0) sin(y0) cos(x0) cos(y0) cos(x0) cos(y0) − sin(x0) sin(y0) ) 687 Kapitel 22 Differentialrechnung im Rn der Gradient bzw. die Hesse-Matrix sowie durch R2;x0 (x) = 1 3! ( ∂3f (ξ) ∂x3 (x−x0)3+3∂ 3f (ξ) ∂x2∂y (x−x0)2(y−y0) + 3∂ 3f (ξ) ∂x∂y2 (x −x0)(y−y0)2+ ∂ 3f (ξ) ∂y3 (y−y0)3 ) = 1 6 ( −(x − x0)3 cos(ξ1) sin(ξ2) − 3(x − x0)2(y − y0) sin(ξ1) cos(ξ2) − 3(x − x0)(y − y0)2 cos(ξ1) sin(ξ2) − (y − y0)3 sin(ξ1) cos(ξ2) ) das zweite Restglied von f an der Stelle x0 = (x0, y0)T ∈ R 2 gegeben sind. Mit (22.47) und Satz 22.42 erhält man somit für die Funktion f um den Entwicklungspunkt x0 = (0, 0)T die Funktionsgleichung f (x)=T2;x0 (x)+ R2;x0 (x) =0 + (0, 0) ( x y ) + 1 2 (x, y) ( 0 1 1 0 )( x y ) + 1 6 ( −x3 cos(λx) sin(λy)−3x2y sin(λx) cos(λy) −3xy2 cos(λx) sin(λy)− y3 sin(λx) cos(λy) ) = xy ︸︷︷︸ =T2;x0 (x) − 16 ( ( x3 + 3xy2) cos(λx) sin(λy) + (3x2y + y3) sin(λx) cos(λy)) ︸ ︷︷ ︸ =R2;x0 (x) für ein λ ∈ (0, 1). Der Betrag des Restgliedes R2;x0 (x) lässt sich wegen | cos(λx)| ≤ 1 und | sin(λx)| ≤ 1 mit der Dreiecksungleichung (vgl. (3.4)) wie folgt abschätzen: ∣∣R2;x0 (x) ∣ ∣ ≤ 1 6 (|x|3 + 3|x||y|2 + 3|x|2|y| + |y|3) = 1 6 (|x| + |y|)3 Für kleine Werte |x| + |y| wird somit ∣∣R2;x0 (x) ∣∣ schnell sehr klein. Das heißt, für Stellen x = (x, y)T nahe beim Ursprung des R2 verhält sich die Funktion f (x, y) = sin(x) sin(y) wie das Taylor-Polynom zweiten Grades T2;x0 (x) = xy um den Entwicklungspunkt x0 = (0, 0)T (vgl. Abbildung 22.16). Mittelwertsatz in der Differentialrechnung Das nächste Resultat erhält man als unmittelbare Folgerung aus Satz 22.42 für den Spezialfall m = 0. Es handelt sich dabei um den Mittelwertsatz der Differentialrechnung im Rn, also um die Verallgemeinerung von Satz 16.28 für reellwertige Funktionen in einer Variablen auf reellwertige Funktionen in n Variablen. Folgerung 22.44 (Mittelwertsatz der Differentialrechnung in n Variablen) Es seien f : D ⊆ Rn −→ R eine partiell differenzierbare Funktion auf einer offenen und konvexen Menge D und x0, x ∈ D. Dann gibt es ein ξ := λx0 + (1 − λ)x für ein geeignetes λ ∈ (0, 1) mit der Eigenschaft f (x) = f (x0)+ grad f (ξ)T (x − x0). Beweis: Folgt aus Satz 22.42 für m = 0. Der Mittelwertsatz der Differentialrechnung für reellwertige Funktionen in n Variablen ist wie sein eindimensionales Analogon (vgl. Satz 16.28) ein wichtiges Hilfsmittel der Differential- und Integralrechnung. Zusammenhang zwischen Krümmung und Hesse-Matrix In Abschnitt 16.7 wurde nachgewiesen, dass bei reellwertigen zweimal differenzierbaren Funktionen in einer Variablen mit Hilfe des Vorzeichens der zweiten Ableitung sehr bequem auf eventuell vorhandene Konvexität oder Konkavität geschlossen werden kann. Wie der folgende Satz zeigt, gilt dies auch für reellwertige zweimal stetig partiell differenzierbare Funktionen f : D ⊆ Rn −→ R in n Variablen. Dabei tritt jedoch an die Stelle des Vorzeichens der zweiten Ableitung nun die Definitheitseigenschaft der Hesse-Matrix Hf (x). Satz 22.45 (Zusammenhang Krümmung und Hesse-Matrix) Es sei f : D ⊆ Rn −→ R eine zweimal stetig partiell differenzierbare Funktion auf einer offenen und konvexen MengeD und Hf (x) die Hesse-Matrix von f an der Stelle x ∈ D. Dann gilt: 688 Kapitel 2222.7 Taylor-Formel und Mittelwertsatz Abb. 22.16: Reellwertige Funktion f : R2 −→ R, (x, y) %→ sin(x) sin(y) mit ihrem Taylor-Polynom zweiten Grades T2;x0 (x) = xy um den Entwicklungspunkt x0 = (0, 0)T a) Hf (x) positiv semidefinit für alle x ∈ D ⇐⇒ f ist konvex b) Hf (x) negativ semidefinit für alle x ∈ D ⇐⇒ f ist konkav c) Hf (x) positiv definit für alle x ∈ D ⇒ f ist streng konvex d) Hf (x) negativ definit für alle x ∈ D ⇒ f ist streng konkav Beweis: Der Beweis der Aussagen a) und c) erfolgt mit dem Satz von Taylor für reellwertige Funktionen in n Variablen (vgl. z. B. Jungnickel [31], Seiten 91–92). Die Aussagen b) und d) folgen unmittelbar aus a) und c), denn eine Funktion f : D ⊆ Rn −→ R ist genau dann (streng) konkav, wenn −f (streng) konvex ist und die Hesse-Matrix H−f (x) = −Hf (x) ist genau dann positiv semidefinit (positiv definit), wenn Hf (x) negativ semidefinit (negativ definit) ist. Bei der Anwendung von Satz 22.45c) und d) ist zu beachten, dass bei strenger Konvexität und strenger Konkavität nur eine Richtung gilt. Die positive und negative Definitheit der Hesse-Matrix Hf (x) ist für die strenge Konvexität bzw. die strenge Konkavität von f lediglich eine hinreichende Bedingung. Aus strenger Konvexität bzw. strenger Konkavität von f folgt im Allgemeinen nur, dass f positiv semidefinit bzw. negativ semidefinit ist. Dies wird bereits im Fall n = 1 deutlich, wenn man die streng konvexe Funktion f : R −→ R, x %→ x4 betrachtet. Für dies gilt: grad f (x) = f ′(x) = 4x3 und Hf (x) = f ′′(x) = 12x2. Das heißt, für x = 0 ist Hf (0) = 0 tatsächlich nur positiv semidefinit. Die positive 689 Kapitel 22 Differentialrechnung im Rn und negative Semidefinitheit der Hesse-Matrix Hf (x) ist dagegen eine notwendige und hinreichende Bedingung für die Konvexität bzw. die Konkavität der Funktion f . Beispiel 22.46 (Krümmungsverhalten und Hesse-Matrix) a) In Beispiel 21.39 wurde nachgewiesen, dass das Polynom p : R2 −→ R, (x, y) %→ x2 + y2 streng konvex ist. Dasselbe Ergebnis, aber mit deutlich weniger Rechenaufwand, erhält man mit Satz 22.45. Die Hesse-Matrix von p ist gegeben durch Hp(x, y) = ( 2 0 0 2 ) . Da diese Diagonalmatrix auf der Hauptdiagonalen nur positive Einträge besitzt, ist sie positiv definit (vgl. Satz 10.32). Mit Satz 22.45c) folgt daher, dass das Polynom p streng konvex ist. b) Das Polynom p : R3 −→ R, (x, y, z) %→ −x4 + 2x − 2y4 − 3y2 + 3y − 3z2 besitzt die Hesse-Matrix Hp(x, y, z) = ⎛ ⎝ −12x2 0 0 0 −24y2 − 6 0 0 0 −6 ⎞ ⎠ . Die Hauptdiagonaleinträge dieser Diagonalmatrix sind für alle (x, y, z) ∈ R3 nicht positiv. Folglich ist die Hesse-Matrix Hp(x, y, z) nach Satz 10.32 negativ semidefinit und mit Satz 22.45b) erhält man daher, dass das Polynom p konkav ist. 690

Chapter Preview

References

Zusammenfassung

"uneingeschränkt zu empfehlen, [...] insbesondere als Einstiegslektüre im Bachelor-Studium". In: Studium, 2013.

So zentral die Rolle der Mathematik in der Ökonomie ist, so schwer tun sich die Studierenden mit mathematischen Methoden und Konzepten. Umso wichtiger ist es, die Studierenden bei ihrem aktuellen Wissensstand abzuholen und vorsichtig an den Stoff heranzuführen. Diesem Ziel verschreibt sich dieses Lehrbuch. Es führt mit vielen interessanten Beispielen aus der Ökonomie, kurzen Anekdoten und einem modernen mehrfarbigen Design in die zentralen mathematischen Methoden für ein erfolgreiches Wirtschaftsstudium ein, ohne dabei auf mathematische Klarheit sowie die notwendige Formalität und Stringenz zu verzichten. Auch nach dem Studium ist dieses Buch ein wertvoller Begleiter bei der mathematischen Lösung wirtschaftswissenschaftlicher Problemstellungen.

Aus dem Inhalt:

* Mathematische Grundlagen

* Lineare Algebra

* Matrizentheorie

* Folgen und Reihen

* Reellwertige Funktionen in einer und mehreren Variablen

* Differential- und Integralrechnung

* Optimierung mit und ohne Nebenbedingungen

* Numerische Verfahren

Dozenten finden auf der Website zum Buch unter www.vahlen.de zusätzliche Materialien zum Download.

"Indem Sie den Lehrstoff schrittweise aufbereiten und den Leser bei seinem aktuellen Wissenstand abholen, gelingt es ihnen [den Autoren], auch komplexe Zusammenhänge leicht nachvollziehbar zu vermitteln. Geschickt bauen sie immer wieder kurze Anekdoten, historische Ereignisse und überraschende Erkenntnisse in den Text ein". In: Studium, 2013.

Prof. Dr. Michael Merz ist Inhaber des Lehrstuhls für Mathematik und Statistik in den Wirtschaftswissenschaften an der Universität Hamburg. Prof. Dr. Mario V. Wüthrich forscht und lehrt am Department für Mathematik der ETH Zürich.