Content

Tara A. E. Ebert, Sascha Raithel, Leitfaden zur Messung von Konstrukten in:

Manfred Schwaiger, Anton Meyer (Ed.)

Theorien und Methoden der Betriebswirtschaft, page 503 - 532

Handbuch für Wissenschaftler und Studierende

1. Edition 2009, ISBN print: 978-3-8006-3613-6, ISBN online: 978-3-8006-4437-7, https://doi.org/10.15358/9783800644377_503

Bibliographic information
Tara A. E. Ebert / Sascha Raithel Leitfaden zur Messung von Konstrukten Zusammenfassung Der vorliegende Beitrag gibt einen ausführlichen forschungs und praxisrelevanten Einblick in die reflektive und formative Messung (Operationalisierung) von latenten und somit nicht beobachtbaren Variablen. Generelle Anforderungen an Messverfahren und deren Gütebeurtei lungen (Reliabilität und Validität) werden erläutert. Ziel des Beitrags ist es, eine klare Hand lungsempfehlung für die Identifikation oder Entwicklung einer geeigneten (formativen oder reflektiven sowie ein oder multi dimensionalen) Messung von den zu interessierenden Kon strukten zu vermitteln. Ein besseres Verständnis einer adäquaten Messung soll helfen, mögliche Fehlspezifikationen zu vermeiden und Modellergebnisse zu verbessern. Für die Ermittlung der jeweiligen Gütekriterien werden Berechnungsvorschriften, empfohlene Schwellenwerte sowie die dafür benötigten Softwareprogramme angegeben. Dr. Tara A. E. Ebert, MBR, promovierte am Institut für Marktorientierte Unternehmens führung an der Ludwig Maximilians Universität München und arbeitet im Bereich Business Process Management bei der Hartmann Gruppe. Dipl. Kfm. Sascha Raithel, MBR, ist wissenschaftlicher Mitarbeiter und Doktorand am Insti tut für Marktorientierte Unternehmensführung an der Ludwig Maximilians Universität Mün chen und Consultant bei Pepper. Inhaltsverzeichnis 1 Messung als Herausforderung in der empirischen Forschung . . . . . . . . . . . . . . . . . . . 513 2 Generelle Anforderungen an Messverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 3 Grundlegende Spezifikationsarten und deren Gütebeurteilung . . . . . . . . . . . . . . . . . . 515 3.1 Konzeptionelle Unterschiede zwischen reflektiven und formativen Messmodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516 3.2 Die reflektive Spezifikation eines Konstruktes und das Paradigma von Churchill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 3.3 Die formative Spezifikation und deren Validierung . . . . . . . . . . . . . . . . . . . . . . 522 3.4 Die Wahl der geeigneten Spezifikationsart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526 4 Die C OAR SE Prozedur und die Bedeutung der Inhaltsvalidität . . . . . . . . . . . . . . . 528 5 Mehrdimensionalität von Konstrukten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 531 6 Einige Anwendungsempfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 512 Tara A. E. Ebert / Sascha Raithel Abbildungsverzeichnis Abbildung 1: Systematik reflektiver und formativer Messmodelle . . . . . . . . . . . . . . . . . . . 517 Abbildung 2: Grundlegender Unterschied zwischen den reflektiven und formativen Messphilosophien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 Abbildung 3: Churchill’s Prozedur für die Skalenentwicklung von Konstrukten . . . . . . . 519 Abbildung 4: Rossiter’s C OAR SE Prozedur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529 Abbildung 5: Objekt und Attributklassifikationsschema in C OAR SE . . . . . . . . . . . . . . 530 Abbildung 6: Higher Order Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532 Abbildung 7: Wesentliche Schritte für die Identifikation des geeigneten Messinstrumentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535 Tabellenverzeichnis Tabelle 1: Gütekriterien zur Beurteilung reflektiv spezifizierter Konstrukte . . . . . . . . . . . . 521 Tabelle 2: Gütekriterien zur Beurteilung formativ spezifizierter Konstrukte . . . . . . . . . . . 525 Tabelle 3: Theoretische und empirische Gesichtspunkte der Entscheidung für eine reflektive oder formative Messung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 Leitfaden zur Messung von Konstrukten 513 1 Messung als Herausforderung in der empirischen Forschung Wenn das Verhalten oder psychologische Zustände von Personen von Interesse sind, wie bei spielsweise im Behavioral Finance oder dem Marketing, kommen schnell Größen ins Spiel, die sich einer direkten Messung entziehen. Um Kaufverhalten zu erklären, spielen neben vielen anderen Größen beispielsweise das Alter und Involvement eine Rolle. Während aber das Alter des Konsumenten über sehr einfache Methoden wie das direkte Erfragen oder das Zeigen des Personalausweises erhoben werden kann, ist Involvement nicht durch eine einzelne, auf der Hand liegende Frage vollständig messbar. Involvement ist ein Hilfskonstrukt innerhalb derMar ketingtheorien, um den Grad der Ich Beteiligung bei einer Kaufentscheidung zu beschreiben. Solche sich aus psychologischen und soziologischen Fragestellungen ergebende Größen, die von einer außenstehenden Person nicht direkt und auch nicht mittels einfacher Apparaturen, wie beispielsweise Thermometer, Meterband etc. erhoben werden können, werden latente Variablen oder Konstrukte genannt. Die Frage ist nun, ob nicht andere, direkt beobachtbare Variablen existieren, die diese Konstrukte messbar machen. Die Voraussetzung hierfür ist, dass diese Variablen in einem engen Wirkungszusammenhang mit dem Konstrukt stehen. Bei solchen beobachtbaren Variablen wird von manifesten Variablen oder Indikatoren gesprochen. So hat sich beispielsweise gezeigt, dass die einfach zu beantwortende Frage „Stellt ein möglicher Fehl kauf ein hohes finanzielles Risiko für Sie dar?“ u.a. ein geeigneter Indikator zur Messung von Involvement in einer Kaufsituation ist. Die Schwierigkeit ist die Identifizierung dieser Indika toren und insbesondere die Ermittlung der Richtung des Wirkungszusammenhangs zwischen Indikator und Konstrukt. Seit Jahrzehnten ist dies in der empirischen Forschung eine Heraus forderung. Es gibt viele Leitfäden und Vorgehensweisen, doch wurde (und wird) hier häufig noch einiges falsch gemacht (vgl. J . 2003; F 2006). Das Ziel dieses Beitrags ist es, einen Überblick über diejenigen Schritte zu geben, die wesentlich bei der Entwicklung und Anwendung eines geeigneten Messinstrumentariums (Operationalisierung) sind. Der Beitrag soll helfen Fragen zu beantworten, die im Rahmen einer Fragebogenerstellung und Auswertung berücksichtigt werden müssen: Wie komme ich zu den Fragen (Items) im Fragebogen? Welche Fragen sollen ausgewählt werden? Wie viele Fragen sollen ausgewählt werden? Wie soll die Be ziehung zwischen Fragen und Konstrukten modelliert werden? Wie gut ist das Messmodell? 2 Generelle Anforderungen an Messverfahren Das Ziel, eine möglichst fehlerfreie Messung eines interessierenden Sachverhalts zu erhalten, ist an drei zentrale Kriterien geknüpft (vgl. bspw. H /E 2000, S. 92ff.):1 Daneben existieren noch einige Nebenkriterien (vgl. bspw. H /E 2000, S. 93) wie Normierung der Messergebnisse (eine Eichung soll helfen, Messergebnisse vergleichbar zu machen), Forschungspragmatismus (Kosten Nutzen Relation desMessaufwandes) sowie Praktikabilität (Anwendbarkeit desMessinstruments auf die konkrete Fragestellung). Darüber hinaus wird insbesondere in der Psychologie die Generalisierbarkeit vonMessergebnissen diskutiert (vgl. zur sogenanntenG Theorie z.B. F 2004, S. 57f.). Die Generalisierbarkeit (man spricht auch von externer Validität) ist eng an die Reliabilität geknüpft und versucht mehrereMessfehlerquellen einer Studie (z.B. Probanden, Zeit, Items) zu analysieren, indem diese Messfehlerquellen (Facetten) der Studie als Faktoren in einer Varianzanalyse Berücksichtigung finden. F /K (2005) haben diese Sicht in die Betriebswirtschaftslehre, speziell in das Marketing, eingeführt. 514 Tara A. E. Ebert / Sascha Raithel Objektivität (Unabhängigkeit) Reliabilität (Zuverlässigkeit) Validität (Gültigkeit) Objektivität bedeutet, dass der Wissenschaftler während aller Phasen des Forschungsprozesses (Planung, Durchführung, Auswertung und Interpretation) die Neutralität wahren muss und (personenunabhängig) eine andere Forschergruppe unter den gleichen Rahmenbedingungen zu den gleichen Messergebnissen kommen würde (vgl. B . 2004, S. 88). Objektivität vorausgesetzt, ist trotzdem prinzipiell jede Messung fehlerbehaftet, wobei der Feh ler zufälliger (eine Messung wäre nicht reliabel) oder systematischer (eine Messung wäre dann nicht valide) Natur sein kann und somit die Replizierbarkeit und Korrektheit von Ergebnissen davon negativ beeinflusst ist. Dies sei an einem einfachen Beispiel erläutert: Als es noch keine elektronische Zeitmessung gab, wurden die Zeiten der Läufer bei einem 100 Meter Lauf in der Leichtathletik mit Hilfe von Handstoppuhren ermittelt, die von Kampfrichtern bedient wurden. Da aber der Mensch das Gehörte (Startschuss) und Gesehene (Zieldurchlauf) nur verzögert wahrnimmt und die Reaktionszeiten zudem individuell unterschiedlich sind, ist eine solche Handstoppung relativ ungenau. Man versuchte dieses Problem der unterschiedlichen Re aktionszeiten zu umgehen, indem man drei Kampfrichter einsetzte und eine „mittlere“ Zielzeit ermittelte. Die dahinter stehende Annahme, dass der Mittelwert einer wiederholten Messung die individuell unterschiedlichen Reaktionszeiten „ausgleicht“ und somit näher am wahrenWert liegt, ist eine Grundannahme der klassischen Testtheorie (vgl. N 1978). Die Abwei chung jeder Einzelmessung vom gemeinsamen Mittelwert bezeichnet man als Zufallsfehler. Eine Messung kann dann als zuverlässig verstanden werden, wenn wiederholte Messungen des gleichen Sachverhaltes zu identischen Ergebnissen kommen. Man spricht dann von einer reli ablen Messung, wenn sie ein hohes Maß an Präzision und Stabilität aufweist. Diese Reliabilität ist die zweite zentrale Anforderung an eine Messvorschrift. Gleichzeitig kann eineMessung systematisch in eine bestimmte Richtung verzerrt sein. So führt die Tatsache, dass der Knall der Startpistole des Kampfrichters, der an der Startlinie postiert ist, erst mit einiger Verzögerung bei den Kampfrichtern an der Ziellinie ankommt dazu, dass in allen Fällen die handgestoppte Zeit etwas zu lang ist.2 Die Kampfrichter messen somit mit ihrer Handstoppuhr genau genommen nicht die tatsächliche Zeit des Läufers, sondern eine um die Schalllaufdauer des Startschusses erhöhte Zielzeit. Wenn man durch Installation eines elektronischen Lautsprechers bei den Zielrichtern diese Schalllaufdauer eliminiert, also den systematischen Fehler minimiert, so kann man annehmen, dass tatsächlich das, was gemessen werden soll, auch gemessen wird. Man spricht dann davon, dass eine Messung gültig oder valide ist. Validität ist die dritte zentrale Anforderung an eineMessvorschrift. Dabei unterscheidet man eine ganze Reihe von Arten der Validität (vgl. S 2007, S. 342). Es können grundsätz lich drei „Problemfelder“ der Validität unterschieden werden (vgl. N 1978, S. 111): Dimensionierungsproblem Abhängigkeitsproblem Generalisierungsproblem Das Dimensionierungsproblem der Validität beschäftigt sich mit der Inhaltsvalidität (Messin dikatoren gehören zum inhaltlich semantischen Bereich des Kontruktes; vgl. C 1991, S. 490; B 1970, S. 92), der Konstruktvalidität (theoretisch zusammmenhängende 2 Tatsächlich reagierten die Kampfrichter i.d.R. auf das Erscheinen des Rauches nach dem Startschuss. Leitfaden zur Messung von Konstrukten 515 Messindikatoren korrelieren nach Richtung und Ausmaß zufriedenstellend miteinander) und der Kriteriumsvalidität (Messindikatoren korrelieren mit einem geeigneten externen Kriterium zufriedenstellend). Die Kriteriumsvalidität wird häufig in Zusammenhang mit der Konvergenz validität (Messindikatoren, die dasselbe Konstrukt messen, aber unterschiedlich konstruiert wurden, liefern vergleichbare Ergebnisse; vgl. B /P 1982, S. 469) und Diskri minanzvalidität (Messindikatoren, die unterschiedliche Konstrukte messen, korrelieren wenig miteinander; vgl. B /P 1982, S. 469) diskutiert. Das Abhängigkeitsproblemmeint die interne Validität: Variation der abhängigen Variablen, also der „Messanzeige“, ist auf eine Manipulation der unabhängigen Variablen, also des zu messenden Sachverhaltes zurückzufüh ren (vgl. B 1989, S. 190). Beim Generalisierungsproblem beschäftigt man sich mit der externen Validität: Das Messinstrumentarium kann auf andere Personen, Populationen und in andere Kontexte übertragen werden. Dabei ist man häufig mit dem Problem konfrontiert, dass eine maximale Kontrolle der internen Validität zu immer realitätsferneren Messsituationen führt, was zu Lasten der externen Validität geht (vgl. C /S 1966, S. 5f.). Des wegen bezeichnet man die Beziehung zwischen interner und externer Validität auch häufig als asymmetrisch. Historisch sind für die Beurteilung der Güte einer Messung, neben anderen, drei klassische Methoden zu nennen (vgl. bspw. S . 1999, S. 145ff.), die sich auf die Überprüfung der Reliabilität fokussieren: Test Retest Methode, Paralleltestmethode und Überprüfung der internen Konsistenz. Während die angenommene zeitliche Stabilität einer Messung (Anwen dung des gleichen Messinstruments zu verschiedenen Zeitpunkten im Rahmen der Test Retest Methode) beziehungsweise die Vergleichbarkeit zweier verschiedener Messungen zum gleichen Zeitpunkt (Anwendung zweier vergleichbarer Messinstrumente im Rahmen der Paralleltest methode) aufgrund ihrer zweifelhaften Annahmen (z.B. zeitliche Stabilität des wahren Wertes) beziehungsweise der Nicht Existenz wirklich paralleler Tests in der Praxis wenig Bedeutung haben, spielt die Überprüfung der internen Konsistenz eines bestimmtenMessinstrumentariums ein große Rolle. Dabei wird beispielsweise im Rahmen einer Befragung der gleiche Sachverhalt über mehrere Fragen (Indikatoren oder Items) erfasst, wobei jedes Item als unabhängige Mess wiederholung des gleichen Sachverhalts aufgefasst werden kann. So fragt man beispielsweise Loyalität in der Regel nicht mit einer Frage („Sind Sie loyal zuMarke X?“) sondern stellt mehrere Fragen (z.B. „Würden Sie Marke X in Zukunft wieder kaufen?“, „Würden Sie Marke X Ihren Freunden weiterempfehlen?“, „Würden Sie Marke X weiter verwenden, auch wenn der Preis um 20% steigt?“). Messen diese Items dieselbe Dimension (hier: Loyalität), ist die Messung „intern konsistent“. Diese Überlegung der klassischen Testtheorie ist die Grundlage für die Operationa lisierung (Messbarmachung) komplexer Konstrukte wie beispielsweise Loyalität, Zufriedenheit oder Involvement mit Hilfe mehrerer Fragen. In diesem Zusammenhang wurde in der Folge aber auch Kritik an den Annahmen der klassischen Testtheorie laut – insbesondere deren häufig singulärer Fokus auf die interne Konsistenz (und das Cronbachsche α als zentrale Kennzahl) unter Vernachlässigung der verschiedenen Validitätsarten –, was zur Entwicklung weiterer Me thoden und Leitfäden geführt hat, die sich wesentlich differenzierter mit der Gütebeurteilung von Messmodellen auseinandersetzen und im Folgenden diskutiert werden. 3 Grundlegende Spezifikationsarten und deren Güte beurteilung Im Mittelpunkt der Diskussion (vgl. bspw. D /W 2001; J . 2003) über die richtige und optimale Messung latenter Variablen wie beispielsweise Zufrie 516 Tara A. E. Ebert / Sascha Raithel denheit, Involvement oder Loyalität steht die korrekte Spezifikation der Beziehung zwischen den gemessenen (manifesten) Variablen (bzw. Indikatoren) und den zugehörigen latenten Variablen (Konstrukten). Dabei können grundsätzlich zwei fundamental verschiedene Ansätze in Fra ge kommen (vgl. bspw. B /L 1991; F /B 1982): Die Indikatoren spiegeln („reflektieren“) die Ausprägung des Konstruktes wider und werden als Folge desselben betrachtet oder die Indikatoren sind dem Konstrukt verursachend vorgelagert und „formieren“ dieses.3 3.1 Konzeptionelle Unterschiede zwischen reflektiven und formativen Messmodellen Ausgehend von der klassischen Testtheorie (vgl. N 1978) wird das Ergebnis einer Mes sung XO (observed score) definiert als Funktion des wahren Wertes XT (true score) und einem Fehlerterm XE (error term), der nach zufälligem und systematischen Einflüssen unterschieden werden kann (vgl. N 1978; C 1979; B /S 2006 dis kutieren das Messfehlerproblem sehr ausführlich). Dieser Ansatz wird auch als Faktormodell bezeichnet: (1) XO = XT + XE ⇒ "!#!x x )(f (Faktormodell) In diesem Modell wird jeder Indikator x als Effekt des zugrunde liegenden, reflektiv spezifi zierten Konstruktes ξ betrachtet, von diesem also verursacht und folglich als reflektiver In dikator bezeichnet. Die Matrix Λx beinhaltet die einzelnen Gewichte λi, die die Stärke der Beziehung zwischen latenter und manifester Variable repräsentieren. Der Term δ repräsentiert den Messfehler in dieser Beziehung. Man spricht bei diesem Modell auch von einer Skala. Dieses Modell wird häufig als „conventional wisdom onmeasurement“ bezeichnet (vgl. B / L 1991), da diese Spezifikation von Messmodellen ausgehend von C ’s (1979) grundlegendem Artikel zum Domain Sampling Modell sowie der weitverbreiteten Anwendung der Kovarianzstruktuanalyse (vgl. in diesem Herausgeberband, R ) bis in die 1990er Jahre das Standardmodell war (vgl. D /W 2001, S. 269; J . 2003, S. 199). Alternativ kann ein Konstrukt η durch formative Indikatoren x gemessen werden, die Ursachen des Konstruktes sind (vgl. B 1989, S. 65). In diesem Modell, das man auch als Index bezeichnet, wird der wahre Wert XT betrachtet als Funktion des beobachteten Wertes XO und eines Fehlerterms XE. Somit erhält man ein einfaches Regressionsmodell mit der Matrix Γx, die die Gewichte γi enthält: (2) XT = XO + XE ⇒ "x#x! xf )( (Regressionsmodell) In der Literatur finden sich für den ersten Fall die Begriffe „reflective indicators“ (vgl. bspw. F / B 1982) oder „effect indicatores“ (vgl. B /L 1991) bzw. im deutschen Sprachraum „reflektive“ (vgl. bspw. K . 2005), „reflexive“ (vgl. bspw. S /B 2006) oder auch „reflektierende“ (vgl. bspw. T 2006) Indikatoren. Hier soll die gebräuchlichste Bezeichnung „reflektive“ Indikatoren Verwendung finden. Für den zweiten Fall sind im Englischen die Bezeichnungen „formative indicators“ (vgl. bspw. F /B 1982), „causal indicators“ (vgl. bspw. B / L 1991), „cause indicators“ (vgl. bspw. B 1964) oder „composite model“ (vgl. bspw. J . 2003, S. 200) gebräuchlich. Hier soll die allgemein übliche deutsche Bezeichnung „formative“ Indikatoren Anwendung finden (vgl. bspw. T 2006, S. 193). Leitfaden zur Messung von Konstrukten 517 In diesem Modell repräsentiert der Fehlerterm ζ „all remaining causes of T other than O“ (vgl. F . 1991, S. 317), ist nicht assoziiert mit den beobachteten Variablen und somit kein Messfehler im eigentlichen Sinne (vgl. E /B 2000, S. 162). Die einzelnen Indikatoren können weiterhin mit Messfehlern im klassischen Sinn behaftet sein (vgl. D 2006, S. 9f.). In Abbildung 1 sind die beiden Messmodelle in ihrer Systematik noch einmal im Überblick dargestellt. Beide Ansätze versuchen die sogenannte Domäne, den Bedeutungsbereich eines Konstruktes, möglichst gut zu erklären. Folgendes Zitat soll den fundamentalen Unterschied beider Modelle zum Ausdruck bringen (vgl. D /W 2001, S. 271 sowie Abbildung 2): „Whereas reflective indicators are essentially interchangeable (and therefore the removal of an item does not change the essential nature of the underlying construct), with formative indicators, ‘omitting an indicator is omitting a part of the construct’.” Im reflektiven Fall ändern sich annahmegemäß alle Indikatoren simultan in die gleiche Rich tung, wenn sich das dahinter stehende Konstrukt ändert. Im Gegensatz dazu bewirkt im forma tiven Fall eine Änderung nur eines der Indikatoren eine Änderung des Konstruktes, wobei dies nicht notwendigerweise mit Änderungen in den anderen Indikatoren kovariieren muss. Dabei will der formative Messansatz die „Überlappung“ (Multikollinearität) zwischen sich „ergän zenden“ Indikatoren minimieren und das Bestimmungsmaß R der Regressionsgleichung, also den Erklärungsanteil am Konstrukt, maximieren. Demgegenüber ist beim reflektiven Ansatz die Überlappung (also die Korrelation) zwischen prinzipiell untereinander austauschbaren Indika toren zu maximieren und somit der den Indikatoren anhaftende Fehler zu minimieren. % '1 '2 '3 r12 r23 x1 x2 x3 x1 x2 x3 $1 $2 $3 Reflektives Messmodell Formatives Messmodell " „reflektives“ Konstrukt xi Indikator i !i Fehler des Indikators i % „formatives“ Konstrukt rij Kovarianz der Indikatoren i und j $i Faktorladung des Indikators i & Fehler des Konstrukts #! Kovarianzmatrix der Fehler 'i Gewicht des Indikators i " !3!2!1 r13 #! & Abbildung 1: Systematik reflektiver und formativer Messmodelle 518 Tara A. E. Ebert / Sascha Raithel 3.2 Die reflektive Spezifikation eines Konstruktes und das Paradigma von Churchill C (1979) setzte sich intensiv mit dem Problem der Operationalisierung latenter Varia blen auseinander und entwickelte als erster einen Leitfaden (vgl. Abbildung 3), der dem Forscher helfen soll, eine reliable und valide Messvorschrift (Skala) entwickeln zu können, deren „[…] final set of items [indicators] capture or reflect the underlying constructs as fully as possible […] and not some other, similar but distinct [one]” (vgl. L /H 2005, S. 368). Dabei stütze er sich auf die Methoden der klassischen Testtheorie (vgl. N 1978) und entwickelte einige Kriterien, um die Reliabilität und Validität einer reflektiven Konstruktmessung überprü fen zu können. H /G (1996) griffen dies auf und erweiterten diese Prozedur um die Anwendung der konfirmatorischen Faktorenanalyse als statistische Methode der zweiten Generation, die eine Teildisziplin der Kovarianzstrukturanalyse darstellt. Grundlegend in Churchill’s Ansatz ist die Spezifikation der Konstruktdomäne (“the researcher must be exact in delineating what is included in the definition and what is excluded”; vgl. C 1979, S. 67), das Sammeln einer großen Anzahl von Items (also konkreten Fragen) und die Skalenbereinigung, bei der alle Indikatoren, die nicht die erforderlichen Gütekriterien für ein (reflektives) Messmodell erfüllen, zu eliminieren sind. Reliabilität bedeutet dabei, dass ein Indikator dann eine reliable Messung des zugehörigen Faktors darstellt, wenn ein Großteil der Varianz dieses Indikators durch seine Beziehung zu diesem Faktor erklärt werden kann (vgl. P 1979, S. 7; P /C 1986, S. 4). Darüber hinaus zeichnet sich der Validitätsbegriff, wie bereits beschrieben, durch einen großen Facettenreichtum aus, wobei für die Beurteilung eines reflektiven Messmodells konkret vier Validitätsarten von Bedeutung sind (vgl. H 2000, S. 74f.; H /G 1996, S. 7f.): Konstruktdomäne Der formativeMessansatz will die Überlappung zwischen den Indikatoren minimieren Der reflektiveMessansatz will die Überlappung zwischen den Indikatoren maximieren Konstruktdomäne Abbildung 2: Grundlegender Unterschied zwischen den reflektiven und formativen Messphilosophien Leitfaden zur Messung von Konstrukten 519 Konvergenzvalidität, Diskriminanzvalidität, Inhaltsvalidität sowie die nomologische Validität. Die nomologische Validität meint dabei, dass das zu messende Konstrukt in einen übergeord neten theoretischen Rahmen eingebettet werden kann und in diesem theoretisch postulierte Zusammenhänge mit anderen Konstrukten empirisch bestätigt werden können (vgl. B 1979, S. 24; H 2000, S. 75). Gelingt der Nachweis dieser Validitätsarten, so spricht man davon, dass das Konstrukt als solches valide ist, also Konstruktvalidität unterstellt werden kann (vgl. H 1998, S. 91ff.). Rein quantitative Kriterien zur Bestimmung der Reliabilität sowie der Konvergenz und Diskri minanzvalidität liefern die statistischen Gütekriterien der ersten und zweiten Generation (vgl. H /G 1996, S. 8ff.). Zu den Ansätzen der ersten Generation sind konkret die explorative Faktorenanalyse, das Cronbachsche α und die Item to Total Korrelation zu zählen. Die explorative Faktorenanalyse (vgl. in diesem Herausgeberband, R ), die keine Hypothese hinsichtlich der Faktorenstruktur a priori formuliert, eignet sich dazu, bereits erste Aussagen bezüglich der Konvergenz und Diskriminanzvalidität zu treffen, wobei diese als gege ben angesehen werden kann, wenn die Faktorladungen mindestens 0,4 betragen, da dann ein In dikator einem Faktor eindeutig zuordenbar ist, und der Faktor mindestens 50% der Varianz der zugehörigen Indikatoren erklärt (vgl. H /G 1996, S. 8f.). Dabei sollten nur solche Faktoren extrahiert werden, deren Eigenwert größer 1 ist, da nur solche Faktoren mehr Varianz als ein einzelner Indikator erklären. Das Cronbachsche α stellt den am häufigsten angewandten J B"2&5;2054208"0K J -*6&52&I:&%5;$0I$ J (2"K0M"&5&I8& 3&"46"&M& J 15"2"9;M EI9"8&I2>A&2#78& J +7!04$5066&I (6&F"L!;2"7I 8&5 D7I4250!287KCI& 1 (;KKM0I$ 8&5 EI8"!;275&I 2 -5#&:0I$ .7I /;2&I 3 (!;M&I:&5&"I"$0I$ 4 -5#&:0I$ .7I /;2&I 5 3&,&520I$ 8&5 )&M";:"M"2C2 6 3&,&520I$ 8&5 ';M"8"2C2 7 -I2,"9!M0I$ .7I @75K&I 8 J -*6M75;2".& +;!275&I;I;MG4& H157I:;9#=49#&4 !) J D7IL5K;275"49#& +;!275&I;I;MG4& J 157I:;9#=49#&4 ! J (6M"2 #;M%>)&M";:"M"2C2 J A0M2"25;"2>A0M2"K&2#78>A;25"* J D7I.&5$&IF>? /"4!5"K"I;IF>? D5"2&5"0K4> 0I8 I7K7M7$"49#& ';M"8"2C2 J A"22&M,&52& 0I8 ;I8&5& (2;2"42"!&I? 8"& 8"& A&44&5$&:I"44& 8;542&MM&I<.&5K"22&MI Abbildung 3: Churchill’s Prozedur für die Skalenentwicklung von Konstrukten [churchill 1979, S. 66] 520 Tara A. E. Ebert / Sascha Raithel Reliabilitätskoeffizienten dar (vgl. bspw. die Meta Analyse von P 1994). Die Idee dieses Koeffizienten lautet wie folgt: Wenn man die einem Faktor zugeordneten Items (Indikatoren), die unterschiedliche Varianzen haben können, auf alle möglichen Arten in zwei Hälften teilt, anschließend die Summen der resultierenden Variablenhälften miteinander korreliert und dann denMittelwert aller dieser sogenannten Split Half Koeffizienten errechnet, erhält man ein Maß für die interne Konsistenz der Skala, die unabhängig vom gewählten Split ist.4 Dieses auch als Coefficient α bezeichnete Gütemaß ist wie folgt definiert (vgl. C 1951): (3) 2 1 211 ! k ii t k k # ! " % & # $" $ # $$ ! " ' σi2 ist dabei die Varianz des i ten Indikators (i = 1, 2, ..., k) und σt2 die Varianz der Summe der k Items.5 Der theoretische Optimalwert beträgt 1, wobei in der Literatur eine Untergrenze von 0,7 empfohlen wird (vgl. N 1978, S. 245). Dieses Anpassungsmaß ist allerdings mit einer Reihe von Nachteilen behaftet (vgl. H /G 1996, S. 8f.): Die Höhe von α ist positiv mit der Anzahl der Items (k) korreliert. Eine inferenzstatistische Beurteilung des Koeffizienten ist nicht möglich. Es wird unterstellt, dass alle Indikatoren eines Faktors die gleiche Reliabilität aufweisen und lediglich unterschiedlich große Messfehler haben dürfen (Tau Äquivalenz). Ein hoher α Wert kann nicht ohne weiteres als Maß für die Eindimensionalität einer Skala verstanden werden (vgl. Abschnitt 5). Das dritte Kriterium der ersten Generation, die (Corrected) Item to Total Korrelation, auch als Trennschärfekoeffizient bezeichnet, ist gleich dem Korrelationskoeffizienten eines Items mit der Summe der Skalenwerte der restlichen Items. Danach sollte jeweils derjenige Indikator eliminiert werden, der die niedrigste Item to Total Korrelation aufweist, solange bestimmte Globalkriterien (insb. Cronbachsches α ≥ 0,7) nicht erfüllt sind (vgl. C 1979, S. 68). Aufgrund der Nachteile dieser Gütekriterien der ersten Generation (i.d.R. keine Berücksich tigung von Messfehlereinflüssen, Kriterien basieren ausschließlich auf Faustregeln, keine in ferenzstatistische Gütebeurteilung), muss dem Einsatz der Kovarianzstrukturanalyse, speziell der konfirmatorischen Faktorenanalyse im Rahmen der Skalenkonstruktion und den daraus abgeleiteten Gütekriterien der zweiten Generation der Vorzug eingeräumt werden. Die Kriterien der ersten Generation sollten nur als ergänzende Informationsquellen herangezogen werden. Die konfirmatorische Faktorenanalyse ist hinsichtlich der Identifizierung eines reliablen und validen Messinstrumentariums für ein hypothetisches Konstrukt der explorativen Faktorena nalyse überlegen. Auf eine detaillierte Diskussion der verschiedenen Gütekriterien der zweiten Generation soll an dieser Stelle verzichtet werden, da die konfirmatorische Faktorenanalyse eine Teildisziplin der kovarianzbasierten Strukturgleichungsmodellierung ist, die im Beitrag von R (in diesem Herausgeberband) vorgestellt wird. Dort werden die zur Bewertung re flektiver Konstruktspezifikationen notwendigen globalen und lokalen Gütekriterien diskutiert. Tabelle 1 fasst die wichtigsten Gütekriterien für reflektive Messmodelle im Überblick zusammen (vgl. zur Gütebeurteilung reflektiv spezifizierter Konstrukte auch den PLS Beitrag in diesem Herausgeberband, S .). Man kann das Cronbachsche α auch als Erwartungswert verstehen, der sich ergibt, wenn zwei Zufallsstichproben aus einem Item Pool miteinander korreliert werden. 5 Die Items müssen gegebenenfalls recodiert werden, damit alle Items in die gleiche Richtung laden. Leitfaden zur Messung von Konstrukten 521 SchwellenwertBemerkungGütemaß Klassische Reliabilitätsanalyse (Standard-Statistik-Software wie z.B. SPSS) Cronbach‘sches * ) 0,7 Item to Total-Korrelation ) 0,5 Explorative Faktorenanalyse (Standard-Statistik-Software wie z.B. SPSS) Faktorladung des Indikators ) 0,4 Anteilder erklärten Varianz durch Faktor ) 0,5 Konfirmatorische Faktorenanalyse (als Teildisziplin der kovarianzbasierten Kausalanalyse; Software wie z.B. LISREL) Globale Gütemaße der Gesamtmessmodellanpassung Empfohlen: (²/df, RMSEA, AGFI, SRMR, NNFI, CFI Eine Diskussion der globalen Gütemaße und empfohlene Schwellenwerte findet sich z.B. in diesem Herausgeberband, Raithel, oder in Eberl/Zinnbauer (2005) Critical Ratio (t-Wert) (Signifikanz der Faktorladungen) > z1-*/2 (~ N(0;1); z.B. 1,96 für * = 5%) Lokale Gütemaße der Messmodellanpassung Indikatorreliabilität ) 0,4R² des Indikators (²-Differenzentest > z1-* (mit df = 1; z.B. 3,841 für * = 5%) !(² = (² (Modell A) – (² (Modell B) (Test, ob Korrelation zwischen zwei Faktoren gleich 1 ist als Kriterium der Diskriminanzvalidität) Fornell/Larcker-Kriterium V – (#j) > &ij 2 mit i ≠ j und i = 1, ...,k Kriterium der Diskriminanzvalidität Durchschnittlich erklärte Varianz des Faktors ) 0,6 (manuell zu berechnen) ** * * * $ k i k i jjij k i jjij k i k i jV 1 " ii 1 2 1 2 1 2 ii 1 )"( ii #! !# 1)$( # # ' Faktor- oder Konstruktreliabilität ) 0,6 (manuell zu berechnen) ** * ! ) " & % ( ! ) " & % ( k 1i " ii 2k 1i ij 2k 1i ij #! ! )$( jj jj jrel # # k Anzahl der einem Faktor zugeordneten Indikatoren $ij Faktorladung des Indikators i auf Konstrukt j %ii Fehlerterm des Indikators i "jj Varianz des Faktors j "ij Kovarianz der Faktoren i und j ' Geschätzte Varianz/Kovarianz z1-*/2 1-*/2-Fraktil der Standardnormalverteilung zum Signifikanzniveau * z1-* 1-*-Fraktil der (²-Verteilung zum Signifikanzniveau * Tabelle 1: Gütekriterien zur Beurteilung reflektiv spezifizierter Konstrukte [eBert/raithel 2009, S. 127] 522 Tara A. E. Ebert / Sascha Raithel 3.3 Die formative Spezifikation und deren Validierung Wie bereits im vorherigen Abschnitt beschrieben, kann ein Konstrukt alternativ auch formativ gemessen werden. Aber warum wurde die formative Messung in den letzten Jahren zu einer beliebten Spezifikation neben der altbewährten reflektiven? Der großeMehrwert der formativen Messung gegenüber der reflektiven ist die empirische Untersuchung von Stellhebeln (Treibern) oder Ursachen von Konstrukten. Diese sind besonders für Unternehmen von Interesse, um gewünschte Effekte, wie z.B. Kundenzufriedenheit zu erzeugen oder zu steuern. Die Ursprünge dieses Messverfahrens gehen auf C /J (1962, S. 199) zurück. Wie bereits beschrieben, wird in diesem Messmodell das Konstrukt durch die Indikatoren definiert (vgl. Abbildung 1 in Abschnitt 3.2). Ein typisches Beispiel für ein formatives Modell ist der so zioökonomische Status (Konstrukt) einer Person, der sich über die beobachtbaren Indikatoren Ausbildung, Einkommen und Prestige des Berufes bildet (vgl. H 1973, S. 268). Eine Veränderung z.B. des Indikators Einkommen führt zu einer Statusveränderung der Person. Aber eine Veränderung des Status der Person (durch eine Erhöhung des Einkommens) ändert nicht die bzw. geht nicht einher mit der Änderung der Ausbildung der Person, so wie es ein reflektives Messmodell unterstellen würde. Die Beziehungen (in Form von hohen Korrelationen) zwischen den beobachtbaren Variablen können somit nur bedingt Hinweise auf die geeignete Spezifikati onsart geben, führen im schlimmsten Fall sogar zu ungewollten Fehlspezifikationen. Die Besonderheit der formativenMessung – Indikatoren können im Extremfall unkorreliert sein – führt zu einem entscheidenden Problem bei der Bestimmung der Validität und Reliabilität des Messmodells. Eine Skalenbereinigung durch Austausch oder Auslassen von Indikatoren im Messmodell kann nicht vorgenommen werden (vgl. D /W 2001, S. 271). Die „klassischen“ multivariaten Verfahren der explorativen und konfirmatorischen Faktorenanalyse sowie die Berechnung des Cronbachschen α können nicht angewandt bzw. durchgeführt werden. Dies liegt begründet in den Tatsachen, dass die Indikatoren, wie bereits erwähnt unkorreliert sein können und daher die Indikatorkorrelationen im vollen Spektrum [ 1;+1] möglich sind als auch jeder Indikator (der aufgrund der theoretischen Vorarbeiten zum inhaltlich semantischen Bereich des Konstruktes gehört) berücksichtigt werden muss, um das Konstrukt vollständig zu messen. Die einzelnen Indikatoren sind somit unabhängig voneinander inhaltlich für das Konstrukt bestimmend. Der Ausgleich vonMessfehlern durch Austausch von Indikatoren wie bei der reflektivenMessung ist daher nicht möglich (vgl. B /L 1991, S. 306; E 2004, S. 5; F /B 1982, S. 441). Methodisch problematisch sind im Gegensatz zur reflektiven Messung zu hohe Korrelationen zwischen den Indikatoren. Die Multikollinearität kann bei der Bestimmung der Regressionskoeffizienten im Messmodell zu verzerrten Schätzern führen (vgl. J . 2003, S. 202; E 2004, S. 9; B /L 1991, S. 307). Das führt wiederum zu Problemen bei der Prüfung der Indikatorvalidität. Eine Gütebeurteilung der formativen Messung über die Unkorreliertheit der Indikatoren zu treffen, ist also nicht vertretbar (vgl. W . 2008). Somit wird klar, dass ein grundsätzlich anderes Vorgehen zur Gütebeurteilung der formativen Messung von Nöten ist. Die Validie rung formativer Spezifikationen basiert in erster Linie auf inhaltlichen Überlegungen und nur bedingt auf der Anwendung statistischer Kennzahlen.6 Die Austauschbarkeit der Messungen für das Konstrukt lassen sich nur aus der Konzeptualisierung des Konstruktes ableiten, die letztendlich nur subjektiv durch Forscher und Experten vorgenommen werden kann. Dennoch können spezifische Gütemaße zur Beurteilung formativ spezifizierter Konstrukte herangezogen Dies soll aber nicht implizieren, dass bei einer reflektiven Messung inhaltliche Überlegungen nicht genauso wichtig sind. Leitfaden zur Messung von Konstrukten 523 werden, die eine adäquate Messung der Konstrukte gewährleisten (vgl. E 2006b, S. 98; K . 2005, S. 82): Inhaltliche Spezifikation Indikatorrelevanz Externe Validität Inhaltliche Spezifikation gibt das Ausmaß der Übereinstimmung zwischen a priori beabsichtigter und tatsächlicher Indikatorzuordnung an. Im Rahmen eines Pretests können nach A / G (1991) zwei Indizes erhoben werden: Der psa Index als Maß für die Eindeutigkeit der Zuordnung von einem Indikatoren zu seinem Konstrukt und der csv Index als Maß für die in haltliche Relevanz des Indikators. Der psa Index gibt die Anzahl der Übereinstimmungen (nc) im Verhältnis zu der Anzahl der Befragten (N) wieder (vgl. K . 2005, S. 77): (4) N n p csa = Im Pretest werden die Befragten nach der Zuordnung der einzelnen Indikatoren zu seinem Konstrukt gebeten. Der psa Index kann einenWert zwischen 0 und 1 annehmen. Ein möglichst hoher Wert nahe 1 ist erwünscht, damit die Mehrheit der Befragten die angesetzte Messung ebenfalls als „richtig“ ansehen. Das Maß für die inhaltliche Relevanz ergibt sich aus (vgl. K . 2005, S. 77): (5) N nnc csv 0 −= Dabei ist n0 die Anzahl derjenigen Befragten, die den jeweiligen Indikator zu einem „falschen“ Konstrukt zugeordnet haben. Der csv Index kann somit Werte zwischen 1 und +1 annehmen. Hohe positive Werte deuten auf eine höhere inhaltliche Relevanz hin, wobei Werte gegen 1 auf eine hohe inhaltliche Relevanz zu einem anderen als dem als a priori als „richtig“ zugewiesenen Konstrukt hinweisen. Indikatorrelevanz bedeutet die Überprüfung der Indikatoren auf ihren Beitrag zur Konstrukt bildung. Die Relevanz der einzelnen Indikatoren wird über die Interpretation der Gewichte der Pfade (nicht der Ladungen) z.B. in einem varianzbasierten Strukturgleichungsmodell, ermittelt. Nach L (1989, S. 60) sollten die Pfadkoeffizienten über 0,1 und nach C (1998, S. 324) über 0,2 liegen, wobei die Methode des Bootstrappings es erlaubt, hinsichtlich der „Signifikanz“ der Gewichte genauere Aussagen zu treffen (vgl. in diesem Herausgeberband, S .). Allerdings sollten relativ gering ausfallende Gewichte eines formativ spe zifizierten Konstruktes nicht als dürftiges Modell fehlinterpretiert werden, da der PLS Ansatz die Gewichte der einzelnen Indikatoren optimiert, um die Höhe der erklärten Varianz der abhängigen Variablen im Modell zu maximieren (vgl. C 1998). Eine Indikatorelimination wird nur bei Vorliegen vonMultikollinearität vorgenommen, um eine Verzerrung der Ergebnisse (d.h. Parameterschätzungen) zu vermeiden. Die Prüfung auf Multikollinearität kann über die Betrachtung der Korrelationsmatrix (paarwei se), durch den Varianzinflationsfaktor (VIF) oder den Konditionsindex (KI) erfolgen. Korrela tionskoeffizienten (Bravais Pearson Korrelationskoeffizient) nahe dem Extremwert 1 deuten auf ein hohes Maß an Multikollinearität zwischen jeweils zwei Indikatoren hin. Die Überprüfung von Multikollinearität zwischen mehr als zwei Indikatoren kann mit Hilfe des weit verbrei teten Varianzinflationsfaktor (Kehrwert der sog. Toleranz) abgeleitet werden (vgl. E . 2001): 524 Tara A. E. Ebert / Sascha Raithel (6) 21 1 R VIF − = Der Minimalwert des VIF ist 1, wenn die betrachteten Indikatoren linear vollkommen unab hängig sind. VIF Werte größer als eins geben an, um welchen Faktor sich die Varianzen der betroffenen Indikatoren durch Multikollinearität vergrößern, wobei ein VIF < 10 empfohlen wird (vgl. K . 2005, S. 79). VIF Werte über 100 können als sicheres Indiz für ein Multikollinearitätsproblem gedeutet werden. Als dritte Prüfungsmöglichkeit der Multikolline arität steht der Konditionsindex zur Verfügung (vgl. B . 1980, S. 117): (7) i i Eigenwert EigenwertKI max= Der Eigenwertmax stellt den größten in der Schätzung vorkommenden Eigenwert und der Eigenwerti jeweils den zu betrachtenden Eigenwert der Varianz Kovarianz Matrix der unstan dardisierten Regressionskoeffizienten zwischen den Indikatoren und dem Konstrukt dar (vgl. K . 2005, S. 79).7 Konditionsindizes zwischen 10 und 30 deuten auf eine mittlere und Werte über 30 auf eine starke Multikollinearität hin. Das Verfahren kann zudem durch eine Varianzzerlegung ergänzt werden (vgl. H . 1998, S. 220). Hier eignet sich das Bestimmtheitsmaß R (Verhältnis erklärter Streuung zur Gesamt streuung) als globales Gütemaß zur Prüfung einer linearen Regression (vgl. in diesem Heraus geberband, H /W ), falls eine abhängige Variable vorhanden ist. Nach C (1998) ist das R substanziell bei einemWert über 0,67, durchschnittlich bei einemWert zwischen 0,33 und 0,67, schwach bei einem Wert zwischen 0,19 und 0,33 sowie nicht relevant bei kleineren Werten als 0,19. HoheWerte des Bestimmtheitsmaßes weisen auf einen hohen Erklärungsgehalt des zu definierenden Konstruktes hin. Externe Validität evaluiert die Gültigkeit der Konstruktmessung. Die formative Messung kann durch eine redundante reflektive Operationalisierung (Multiple Indicator Multiple Cause Mo del – kurz MIMIC Modell; vgl. bspw. H /G 1971, S. 81) überprüft werden. Durch die hinzugenommenen reflektiven Indikatoren kann der Fehlerterm des Konstrukts bestimmt werden. Bei dem alternativen Zwei Konstrukt Modell zur Bestimmung der Fehler terme wird eine sogenannte reflektiv spezifizierte Phantomvariable eingeführt (vgl. D /W 2001, S. 272). Externe Validität liegt dann vor, wenn ein starker und signifikanter Zusammenhang zwischen dem Konstrukt und der Phantomvariable bestätigt wird (vgl. R 1984). Stehen keine reflektiven Indikatoren zur Operationalisierung der Phan tomvariablen zur Verfügung, kann die nomologische Validität als Gütekriterium herangezogen werden. Hier wird jeweils anhand der Stärke, Richtung sowie Signifikanz des theoretisch und empirisch belegten Zusammenhangs zwischen dem formativ spezifizierten Konstrukt und ei ner oder mehreren weiteren latenten Variablen innerhalb des Modells die Güte der formativen Messung beurteilt. Eine abschließende Beurteilung formativer Messmodelle kann mit Hilfe von Signifikanztests (vgl. in diesem Herausgeberband, G /T ) z.B. in einem Softwarepaket wie LISREL (in diesem Herausgeberband, R ) bzw. mit Hilfe der Bootstrapping Prozedur, falls das Messmodell z.B. in PLS geschätzt wird (vgl. zu PLS in diesem Herausgeberband, S .). Die t Werte im Rahmen eines Signifikanztests z.B. über 1,96 weisen auf signifikante Für Definition und Interpretation von Eigenwerten kann jedes beliebige Standardwerk der Mathematik herangezogen werden (vgl. bspw. K /K 2000). Leitfaden zur Messung von Konstrukten 525 Zusammenhänge (für α = 5%, Stichprobengröße über 200) hin. Auch wenn die Tests eine Elimination von Indikatoren nahe legen, sollten diese trotzdem nur aufgrund inhaltlicher Über legungen vom Modell ausgeschlossen werden. Tabelle 2 fasst die wichtigsten Gütekriterien für formative Messmodelle im Überblick nochmal zusammen. SchwellenwertBemerkungGütemaß Expertenbefragung (Auswertung mit einfachen Office-Anwendungen z.B. MS Excel) Empirische Analyse Kollinearitätsanalyse (Standard Statistik Software wie z.B. SPSS) Kausalanalyse (Software wie z.B. PLS, LISREL; Schätzung rein formativer Messmodelle in LISREL eingeschränkt möglich) Gewichte > 0,1 (Lohmöller 1989) > 0,2 (Chin 1998) Pfad vom Indikator zum formativen Konstrukt N Anzahl Befragte z1-!/2 1-!/2-Fraktil der Standardnormalverteilung zum Signifikanzniveau ! Maß für die Eindeutigkeit der Zuordnung möglichst hohe Werte nahe „1“ N np csa ! Maß für die inhaltliche Relevanz möglichst hohe Werte nahe „1“ N nnc csv 0 ! ! Bivariate Korrelationen Werte nahe „0“ Varianzinflationsfaktor < 10 keine/geringe Multikollinearität 10-100 mittlere Multikollinearität > 100 starke Multikollinearität Konditionsindex > 30 R² > 0,67 substanziell > 0,33 durchschnittlich > 0,19 schwach < 0,19 nicht relevant Bestimmtheitsmaß (Voraussetzung: Vorhandensein einer abhängigen Variablen) Fehlerterm signifikanter Zusammenhang zwischen der formativ latenten und der reflektiv spezifizierten Phantomvariable MIMIC-Modell bzw. Zwei-Konstrukt- Modell (in PLS nur mit ausgewählten Verfahren) Nomologische Validität signifikanter Zusammenhang des formativen Konstrukts und einer weiteren latenten Variablen Einbettung des Konstruktes in ein größeres Strukturmodell Critical Ratio (t-Wert) (Signifikanz der Pfadkoeffizienten) Signifikanz der Pfadkoeffizienten (in PLS: Bootstrappingprozedur notwendig) > z1-!/2 (~ N(0;1); z.B. 1,96 für ! = 5%) nc Anzahl Übereinstimmungen n0 Anzahl der „falschen“ Zuordnungen Tabelle 2: Gütekriterien zur Beurteilung formativ spezifizierter Konstrukte [eBert/raithel 2009, S. 128] 526 Tara A. E. Ebert / Sascha Raithel 3.4 Die Wahl der geeigneten Spezifikationsart In einem Drittel aller empirischen Studien aus den vier angesehensten Marketing Journals8 kommen laut J . (2003) Fehlspezifikationen vor. Von Fehlspezifikation wird in der Literatur dann gesprochen, wenn eine kausale Richtung vom Indikator zumKonstrukt oder um gekehrt nicht korrekt definiert wird. In Fällen in denen fälschlicherweise ein formatives Modell reflektiv erhoben wird, kommt es zu Überschätzungen der Strukturparameter (höhere Anzahl signifikanter Pfade). Dagegen kommt es bei einem reflektiven Modell, das fälschlicherweise formativ erhoben wird, zur Unterschätzung der Strukturparameter (vgl. J . 2003; M K . 2005; L /W 1999). In beiden Fällen wird das gewonnene Ergebnis des Strukturgleichungsmodells verfälscht und führt letztendlich zu Fehlinterpretationen (vgl. D . 2008). Die richtige Wahl der Spezifizierung ist somit entscheidend für die Güte des Modells sowie deren Ergebnisse und sollte daher im Forschungsprozess der Operationalisierung für im Modell beinhaltete Konstrukte genügend berücksichtigt werden. Die Entscheidung darüber welche der beiden Operationalisierungsarten – reflektiv oder for mativ – die richtige ist, führt zu der Frage, ob es Konstrukte gibt, die von Natur aus reflektiv oder formativ sind. P . (2003) gehen davon aus, dass es Konstrukte gibt, die rein formativ sind. B . (2004) meinen dagegen, dass selbst formative Konstrukte auch theoretisch reflektiv messbar sind. Somit lässt sich aufgrund der Natur des Konstruktes keine eindeutige Aussage treffen, ob es eher formativ oder reflektiv zu messen ist. Es lässt sich zusammenfassend nach W . (2008, S. 2) festhalten: “A given research situation or research tradition may favor either formative or reflective measurement, but constructs themselves, posited under a realist philo sophy of science as existing apart from their measurement, are neither formative nor reflective.” Ob nun die betrachteten Indikatoren die Beantwortung dieser Frage unterstützen, wird konträr in der Literatur diskutiert. Die richtige Spezifikation einiger Konstrukte lässt sich aufgrund ihrer Indikatoren relativ einfach aus theoretischen Überlegungen bestimmen (vgl. D /W 2001; J . 2003; P . 2003), während bei anderen Konstrukten sich die Zuordnung der Indikatoren zu einer reflektiven oder formativen Messung aus inhaltlichen Gesichtspunkten heraus als schwierig erweist (vgl. B /T 2000, S. 4). Einige psychologische Konstrukte können sogar eineMischung aus beobachtbaren Effekten und Ursachen sein (z.B. Center of Epidemiological Studies Depression Scale; vgl. R 1977), was die richtige Spezifikation erschwert. Eine empirische Überprüfung der Spezifikationsart sollte in jedem Fall als ergänzende Entscheidungsunterstützung angewendet werden. Ein Leitfaden entwickelt von C . (2008) hilft bei einer standardisierten und damit objektiveren Entscheidung der richtigen Spezifikation, der in drei theoretische und drei empi rische Prüfschritte aufgegliedert ist und in Tabelle 3 dargestellt wird. Die einzelnen Beschreibungen der Gütemaße und deren Berechnung reflektiver und formativer Konstruktmessung finden sich am Ende der vorangegangen Abschnitte 3.2 und 3.3. Bisher noch nicht berücksichtigt ist der Tetrad Test (vgl. sechster Prüfschritt in der Tabelle 3), der primär für die Überprüfung der ausgewählten Spezifikation eingesetzt wird. Der Tetrad Test bietet die Möglichkeit aufgrund von Korrelationsbeziehungen ursprünglich reflektiv spezifizierte Modelle zu verwerfen, kann diese jedoch nicht im statistischen Sinne zu bestätigen. Seine Nullhypothese Journal of Marketing, Journal of Marketing Research, Marketing Science, Journal of Consumer Research Leitfaden zur Messung von Konstrukten 527 lautet H0: Indikatoren sind reflektiv. Wird dessen Nullhypothese vor dem Hintergrund einer entsprechenden Spezifikationshypothese abgelehnt, kann die reflektive Spezifikation abgelehnt werden. Im gegensätzlichen Fall kann jedoch keine Bestätigung der reflektiven Messung erfol gen. Der ursprüngliche Test von B /T (1993) kann nur für Messmodelle mit vier oder mehr Indikatoren angewendet werden. Ein analoges Vorgehen ist mit dem PLS Verfahren möglich. Mit Hilfe der Pfadkoeffizienten (Einfluss der Indikatoren auf das Konstrukt), der Standardfehler und der zugehörigen t Werte Formatives ModellReflektives Modell Theoretische Überlegungen L K9J5371!3 "53 &"J& E9M<"J>3"9J 5&"J&7 FJ:"!>397&JL E9J5371!3 &+"53"&73 1J><#DJ$"$ /9J :&7 $&-D#O3&J C&551J$ 1. Natur des Konstruktes 2. Richtung der Kausalbeziehung zwischen Indikator und Konstrukt L E>15>O7";#31J$ /9M FJ:"!>397 G1M E9J5371!3 L )&7DJ:&71J$ :&5 E9J5371!35 %=#73 J";#3 G->J$5OD1N$ G1 &"J&7 )&7DJ:&71J$ >OO&7 FJ:"!>397&J L )&7DJ:&71J$ &"J&5 FJ:"!>3975 %=#73 G1 &"J&7 )&7DJ:&71J$ :&5 E9J5371!35 L E>15>O7";#31J$ /9M E9J5371!3 G1M FJ:"!>397 L )&7DJ:&71J$ :&5 E9J5371!35 %=#73 G1 &"J&7 )&7DJ:&71J$ :&7 FJ:"!>397&J L )&7DJ:&71J$ &"J&5 FJ:"!>3975 %=#73 J";#3 G->J$5OD1N$ G1 &"J&7 )&7DJ:&71J$ :&5 E9J5371!35 L FJ:"!>397&J :&NJ"&7&J :>5 E9J5371!3 L FJ:"!>397&J M=55&J J";#3 G1 &"J&M $&M&"J5>M&J K&M> $&#'7&J L FJ:"!>397&J 5"J: J";#3 >153>15;#<>7 L 0>5 H"JG1%=$&J 9@ .O"M"J"&7&J &"J&5 FJ:"!>3975 !>JJ :&J FJ#>O3 :&5 E9J5371!35 /&7DJ:&7J L FJ:"!>397&J 5"J: M>J"%&53"&73 :17;# :>5 E9J5371!3 L FJ:"!>397&J $&#'7&J G1 &"J&M $&M&"J5>M&J K&M> L FJ:"!>397&J 5"J: >153>15;#<>7 L 0>5 H"JG1%=$&J 9@ .O"M"J"&7&J &"J&5 FJ:"!>3975 /&7DJ:&73 J";#3 :&J FJ#>O3 :&5 E9J5371!35 L FJ:"!>397&J M=55&J J";#3 !977&O"&7&J@L FJ:"!>397&J 59OO3&J #9#& FJ3&7!977&O>3"9J&J #><&J L 279J<>;#?5;#&5 !B 6).B ,>!397O>:1J$&J L FJ:"!>397&J #><&J J";#3 :"& $O&";#&J 5"$J"N!>J3&J 4&G"J$&J G1M E9J5371!3 L (<&787=%1J$ :&7 J9M9O9$"5;#&J )>O":"3D3 M"33&O5 &"J&5 CFCF2 C9:&O5 L 0"& FJ:"!>397<&G"J$&J G1M E9J5371!3 #><&J :>5 $O&";#& )97G&";#&J 1J: 5"J: 5"$J"N!>J3 L (<&787=%1J$ :&7 E9J/&7$&JGA 1J: 0"5!7"M"J>JGA />O":"3D3 L F:&J3"N!>3"9J :&7 ,&#O&73&7M& J";#3 M'$O";#B -&JJ :>5 %97M>3"/& C9:&OO "59O"&73 $&5;#D3G3 L *&37>:A*&53 1J: E9OO"J&>7"3D35>J>OI5& L F:&J3"N!>3"9J :&7 ,&#O&73&7M& L .+8O97>3"/& 1J: !9JN7M>397"5;#& ,>!397&J>J>OI5& 3. Charakteristika der Indikatoren 4. Indikator Interkorrelationen 5. Indikatorbeziehungen als Einflussfaktoren und Konsequenzen des Konstrukts 6. Messfehler und Kollinearität Empirische Überlegungen Tabelle 3: Theoretische und empirische Gesichtspunkte der Entscheidung für eine reflektive oder formative Messung [in Anlehnung an coltman et al. 2008] 528 Tara A. E. Ebert / Sascha Raithel der Bootstrapping Prozedur können fälschlicherweise angenommene formative Spezifikationen durch hohe Standardfehler und niedrige t Werte identifiziert werden (vgl. E 2006b, S. 112). Neuere Softwareentwicklungen von PLS (z.B. smartPLS 2.0) lassen nach G . (2008) eine entsprechende konfirmatorische Tetrad Analyse (CTA) auch für weniger als vier Indikatoren zu.9 Als weiterführende Literatur zum Tetrad Test werden die Artikel von G . (2008), E (2006a), B /T (2000), K (1974) und S /H (1924) empfohlen. 4 Die C OAR SE Prozedur und die Bedeutung der Inhalts validität Indem R (2002, S. 305f.) den bis dato dominierenden reflektivenMessansatz diskutiert, übt er fundamentale Kritik an der bisherigen Forschungstradition: The “[a]lmost universal use of […] [Churchill’s] […] traditional procedure, with its strict emphasis on factor analysis and internal consistency reliability (coef ficient alpha), which in recent years has been encouraged by structural equa tion modeling […], has led to some anomalous results in scale development in marketing. These include the deletion of conceptually necessary items in the pursuit of factorial unidimensionality […], the addition of unnecessary and often conceptually inappropriate items to obtain a high alpha[…], and the use of high alphas as the solitary evidence for scale validity[…]”. Als Beispiel für solch anomale Ergebnisse führt R das Produktinvolvement Inventar von Z (1985) an, das aus 20 bipolaren Items besteht. Aus anfänglich 168 Fragen wurden durch die Anwendung der explorativen Faktorenanalyse und des Cronbachschen α das finale Set an Indikatoren extrahiert. Allerdings sind viele Items sehr ähnlich und im Prinzip einfache Sy nonyme (z.B. die drei Paare important/unimportant, relevant/not relevant; of concern to me/of no concern to me). „Use of synonyms […] [and] […] [p]araphrases were certainly not what scale development pioneers such as Thurstone or Likert had in mind [...]“ (R 2002, S. 317). Deswegen zielt Rossiter’s Hauptkritik auf die gegenwärtige Praxis ab, reflektive Messmodelle (aber auch formative Messmodelle) ausschließlich auf Basis empirischer Kriterien zu validieren, ohne dabei theoretische Überlegungen zu führen und ohne Fragen nach der Plausibilität zu stellen. R (vgl. 2002, S. 326) fokussiert sich dabei auf die Inhaltsvalidität als einzig relevante Validitätsart und weist Experten im Rahmen der Validierung eines Messinstruments eine entscheidende Rolle zu. „Content validity focuses on the adequacy with which the domain of the characteristic is captured by the measure” (C 1991, S. 490). Die Variablen des Messmodells haben damit zu dem inhaltlich semantischen Bereich des Konstrukts zu gehören und die verschiedenen Bedeutungsinhalte und Facetten abzubilden (vgl. B 1970, S. 92). Rossiter appelliert an die Vernunft der Forscher und kritisiert den Glauben an statistische Kennzahlen, was aber nicht bedeutet, dass statistische Methoden nicht auch in seinem Modell eine Berechtigung hätten – ganz im Gegenteil. Vielmehr soll bereits am Anfang des Forschungs prozesses die Inhaltsvalidität ins Zentrum gerückt werden und jeder Schritt seines Leitfadens folgt diesem Ideal. Alternativ kann auch unter von Website http://www.phil.cmu.edu/projects/tetrad die TETRAD IV Software kostenlos heruntergeladen werden. Leitfaden zur Messung von Konstrukten 529 Um diesem Schwachpunkt bisheriger Leitfäden zur Operationalisierung komplexer Konstrukte zu begegnen, hat er einen Leitfaden – C OAR SE genannt – entwickelt, der aus sechs Elementen besteht (vgl. Abbildung 4): Konstruktdefinition (Construct definition), Objektklassifizierung (Object classification), Attributklassifizierung (Attribute classification), Zielgruppenidentifika tion (Rater identification), Skalenbildung (Scale formation) und Berechnung (Enumeration). Kernpunkte seines Ansatzes sind das fokaleObjekt (z.B. eine Softdrink Marke), die Bewertungsdi mensionen/Attribute (z.B. Kaufabsicht, Zufriedenheit) und die Zielgruppe (z.B. Jugendliche). Da bei können drei Arten vonObjekten unterschieden werden: „concrete“ (z.B. dieMarke Coca Cola), „abstract collective“ (z.B. Cola, Limonade und Mineralwasser, die die Gruppe der Softdrinks bilden), „abstract formed“ (z.B. Profitstreben, freies Unternehmertum,materialistische Einstellung und andere Aspekte, die Kapitalismus definieren). Genauso können drei Arten von Attributen unterschieden werden: „concrete“ (z.B. Kaufabsicht), „formed“ (z.B. Arbeitnehmenerzufriedenheit gebildet aus der Zufriedenheit mit der Bezahlung, mit den Kollegen, mit den Einrichtungen usw.) und “eliciting“ (d.h. reflektiv; z.B. Involvement mit einer affektiven und kognitiven Dimension). Daraus können vier Basistypen von Konstrukten abgeleitet werden: das Single Item Modell, das formative Modell, das reflektive Modell und das gemischte Modell (vgl. Abbildung 5). Im Falle eines konkreten Objektes und Attributes (z.B. Kaufabsicht für Coca Cola) ist das Single Item Modell mindestens genauso reliabel und valide wie ein traditionelles reflektives Modell im Sinne Churchills (vgl. B /R 2007). Man kann das Risiko der Verwendung von Paraphrasen/Synonymen, dem CommonMethod Bias (Methodeneffekt) sowie die Berück L HK#4#>O' 2'NK#4#:K ;'6 G:K6483!46 JD="'!4A 7448#=34A )#'O%8399'B L 7K9>663K% ;'8 2'NK#4#:K K><$ +<$8#44 ( Construct definition JG:K6483!4;'NK#4#:KB 1 Object classification JD="'!4!O>66#NI#'83K%B 2 Attribute classification J7448#=34!O>66#N!>4#:KB ( Rater identification J)#'O%8399'K#;'K4#N!>4#:KB 4 Scale formation J+!>O'K=#O;3K%B 5 Enumeration J5'8'<$K3K%B 6 L HK4'81#'/6 J:P'K' .8>%'KB M#4 '#K'8 !O'#K'K +4#<$98:=' ;'8 )#'O%8399' 3K; 0-9'84'K L D="'!4!O>66#N!>4#:K L 0864'OO3K% ;'8 H4'MO#64'K J:="'!4='I:%'K'8 *'#OB L .#K>O#6#'83K% ;'8 H4'MO#64'K JG:M=#K>4#:K ;'6 :="'!4@ 3K; >448#=34='I:%'K'K *'#O6B L 736/>$O ;'8 ,>4#K%6!>O'K L C8'@4'64 M#4 '#K'8 !O'#K'K +4#<$98:=' ;'8 )#'O%8399' L ,>K;:M#6#'83K% ;'8 ,'#$'K&:O%' ;'8 H4'M6 L 7K/'K;3K% '#K&><$'8 HK;#I'6?E#44'O/'84' L *8>K6&:8M>4#:K ;'8 +<:8'6 L +<$F4I3K% ;'8 C8FI#6#:K ;'8 +<:8'6 J,'O#>=#O#4F4B L 2:!3M'K4>4#:K ;'8 08%'=K#66' L HK4'81#'/6 J:P'K' .8>%'KB M#4 '#K'8 !O'#K'K +4#<$98:=' ;'8 )#'O%8399' 3K; 0-9'84'K L 7448#=34!O>66#N!>4#:K L 0864'OO3K% ;'8 H4'MO#64'K J>448#=34='I:%'K'8 *'#OB L H;'K4#NI#'83K%?5'6<$8'#=3K% ;'8 )#'O%8399' L 5'64#MM3K% #K/#'/'#4 ,'O#>=#O#4F46M'663K%'K K:4/'K;#% 6#K; Abbildung 4: Rossiter’s C-OAR-SE-Prozedur [rossiter 2002, S. 306f.] 530 Tara A. E. Ebert / Sascha Raithel sichtigung unpassender Indikatoren minimieren/vermeiden, ohne mit einer geringeren Dis kriminierungsfähigkeit des Messmodells leben zu müssen. Hinsichtlich der empirischen Vali dierung der reflektiven, formativen und gemischten Messmodelle sind die bereits vorgestellten Gütekriterien anzuwenden. Allerdings ist vor einer Elimination eines Indikators allein auf Basis empirischer Resultate immer die inhaltliche Bedeutungsdimension, die hinter diesem Indikator steht, ins Kalkül zu ziehen. In Abhängigkeit davon wie viele Objekte und Attribute hinter einem Konstrukt stehen, bildet sich die Anzahl der zu erhebenden Items (z.B. bei 3 Objekten und 2 Attributen müsste man 2 � 3 = 6 Fragen stellen). Die Zielgruppe (Rater) ist eine intrinsische Komponente des Konstruktes, die zwar keinen Ein fluss auf die Anzahl der Fragen, aber auf die verbalen Inhalte der Fragen und die Messung der Reliabilität (Precision of score) hat. Es können drei Gruppen unterschieden werden: Individuen, die Selbstbewertungen/ einschätzungen z.B. zu Involvement oder Einstellungen abgeben, Exper ten, die eine besondere Rolle in C OAR SE haben, sowie eine Gruppe, wie beispielsweise eine Stichprobe von Konsumenten oder Managern, die andere Subjekte (z.B. deutsche Manager, die amerikanische Konsumenten einschätzen sollen) oder Objekte (z.B. Konsumenten, die Unter nehmen bewerten sollen) beurteilen. Skalenbildung (Scale formation) bedeutet in Abhängigkeit der Ergebnisse der OAR Schritte die „Item Stämme“ (Anzahl und konkrete Formulierungen der Fragen) sowie die „Item Blätter“ (die konkreten Antwortkategorien wie Wahrscheinlichkeiten, Häufigkeiten oder Grad der Zustimmung) zu bestimmen. Dabei ist es wichtig, einen psycholo gischen „Nullpunkt“ und eine „Ich weiß nicht“ Antwortkategorie (z.B. die Frage „Glauben Sie, dass Politiker XY eine gute Arbeit macht?“ kann nur beantworten werden, wennman Politiker XY auch kennt) zu berücksichtigen, falls dies bei einer konkreten Frage Sinn macht. Nach Rossiter sollen die so entwickeltenMessinstrumente von Experten sowie einer Stichprobe der eigentlichen Zielgruppe in offenen Interviews und weniger durch empirische Methoden validiert werden. Object Attribute Concrete Concrete Formed Abstract collective Abstract formed Eliciting (reflective) Oi Aij Construct Ai1 Ain O1 Aij A11 A1n Om Amj Am1 Amn Oi Aij Construct Ai1 Ain O1 Aij A11 A1n Om Amj Am1 Amn Formative models Mixed model * Churchill (1979) procedure as a subset Single item model O1 A11 Construct = = O1 Aj Construct A1 An = O1 A1j Construct A11 A1n Reflective model* = Oi Aij Construct A11 Am1 O1 Om = = = Abbildung 5: Objekt- und Attributklassifikationsschema in C-OAR-SE [in Anlehnung an rossiter 2002, S. 309ff.] Leitfaden zur Messung von Konstrukten 531 Kritisch anzumerken ist, dass nach diesem Ansatz für jede Befragung (i.d.R. ändern sich die Zielgruppe und die Objekte regelmäßig) ein eigenes Messinstrument entwickelt werden müsste, was der Idee verallgemeinerbaren Wissens zuwider läuft (vgl. F /K 2005, S. 14 & 18). Außerdem sind empirische Methoden in der Lage z.B. das eine “gute” Item für ein Single Item Modell zu identifizieren (vgl. D 2005, S. 4) und durch den Nachweis fehlender Reliabilität die mangelnde Validität eines Messinstruments zu zeigen (vgl. C /I 2002, S. 413f.). Darüber hinaus ist die nach C OAR SE so wichtige Gruppe der Experten häufig nicht unfehlbar und kann genauso zu Fehlurteilen kommen (vgl. J 1988, S. 209). Es bleibt festzuhalten, dass sowohl bei Churchill als auch Rossiter die Konstruktdefinition am Anfang steht und somit die Inhaltsvalidität ins Zentrum zu rücken ist. Die quantitativen Me thoden leisten zweifelsohne große Hilfe in der empirischen Erfassung der a priori angestellten theoretischen Überlegungen und Diskussionen; trotzdem muss davor gewarnt werden, die auch hier vorgestellten „Kochrezepte” in der Forschungspraxis unkritisch anzuwenden. 5 Mehrdimensionalität von Konstrukten Die vorherigen Abschnitte haben sich mit der Definition, Validierung undWahl von reflektiver/ formativer Spezifikation sowie den Skalenentwicklungsprozeduren von Churchill und Rossiter beschäftigt. Nun soll näher auf die konzeptionelle Diskussion von reflektiven und formativen Modellen eingegangen werden. In Abschnitt 3.1 (Abbildung 1) wurde bereits das einfachste Konzept von Messmodellen, das „First order“ Modell, vorgestellt. Der Begriff „First“ bezieht sich hier auf die höchste Modellstufe (hier das Konstrukt), die mittels reflektiver oder forma tiver beobachtbarer Indikatoren erhoben wird. „First oder“ Modelle bieten sich an, wenn die unbeobachtbare Variable (Konstrukt 1. Ordnung) sich aus rein beobachtbaren Variablen (z.B. Preis, Alter) oder eindeutigen Fragen erheben lässt. Ein typisches Beispiel wäre das Konstrukt „Trunkenheit“. Reflektive Indikatoren als Auswirkungen der Betrunkenheit wären z.B. „Kann nicht gerade laufen“, „Hat eine Alkoholfahne“ oder „Hat Alkohol im Blut“. Formative Indi katoren als Ursache von Betrunkenheit wären im Gegensatz zur reflektiven Messung z.B. die „Menge an getrunkenem Bier, Wein und Schnaps“. Eine Erweiterung der „First order“ Modelle stellt die Messung eines Zielkonstruktes dar, das durch mehrere gleichberechtigt nebeneinander stehende Konstrukte definiert wird. Ein geeignetes Beispiel hierfür ist die Reputationsmes sung von S (2004). Reputation wird mittels der zwei Dimensionen „Sympathie“ und „Kompetenz“ erhoben, die unabhängig voneinander wirken und gleichberechtigt nebeneinander stehend das Zielkonstrukt „Reputation“ messen. Mit zunehmender Komplexität von Konstrukten treten Fälle auf, in denen Konstrukte nicht rein durch beobachtbare Indikatoren, sondern wiederum durch Konstrukte definiert sind. Diese erweitertenMessmodelle werden „Higher order“Modelle genannt (vgl. Abbildung 6 ). Betrachtet man das gerade aufgeführte Reputationsmodell von S (2004) kommen vier vorge lagerte formativ spezifizierte Konstrukte (auch Treiber genannt) ins Modell hinzu. Diese vier Treiber der zwei Reputationsdimensionen „Sympathie“ und „Kompetenz“ erweitern das „First Order“ Modell zu einem „Higher Order“ Modell. J . (2003) stellen vier Typen von „Higher Order“ Modellen vor, bestehend aus den zwei Ebenen „First Order“ (Konstrukt 1. Ordnung erhoben mittels Indikatoren) und „Second Order“ (Konstrukte 2. Ordnung erhoben mittels Konstrukten, die wiederum durch Indikatoren gemessen werden), die jeweils reflektiv oder formativ spezifiziert sind. 532 Tara A. E. Ebert / Sascha Raithel Das Model Typ I („Reflective first order, reflective second order“) als das am häufigsten vor zufindende mehrdimensionale Messmodell wird unter anderem auch „Faktormodell” genannt (vgl. E /B 2000). Ein Beispiel ist das von S /G (1998) entwickelte mehrdimensionale Konstrukt „Erfolg der strategischen Planung“ (Konstrukt 2. Ordnung), das sich durch die vier reflektiv erhobenen Konstrukte (1. Ordnung) „Alignment“, „Analysis“, „Coo peration“ und „Capabilities“ ausdrückt. Ein Beispiel für Typ II („Reflective first order, formative second order“) ist das nach L /K (1985) entwickelte Konstrukt „Involvement“. In ihrer Messung wird das Zielkonstrukt Involvement (2. Ordnung) aus vier Subkonstrukten „Importance“, „Pleasure“, „Sign“ und „Risk probability“, die reflektiv erhoben werden (1. Ord nung), gebildet. Der Typ III der „Higher Order“ Modelle („Formative first order, reflective second order”) wird nach D . (2008) in der Literatur nicht verwendet und stellt auch keine attraktive Option für die Spezifikation eines multidimensionalen Konstruktes dar. Dies liegt primär an drei Gründen: die Fehlerterme können nur schwer interpretiert werden, die formativen Indikatoren können nicht ausgetauscht werden und das Modell kann mit den bisherigen Methoden nicht geschätzt werden (vgl. D . 2008). Ein am nächsten liegendes Beispiel ist das Konstrukt „sozioökonomischer Status“, das anhand forma tiver Indikatoren gemessen wird, wie beispielsweise „Warner ś Index of Status Characteristics“ durch Berufsranglisten, Einkommensquelle, Wohnungstyp und Qualität derWohngegend (vgl. J . 2003). Ein Beispiel für Typ IV („Formative first order, formative second order”) ist das nach Y /D (2003) entwickelte Zielkonstrukt „Observational learning process“, das sich aus den vier formativ spezifizierten Konstrukten „Attention processes“, „Retention processes“, „Production processes“ und „Motivation processes“ bildet. Type I: Reflective first-order Reflective second-order Construct Dim 1 Dim 2 Dim n Ind 1 Ind 2 Ind l Ind 1 Ind 2 Ind k Ind 1 Ind 2 Ind m Type II: Reflective first-order Formative second-order Construct Dim 1 Dim 2 Dim n Ind 1 Ind 2 Ind l Ind 1 Ind 2 Ind k Ind 1 Ind 2 Ind m Type III: Formative first-order Reflective second-order Construct Dim 1 Dim 2 Dim n Ind 1 Ind 2 Ind l Ind 1 Ind 2 Ind k Ind 1 Ind 2 Ind m Type IV: Formative first-order Formative second-order Construct Dim 1 Dim 2 Dim n Ind 1 Ind 2 Ind l Ind 1 Ind 2 Ind k Ind 1 Ind 2 Ind m Abbildung 6: Higher-Order Modelle [Jarvis et al. 2003, S. 205] Leitfaden zur Messung von Konstrukten 533 Drei von den vier Typen finden in der Literatur Anwendung. Die Sinnhaftigkeit von Typ I neben Typ III in der betriebswirtschaftlichen Forschung wird von A /G (2006, S. 672) ange zweifelt. Ihrer Meinung nach ist es unschlüssig, reflektive Dimensionen wiederum durch reflek tive Indikatoren zu operationalisieren. Alle Indikatoren ließen sich somit auf eine gemeinsame Ebene heben, und dadurch wird eine unidimensionale Messung des Zielkonstrukts möglich. Allerdings bestünde dann die Gefahr, dass eventuell inhaltlich relevante Indikatoren durch die Skalenbereinigung z.B. mittels des Cronbachschen α‘s eliminiert werden, da die Item to Total Korrelationen nicht ausreichend hoch sind. Das Resultat dieser eindimensionalenMessung wäre unter Umständen ein schlechteres Messmodell. Inwieweit Mehrdimensionalität von Konstrukten einen Nutzen bringt, wird in der Literatur konträr diskutiert. Eine Kernkritik der mehrdimensionalen Messung von Konstrukten besteht darin, dass die entwickelten mehrdimensionalen Konstrukte konzeptionell mehrdeutig sein können und über Beziehungen zu anderen Variablen hinwegtäuschen (vgl. G . 2006, S. 679). Allerdings hilft sie, in der Realität vorkommende komplexe Phänomene genauer darzu stellen und wird daher als Fortschritt in der Theorieentwicklung empfunden (vgl. R / H 1990, S. 361). Weiterhin können die Kovarianzen unter den Konstrukten 1. Ordnung mit Hilfe des Konstruktes 2. Ordnung erklärt werden. Die Einführung eines Konstruktes 2. Ordnung hat zudem den Vorteil, dass die Interpretation der Ergebnisse vereinfacht wird, indem primär die Beziehung vomKonstrukt 2. Ordnung (und nicht von den Konstrukten 1. Ordnung) zu weiteren Konstrukten imModell interpretiert wird. Liegt somit die Erhebung und Überprü fung von abstrakten Sachverhalten im Forschungsinteresse, eignet sich die Verwendung von mehrdimensionalen Konstrukten (vgl. J . 2003). 6 Einige Anwendungsempfehlungen Eine adäquate Messung für nicht direkt beobachtbare Variablen, die aus für die Betriebswirt schaft typischen forschungs oder praxisorientierten Fragestellungen heraus von Interesse sind (z.B. „Wie hoch ist die Loyalität der Kunden in Deutschland zu Zahnpastamarke X?“), können anhand einiger wesentlicher Schritte (vgl. Abbildung 7) identifiziert werden. In den meisten Fäl len muss dabei das Rad nicht immer neu erfunden werden, da häufig die meisten der Konstrukte, die man im eigenenModell berücksichtigt, bereits in anderen Studien operationalisiert wurden. Das vereinfacht und beschleunigt den Prozess der Fragebogenentwicklung, erfordert aber eine kritische Diskussion der bereits existenten Messinstrumentarien anhand der zuvor vorgestellten Leitfäden und Kriterienkataloge. Am Beispiel „Loyalität zu Zahnpastamarke X“ werden die wesentlichen Schritte kurz skizziert, die zum Ziel eines geeigneten Messinstrumentes führen. Im vorliegenden Fall ist „Loyalität“ ein zentrales Konstrukt im Modell. Der erste Schritt wäre zu prüfen, ob eine einfache direkte Frage zur Zielvariablen zum Ziel führen würde, wie z.B. „Wie loyal sind Sie zu Marke X?“. Jeder Befragte würde in diesem Fall Loyalität für sich anders definieren und die Frage individuell unterschiedlich beantworten. Loyalität gehört somit zu der Kategorie latenter Variablen. Der Forscher sollte sich nun überlegen, ob er an der Messung oder Steuerung von Loyalität oder an beidem interessiert ist, um eine geeignete Auswahl für die Spezifikation treffen zu kön nen. Darauf aufbauend folgt eine ausführliche Literaturrecherche von Studien, die Loyalität gemessen haben, sowie Studien, die sich im ähnlichen Forschungsfeld (wie z.B. Loyalität bei Konsumgütern) bewegen. Diese Studien dienen dazu, das interessierende Konstrukt vor dem Hintergrund der eigenen Forschungsfrage definieren sowie präzisieren zu können und sollten 534 Tara A. E. Ebert / Sascha Raithel anhand einiger wichtiger Fragen evaluiert werden: Wie wurde in den Studien Loyalität defi niert? In welcher Branche wurde Loyalität erhoben? Welche Zielgruppen wurden mit welcher Zielsetzung befragt? Diskutieren die vorliegenden Studien eine reflektive oder formative Mes sung des Konstruktes? Wie sehen die Reliabilitäts und Validitätsanalysen und ergebnisse aus? Wurden die Methoden und Kriterien korrekt angewendet? Nach Auswahl einer bzw. mehrerer geeigneter Studien (falls vorhanden) genügt es aus forschungspragmatischen Gründen häufig, die dort verwendetenMessinstrumente durch moderate Modifikationen an die Ziele der eigenen Studie anzupassen. Unabhängig davon empfiehlt es sich neben der Literaturrecherche, eigene Ideen und Überlegungen sowie Expertengespräche für die Anpassung oder Entwicklung des Messinstrumentariums heranzuziehen. Ein typisches Beispiel für die Anpassung des Loyalitäts indikators Wiederkaufabsicht („Würden Sie sich das Automobil der Marke X wieder kaufen, wenn es Ihnen heute gestohlen würde?“) an den Fall der Zahnpasta (Wer stiehlt schon Zahn pasta?) wäre z.B. „Würden Sie sich wieder eine Tube Zahnpasta der Marke X kaufen, wenn Sie die letzte bspw. nach einer Hotelübernachtung vergessen hätten?“. Ein aufwändiger Prozess der Messinstrumentenentwicklung wie er im Rahmen von Churchill’s Paradigma oder C OAR SE beschrieben wird, ist erst dann notwendig, wenn die diskutierten Studien zu inkonsistenten, nicht vollständigen oder sogar „falschen“ Operationalisierungen gekommen sind oder für das zu messende Konstrukt tatsächlich gar keine empirische Studien existieren sollten. Die folgende Abbildung 7 fasst die wesentlichen Schritte nochmal zusammen. Leitfaden zur Messung von Konstrukten 535 Literaturverzeichnis alBers, s.; göTz, o. (2006):Messmodelle mit Konstrukten zweiter Ordnung in der betriebs wirtschaftlichen Forschung, in: Betriebswirtschaft, 66. Jg., Nr. 6, S. 669–677. anDerson, J. g.; gerBing, D. W. (1991): Predicting the Performance of Measures in a Con firmatory Factor Analysis With a Pretest Assessment of Their Substantive Validities, in: Journal of Applied Psychology, Vol. 76, No. 5, S. 732–740. Bagozzi, r. p. (1979): The Role of Measurement in Theory Construction and Hypothesis Testing: Toward a Holistic Model, in: Ferrel, O.; Brown, S.; Lamb, C. [Hrsg.]: Conceptual and Theoretical Developments in Marketing, Chicago, 1979, S. 15–32. Definition der Zielsetzung der Studie Konstrukt ist zentral im Modell?Nein! i.d.R. einfache reflektive Spezifikation über wenige globale Indikatoren ausreichend Reflektive Spezifikation Formative Spezifikation Gemischte Spezifikation (MIMIC) Ja Interesse an Ursacheoder Wirkungsbeziehungen? Wirkungen Ursachen* Beides Literaturstudium Studien, die Konstrukt diskutieren/messen, vorhanden?Ja Nein Evaluation der Studien 1. Definition und theoretische Diskussion des Konstrukts? Ergebnisse? 2. Anwendungsbereiche der Studie (Branche, Objekte, Zielgruppe, Zielsetzung)? 3. Diskussion der Spezifikationsart (reflektiv vs. formativ)? Ergebnisse? 4. Angemessene Reliabilitäts- und Validitätsprüfung vorhanden? Ergebnisse? Gewählte Operationalisierungen sind „richtig“, vollständig und konsistent sowie kongruent mit den eigenen Zielen? Nein Ja Initiierung eines eigenen Messmodellentwicklungsprozesses Moderate Anpassungen des gewählten Messinstrumentariums an die Ziele der eigenen Studie Finales Messinstrumentarium * „Treibermodell“ Abbildung 7: Wesentliche Schritte für die Identifikation des geeigneten Messinstrumentes 536 Tara A. E. Ebert / Sascha Raithel Bagozzi, r. p.; phillips, l. W. (1982): Representing and Testing Organizational Theories: A Holistic Construal, in: Administrative Science Quarterly, Vol. 27, No. 3, S. 459–489. BaUmgarTner, h.; sTeenKamp, J.-B. e. m. (2006): An Extended Paradigm for Measurement Analysis of Marketing Constructs Applicable to Panel Data, in: Journal of Marketing Research, Vol. 43, No. 3, S. 431–442. Belsley, D. a.; KUh, e.; WelsCh, r. e. (1980): Regression Diagnostics, New York, 1980. BereKoven, l.; eCKerT, W.; ellenrieDer p. (2004):Marktforschung. Methodische Grundla gen und praktische Anwendungen, 10. Aufl., Wiesbaden, 2004. BergKvisT, l.; rossiTer, J. r. (2007):The Predictive Validity of Multiple Item Versus Single Item Measures of the Same Constructs, in: Journal of Marketing Research, Vol. 44, No. 2, S. 175–184. BlaloCK, h. m. (1964): Causal Inferences in Nonexperimental Research, Chapel Hill, 1964. Bliemel, F.; eggerT, a.; FassoTT, g.; henseler, J. (2005):Handbuch PLS Pfadmodellierung. Methode, Anwendung, Praxisbeispiele, Stuttgart, 2005. BohrnsTeDT, g. W. (1970): Reliability and Validity Assessment in Attitude Measurement, in: Summers, G. F. [Hrsg.]: Attitude Measurement, London, 1970, S. 80–99. Bollen, K. a. (1989): Structural Equations with Latent Variables, New York, 1989. Bollen, K. a.; lennox, r. (1991):ConventionalWisdom onMeasurement: A Structural Equa tion Perspective, in: Psychological Bulletin, Vol. 110, No. 2, S. 305–314. Bollen, K. a.; Ting, K.-F. (1993): Confirmatory Tetrad Analysis, in: Marsden, S. V. [Hrsg.]: Sociological Methodology, Washington, 1993, S. 147–175. Bollen, K. a.; Ting, K.-F. (2000): A Tetrad Test for Causal Indicators, in: Psychological Methods, Vol. 5, No. 1, S. 3–22. BorsBoom, D.; meelenBergh, g. J.; van heerDen, J. (2004): The Concept of Validity, in: Psychological Review, Vol. 111, No. 4, S. 1061–1071. Campell, D. T.; sTanley, J. C. (1966): Experimental and Quasi Experimental Designs for Research, Boston u.a., 1966. Chin, W. W. (1998): The Partial Least Squares Approach to Structural Equation Modeling, in: Marcoulides, G. A. [Hrsg.]: Modern Methods for Business Research, Mahwah, 1998, S. 295–336. ChUrChill, g. a. (1979):A Paradigm for Developing BetterMeasures ofMarketing Constructs, in: Journal of Marketing Research, Vol. 16, No. 1, S. 64–73. ChUrChill, g. a. (1991): Marketing Research: Methodological Foundations, 5. Aufl., Fort Worth, 1991. ChUrChill, g. a.; iaCoBUCCi, D. (2002): Marketing Research: Methodological Foundations, 8. Aufl., Mason, 2002. ColTman, T.; Devinney, T.m.;miDgley, D. F.; venaiK, s. (2008): Formative versus Reflective Measurement Models: Two Applications of Formative Measurement, in: Journal of Business Research, Vol. 61, No. 12, S. 1250–1262. Leitfaden zur Messung von Konstrukten 537 CronBaCh, l. J. (1951): Coefficient Alpha and the Internal Structure of Tests, in: Psychome trika, Vol. 16, No. 3, S. 297–334. CUrTis, r. F.; JaCKson e. F. (1962): Multiple Indicators in Survey Research, in: American Journal of Sociology, Vol. 68, No. 2, S. 195–204. DiamanTopoUlos, a. (2006):TheError Term in Formative MeasurementModels: Interpretati on and Modeling Implications, in: Journal of Modeling in Management, Vol. 1, No. 1, S. 1–9. DiamanTopoUlos, a. (2005):TheC OAR SE Procedure for Scale Development in Marketing: A Comment, in: International Journal of Research in Marketing, Vol. 22, No. 1, S. 1–9. DiamanTopoUlos, a.; WinKlhoFer, h. m. (2001): Index Construction with Formative In dicators: An Alternative to Scale Development, in: Journal of Marketing Research, Vol. 38, No. 2, S. 269–277. DiamanTopoUlos, a.; rieFler, p.; roTh, K. p. (2008): Advancing Formative Measurement Models, in: Journal of Business Research, Vol. 61, No. 12, S. 1203–1218. eBerl, m. (2004): Formative und reflektive Indikatoren im Forschungsprozess: Entscheidungs regeln und die Dominanz des reflektivenModells, in: Schriften zur Empirischen Forschung und Quantitativen Unternehmensplanung, Nr. 19, München, 2004. eBerl, m. (2006a): Formative und reflektive Konstrukte und dieWahl des Strukturgleichungs verfahrens, in: Die Betriebswirtschaft, 66. Jg., Nr. 6, S. 651–668. eBerl, m. (2006b): Unternehmensreputation und Kaufverhalten: methodische Aspekte kom plexer Strukturmodelle, Wiesbaden, 2006. eBerT, T. a. e.; raiThel, s. (2009): Operationalisierung latenter Variablen, in: WiSt, 38. Jg., Nr. 3, S. 125–130. eCKey, h.-F.; KosFelD, r.; Draeger, C. (2001): Ökonometrie, 2. Aufl., Wiesbaden, 2001. eDWarDs, J. r.; Bagozzi, r. p. (2000):On the Nature and Direction of Relationships between Constructs and Measures, in: Psychological Methods, Vol. 5, No. 2, S. 155–174. FassoTT, g. (2006): Operationalisierung latenter Variablen in Strukturgleichungsmodellen: Eine Standortbestimmung, in: Zeitschrift für betriebswirtschaftliche Forschung, 58. Jg., Nr. 2, S. 67–88. Finn, a.; KayanDe, U. (2005): How Fine is C OAR SE? A Generalizability Theory Perspec tive on Rossiter’s Procedure, in: International Journal of Research in Marketing, Vol. 22, No. 1, S. 11–21. Fisseni, h.-J. (2004): Lehrbuch der psychologischen Diagnostik, 3. Aufl., Göttingen, 2004. Fornell, C.; BooKsTein, F. l. (1982): Two Structural Equation Models: LISREL and PLS Applied to Consumer Exit Voice Theory, in: Journal of Marketing Research, Vol. 19, No. 4, S. 440–452. Fornell, C.; rhee, B. D.; yi, y. (1991):Direct Regression, Reverse Regression, and Covariance Structure Analysis, in: Marketing Letters, Vol. 2, No. 3, S. 309–320. giere, J.; WirTz, B. W.; sChilKe, o. (2006): Mehrdimensionale Konstrukte. Konzeptionelle Grundlagen undMöglichkeiten ihrer Analyse mithilfe von Strukturgleichungsmodellen, in: Die Betriebswirtschaft, 66. Jg., Nr. 6, S. 678–695. 538 Tara A. E. Ebert / Sascha Raithel gUDergan, s. p.; ringle, C. m.; WenDe, s.; Will, a. (2008): Confirmatory Tetrad Analysis for Evaluating theMode of MeasurementModels in PLS PathModeling, in: Journal of Business Research, Vol. 61, No. 12, S. 1238–1249. hair, J. F.; anDerson, r.e.; TaTham, r. l.; BlaCK,W. C. (1998):Multivariate Data Analysis, New Jersey, 1998. hamann, p.; eriChson, B. (2000): Marktforschung, 4. Aufl., Stuttgart, 2004. haUser, r. m. (1973): Disaggregating a Social Psychological Model of Educational Attain ment, in: Goldberger, A. S.; Duncan, O. D. [Hrsg.]: Structural Equation Models in the Social Sciences, New York, 1973, S. 255–284. haUser, r.m.; golDBerger, a. s. (1971):TheTreatment of Unobservable Variables in Path Ana lysis, in: Costner, H. L. [Hrsg.]: Sociological Methodology, San Franscisco, 1971, S. 81–117. hilDeBranDT, l. (1998): Kausalanalytische Validierung in der Marketingforschung, in: Hil debrandt, L.; Homburg, C. [Hrsg.]: Die Kausalanalyse – Instrument der empirischen betriebs wirtschaftlichen Forschung, Stuttgart, 1998, S. 85–110. homBUrg, C. (2000): Exploratorische Ansätze der Kausalanalyse als Instrument der Marke tingforschung, 3. u. aktual. Aufl., Frankfurt a. M., 2000. homBUrg, C.; giering, a. (1996): Konzeptualisierung und Operationalisierung komplexer Konstrukte, in: Marketing Zeitschrift für Forschung und Praxis, 18. Jg., Nr. 1, S. 5–24. Jarvis, C. B.; maCKenzie, s. B.; poDsaKoFF, s. m. (2003): A Critical Review of Construct Indicators and Measurement Model Misspecification in Marketing and Consumer Research, in: Journal of Consumer Research, Vol. 30, No. 2, S. 199–218. Johnson, e. J. (1988): Expertise and Decision Making Under Uncertainty: Performance and Process, in: Chi, M. T. H.; Glaser, R.; Farr, M. J. [Hrsg.]: The Nature of Expertise, Hillsdale, 1988, S. 209–228. Kenny, D. a. (1974): A Test for Vanishing Tetrad: The Second Canonical Correlation Equals Zero, in: Social Science Research, Vol. 3, No. 1, S. 83–87. Korn, g. a.; Korn, T. m. (2000):Mathematical Handbook for Scientists and Engineers: De finitions, Theorems, and Formulas for Reference and Review, 2. Aufl., New York, 2000. KraFFT, m.; göTz, o.; liehr-goBBers, K. (2005): Die Validierung von Strukturgleichungs modellen mit Hilfe des Partial Least Squares (PLS) Ansatzes, in: Bliemel, F.; Eggert, A.; Fassott, G.; Henseler, J. [Hrsg.]: Handbuch PLS Pfadmodellierung: Methode, Anwendung, Praxisbei spiele, Stuttgart, 2005, S. 71–86. laUrenT, g.; KapFerer, J.-n. (1985): Measuring Consumer Involvement Profiles, in: Journal of Marketing Research, Vol. 22, No. 1, S. 41–53. laW, K. s.; Wong, C.-s. (1999): Multidimensional Constructs in Structural Equation Ana lysis: All Illustration Using the Job Perception and Job Satisfaction Constructs, in: Journal of Management, Vol. 25, No. 2, S. 143–154. lee, n.; hooley, g. (2005): The Evolution of “Classical Mythology” within Marketing Mea sure Development, in: European Journal of Marketing, Vol. 39, No. 3/4, S. 365–385. lohmöller, J.-B. (1989): Latent Variable Path Modeling with Partial Least Squares, Heidel berg, 1989. Leitfaden zur Messung von Konstrukten 539 maCKenzie, s. B.; poDsaKoFF, s. m.; Jarvis, C. B. (2005): The Problem of Measurement Model Misspecification in Behavioral and Organizational Research and Some Recommended Solutions, in: Journal of Applied Psychology, Vol. 90, No. 4, S. 710–730. nUnnally, J. (1978): Psychometric Theory, 2. Aufl., New York, 1978. peTer, J. p. (1979): Reliability: A Review of Psychometric Basics and Recent Marketing Prac tices, in: Journal of Marketing Research, Vol. 16, No. 1, S. 6–17. peTer, J. p.; ChUrChill, g. (1986): Relationships Among Research Design Choices and Psy chometric Properties of Rating Scales: A Meta Analysis, in: Journal of Marketing Research, Vol. 23, No. 1, S. 1–10. peTerson, r. a. (1994): AMeta Analysis of Cronbach‘s Coefficient Alpha, in: Journal of Con sumer Research, Vol. 21, No. 2, S. 381–391. poDsaKoFF, s. m.; maCKenzie, s. B.; poDsaKoFF, n. p.; lee, J. y. (2003): The Mismeasure of Man (Agement) and Its Implications for Leadership Research, in: Leadership Quarterly, Vol. 14, No. 6, S. 615–656. raDloFF, l. s. (1977):TheCES D scale: A self report depression scale for research in the gene ral population, in: Applied Psychological Measurement, Vol. 1, No. 3, S. 357–388. rinDsKopF, D. (1984): Using Phantom and Imaginery Latent Variables to Parameterize Cons traints in Linear Structural Models, in: Psychometrika, Vol. 49, No. 1, S. 37–47. rossiTer, J. r. (2002): The C OAR SE Procedure for Scale Development in Marketing, in: International Journal of Research in Marketing, Vol. 19, No. 4, S. 305–335. roznoWsKi, m.; hanisCh, K. a. (1990): Building Systematic Heterogeneity Into Work Atti tudes and Behavior Measures, in: Journal of Vocational Behavior, Vol. 36, No. 3, S. 361–375. sChnell, r.; hill, s. B.; esser, e. (1999): Methoden der empirischen Sozialforschung, 6. Aufl., München, 1999. sCholDerer, J.; BalDerJahn, i. (2006): Was unterscheidet harte und weiche Strukturglei chungsmodelle nun wirklich?, in: Marketing Zeitschrift für Forschung und Praxis, Vol. 28, Nr. 1, S. 57–70. sChWaiger, m. (2004): Components and Parameters of Corporate Reputation – An Empirical Study, in: Schmalenbach Business Review, Vol. 56, Nr. 1, S. 46–71. sChWaiger, m. (2007): Empirische Forschung in der BWL, in: Köhler, R.; Küpper, H. U.; Pfingsten, A. [Hrsg.]: Handwörterbuch der Betriebswirtschaft, 6. voll. neu gestal. Aufl., Stutt gart, 2007, S. 338–345. segars, a. h.; grover, v. (1998): Strategic Information Systems Planning Success: An Investi gation of the Construct and Its Measurement, in: MIS Quarterly, Vol. 22, No. 2, S. 139–163. spearman, C; holzinger, K. J. (1924): The Sampling Error in the Theory of Two Factors, in: British Journal of Psychology, Vol. 15, No. 1, S. 17–19. Temme, D. (2006): Die Spezifikation und Identifikation formativer Messmodelle der Mar ketingforschung in Kovarianzstrukturanalysen, in: Markting Zeitschrift für Forschung und Praxis, 28. Jg., Nr. 3, S. 183–209. 540 Tara A. E. Ebert / Sascha Raithel WilCox, J. B.; hoWell, r. D.; BreiviK, e. (2008):Questions About Formative Measurement, in: Journal of Business Research,Vol. 61, No. 12, S. 1219–1228. yi, m. y.; Davis, F. D. (2003): Developing and Validating an Observational Learning Model of Computer Software Training and Skill Acquisition, in: Information Systems Research, Vol. 14, No. 2, S. 146–169. zaiChKoWsKy, J. l. (1985): Measuring the Involvement Construct, in: Journal of Consumer Research, Vol. 12, No. 3, S. 341–352.

Chapter Preview

References

Zusammenfassung

Dieser Sammelband bietet einen Überblick über relevante Theorien der Wirtschafts- und Sozialwissenschaften sowie ausgewählte Methoden der qualitativen und quantitativen Forschung. Der Leser hat die Möglichkeit, jede hier behandelte Theorie und Methode in ihren grundlegenden Aussagen bzw. Funktionsweisen zu verstehen sowie hilfreiche Hinweise und Literaturquellen für ein vertiefendes Studium jedes Themenfeldes zu erhalten.

Studenten oder Doktoranden stehen vor dem gleichen Problem:

Wie können Forschungsfragen durch geeignete theoretische Konzepte fundiert werden, wie werden sie in Hypothesen transformiert und mit welchen empirischen Methoden überprüft?

Die Kernbotschaft: Auf dem Weg zu wissenschaftlicher Leistung müssen Theorien und Methoden Hand in Hand gehen.

Damit dies gelingen kann benötigt jeder Forscher eine grundlegende Kenntnis derjenigen Theorien und empirischen Methoden, die im jeweiligen Forschungsfeld Relevanz besitzen und für die Anwendung in Frage kommen. Das Verständnis von Theorien bzw. der Funktionsweise und Leistungsfähigkeit empirischer Methoden sind dabei essentiell. Erst dadurch werden eine zutreffende Auswahl und eine korrekte Anwendung von Theorien und Methoden zur Lösung des Forschungsanliegens ermöglicht.

Der Überblick über die Theorien und Methoden der Wirtschafts- und Sozialwissenschaften.

Der kompakte Sammelband ist empfehlenswert für Studenten und Doktoranden, die Forschungsfragen durch geeignete theoretische Konzepte fundieren, in Hypothesen transformieren und anschließend mit geeigneten empirischen Methoden überprüfen können.