Content

Richard Rinkenburger, Einführung in die explorative Faktorenanalyse in:

Manfred Schwaiger, Anton Meyer (Ed.)

Theorien und Methoden der Betriebswirtschaft, page 447 - 468

Handbuch für Wissenschaftler und Studierende

1. Edition 2009, ISBN print: 978-3-8006-3613-6, ISBN online: 978-3-8006-4437-7, https://doi.org/10.15358/9783800644377_447

Bibliographic information
Richard Rinkenburger Einführung in die explorative Faktorenanalyse Zusammenfassung Die Betriebswirtschaftslehre sowie die Sozialwissenschaften und die Psychologie beschäftigen sich oft mit Sachverhalten, welche durch eine hohe Komplexität und Latenz gekennzeichnet sind. Für die Beschreibung und die Quantifizierung dieser Phänomene muss zumeist eine große Zahl an Variablen in die Analyse einbezogen werden.Mit Hilfe der explorativen Faktorenanalyse lässt sich untersuchen, ob den betrachteten Variablen latente Sachverhalte (Faktoren) zugrunde liegen. Das Ziel dieses Beitrages ist die Vorstellung eines siebenstufigen Prozesses zur Anwen dung der Faktorenanalyse. Die sieben Stufen umfassen die Problemstellung und die Zielsetzung der Faktorenanalyse, die Annahmen und den Aufbau der Faktorenanalyse, die Beurteilung der Ausgangsdaten, die Extraktion der Faktoren, die Interpretation der Faktoren, die Validierung der Faktorenanalyse und die weitergehende Nutzung der Ergebnisse der Faktorenanalyse. Dipl. Kfm. Richard Rinkenburger ist wissenschaftlicherMitarbeiter undDoktorand am Institut für Marktorientierte Unternehmensführung an der Ludwig Maximilians Universität München. Inhaltsverzeichnis 1 Grundlagen und Abgrenzung der Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 2 Analyseprozess bei der Anwendung einer explorativen Faktorenanalyse . . . . . . . . . . . 458 2.1 Problemstellung und Ziele der Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 461 2.2 Annahmen und Aufbau der Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 462 2.3 Beurteilung der Ausgangsdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 2.4 Extraktion der Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 2.5 Interpretation der Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 2.6 Validierung der Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 2.7 Weitergehende Nutzung der Ergebnisse der Faktorenanalyse . . . . . . . . . . . . . . . 472 3 Zusammenfassung und Empfehlungen für die Anwendung . . . . . . . . . . . . . . . . . . . . 473 456 Richard Rinkenburger Abbildungsverzeichnis Abbildung 1: Ausgangspunkt der Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 Abbildung 2: Klassifizierung von multivariaten Analysemethoden . . . . . . . . . . . . . . . . . . 458 Abbildung 3: Analyseprozess einer Faktorenanalyse (Stufe 1–3) . . . . . . . . . . . . . . . . . . . . 460 Abbildung 4: Analyseprozess einer Faktorenanalyse (Stufe 4–7) . . . . . . . . . . . . . . . . . . . . 466 Abbildung 5: Berücksichtigte Varianzarten in der Faktoranalyse . . . . . . . . . . . . . . . . . . . . 467 Abbildung 6: Scree Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 Abbildung 7: Grafische Veranschaulichung von Faktorrotationen . . . . . . . . . . . . . . . . . . . 471 Tabellenverzeichnis Tabelle 1: Grundbegriffe der Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 Tabelle 2: Bewertung der Ergebnisse des Measure of sample adequacy (MSA) . . . . . . . . . 465 Einführung in die explorative Faktorenanalyse 457 1 Grundlagen und Abgrenzung der Faktorenanalyse In der Betriebswirtschaftslehre sowie in den Sozialwissenschaften und der Psychologie stehen häufig Phänomene oder abstrakte Begriffe (z.B. zur Erklärung von menschlichen Verhaltens weisen im Marketing) im Mittelpunkt der Forschung. Für deren Beschreibung und Erklärung ist eine Vielzahl an Variablen in die Analyse einzubeziehen. Durch die Berücksichtigung vieler Erklärungsvariablen entstehen Komplexität und gleichzeitig eine Redundanz an Informationen. Beides kann dazu führen, dass die vorliegenden Daten nur schwer handhabbar sind. Genau diese Problematik versucht die Faktorenanalyse zu lösen, indem sie das Beziehungsgeflecht zwischen einer Vielzahl von Variablen untersucht. Den Ausgangspunkt einer Faktorenanalyse bildet die Vermutung, dass die Komplexität der Beziehungen auf die Existenz übergeordneter Faktoren (vgl. Abbildung 1) zurückgeführt werden kann (vgl. Ü 1971). Dies bedeutet, dass eine hy pothetische Größe imHintergrund die Ursache für die auftretenden Korrelationen zwischen den Variablen ist. Das Ziel einer Faktorenanalyse ist es somit, den hohen Grad an Komplexität, der durch eine Vielzahl von Variablen abgebildet wird, handhabbar und oft auch erst interpretierbar zu machen. Dabei werden die Variablen auf möglichst wenige Faktoren, die letztlich hinter den beobachteten Variablen stehen, reduziert (vgl. M /B 2007). Die Faktorenanalyse – zusammen mit z.B. der linearen Regression und der Varianz oder der Diskriminanzanalyse – wird häufig als statistische Methode der ersten Generation bezeichnet. Im Vergleich dazu spricht man bei der Analyse von Strukturgleichungsmodellen mit latenten Variablen von statistischen Methoden der zweiten Generation (vgl. F 1987). Die multi variaten Datenanalyseverfahren erster Generation können anhand des Anwendungsbezuges in Analysen von Abhängigkeiten (Dependenzanalyse) und in Analysen von wechselseitigen Bezie hungen (Interdepenzanalyse) unterschieden werden (vgl. N . 1997). Dependenzanalysen werden dann eingesetzt, wenn mindestens eine abhängige Variable von den restlichen unabhängigen Variablen unterschieden werden kann (vgl. M /B 2007). Dabei muss der Anwender bereits im Vorfeld eine Vorstellung von den Zusammenhängen der Variablen besitzen. Diese Strukturen sollen im Anschluss überprüft werden (vgl. B . 2003). Neben der Varianz und Kovarianzanalyse werden unter anderem auch die Regres sionsanalyse (vgl. in diesem Herausgeberband, H /W ), die Diskriminanzanalyse, die Kontigenzanalyse und die Analyse von Präferenzen (Conjoint Measurement; vgl. in diesem Herausgeberband, F ) den Dependenzanalysen zugeordnet. Variable x1 Variable x2 Variable x3 Variable xn Erklärungsfaktoren Datensatz Faktor F2Faktor F1 Abbildung 1: Ausgangspunkt der Faktorenanalyse [in Anlehnung an Janssens et al. 2008, S. 246] 458 Richard Rinkenburger Im Gegensatz dazu untersuchen Interdependenzanalysen alle möglichen Beziehungszusammen hänge innerhalb der Ausgangsdaten. Dabei liegt der Fokus entweder auf den Wechselbezie hungen der Variablen oder auf den Ähnlichkeiten zwischen den Beobachtungsobjekten (vgl. M /B 2007). Bei diesen Verfahren hat der Anwender im Vorfeld noch keine Vor stellung über mögliche Strukturen innerhalb der Daten, diese werden erst durch die Anwendung der Verfahren aufgedeckt (vgl. B . 2003). Diesem Bereich können neben der in diesem Beitrag behandelten explorativen Faktorenanalyse unter anderem auch die Clusteranaly se und die multidimensionale Skalierung zugeordnet werden. Die Einordnung der verschiedenen Verfahren vor dem Hintergrund des Anwendungsgebietes fasst Abbildung 2 zusammen. Das Ziel dieses Beitrages ist es anhand eines siebenstufigen Prozesses eine Einführung für den Einsatz der Faktorenanalyse zu geben und möglicherweise auftretende Hindernisse und Pro bleme vorzustellen und zu diskutieren. 2 Analyseprozess bei der Anwendung einer explorativen Faktorenanalyse Bevor im Anschluß die sieben Stufen vorgestellt und erläutert werden, fasst Tabelle 1 die zentra len Begriffe der Faktorenanalyse zusammen, um vor allem dem Erstanwender das Verständnis dieses Beitrages zu erleichtern. In Anlehnung an H . (2006) unterteilt dieser Beitrag die Durchführung einer Fakto renanalyse in sieben Stufen. Abbildung 3 stellt dabei die anstehenden Entscheidungen bezüglich Problemstellung und Zielen der Faktorenanalyse, Aufbau und zugrundeliegenden Annahmen M ul ti va ri at e A na ly se m et ho de n Eine abhängige Variable ) (#-5#8-9 *"0:7!"/"-9 ) '8:2!8/8-0-$0-01%:" ) ,#-98-;"-$0-01%:" ) 6";!"::8#-:0-01%:" ) .0!80-$-/,#40!80-$0-01%:" Dependenzanalyse Interdependenzanalyse Mehrere abhängige Variablen ) '8:2!8/8-0-$0-01%:" ) *719840!809" .0!80-$-/,#40!80-$0-01%:" Ähnlichkeiten zwischen Objekten ) (17:9"!0-01%:" ) *7198+8/"-:8#-01" 32018"!7-; Wechselbeziehungen zwischen Variablen ) &029#!"-0-01%:" Abbildung 2: Klassifizierung von multivariaten Analysemethoden Einführung in die explorative Faktorenanalyse 459 und schließlich Möglichkeiten zur Beurteilung der Ausgangsdaten im Überblick dar. Dabei gilt es in der ersten Stufe grundsätzlich festzulegen, ob eine explorative oder konfirmatorische Vorge hensweise gewählt wird und ob die Analyse dazu dienen soll, Variablen oder Befragungsobjekte zu gruppieren. Mit diesen beiden Entscheidungen wird entsprechend auch die Festlegung der Zielsetzung mitbestimmt. Die zweite Stufe betrachtet zum einen konzeptionelle und statistische Grundlagen und Annahmen. Auf der anderen Seite sollen Hinweise über den Aufbau bzw. das Forschungsdesign hinsichtlich des Einsatzes einer Faktorenanalyse gegeben werden. Die dritte Stufe stellt Ansätze und Kriterien zur Beurteilung vor, inwiefern die Ausgangsdaten für eine Fak torenanalyse geeignet sind. Dabei werden mehrere statistische Kennzahlen und Tests erläutert. Der zweite Teil des Entscheidungsprozesses umfasst die Stufen vier bis sieben und ist in Ab bildung 4 dargestellt. Die vierte Stufe beinhaltet hierbei die Extraktion der Faktoren und da mit einhergehend die Bestimmung der Kommunalitäten. Diese beiden Punkte könnten dabei durchaus auch als jeweils separater Schritt betrachtet werden (vgl. B . 2003, S. 268), wobei die Art und Weise der Schätzung der Kommunalitäten unmittelbar an die Me thode der Faktorenermittlung geknüpft ist. Dabei muss der Forscher zwischen dem Einsatz der Hauptkomponenten und der Hauptachsenanalyse wählen und auch über die Anzahl der zu extrahierenden Faktoren eine Entscheidung treffen. Im Rahmen der fünften Stufe werden die Faktoren anhand der Faktorladungen interpretiert. Dazu ist es meist von Vorteil eine so genannte Faktorrotation durchzuführen. Hier kann zwischen orthogonalen (rechtwinkligen) und obliquen (schiefwinkligen) Rotationsmethoden gewählt werden. Ist der Forscher anhand der gefundenen Faktorlösung in der Lage eine sinnvolle Interpretation vorzunehmen und wenn keine Respezifizierung des Faktormodells erfolgen muss, gilt es in der sechsten Stufe die Fakto renanalyse zu validieren. Am Ende des Prozesses steht die mögliche Verwendung der Ergebnisse der Faktorenanalyse für nachfolgende multivariate Analysen. Korrelationsmatrix Faktor Faktorladung Faktorladungsmatrix Faktorwert Kommunalität Eigenwert Zeigt die Korrelationskoeffizienten zwischen allen in die Analyse einbezogenen Variablen an und bildet die Ausgangsbasis für die Berechnung der Faktorenanalyse Linearkombination aus den Ausgangsvariablen, welche auch die zugrundeliegenden Dimensionen bzw. Konstrukte repräsentiert Zusammenhangsmaß (Korrelation) zwischen Variable und Faktor Zeigt die Faktorladungen aller Variablen auf jeden Faktor an Zusammenhangsmaß zwischen Untersuchungsobjekten und Faktoren, welches in nachfolgenden Analysen verwendet werden kann Erklärter Varianzanteil einer Variablen durch die gemeinsamen Faktoren (Maß für die Güte der Reproduktion einzelner Variablen) Erklärungsgehalt eines Faktors in Bezug auf den Informationsgehalt (Varianz) aller Variablen Tabelle 1: Grundbegriffe der Faktorenanalyse 460 Richard Rinkenburger 0#"!;HC7HG%8B#>E#7 (+ ?EC"# '+ ?EC"# 6+ ?EC"# -#!G$#>EDA# 2#! 17;=&G# @!C$$D#!C7H A%7 +++ >%7)!:;E%!DG4F #<$=%!;EDA 9;!D;8=#7 -!%8=#:GE#==C7H C72 /D#=# H64 >#) 7MBOJ6) )/;O=8B4#1 =>)8 !=M<8NB4=8#6?%: +B6 6=OO &83;;#)84 0)8>)M $ ,B8#B@O)M =>)8 5)'8B&3M&6=@")!4): *#)O6)4I3M& ')64O)&)MP .483!438#>)M4#3!4#=M 177;F:#7 C72 1C"8;C 2#! *;>E%!#7;7;=&G# +)O?%) ,B8#B@O)M 0)8>)M @)8A?!6#?%4#&4: +#) 0)8>)M >#) ,B8#B@O)M &)N)66)M: +#) &8=( 6=OO4) >#) .4#?%;8=@) 6)#M: G=MI);4#=M)OO) 3M> 64B4#64#6?%) K)6#?%46;3M!4) 0#C!E#D=C7H 2#! 1CGH;7HG2;E#7 G=88)OB4#=M6NB48#/ 7M4#DHNB&)DG=1B8#BMINB48#/ 5B84O)44D-)64 F)B638) =' 6BN;O) B>)93B?J LF.7E .=CGE#!;7;=&G# 5#DE#! :DE ?EC"# 3 ?E!C>EC!H=#D4FC7HG, :%2#== Abbildung 3: Analyseprozess einer Faktorenanalyse (Stufe 1–3) [in Anlehnung an hair et al. 2006, S. 108] Einführung in die explorative Faktorenanalyse 461 2.1 Problemstellung und Ziele der Faktorenanalyse Grundsätzlich kann zwischen einer explorativen Faktorenanalyse, bei der a priori nicht bekannt ist, ob und in welcher Weise die Variablen zusammenhängen, und einer konfirmatorischen Faktorenanalyse, bei der vermutete Zusammenhänge überprüft werden sollen, unterschieden werden. Wenn das Interesse lediglich in der Aufdeckung einer Struktur innerhalb eines Daten satzes liegt oder die Faktorenanalyse als Methode zur Datenreduktion eingesetzt wird, spricht man von einer explorativen Faktorenanalyse. Bei dieser Herangehensweise hat der Anwender im Vorfeld keine konkrete Vorstellung über die Beziehungen zwischen den Ausgangsdaten und eine Faktorenanalyse liefert nur „was in den Daten steckt“. In diesem Fall ist die Faktorenana lyse von der methodologischen Sichtweise dem Entdeckungszusammenhang zuzuordnen und ist allenfalls geeignet Hypothesen zu generieren. Der Hauptnutzen besteht in der Verdichtung von Daten. Oftmals hat der Forscher basierend auf theoretischen Überlegungen oder früherer Forschung eine genaue Meinung über die zugrundeliegende Struktur in den Daten. Er kann somit entspre chendeHypothesen formulieren und überprüfen. In diesem Fall spricht man von einer konfirma torischen Faktorenanalyse, welche kontrolliert zu welchem Grad die vorliegenden Daten der er warteten Struktur entsprechen (Hypothesenüberprüfung). Entsprechend ist die konfirmatorische Faktorenanalyse dem Begründungszusammenhang zuzuordnen (vgl. B . 2003, S. 330). ImRahmendes vorliegendenBeitrages soll die Faktorenanalyse lediglich von einem explo rativen und eben nicht konfirmatorischen Blickwinkel aus betrachtet werden (vgl. Abbildung 3). Die konfirmatorische Faktorenanalyse ist eine Teildisziplin im Rahmen der Anwendung von Strukturgleichungsmodellen (vgl. in diesem Herausgeberband, R ). Mit Hilfe einer explorativen Faktorenanalyse kann rein theoretisch sowohl die Beziehungs struktur zwischen Variablen als auch die Beziehungen zwischen Untersuchungsobjekten anhand der entsprechenden Korrelationsmatrizen identifiziert werden. Dabei werden die individuellen Untersuchungsobjekte basierend auf den Ausprägungen der einzelnen Variablen zu Gruppen zusammengefasst. Allerdings ist der Einsatz der Faktorenanalyse zur Bildung von Gruppen bzw. Segmenten in der Literatur äußerst umstritten. So übt beispielweise S (1981) Kritik an dieser Anwendung der Methode und ist ferner der Meinung, dass die Faktorenanalyse in diesem Zusammenhang nicht geeignet ist bzw. keine verlässlichen Ergebnisse liefert. Aufgrund der Schwächen bei der Anwendung auf Untersuchungsobjekte wurden faktoranalytische Methoden zwischenzeitlich sogar von einigen Autoren komplett abgelehnt (vgl. E 1968). Auf grund dieser Diskussion und da für den Zweck der Gruppierung von Untersuchungsobjekten weit besser geeignete Methoden (z.B. Clusteranalyse) vorhanden sind, wird in diesem Beitrag nur die Faktorenanalyse hinsichtlich einer Zusammenfassung der Variablen betrachtet (vgl. Abbildung 3). In der erste Stufe des Faktorenanalyse Prozesses sind zwei grundlegende Entscheidungen im Rahmen dieses Beitrages damit vorgegeben. Zudem gilt es die unterschiedlichen Zielsetzungen einer Faktorenanalyse zu betrachten. Prinzipiell können am Ende einer Faktorenanalyse zwei verschiedene, jedoch zusammenhängende Ergebnisse stehen. Auf der einen Seite kann lediglich die Identifizierung einer Struktur innerhalb der Daten als das Ziel der Faktorenanalyse angese hen werden. Dann soll die Faktorenanalyse die den Daten zugrundeliegende Struktur mit Hilfe von wenigen, interpretierbaren Faktoren beschreiben. Die Definition der Struktur in den Daten ermöglicht es dem Forscher dabei, die Variablen auf verschiedenen Generalisierungsniveaus zu betrachten. Auf der anderen Seite kann es das Ziel sein, am Ende der Faktorenanalyse empirische Werte (z.B. Faktorwerte) für jeden Faktor ableiten zu können und so die Komplexität und die Zahl der zu untersuchenden Variablen zu reduzieren. Auch hier werden zuerst repräsentative 462 Richard Rinkenburger Faktoren identifiziert, welche dann für die Erstellung eines neuen, im Vergleich zu den Aus gangsdaten wesentlich kleineren Datensatzes verwendet werden. Zum einen steht generell die Reduzierung der ursprünglichen einzubeziehenden Variablen für anschließende multivariate Analysen imMittelpunkt. Darüber hinaus können mit der Hilfe der Faktorenanalyse voneinan der unabhängige (und damit unkorrelierte) Faktoren generiert werden, welche für einige der in Abschnitt 1 vorgestellten Verfahren, wie die Regressionsanalyse oder die Diskriminanzanalyse, besser geeignet sind als die untereinander korrelierten Ausgangsvariablen (vgl. Abschnitt 2.7). Dabei sollte allerdings beachtet werden, dass es problematisch ist, künstlich generierte Regres soren (wie eben Faktoren) in einer Regressionsanalyse einzusetzen. Ohne eine entsprechende Korrektur erhält man verzerrte Standardfehler der Schätzkoeffizienten und Aussagen über Si gnifikanzen sind problematisch (vgl. M /T 1985). Zusammenfassend lässt sich sagen, dass das Ziel der Faktorenanalyse die Bestimmung einer möglichst kleinen Anzahl von Faktoren ist, welche die Information der Ausgangsdaten adäquat repräsentieren. 2.2 Annahmen und Aufbau der Faktorenanalyse Generell muss der Forscher in der zweiten Stufe des Prozesses drei Punkte beachten. Erstens muss festgelegt werden, welche konzeptionellen und statistischen Gesichtspunkte die Varia blen erfüllen sollen, zweitens wie viele Variablen in die Analyse einbezogen werden sollen, und schließlich gilt es die Größe der Stichprobe sowohl in absoluten Zahlen als auch relativ zu den ausgewählten Variablen zu bestimmen. Grundsätzlich hängt die Güte der Ergebnisse einer Faktorenanalyse größtenteils vom Charakter und der Zusammensetzung der Ausgangsdaten ab. Erst an zweiter Stelle sind deren statistische Eigenschaften (z.B. deren Verteilung) von Bedeutung. Damit werden bereits aus konzeptioneller Sicht einige Anforderungen an die Ausgangsvariablen gestellt, und deren Auswahl sollte ent sprechend sorgfältig erfolgen. Die bereits erklärte Grundvoraussetzung für die Durchführung einer Faktorenanalyse ist die Annahme, dass eine den Daten zugrundeliegende Struktur vor handen ist. Entsprechend werden potentielle Dimensionen implizit durch den Forscher mittels der Art und des Charakters der in die Faktorenanalyse einbezogenen Variablen mitbestimmt. Daher sollten alle einbezogenen Variablen für den Untersuchungsgegenstand relevant sein und ähnliche Merkmale (Fragen) bereits im Vorfeld der Erhebung zusammengefasst werden. Daher spielt bereits die Operationalisierung bzw. die Fragebogengestaltung eine wichtige Rolle. Wenn zum Beispiel der Forschende wahllos eine große Anzahl an Variablen in die Analyse einbezieht und dann hofft, dass die Faktorenanalyse dies ausgleichen kann, dann ist die Wahrschein lichkeit für unbefriedigende Ergebnisse sehr groß, da die abgeleiteten Faktoren per Definition immer die konzeptionellen Untermauerungen der Variablenauswahl widerspiegeln. Neben den konzeptionellen Überlegungen spielen auch die statistischen Eigenschaften eine Rolle. Da die Korrelationsmatrix der Variablen die Ausgangsbasis für die Berechnung einer Faktorenanalyse ist, müssen entsprechend die Korrelationskoeffizienten zwischen allen Variablenpaaren bere chenbar sein. Das setzt voraus, dass die Variablen metrisch skaliert sind.1 Normalverteilung, Homoskedastizität und Linearität spielen nur insofern eine Rolle, als dadurch die beobachteten Korrelationen abgeschwächt, verzerrt bzw. verfälscht werden können. Allerdings müssen die Variablen normalverteilt sein, wenn deren Korrelationen hinsichtlich ihrer Signifikanz getestet werden sollen (vgl. H . 2006). Es gibt spezielle Verfahren für die Berechnung von Korrelationen zwischen nicht metrisch skalierten Variablen, und es könnten auch einige VariablenmitDummy Kodierung (0,1) in die Analyse aufgenommen werden. Für Datensätze mit ausschließlich Dummy Variablen gibt es ebenfalls spezielle Verfahren (boolean/binary factor analysis) der Faktoranalyse (BMDP 1992). Einführung in die explorative Faktorenanalyse 463 Der Anwender einer Faktorenanalyse sollte außerdem versuchen, auf der einen Seite die Anzahl der einbezogenen Variablen zu minimieren. Gleichzeitig soll aber auf der anderen Seite noch eine sinnvolle Zahl an Variablen pro vermuteten Faktor herangezogen werden. Wenn das Ziel in der Identifizierung latenter Faktoren liegt, ist es am besten, wenn man von fünf oder mehr Variablen pro Faktor ausgeht, da bei zu geringer Zahl der Variablen gerade die Stärken der Faktorenanalyse ausgehebelt werden. Wenn entschieden wurde, welche und wie viele Variablen in die Faktorenanalyse einbezogen werden, kann die minimale Stichprobengröße bestimmt werden. Allgemein ist die Durchfüh rung einer Faktorenanalyse bei weniger als 50 Beobachtungen nicht sinnvoll. Wünschenswert ist ein Minimum von 100 Beobachtungen. Neben der absoluten Größe der Stichprobe gilt es auch das Verhältnis von einbezogenen Variablen und Beobachtungen zu betrachten. Hier wird in der Regel als absolute Untergrenze ein Verhältnis von Beobachtungen zu Variablen von fünf zu eins gefordert. Wünschenswert wären aber zehn mal so viele Beobachtungen wie in die Analyse eingeschlossene Variablen. Ergebnisse von Faktorenanalysen basierend auf kleinen Stichproben sollten folglich äußerst vorsichtig interpretiert werden. 2.3 Beurteilung der Ausgangsdaten Bevor mit Hilfe der Faktorenanalyse einzelne Faktoren aus den Ausgangsdaten ermittelt werden können, muss im dritten Schritt zuerst der Zusammenhang zwischen den Variablen messbar ge macht werden. Die Faktorenanalyse bedient sich diesbezüglich der Korrelationen der einzelnen Variablen untereinander, d.h. um repräsentative Faktoren zu produzieren, muss man überprüfen, ob die ausgewählten Variablen ausreichend miteinander korreliert sind. Es haben sich etliche (statistische) Prüfkriterien etabliert, um die Eignung der Ausgangsdaten bzw. der Korrelations matrix zu beurteilen. Dabei können die Daten sowohl aus einer Gesamtperspektive, aber auch auf individueller Variablenebene betrachtet werden. Da viele der Kriterien oft keine eindeutige Aussage über die Eignung der Daten zulassen und verschiedene Vor und Nachteile haben, ist es in der Regel zweckmäßig mehrere Kriterien gleichzeitig für die Beurteilung heranzuziehen. Zunächst muss die Korrelationsmatrix berechnet werden. Vorab ist es empfehlenswert eine Stan dardisierung der Ausgangsvariablen durchzuführen, da dadurch zum einen die Berechnung der Korrelationsmatrix und weitere Rechenschritte der Faktorenanalyse erleichtert werden und zum anderen vor allem eine Vergleichbarkeit der unterschiedlichen Mess Skalen der Variablen gewährleistet wird.2 Visuelle Beurteilung der Korrelationsmatrix Bereits durch Betrachtung der Korrelationsmatrix kann der Forscher einen ersten Einblick be züglich der Anwendungsgüte der Daten erhalten. Wenn jenseits der Hauptdiagonalen nur we nige Korrelationskoeffizienten größer 0,30 sind oder alle Korrelationskoeffizienten den gleichen Wert aufweisen, gleichbedeutend damit, dass keinerlei Struktur innerhalb der Daten vorhanden ist, dann ist eine Anwendung einer Faktorenanalyse in Frage zu stellen. Signifikanzniveau der Korrelationen Für alle Variablenpaare kann man die Nullhypothese formulieren, dass zwischen ihnen kein Zusammenhang besteht bzw. der entsprechende Korrelationskoeffizient gleich null ist. Das B . (2003) oder auch F . (2003) bieten eine umfassende Einführung zur Berechnung der Korrelationskoeffizienten und Erklärung der Berechnung von standardisierten Variablen. 464 Richard Rinkenburger Signifikanzniveau gibt an, mit welcher Irrtumswahrscheinlichkeit eben diese Nullhypothese abgelehnt werden kann. Hinsichtlich einer guten Eignung für eine Faktorenanalyse sind viele signifikante Korrelationen wünschenswert. Inverse der Korrelationsmatrix Neben der Korrelationsmatrix selbst kann auch deren Inversen zur Beurteilung der Ausgangs variablen herangezogen werden. Dabei sollte die Inverse möglichst einer Diagonalmatrix ent sprechen, d. h. die Nicht Diagonal Werte sollten bestenfalls nahe an Null liegen (vgl. K 1963; S 1981). Auch für dieses Prüfkriterium gibt es keine allgemeingültigen Angaben, wie stark oder wie oft die Nicht Diagonal Werte von Null abweichen dürfen. Anti Image Kovarianzmatrix Nach G (1953) lässt sich die Varianz einer Variablen in das Image und in das Anti Image zerlegen. Das Image beschreibt den Teil der Varianz, der mit Hilfe der anderen Variablen durch eine Regressionsanalyse erklärt werden kann. Das Anti Image dagegen beschreibt den Varianzanteil, der von den verbliebenen Variablen unabhängig ist. Da die Faktorenanalyse auf der Annahme beruht, dass den Variablen gemeinsame Faktoren zugrunde liegen, sollten die Anti Image Werte der einzelnen Variablen möglichst klein sein. Betrachtet man nun die Anti Image Kovarianzmatrix, sollten auch hier alle Nicht Diagonal Element möglichst den Wert Null annehmen. Als Faustregel gilt, dass die Ausgangsdaten als geeignet angesehen werden können, wenn weniger als 25% der Nicht Diagonal Elemente der Anti Image Kovarianzmatrix Werte ungleich Null (Faustregel: größer 0,09) annehmen (vgl. D /S 1974). Bartlett Test Der Bartlett Test (test of sphericity) betrachtet ebenfalls die gesamte Korrelationsmatrix und ist ein statistischer Test, welcher die Hypothese, dass die Variablen in der Grundgesamtheit nicht mitei nander korrelieren, überprüft (vgl. B 1950; 1951). Kann die Nullhypothese (Die Variablen in der Grundgesamtheit sind unkorreliert) aufgrund der ausgewiesenen Irrtumswahrscheinlichkeit (oftmals wird α = 0,05 als kritischer Wert festgelegt) nicht abgelehnt werden, muss angenommen werden, dass die Korrelationsmatrix nur zufällig nicht einer Einheitsmatrix entspricht, d.h. die Korrelationen von Null verschieden sind. Für die Anwendbarkeit des Bartlett Testes wird aller dings vorausgesetzt, dass die Variablen normalverteilt sind (Test auf Normalverteilung notwendig) und die Prüfgröße ungefähr Chi Quadrat verteilt ist. Letzteres führt dazu, dass der Bartlett Test auf die Größe der Stichprobe reagiert, d.h. die Wahrscheinlichkeit, dass die Nullhypothese abge lehnt wird, steigt mit zunehmender Stichprobengröße (vgl. D /S 1974). Measure of Sample Adequacy (MSA) Mit Hilfe der Prüfgröße MSA3 kann man sowohl die gesamte Korrelationsmatrix, aber auch die individuellen Variablen beurteilen. Ausgehend von der Anti Image Korrelationsmatrix wird die Prüfgröße berechnet und auf einenWertebereich von 0 bis 1 normiert. Der theoretisch maximal erreichbareWert von 1 bedeutet dabei, dass jede Variable perfekt bzw. ohne Fehler durch die an deren Variablen erklärt würde. Generell nimmt das MSA Kriterium größereWerte an, wenn die Zahl der einbezogenen Variablen steigt, die Zahl der extrahierten Faktoren sinkt, die Stichpro bengröße steigt oder sich das allgemeine Niveau der Korrelation erhöht (vgl. D /S 1974). Wenn die MSA Werte kleiner 0,5 sind, eignet sich eine Korrelationsmatrix nicht für eine Anwendung einer Faktorenanalyse. K (1970) selbst sieht Werte ab 0,8 als wünschenswert an. Tabelle 2 zeigt eine Übersicht bezüglich der Interpretation des MSA Wertes. MSA wird häufig auch als Kaiser Meyer Olkin Kriterium bezeichnet. Einführung in die explorative Faktorenanalyse 465 Falls das MSA Kriterium für die gesamte Korrelationsmatrix kleiner 0,5 ist, sollte der Forscher die Diagonalwerte der Anti Image Korrelationsmatrix der einzelnen Variablen betrachten. Da bei gelten die gleichen Richtwerte hinsichtlich der Güte (vgl. Tabelle 2), anhand derer diejenigen Variablen identifiziert werden, welche als erstes von der Analyse ausgeschlossen werden sollten. Nachdem man die Variable mit dem niedrigsten MSA Wert aus der Analyse ausgeschlossen hat, wird die Korrelationsmatrix neu berechnet, und es wird wiederum das oben beschriebene Prüfkriterium herangezogen. Je nachdem, ob nun das MSA Kriterium für alle Variablen größer als 0,5 ist, müssen unter Umständen weitere Variablen ausgeschlossen werden. 2.4 Extraktion der Faktoren Nachdem die Ausgangsdaten auf Ihre Eignung für eine Anwendung der Faktorenanalyse geprüft wurden, muss in Stufe vier entschieden werden, welche Extraktionsmethode verwendet werden soll und wie viele Faktoren letztendlich extrahiert werden sollen. Die rein rechnerische Extrak tion der Faktoren über das Fundamentaltheorem der Faktorenanalyse wird dieser Beitrag nicht näher betrachten. B /O (1996) oder auch B . (2003) geben eine gute Einführung und erläutern das Fundamentaltheorem ausführlich. Für die Bestimmung der Faktoren gibt es zwei ähnlicheMethoden: Die Hauptkomponentenana lyse und die Hauptachsenanalyse. Für diese Entscheidung sind zum einen die Ziele der Analyse zu berücksichtigen. Die Hauptkomponentenanalyse sollte angewendet werden, wenn das Ziel der Analyse in der fast vollständigen Erhaltung der Ausgangsinformation (entspricht der Varianz in den Variablen) mit Hilfe einer möglichst kleinen Zahl von Faktoren liegt (Datenreduktion). Dagegen ist eine Hauptachsenanalyse besser geeignet, wenn die Identifizierung latenter Dimen sionen oder Konstrukte, welche die Varianz in den Ausgangsvariablen bestmöglich repräsentie ren bzw. erklären, das oberste Ziel ist (Strukturidentifizierung). $)!* (,+ (,- (,/ (,0 .6#! 6=@ <5>#! 6=@ <5>#! 6=@ <5>#! 6=@ <5>#! <5>#! (,) (,) (,+ (,- (,/ (,0 &)(!*)%#("' "86#9?8"> '78!;#9%<@1 !#4?> A<> '7#!=>%!=%<@1 7=>>#9$!*4?>=A '7=229=5A1 7*3=A '7#2=%4!#1 @4?9#4?> '7=@#!869#1 =58:&#$>86#9 '<5844#$>869#1 Tabelle 2: Bewertung der Ergebnisse des Measure of sample adequacy (MSA) [in Anlehnung an Kaiser/rice 1974] 466 Richard Rinkenburger Validierung der Faktorenanalye Wechsel auf die konfirmatorische Perspektive Analyse ohne Fälle mit Ausreißern 6. Stufe 7. Stufe Erklärung der Kommunalitäten (Hauptachsenanalyse) Erklärung der vollständigen Varianz (Hauptkomponentenanalyse) rechtwinklige Rotation schiefwinklige Rotation ja ja nein nein Interpretation der Faktormatrix Liegen signifikante Ladungen vor? Gibt es sinnvolle Bezeichnungen für die Faktoren? Sind die Kommunalitäten ausreichend groß? Respezifizierung des Faktormodells Sollen einzelne Variablen gelöscht werden? Soll die Zahl der Faktoren verändert werden? Soll eine andere Rotation verwendet werden? Verwendung der Ergebnisse einer Faktorenanalyse Surrogatvariable Skala Faktorwerte Fortsetzung von Stufe 3 Hauptkomponenten- vs. Hauptachsenanalyse Bestimmung der Anzahl an Faktoren Rotationsmethode 5. Stufe 4. Stufe Abbildung 4: Analyseprozess einer Faktorenanalyse (Stufe 4–7) [in Anlehnung an hair et al. 2006, S. 116] Einführung in die explorative Faktorenanalyse 467 Auf der anderen Seite sollte der Anwender einer Faktorenanalyse für diese Entscheidung ein grundlegendes Verständnis der Varianz einer Variablen haben. Insbesondere die Zerlegung der Varianz ist in diesem Zusammenhang von Bedeutung. Die Varianz ist der Wert, welcher die Gesamtsumme der Streuung einer Variablen über deren Mittelwert repräsentiert. Die Faktoren analyse gruppiert die Variablen anhand der Korrelation, d.h. Variablen einer Gruppe (Faktor) korrelieren hoch miteinander bzw. teilen viel Varianz untereinander. Entsprechend kann man die Gesamtvarianz einer Variablen in zwei Arten unterscheiden. Die erklärte Varianz ist der jenige Teil der Varianz, welcher mit den anderen Variablen in der Analyse geteilt bzw. durch die Faktoren erklärt wird. Diesen Teil der Gesamtvarianz nennt man auch Kommunalität. Die restliche Varianz wird durch die Faktoren nicht erklärt und kann auf die spezifisch bei einzelnen Variablen auftretende Varianz oder auf die Fehlervarianz (z.B. durch Meßfehler verursacht) zurückgeführt werden. Der Anwender muss festlegen, wieviel von der Ausgangsinformation erklärt werden soll. Die Hauptkomponentenanalyse beachtet die gesamte Varianz der Variablen und liefert Faktoren, welche auch kleine Teile der spezifischen Varianz und der Fehlervarianz enthalten. In der Kor relationsmatrix werden entsprechend alle Diagonalelemente gleich Eins gesetzt, so dass genau die Gesamtvarianz aller Variablen in die Faktorenanalyse eingebracht wird. Wenn der Forscher anhand von a priori Wissen davon ausgeht, dass die spezifische Varianz und die Fehlervarianz einen relativ kleinen Anteil an der Gesamtvarianz der Variablen ausmachen, ist die Anwendung der Hauptkomponentenanalyse vorzuziehen. Im Gegensatz dazu berücksichtigt die Hauptach senanalyse nur die erklärte Varianz, unter der Annahme, dass sowohl die spezifische als auch die Fehlervarianz nicht von Interesse sind, um die Struktur innerhalb der Daten zu bestimmen. Daher werden auf der Diagonalen der Korrelationsmatrix nur die geschätzten Kommunalitäten (Werte kleiner Eins) eingesetzt. An dieser Stelle besitzt der Anwender wiederum eine Eingriffsmöglichkeit: Auf der einen Seite können die Kommunalitäten aufgrund inhaltlicher Überlegungen vorgegeben werden4, oder man kann auf der anderen Seite dem Iterationsprozess der Analyse die Schätzung der „wahren“ Ein solches Vorgehen ist als sehr willkürlich anzusehen, da der richtigeWert dem Anwender in der Regel nicht bekannt ist. GesamtvarianzHauptkomponenten-analyse berücksichtigte Varianz ausgeschlossene Varianz Hauptachsenanalyse Kommunalität(<1) Eins Wert in der Diagonalen der Korrelationsmatrix Erklärte Varianz Spezifische undFehlervarianz Abbildung 5: Berücksichtigte Varianzarten in der Faktoranalyse [in Anlehnung an hair et al. 2006, S. 118] 468 Richard Rinkenburger Kommunalitäten überlassen. Die Anwendung der Hauptachsenanalyse ist auch von Vorteil, wenn der Forschende wenig Wissen über den Anteil der spezifischen Varianz und der Fehler varianz hat und daher diese Varianzteile nicht berücksichtigt werden sollen. Die extrahierten Faktoren der Hauptachsenanalyse basieren also lediglich auf der erklärten Varianz. Abbildung 5 fasst zusammen, welche Varianzteile bei den beiden Verfahren berücksichtigt werden und welche Auswirkungen das auf die Diagonale der Korrelationsmatrix als Ausgangsbasis für die Berech nung der Faktorenanalyse hat. Wenn die Zahl der extrahierten Faktoren kleiner ist als die Anzahl der Variablen, welche in die Analyse einbezogen wurden, liefern beide Verfahren kleinereWerte der Kommunalitäten als die zu Beginn festgelegtenWerte. Die Differenz zur Ausgangsinformation wird in beiden Verfahren als nicht reproduzierter Varianzanteil und damit als bewusst in Kauf genommener Informa tionsverlust interpretiert. Beide Verfahren finden in der Praxis häufig Anwendung. In vielen Softwarepaketen ist allerdings die Hauptkomponentenanalyse als Grundeinstellung vorgegeben, da die Verwendung der Hauptachsenanalyse einige Probleme aufwirft. Zum ersten leidet sie unter der sogenannten Faktorunbestimmheit, d.h. für ein Untersuchungsobjekt können mehrere unterschiedliche Faktorwerte (vgl. Abschnitt 2.7) aus dem Faktormodell berechnet werden (vgl. M ,/M D 1978). Allerdings sind die Unterschiede der Faktorwerte dabei oftmals nicht substantiell. Ein zweites Problem kann bei der Berechnung der geschätzten Kommunali täten auftreten, da diese manchmal nicht berechnet werden können oder nicht zulässige Ergeb nisse ausgegeben werden (Kommunalitäten sind auf denWertebreich [0,1] normiert). Das führt letztendlich dazu, dass die entsprechenden Variablen aus der Analyse entfernt werden müssen (vgl. H . 2006). Die Frage, ob die Ergebnisse der Faktorenanalyse letztendlich durch die Wahl zwischen den beiden oben beschriebenenMethoden beeinflusst werden, ist nicht eindeutig zu beantworten. In der Literatur finden sich Positionen, die jeweils die andere Methode für ungeeignet halten (vgl. G 1990; V /J 1990; M 1990; B . 1986; H / A 1987; 1989; W 1989). Es gibt einige empirische Studien mit dem Ergebnis, dass weitestgehend identische Resultate erreicht werden, wenn die Zahl der Variablen größer 30 ist5 oder die Kommunalitäten für die meisten Variablen den Wert 0,6 übersteigen (vgl. H . 2006). Nachdem man sich für eine Extraktionsmethode entschieden hat, muss der Forscher bei der Bestimmung der Zahl zu extrahierender Faktoren wiederum einen subjektiven Eingriff vorneh men. Für diese Entscheidung können sowohl theoretische Überlegungen als auch statistische Kennzahlen herangezogen werden (vgl. H . 2006). A Priori Kriterium Der Forschende kann a priori die Zahl der zu extrahierenden Faktoren bestimmen. Dieses einfache Kriterium setzt allerdings voraus, dass der Forscher weiß, wie viele Faktoren extrahiert werden sollen. In den meisten Software Paketen kann man direkt die gewünschte Zahl der Faktoren einstellen, z.B. wenn man die Forschung bzw. die Analysen Anderer reproduzieren oder anhand von theoretischen Überlegungen die Zahl festsetzen möchte. N (1978) ist der Ansicht, dass bereits ab 20 Variablen ähnliche Ergebnisse erreicht werden, während S /G (1989) mindestens 40 einbezogenen Variablen als Voraussetzung für konvergierende Ergebnisse ansehen. Einführung in die explorative Faktorenanalyse 469 Anteil der erklärten Varianz Eine weitere Möglichkeit die Anzahl der Faktoren zu bestimmen liegt in der Betrachtung der erklärten kumulierten Varianz durch die Faktoren. Ziel ist es, mit Hilfe der Faktoren einen bestimmten kumulierten Prozentsatz der Gesamtvarianz zu erreichen und somit zumindest einen vorher festgelegten Teil der Varianz zu erklären. Dabei kann der Forscher allerdings nicht auf einen genauen Grenzwert zurückgreifen. Allerdings haben sich für die Varianzerklärung in den Naturwissenschaften Werte um die 95% und in den Sozialwissenschaften Werte um die 60% etabliert. Eigenwert Kriterium bzw. Kaiser Kriterium Das Eigenwert oder auch Kaiser Kriterium wird zur Bestimmung der Faktorzahl am häufigsten verwendet und ist für beide Extraktionsmethoden gleichermaßen anwendbar. Der Eigenwert ist gleich dem Erklärungsgehalt eines Faktors in Bezug auf den Informationsgehalt (Varianz) aller Variablen. Da Faktoren eine Kombination mehrerer Variablen darstellen, ist die Überlegung hinter diesem Kriterium, dass jeder einzelne Faktor mehr Varianz als eine einzelne Variable erklären soll. Da die Varianz von standardisierten Variablen genau den Wert Eins annimmt, werden diejenigen Faktoren extrahiert, deren Eigenwert größer als Eins ist. Die Eigenwerte wer den aus der Summe der quadrierten Faktorladungen eines Faktors über alle Variablen berechnet. Die besten Ergebnisse werden mit Hilfe des Eigenwert Kriteriums erreicht, wenn zwischen 20 und 50 Variablen in die Analyse einbezogen wurden. Bei weniger als 20 Variablen führt die Anwendung des Eigenwert Kriteriums zu eher konservativen Ergebnissen mit tendenziell zu wenigen extrahierten Faktoren. Dagegen ist es bei mehr als 50 Variablen nicht ungewöhnlich, dass eher zu viele Faktoren extrahiert werden. Scree Test Ebenfalls auf den Eigenwerten der Faktoren basierend kann die Anzahl der zu extrahierenden Faktoren mit Hilfe des sogenannten Scree Test bestimmt werden. Dabei werden in einem Dia gramm die Eigenwerte der Faktoren in absteigender Wertefolge abgetragen und die Punkte mit einer Geraden verbunden. An der Stelle mit der größten Differenz zwischen den Eigenwerten zweier Faktoren entsteht ein Knick. Der erste Punkt links von diesem sogenannten Ellbogen (elbow criterion) bestimmt die Anzahl der Faktoren. Ein Nachteil des Scree Test liegt in der Möglichkeit, dass der Kurvenverlauf an mehreren Stellen einen Knick aufweist und damit keine eindeutige Lösung existiert. Abbildung 6 zeigt beispielhaft ein Diagramm, bei dem nach dem Kaiser Kriterium vier Faktoren und nach dem Scree Test fünf Faktoren (Knick bei Faktor Nr. 6) extrahiert werden sollten. Zusammenfassend lässt sich sagen, dass die Entscheidung über die Faktoranzahl nicht eindeutig bestimmbar ist und daher anhand mehrerer Kriterien bestimmt werden sollte. Der Forscher sollte auch mehrere Lösungen betrachten, da die Auswahl der Faktoren eng mit ihrer Interpre tierbarkeit verknüpft ist. So kann es sein, dass bei zu vielen extrahierten Faktoren die Interpreta tion erschwert wird. Auf der anderen Seite wird die tatsächliche Struktur nicht aufgedeckt und damit potenziell wichtige Dimensionen ausgelassen, wenn die Auswahl zu weniger Faktoren festgelegt wird. 470 Richard Rinkenburger 2.5 Interpretation der Faktoren Der erste Schritt hinsichtlich der Interpretation der Faktoren in Stufe fünf ist die Berechnung der anfangs unrotierten Faktormatrix, welche die Faktorladungen von jeder Variablen auf jeden Faktor enthält. Diese Faktorladungen sind definiert als die Korrelation zwischen einer Variablen und einem Faktor, wobei hohe Ladungen die Variablen repräsentativ für den Faktor machen. Die Faktorinterpretation basiert entsprechend auf den Ladungen, da über diese die Rolle der Variablen bei der Definition jedes Faktors widergespiegelt wird. Wenn eine Hauptkomponen tenanalyse durchgeführt wurde, entspricht die Interpretation der Faktoren der Suche nach einem Über bzw. Sammelbegriff für die auf den entsprechenden Faktor hoch ladenden Variablen. Bei der Hauptachsenanalyse interpretiert man die Faktoren als Ursache für den Zusammenhang zwischen den auf einen Faktor hoch ladenden Variablen. Grundsätzlich ordnet man Variablen mit einer hohen Faktorladung einem Faktor zu. Falls eine Variable bei mehreren Faktoren hoch lädt, muss sie auch entsprechend bei jedem dieser Faktoren in der Interpretation berücksichtigt werden. Bei großen Erhebungen treten häufig bei einzelnen Variablen hohe Ladungen bei sehr vielen Faktoren auf und erschweren damit die Interpretation erheblich. Unrotierte Faktorlösungen erreichen das Ziel der Datenreduktion, eignen sich aber aus oben genannten Gründen oftmals nicht, um Informationen zur bestmöglichen Interpreta tion der Faktoren bereitzustellen. Daher sollte eine Rotation der Faktoren vorgenommen wer den, um die Faktorstruktur zu vereinfachen. Ziel ist eine sogenannte Einfachstruktur, bei der die Ladungen der Variablen klarer auf die einzelnen Faktoren verteilt sind. Dadurch können einfachere und gleichzeitig theoretisch bedeutendere Lösungen generiert werden, ohne dass die Aussagekraft der Faktorenanalyse verändert wird. Die unrotierte Faktorlösung extrahiert die Faktoren in der Reihenfolge der Varianzerklärung der Faktoren. Der erste Faktor tendiert deshalb dazu ein genereller Faktor zu sein, auf den fast alle Variablen hoch laden und der damit kaum zu interpretieren ist. Der zweite Faktor und alle Weiteren basieren dann jeweils auf dem Rest der bisher nicht erklärten Varianz und damit auf sukzessiv kleinere Anteile der Varianz. Der Effekt der Rotation der Faktormatrix ist die Um verteilung der Varianz von früher zu später extrahierten Faktoren zur besseren Interpretation. &#%'1('-* $."*/-1)!!'- 0.#+'-,0-#*'-#)! " ( " ( $ # ! ' & % Abbildung 6: Scree-Test [in Anlehnung an malhotra 2006, S. 618] Einführung in die explorative Faktorenanalyse 471 Prinzipiell gibt es zwei unterschiedliche Möglichkeiten der Rotation (vgl. Abbildung 7). Die einfachste Form ist die rechtwinklige (orthogonale) Faktorrotation. Dabei wird angenommen, dass die einzelnen Faktoren voneinander unabhängig bzw. unkorreliert sind. Grafisch gesehen stehen die Faktoren damit jeweils in einem 90 Grad Winkel zueinander, der während der Dre hung nicht verändert wird. Die zweite Möglichkeit ist eine schiefwinklige (oblique) Rotation, bei der die festen Winkel zwischen den Faktoren nicht beibehalten werden. Oftmals ist eine solche Rotation realitätsgetreuer, da selten angenommen werden kann, dass die Faktoren unabhängig und damit unkorreliert sind. Es existieren keine spezifischen Regeln, welche Rotationsmetho de verwendet werden sollte. Orthogonale Rotationen werden in der Regel allerdings häufiger eingesetzt. Nachdem man eine Faktorrotation durchgeführt und sich einer Einfachstruktur der Faktorma trix angenähert hat, gilt es die rotierten Faktorladungen für jede Variable zu beurteilen, um die Rolle der Variablen und deren Beitrag zur Bestimmung der Faktorstruktur zu ermitteln. Zur Bestimmung einer ersten, eher praktischen Relevanz sollte man für jede Variable die höchste Ladung auf einen Faktor suchen und markieren. Dabei hat sich die Faustregel etabliert, dass die Faktorladungen größer 0,5 sein sollten, damit sie als praktisch relevant angesehen werden können. Faktorladungen größer 0,7 sind ein Zeichen für eine gut definierte Struktur in der Faktormatrix (vgl. H . 2006). Da man selbst nach der Faktorrotation meist keine per fekte Einfachstruktur der Faktormatrix vorliegen hat, d.h., dass einzelne Variablen immer noch auf mehr als einen Faktor hochladen, müssen auch diese Ladungen gekennzeichnet werden.6 Nachdem alle hohen Ladungen identifiziert wurden, sollte der Forscher überprüfen, ob alle Va riablen durch die gefundene Faktorlösung ausreichend repräsentiert werden. Problematisch kann Daneben kann auch die statistische Signifikanz der Faktorladungen betrachtet werden, wobei ein Ansatz, ähnlich der Bestimmung der Signifikanz vonKorrelationskoeffizienten, verwendet werden kann (vgl. H . 2006, S. 128f.). Allerdings haben C /H (1967) nachgewiesen, dass Faktorladungen im Gegensatz zu Korrelationen einen wesentlich größeren Standardfehler aufweisen und entsprechend anhand von strengeren Kriterien beurteilt werden sollten. ,47;":# )68<%!!%<6<;%3,!<=%>%367# )68<%!!%<6<;%3 #%$ 2 3 56!;647# 0 . & ' !#%$ "%# "%# #%$ !#%$ !"%# )61<%! ' 9%<6<#/ )61<%! & )61<%! & *($ 9%<6<#/ )61<%! ' #%$ 2 0 . & ' !#%$ "%# "%# #%$ !#%$ !"%# )61<%! ' 9%<6<#/ )61<%! &)61<%! & -0+&$ 9%<6<#/ )61<%! ' Abbildung 7: Grafische Veranschaulichung von Faktorrotationen 472 Richard Rinkenburger es sein, wenn eine Variable auf keinen Faktor hoch lädt oder die Variablen nicht ausreichend durch die Faktoren erklärt werden, wenn also die Kommunalität der Variablen kleiner als 0,5 ist. Abschließend hat der Forscher mehrere Möglichkeiten (vgl. H . 2006), mit diesen Problemen umzugehen (vgl. auch Abbildung 4): Die problematischen Variablen werden ignoriert. Sie bleiben also in der Analyse, werden aber für die Interpretation der Faktoren nicht herangezogen. Überprüfung der problematischen Variablen hinsichtlich einer möglichen Entfernung aus der Analyse. Wenn zu niedrige Kommunalitäten vorliegen oder die Variablen wenig Bedeu tung für die Untersuchung haben, sollten sie ausgeschlossen und die Faktoranalyse erneut (aber respezifiziert) durchgeführt werden. Anwendung einer anderen Rotationsmethode, um eine Faktormatrix zu erhalten, die noch besser einer Einfachstruktur entspricht. Erhöhung bzw. Verringerung der Zahl der extrahierten Faktoren, um zu überprüfen, ob diese größeren bzw. kleineren Faktorlösungen die problematischen Variablen besser reprä sentieren können. Im Extremfall kann auch die Extraktionsmethode verändert werden, um zu sehen, ob die Art der berücksichtigten Varianz einen Einfluss auf die Faktorstruktur hat. Nachdem eine akzeptable Faktorlösung vorliegt, werden die Faktoren mit einem Namen verse hen. Generell gilt: Je größer eine Faktorladung, desto wichtiger ist die entsprechende Variable für die Interpretation und desto mehr Bedeutung hat sie für die Bezeichnung dieses Faktors. Die Bezeichnungen werden vom Forscher hinsichtlich der Eignung, die zugrundeliegende Di mension des speziellen Faktors zu repräsentieren, gewählt. Insgesamt hat der Forscher bei der Interpretation der Faktoren einen großen Spielraum. 2.6 Validierung der Faktorenanalyse Der sechste Schritt umfasst die Überprüfung der Generalisierung der Ergebnisse und die Be urteilung des potenziellen Einflusses von einzelnen Fällen oder Untersuchungsobjekten auf das Ergebnis. Der direkteste Weg zur Validierung einer Faktorenanalyse ist ein Wechsel auf die konfirmatorische Perspektive, um mit Hilfe einer Teilstichprobe der ursprünglichen Erhebung oder einer neuen Stichprobe die Reproduzierbarkeit der Ergebnisse zu überprüfen. Wenn die Stichprobe groß genug ist, hat man die Möglichkeit die Stabilität der Ergebnisse zu überprüfen, indem man die Beobachtungen zufällig zwei Untergruppen zuordnet und für beide Teile das Faktormodell berechnet. Der Vergleich der beiden Faktormatrizen erlaubt eine Einschätzung der Robustheit der Resultate. Abschließend sollte der Anwender die Analyse zum Vergleich ohne die Beobachtungen mit extremen Ausprägungen (Ausreißer) durchführen, um deren Einfluss beurteilen zu können. C . (1991) stellen speziell für die Anwendung der Faktorenanalyse weitere, komplexe Methoden zur Identifizierung besonders einflussreicher Beobachtungen vor. 2.7 Weitergehende Nutzung der Ergebnisse der Faktorenanalyse Abhängig von den zu Beginn festgelegten Zielsetzungen (vgl. Stufe 1) kann der Forscher in der siebten Stufe des Prozesses eine der folgenden Methoden zur Nutzung der Ergebnisse der Faktorenanalyse verwenden oder an dieser Stelle die Faktorenanalyse abschließen. Prinzipiell gibt es drei Möglichkeiten, die Ergebnisse der Faktorenanalyse für nachfolgende Analysen zu Einführung in die explorative Faktorenanalyse 473 nutzen: Man wählt die Variable mit der höchsten Faktorladung als Repräsentant eines Faktors (1) oder man ersetzt die Ausgangsdaten durch einen komplett neuen, kleineren Satz Variablen, gebildet aus einer Skala (2) oder den berechneten Faktorwerten (3). Diese neuen Variablen kön nen zum Beispiel als Unabhängige einer Regressions oder Diskriminanzanalyse, als Abhängige im Rahmen einer Varianzanalyse oder auch als Gruppierungsvariable in einer Clusteranalyse dienen (vgl. H . 2006).7 Die erste Möglichkeit den Datensatz zu reduzieren liegt in der Bestimmung einer Surrogatvari ablen für jeden Faktor. Anhand der Faktorladungen wird dabei diejenige Variable ausgewählt, welche am höchsten auf diesen Faktor lädt. Wenn genau eine Variable deutlich höher auf den Faktor lädt als alle anderen, ist dies die einfachste und direkteste Methode. Wenn allerdings mehrere Variablen gleich hoch laden, können noch theoretische Überlegungen hinzugezogen werden, aber der Auswahlprozess ist schwieriger und nicht mehr eindeutig. Weitere Nachteile sind zum einen die Anfälligkeit für Messfehler, zum anderen werden womöglich nicht alle Fa cetten eines Faktors durch die eine Surrogatvariable repräsentiert. Die zweite Möglichkeit die Ausgangsdaten zu ersetzen ist die Berechnung von Faktorwerten. Ein Vorteil von Faktorwerten ist, dass deren Berechnung auf den Faktorladungen aller Variablen auf die einzelnen Faktoren basiert und diese entsprechend repräsentiert. Außerdem sind Faktorwerte die beste Methode zur Datenreduktion und können für die Untersuchungsobjekte einzeln berechnet werden. Mit den gängigen Statistik Software Paketen können die Faktorwerte einfach ermittelt und ohne Probleme gespeichert werden. Ein weiterer Vorteil ist die Eigenschaft der Faktorwerte, dass sie per Definition voneinander unabhängig sind, damit Multikollinearitätsprobleme umgehen und deshalb sehr gut für weitere multivariate Analysen geeignet sind. Allerdings ist die Interpretation von Faktorwerten schwieriger, da alle Variablen beteiligt sind und man sie über verschiedene Studien kaum reproduzieren kann. Die letzte Möglichkeit um den Datensatz zu reduzieren sind Skalen, welche einen Kompromiss zwischen Surrogatvariable und Faktorwert darstellen. Sie werden gebildet, indem mehrere Variablen zu einem Item zusammengefasst werden.8 Dabei werden alle auf einen Faktor hoch ladenden Variablen kombiniert (ein Nachteil, da nicht alle Variablen beachtet werden), indem entweder die Variablenausprägungen einfach addiert werden, deren Durchschnittswert verwendet wird oder auch mit Hilfe von Gewichtungen (z.B. den Faktorladungen) gearbeitet wird. Damit werden mehrere Facetten der Faktoren repräsentiert. Ein weiterer Vorteil ist die leichte Reproduzierbarkeit über verschiedene Studien. Allerdings sind Skalen nicht unbedingt unabhängig voneinander und es werden aufwendige Reliabilitäts und Validitätsanalysen benötigt. 3 Zusammenfassung und Empfehlungen für die Anwendung Die Faktorenanalyse ist eine sehr nützliche und leistungsstarke multivariate Analysemethode um Informationen aus einer großen Menge von zusammenhängenden Daten zu extrahieren. Entsprechend stellt das Hauptziel der Faktorenanalyse die Aufdeckung der den Variablen zu grundeliegenden Struktur dar. Als ein strukturentdeckendes Verfahren soll die explorative Fak torenanalyse basierend auf den Beziehungen, welche durch die Korrelationsmatrix repräsentiert werden, Gruppen unter den Variablen identifizieren. Daher können mit Hilfe der Faktorena nalyse hoch korrelierende Variablen zu Faktoren zusammengefasst werden, diese Faktoren eine Hierbei gilt es allerdings die bereits in Abschnitt 2.1 angesprochenen Einschränkungen und Probleme bezüglich der Inferenzstatistik zu beachten. Vgl. in diesem Herausgeberband, E /R . 474 Richard Rinkenburger Bezeichnung bzw. einen Namen erhalten und letztendlich auch ein neues, zusammengesetztes Maß zur Faktorrepräsentierung gebildet werden. Letzteres kann weitergehende Untersuchungen großer Datensätzen mit vielen Variablen entscheidend vereinfachen, indem die Variablen durch Surrogatvariablen, Faktorwerte oder durch Skalen ersetzt werden. Die Problematik bei der An wendung der Faktoranalyse spiegelt sich in der kontroversen Diskussion wider, welches Verfah ren das beste sei, und die vielen subjektiven Eingriffsmöglichkeiten bei der Durchführung einer Faktorenanalyse wie z.B. die Entscheidung, wie viele Faktoren extrahiert werden sollen, welche Rotationsmethode eingesetzt werden soll oder die Interpretation der Faktorladungen. Um den Einstieg für Erstanwender zu erleichtern werden abschließend die wichtigsten Voraussetzungen und einige Empfehlungen zu den einzelnen Entscheidungen und subjektiven Eingriffsmöglich keiten aus den vorangegangenen Abschnitte zusammengefasst bzw. gegeben. Zu Beginn einer Faktorenanalyse muss die Zielsetzung klar definiert sein, da viele der nach folgenden Entscheidungen in starkem Maße von den vorgegebenen Zielen abhängen. Bei der Auswahl der einzelnen Variablen sollte darauf geachtet werden, dass alle Merkmale für die Un tersuchung relevant, aber nicht redundant sind. Außerdem müssen die Variablen metrisch ska liert sein. Abschließend wird in der Stichprobe idealerweise das Verhältnis von Beobachtungen zu Variablen (mindestens fünf oder besser zehn Beobachtungen pro Variable) maximiert. Die Stichprobe hat dabei imMinimum 100 Beobachtungen. Vor der Durchführung der eigentlichen Faktorenanalyse sollten die Variablen bzw. die Korrelationsmatrix hinsichtlich deren Eignung für eine Faktorenanalyse überprüft werden. Dabei sollten immer mehrere Kriterien (u.a. Korre lationsmatrix, Anti Image Kovarianzmatrix und Bartlett Test) zur Entscheidung herangezogen werden. Außerdem sollten stets die MSA Werte sowohl für die gesamte Korrelationsmatrix als auch für die einzelnen Variablen, mindestens 0,5 betragen. Variablen deren MSA Werte kleiner als 0,5 sind, sollten von der Analyse einzeln, beginnend mit der Variablen mit dem niedrigsten MSA Wert, ausgeschlossen werden. Obwohl mit Hauptkomponenten und Hauptachsenana lyse oft ähnliche Ergebnisse erzielt werden, sollte man erstere anwenden, wenn das oberste Ziel lediglich die Reduzierung des Datensatzes ist und davon ausgegangen werden kann, dass die spezifische Varianz und die Fehlervarianz der Variablen sehr klein sind. Dagegen ist der Einsatz der Hauptachsenanalyse besser geeignet, Strukturen in den Daten zu identifizieren und sollte bei Unsicherheit bezüglich der Varianzaufteilung verwendet werden. Für die Entscheidung, wie viele Faktoren extrahiert werden, sollten ebenfalls mehrere Kriterien (theoretische Über legungen, Scree Test, Eigenwerte, kumulierte erklärte Varianz) herangezogen werden. Wenn lediglich frühere Analysen reproduziert werden sollen, kann die Anzahl der Faktoren auch ma nuell vorgegeben werden. Vor der Interpretation der Faktormatrix sollte stets eine Faktorrotation durchgeführt werden. Dabei werden rechtwinklige Rotationsverfahren am häufigsten eingesetzt und sind gerade dann den schiefwinkligen Rotationsmethoden vorzuziehen, wenn das Ziel in einer reinen Datenreduktion liegt, während oblique Methoden besser geeignet sind, theore tisch sinnvolle Faktoren bzw. Konstrukte zu erhalten, da in der Realität nur wenige Konstrukte unkorreliert sind. Nach der Faktorrotation werden die extrahierten Faktoren dann mit Hilfe der Faktormatrix interpretiert. Abschließend können die Ergebnisse noch validiert und die Ergebnisse der Faktorenanalyse in weiteren Analysen in Form von Surrogatvariablen, Skalen oder Faktorwerten verwendet werden. Einführung in die explorative Faktorenanalyse 475 Literaturverzeichnis BaCKhaUs, K.; eriChson, B.; plinKe, W.; WeiBer, r. (2003):Multivariate Analysemethoden – Eine anwendungsorientierte Einführung, 10. neu bearb. u. erw. Aufl., Berlin u.a., 2003. BarTleTT, m. s. (1950):Tests of significance in factor analysis, in: British Journal of Psychology – Statistical section, Vol. 3, S. 77–85. BarTleTT, m. s. (1951): A Further Note on Tests of Significance in Factor Analysis, in: British Journal of Psychology – Statistical section, Vol. 4, S. 1–2. BmDp sTaTisTiCal soFTWare inC. (1992): BMDP Statistical Software Manual. BorgaTTa, e. F.; KerCher, K.; sTUll, D. e. (1986): ACautionary Note on the Use of Principal Components Analysis, in: Sociological Methods & Research, Vol. 15, No. 1–2, S. 160–168. BraChinger, h. W.; osT, F. (1996): Modelle mit latenten Variablen: Faktorenanalyse, La tent Structure Analyse und LISREL Analyse, in: Fahrmeir, L.; Hamerle, A.; Tutz, G. [Hrsg.]: Mulitvariate statistische Verfahren, 2. erw. Aufl., Berlin u.a., 1996, S. 637–764. ChaTTerJee, s.; Jamieson, l.; Wiseman, F. (1991): Identifying Most Influential Observations in Factor Analysis, in: Marketing Science, Vol. 10, No. 2, S. 145–160. CliFF, n.; hamBUrger, C. s. (1967): The study of sampling errors in factor analysis by means of artificial experiments, in: Psychological Bulletin, Vol. 68, No. 6, S. 430–445. DziUBan, C. D.; shirKey, e. C. (1974): When is a Correlation Matrix Appropriate for Factor Analysis?, in: Psychological Bulletin, Vol. 81, No. 6, S. 358–361. ehrenBerg, a. s. C. (1968): The Factor Analytic Search for Program Types, in: Journal of Advertising Research, Vol. 8, No. 1, S. 55–63. Fahrmeir, l.; KünsTler, r.; pigeoT, i.; TUTz, g. (2003): Statistik. DerWeg zur Datenanalyse, 4. verb. Aufl., Berlin u.a., 2003. Fornell, C. (1987): A second generation in multivariate analysis: Classification of methods and implications for marketing research, in: Houston, M. J. [Hrsg.]: Review of Marketing, S. 407–450. gorsUCh, r. l. (1990): Common Factor Analysis versus Component Analysis: Some Well and Little Known Facts, in: Multivariate Behavioral Research, Vol. 25, No. 1, S. 33–39. gUTTmann, l. (1953): Image Theory for the Structure of Quantitative Variates, in: Psychome trika, Vol. 18, No. 4, S. 277–296. hair, J. F.; BlaCK, W. C.; BaBin, B. J.; anDerson, r.e.; TaTham, r. l. (2006):Multivariate Data Analysis, 6. Aufl., Upper Saddle River, 2006. hUBBarD, r.; allen, s. J. (1987): A Cautionary Note on the Use of Principal Componen ts Analysis – Supportive Empirical Evidence, in: Sociological Methods & Research, Vol. 16, No. 2, S. 301–308. hUBBarD, r.; allen, s. J. (1989): Differences in Empricial Results Using Principal Com ponents and Factor Analysis: A Reply to Wilkinson, in: Sociological Methods & Research, Vol. 17, No. 4, S. 465–466. Janssens, W.; WiJnen, K.; De pelsmaCKer, p.; van Kenhove, p. (2008):Marketing Research with SPSS, 1. Aufl., Harlow u.a., 2008. 476 Richard Rinkenburger Kaiser, h. F. (1963): Image Analysis, in: Harris, C. W. [Hrsg.]: Problems in Measuring Chan ge, Madison, 1963. Kaiser, h. F. (1970): A Second Generation Little Jiffy, in: Psychometrika, Vol. 35, No. 4, S. 401–415. Kaiser, h. F.; riCe, J. (1974): Little Jiffy, Mark IV, in: Educational and Psychological Mea surement, Vol. 34, No. 1, S. 111–117. malhoTra, n. K. (2006): Marketing Research – An Applied Orientation, 5. Aufl., Upper Saddle River, 2006. malhoTra, n. K.; BirKs, D. F. (2007):Marketing Research – An Applied Approach, 3. Europ. Ed., Harlow u.a., 2007. mUlaiK, s. a. (1990): Blurring the Distinctions Between Component Analysis and Common Factor Analysis, in: Multivariate Behavioral Research, Vol. 25, No. 1, S. 53–59. mUlaiK, s. a.; mCDonalD, r. p. (1978):TheEffect of additional variables on factor indetermi nacy in models with a single common factor, in: Psychometrika, Vol. 43, No. 2, S. 177–192. mUrphy, K. m.; Topel, r. h. (1985): Estimation and Inference in Two Step Econometric Models, in: Journal of Business and Economics, Vol. 3, No. 4, S. 370–379. niesChlag, r.; DiChTl, e.; hörsChgen, h. (1997):Marketing, 18. durchgesehene Aufl., Ber lin, 1997. nUnnally, J. C. (1978): Psychometric theory, 2. Aufl., New York, 1978. snooK, s. C.; gorsUCh, r. l. (1989): Component Analysis versus Common Factor Analysis: A Monte Carlo Study, in: Psychological Bulletin, Vol. 106, No. 1, S. 148–154. sTeWarT, D. W. (1981): The Application and Misapplication of Factor Analysis in Marketing Research, in: Journal of Marketing Research, Vol. 18, No. 1, S. 51–62. üBerla, K. (1971): Faktorenanalyse – Eine systematische Einführung für Psychologen, 2. Aufl., Berlin u.a., 1971. veliCer, W. F.; JaCKson, D. n. (1990): Component Analysis versus Common Factor Analy sis: Some Issues in Selecting an Appropriate Procedure, in: Multivariate Behavioral Research, Vol. 25, No. 1, S. 1–28. WilKonson, l. (1989): A cautionary note on the use of factor analysis, in: Sociological Methods & Research, Vol. 17, No. 4, S. 449–459.

Chapter Preview

References

Zusammenfassung

Dieser Sammelband bietet einen Überblick über relevante Theorien der Wirtschafts- und Sozialwissenschaften sowie ausgewählte Methoden der qualitativen und quantitativen Forschung. Der Leser hat die Möglichkeit, jede hier behandelte Theorie und Methode in ihren grundlegenden Aussagen bzw. Funktionsweisen zu verstehen sowie hilfreiche Hinweise und Literaturquellen für ein vertiefendes Studium jedes Themenfeldes zu erhalten.

Studenten oder Doktoranden stehen vor dem gleichen Problem:

Wie können Forschungsfragen durch geeignete theoretische Konzepte fundiert werden, wie werden sie in Hypothesen transformiert und mit welchen empirischen Methoden überprüft?

Die Kernbotschaft: Auf dem Weg zu wissenschaftlicher Leistung müssen Theorien und Methoden Hand in Hand gehen.

Damit dies gelingen kann benötigt jeder Forscher eine grundlegende Kenntnis derjenigen Theorien und empirischen Methoden, die im jeweiligen Forschungsfeld Relevanz besitzen und für die Anwendung in Frage kommen. Das Verständnis von Theorien bzw. der Funktionsweise und Leistungsfähigkeit empirischer Methoden sind dabei essentiell. Erst dadurch werden eine zutreffende Auswahl und eine korrekte Anwendung von Theorien und Methoden zur Lösung des Forschungsanliegens ermöglicht.

Der Überblick über die Theorien und Methoden der Wirtschafts- und Sozialwissenschaften.

Der kompakte Sammelband ist empfehlenswert für Studenten und Doktoranden, die Forschungsfragen durch geeignete theoretische Konzepte fundieren, in Hypothesen transformieren und anschließend mit geeigneten empirischen Methoden überprüfen können.