Reliabilität

Die Reliabilität (dt.: Zuverlässigkeit) ist ein Maß für die formale Genauigkeit bzw. Verlässlichkeit wissenschaftlicher Messungen. Sie ist derjenige Anteil an der Varianz, der durch tatsächliche Unterschiede im zu messenden Merkmal und nicht durch Messfehler erklärt werden kann. Hochreliable Ergebnisse müssen weitgehend frei von Zufallsfehlern sein, d.h. bei Wiederholung der Messung unter gleichen Rahmenbedingungen würde das gleiche Messergebnis erzielt werden (Replizierbarkeit von Ergebnissen unter gleichen Bedingungen).

Die Reliabilität stellt neben der Validität und der Objektivität eines der drei wichtigsten Gütekriterien für empirische Untersuchungen dar. Hohe Reliabilität ist grundsätzlich eine Voraussetzung für hohe Validität, wobei eine zu hohe Reliabilität zu Lasten der Validität gehen kann (Reliabilitäts-Validitäts-Dilemma).

Reliabilität umfasst drei Aspekte:

Stabilität (Gleichheit bzw. Ähnlichkeit der Messergebnisse bei Anwendung zu unterschiedlichen Zeitpunkten)
Konsistenz (Ausmaß, nach dem alle Items, die in einem Test zu einem Merkmal zusammengefasst werden, dasselbe Merkmal messen)
Äquivalenz (Gleichwertigkeit von Messungen)

In der psychologischen Diagnostik wird sie zu den Hauptgütekriterien von psychologischen Tests gerechnet. Sie gibt an, wie genau ein Persönlichkeits- oder Verhaltensmerkmal gemessen wird.

Typen

Die Reliabilität kann mit verschiedenen Methoden geschätzt werden. Je nach Methode wird von anderen Reliabilitäts-Typen gesprochen.

Paralleltest-Reliabilität: Denselben Versuchspersonen werden zwei einander stark ähnelnde Tests (entweder unmittelbar hintereinander oder zeitlich versetzt) dargeboten. Die Paralleltest-Reliabilität wird im Paralleltest-Verfahren bestimmt. Sie gibt an, ob ein vergleichbares Messverfahren identische Ergebnisse liefert. Anstelle gleichwertiger Testverfahren können auch Parallelformen des Tests verwendet werden (zum Beispiel dürften die Aufgaben $3+4=?$ und $2+5=?$ gleichermaßen dazu geeignet sein, die Fähigkeit zur einfachen Addition zu messen).

Split-Half-Reliabilität/Testhalbierungsmethode: Bei der Split-Half-Reliabilität wird der Test in zwei Hälften unterteilt, jede Hälfte ist ein Paralleltest zur anderen Hälfte. Bei hinreichend großer Ergebnismenge sollten die Mittelwerte und weitere statistische Kenngrößen gleich sein. Die Zuteilung der einzelnen Items zu den Testhälften erfolgt üblicherweise nach der Odd-Even-Methode, d.h. Items mit ungerader (odd) Laufnummer kommen in die eine, Items mit gerader (even) Laufnummer in die andere Testhälfte. Da man, mathematisch gesehen, in diesem Fall jedoch eigentlich nur die Reliabilität des „halben“ Tests erhält und die Split-Half-Reliabilität die tatsächliche Realiabilität unterschätzt, muss das ursprüngliche Ergebnis mit der Spearman-Brown-Korrektur korrigiert werden. Die Testhalbierungsmethode führt bei Tests mit Geschwindigkeitskomponente (Speed-Test) zu einem verzerrten Reliabilitätskoeffizienten (künstlich erhöht oder erniedrigt).

Retest-Reliabilität: Der gleiche Test wird den Versuchspersonen zu verschiedenen Zeitpunkten dargeboten. Die Ergebnisse der ersten und zweiten Messung werden korreliert. Beim Test-Retest-Verfahren wird geprüft, ob eine Wiederholung der Messung bei Konstanz der zu messenden Eigenschaft die gleichen Messwerte liefert. Die Retest-Reliabilität gibt den Grad der Übereinstimmung an. Für viele Tests ist eine Wiederholung entsprechend dem Test-Retest-Verfahren nur theoretisch möglich, da die mit dem Test einhergehenden Erinnerungs-, Lern- oder Übungseffekte das Ergebnis beeinflussen und eine „Scheinreliabilität“ vortäuschen können. So ist eine mathematische Aufgabe in einem Intelligenztest nicht zweimal zu lösen, da der Proband sich an die Lösung der ersten Aufgabe erinnert. Das Zeitintervall zwischen den Messungen muss also groß genug sein, um Gedächtniseffekte auszuschließen, gleichzeitig aber kurz genug, um Merkmalskonstanz zu gewährleisten. Mit der Retest-Reliabilität können keine systematischen, versuchsbedingten Fehler entdeckt werden.

Interne Konsistenz: Die interne Konsistenz ist ein Maß dafür, wie die Items einer Skala miteinander zusammenhängen. Interne Konsistenz stellt gewissermaßen einen Umweg dar, die Messgenauigkeit eines Instruments zu erheben, wenn kein Retest oder Paralleltest zur Reliabilitätsbestimmung zur Verfügung steht. Es erfolgt die Reliabilitätsmessung also intern, wobei jedes Item gewissermaßen als Paralleltest behandelt und mit jedem anderen Item korreliert wird (Interkorrelationsmatrix). Die Güte eines Items kann hierbei ermittelt werden, indem die interne Konsistenz berechnet wird, wenn das Item nicht in der Skala enthalten wäre. Eine gebräuchliche Kenngröße für die interne Konsistenz kann bei dichotomen Items mit der Kuder-Richardson-Formel berechnet werden und für Items einer Intervallskala ist eine Kenngröße durch Cronbachs Alpha gegeben.

Interrater-Reliabilität: Die zum gleichen Zeitpunkt oder in Bezug auf dieselben Testobjekte ermittelte Übereinstimmung zwischen Beurteilern/Beobachtern bezeichnet man als Interrater-Reliabilität. Weitere gängige Werte sind der Übereinstimmungskoeffizient nach Holsti und Cohens Kappa.

Möglichkeiten der Reliabilitätsverbesserung

Die Reliabilität der Tests kann durch Verlängerung des Tests mithilfe vergleichbarer Items verbessert werden, weil mit der Länge des Tests die Messgenauigkeit steigt.
Die Objektivität ist eine notwendige Bedingung für die Reliabilität. Entsprechend kann eine Objektivitätsverbesserung die Reliabilität des Messinstruments erhöhen.
Beim Formulieren der Items sollte Itemhomogenität angestrebt werden. Items sind homogen, wenn sie sich gegenseitig beinhalten. Das bedeutet, dass Versuchspersonen, die das extremste Item bejahen, auch das schwächer formulierte Item bejahen bzw. ein negativ gepoltes Item verneinen.
Wenig trennscharfe Items sollten ausgeschlossen werden. Ein Item, das gut zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt, trägt zur Messgenauigkeit des Tests bei.

Literatur

Krauth, Joachim (1995): Testkonstruktion und Testtheorie. Weinheim: Psychologie Verlags Union. ISBN 3-621-27286-0
Lienert, G. A. (1989): Testaufbau und Testanalyse. Weinheim: Psychologie Verlags Union, 4. Auflage.
Lienert, G. & Raatz, A. (2001): Testanalyse und Testkonstruktion. Weinheim: Beltz.
Wirtz, M.; Caspar, F. (2002): Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe
Bühner, M. (2006): Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium

Weblinks

Wiktionary: Reliabilität – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

http://www.uni-leipzig.de/~jenderek/tool/tool.htm (MS-Excel-Makro zur Berechnung verschiedener Reliabilitätskoeffizienten)

Dieser Artikel basiert ursprünglich auf dem Artikel Reliabilität aus der freien Enzyklopädie Wikipedia und steht unter der Doppellizenz GNU-Lizenz für freie Dokumentation und Creative Commons CC-BY-SA 3.0 Unported. In der Wikipedia ist eine Liste der ursprünglichen Wikipedia-Autoren verfügbar.

Reliabilität

Inhaltsverzeichnis

Typen

Möglichkeiten der Reliabilitätsverbesserung

Literatur

Weblinks

Navigationsmenü

Suche