Gini-Koeffizient

Gini-Koeffizient (in %) der Einkommensverteilung (Weltbank, 2014)

Lorenz-Kurve (rot) der realen Verteilung zur Berechnung des Gini-Koeffizienten und ideale Gleichverteilung (schwarz)

Der Gini-Koeffizient oder auch Gini-Index ist ein statistisches Maß, das vom italienischen Statistiker Corrado Gini zur Darstellung von Ungleichverteilungen entwickelt wurde. Ungleichverteilungskoeffizienten lassen sich für jegliche Verteilungen berechnen. Beispielsweise gilt der Gini-Koeffizient in der Wirtschaftswissenschaft, aber auch in der Geographie als Maßstab für die Einkommens- und Vermögensverteilung einzelner Länder und somit als Hilfsmittel zur Klassifizierung von Ländern und ihrem zugehörigen Entwicklungsstand.

Der Gini-Koeffizient wird aus der Lorenz-Kurve abgeleitet und nimmt einen Wert zwischen 0 (bei einer gleichmäßigen Verteilung) und 1 (wenn nur eine Person das komplette Einkommen erhält, d. h. bei maximaler Ungleichverteilung) an. Mit einer gleichmäßigen Verteilung ist dabei nicht die Gleichverteilung im wahrscheinlichkeitstheoretischen Sinne gemeint, sondern eine Verteilung mit einer Varianz von 0. Im häufigsten Anwendungsfall, der Einkommensverteilung in einem Staat, heißt das, dass das Einkommen jedes Erwachsenen gleich hoch ist, und nicht etwa, dass verschiedene Einkommen(sklassen) gleich häufig sind.

Anwendungen

Ökonomie

Der Gini-Koeffizient wird insbesondere in der Wohlfahrtsökonomie verwendet, um beispielsweise das Maß der Gleichheit oder Ungleichheit der Verteilung von Vermögen oder Einkommen zu beschreiben. Der Koeffizient ist eine Alternative zum S80/S20-Einkommensquintilverhältnis, der in der EU-Statistik ^[1] Verwendung findet.

Informationstheorie

In der Informationstheorie wird er als Maß der „Reinheit“ oder „Unreinheit“ von Information verwendet.

Maschinelles Lernen

Im Bereich des maschinellen Lernens kann beim Erzeugen eines Entscheidungsbaums der Gini-Index, genauer gesagt die Änderung des Gini-Index, auch „Gini Gain“ genannt, als Kriterium verwendet werden, um diejenige Entscheidungsregel auszuwählen, bei der die Kindknoten möglichst „rein“ werden.^[2] Die Idee ist, dass bei einer „reinen“ Entscheidung der Baum fertig ist, weshalb die Änderung des Gini-Index als Maß geeignet ist.

Bankwesen

Im Bankwesen wird der Gini-Koeffizient als Maß dafür verwendet, wie gut ein Ratingsystem gute von schlechten Kunden trennen kann (Trennschärfe).^[3]

Normierung

Die Skala möglicher Werte reicht je nach Anwendungsfall von 0 bis 1, von 0 bis 100, von 0 bis 10000. Je nach Anwendungsfall steht der kleinste oder eben der größte Wert für die gleichmäßige Verteilung. Der Wert der absoluten Ungleichheit kann dabei im Allgemeinen nur asymptotisch erreicht werden. Durch Renormierung kann man dies vermeiden.

Verteilung mit Quantilen

Ein gewisser Teil einer Menge A wird einem Teil einer anderen Menge B zugeordnet. Dies kann z. B. Geld (A) auf Menschen (B) oder auch Stromverbrauch (A) auf Städte (B) sein. Entscheidend ist, dass A eine homogene gut aufteilbare Menge darstellt. Zum Beispiel wäre der Besitz von Kfz nicht geeignet, da Kfz weder homogen – einzelne Typen unterscheiden sich erheblich – noch in kleine Einheiten aufteilbar sind.

Der Gini-Koeffizient ist die auf die Gleichverteilung normierte Fläche zwischen den Lorenz-Kurven einer Gleichverteilung und der beobachteten Verteilung.

\mathrm {GUK} ={\frac {A_{g}-A_{ug}}{A_{g}}}

mit GUK als dem Gini-Ungleichverteilungskoeffizienten, $A_{g}$ der Fläche unter der Lorenz-Kurve einer Gleichverteilung und $A_{ug}$ der Fläche unter der Lorenz-Kurve für die beobachtete Verteilung.

Beispiel

A wird auf B verteilt, beispielsweise wird das Vermögen (A) auf die Bevölkerung (B) verteilt.

50 Prozent von B (b₁) wird  2,5 Prozent von A zugeordnet (v₁).
40 Prozent von B (b₂) wird 47,5 Prozent von A zugeordnet (v₂).
 9 Prozent von B (b₃) wird 27,0 Prozent von A zugeordnet (v₃).
 1 Prozent von B (b₄) wird 23,0 Prozent von A zugeordnet (v₄).

In einem ersten Schritt werden die Daten „normalisiert“ dargestellt:

b₁ = 0,50     v₁ = 0,025          v₁/b₁ =  0,05
b₂ = 0,40     v₂ = 0,475          v₂/b₂ =  1,188
b₃ = 0,09     v₃ = 0,270          v₃/b₃ =  3
b₄ = 0,01     v₄ = 0,230          v₄/b₄ = 23

Im zweiten Schritt wird der Gini-Koeffizient berechnet.

Den Gini-Ungleichverteilungskoeffizienten (GUK) erhält man durch Auswertung einer Lorenz-Kurve.

Damit tatsächlich eine Lorenz-Kurve entsteht, müssen gegebenenfalls die obigen Werte umsortiert werden. Alle Werte-Paare $(v_{i},b_{i})$ müssen zunächst so vorsortiert werden, dass gilt:

{\frac {v_{i}}{b_{i}}}\geq {\frac {v_{i-1}}{b_{i-1}}}

Bei dem obigen Beispiel liegt schon die richtige Sortierung vor, so dass nicht umsortiert werden muss.

Die gesuchte Lorenz-Kurve entsteht, wenn man (x_i,y_i)-Paare als Punkte in ein kartesisches Koordinatensystem einträgt und anschließend benachbarte Punkte mit einer Geraden verbindet. Die $(x_{i},y_{i})$ -Paare entstehen aus den $(v_{i},b_{i})$ -Paaren nach folgender Rechenvorschrift:

x_{n}=\sum _{j=1}^{n}b_{j}\quad {\text{und}}\quad y_{n}=\sum _{j=1}^{n}v_{j}.

Im zweiten Schritt werden aus den Daten des ersten Schritts die nachfolgenden Daten durch Summation ermittelt (wobei am Anfang (0, 0) als fester Wert dazu kommt):

x₀ = 0,00     y₀ = 0
x₁ = 0,50     y₁ = 0,025
x₂ = 0,90     y₂ = 0,5    (da 0,5 + 0,4 = 0,9 und 0,025 + 0,475 = 0,5 ist)
x₃ = 0,99     y₃ = 0,77
x₄ = 1,00     y₄ = 1

Bei totaler Gleichverteilung des Vermögens ist die Lorenz-Kurve eine gerade Linie von Punkt (0|0) zu Punkt (1|1).

Zur Bestimmung des Gini-Koeffizienten werden zuerst zwei Größen bestimmt, die graphisch betrachtet Flächen sind. Einmal die Fläche unter der Gleichverteilungslinie, nennen wir diese Größe beispielsweise A. Die zweite Fläche ist die Fläche unter der tatsächlichen Verteilungskurve, nennen wir diese Größe beispielsweise B. Mit diesen beiden Größen berechnet sich der Gini-Ungleichverteilungskoeffizient wie folgt:

\mathrm {GUK} ={\frac {A-B}{A}}

B ist die dunkelgraue Fläche; A setzt sich aus der hell- und der dunkelgrauen Fläche zusammen.

Errechnen der y-Werte der Lorenz-Kurve der tatsächlichen Verteilung:

y₀ = 0,000
y₁ = v₁ = 0,025
y₂ = v₁ + v₂ = 0,500
y₃ = v₁ + v₂ + v₃ = 0,770
y₄ = v₁ + v₂ + v₃ + v₄ = 1,000

Berechnung der Fläche B unter der Lorenz-Kurve der tatsächlichen Verteilung (siehe unten):

(y₁ - 0,5 · v₁) · b₁ = 0,00625
(y₂ - 0,5 · v₂) · b₂ = 0,105
(y₃ - 0,5 · v₃) · b₃ = 0,05715
(y₄ - 0,5 · v₄) · b₄ = 0,00885

B = 0,17725

Da eine normierte Darstellung verwendet wird, verbindet die Kurve der totalen Gleichverteilung die Eckpunkte (0|0) und (1|1) miteinander. Das Dreieck mit der Fläche A beträgt also 0,5. Darum gilt für den Gini-Ungleichverteilungskoeffizienten:

\mathrm {GUK} ={\frac {A-B}{A}}={\frac {0{,}5-B}{0{,}5}}=1-2\cdot B=1-0{,}3545=0{,}6455

^[4]

Graphisch betrachtet ist der Gini-Koeffizient das Verhältnis der Fläche zwischen Gleichverteilungslinie und Lorenzkurve (A-B) zur Fläche unterhalb der Gleichverteilungslinie (A).

Erläuterung zur Berechnung

Die gesamte Gini-Fläche ist ein Rechteck mit den Seiten $v_{1}+v_{2}+v_{3}+v_{4}$ mal $b_{1}+b_{2}+b_{3}+b_{4}$ . Die Gini-Fläche einer Gleichverteilung ist die Hälfte der gesamten Gini-Fläche. Zur Berechnung der Fläche unter der Kurve werden alle Einzelflächen addiert. Nehmen wir beispielsweise $b_{2}$ . Voll anzurechnen ist das Rechteck mit der Höhe $y_{1}$ und der Breite $b_{2}$ (d. h. von $x_{1}$ bis $x_{2}$ ). Von dem Rechteck, das von der Höhe $y_{1}$ bis zur Höhe $y_{2}$ geht, ist nur die Hälfte zu nehmen, da die andere Hälfte oberhalb der Ginilinie nicht zur Gini-Fläche gehört. Also ist

{\text{Fläche}}=y_{1}\cdot b_{2}+{\frac {(y_{2}-y_{1})\cdot b_{2}}{2}}={\frac {(y_{2}+y_{1})\cdot b_{2}}{2}}

oder auch

{\text{Fläche}}=\left(y_{2}-{\frac {v_{2}}{2}}\right)\cdot b_{2}.

Alternative Anschauung zur Flächenberechnung: Die Einzelfläche über $b_{2}$ ist die Differenz aus der Rechtecksfläche, die von den Punkten (x₁,y₀=0), (x₂,y₀=0), (x₂,y₂), (x₁,y₁) begrenzt wird (Inhalt: $b_{2}\cdot y_{2}$ ), abzüglich der Fläche des rechtwinkligen Dreiecks, das von den Punkten (x₁,y₁), (x₂,y₁), (x₁,y₂) begrenzt wird (Inhalt: ${\tfrac {b_{2}\cdot v_{2}}{2}}$ ), mit gleichem Ergebnis.

Datenreduktion

Der Gini-Koeffizient ist ein statistisches Maß zur Berechnung der Ungleichheitsverteilung. Solche Maße reduzieren prinzipiell einen mehr oder minder komplexeren Datensatz auf eine einfache Kennzahl. Diese Kennzahl kann zu Fehlinterpretationen führen, wenn sie nicht sachgemäß verwendet wird.

Verschiedene Lorenzkurven – gleicher Gini-Koeffizient

Im Fall des Gini-Koeffizienten gibt es beispielsweise zu fast jeder Lorenzkurve mindestens eine andere Lorenzkurve mit exakt dem gleichen Gini-Wert. Diese erhält man durch Spiegelung der ursprünglichen Lorenzkurve an der Linie, die durch die Punkte (0|1) und (1|0) verläuft. Wenn auf 50 %/50 % die Mengen 10 %/90 % zu verteilen sind, ergibt dies die gleiche Lorenzkurve wie die Verteilung der Mengen von 50 %/50 % auf 90 %/10 % der Merkmalsträger. Diese beiden Lorenzkurven sind in der Abbildung dargestellt. Ausnahmen sind lediglich Lorenzkurven, die von vornherein symmetrisch zu dieser Linie sind.

Für die beiden unterschiedlichen Kurven ergibt sich ein gemeinsamer Gini-Koeffizient von 0,4.^[5] Tatsächlich gibt es zu einem Gini-Koeffizienten (außer bei absoluter Gleich- oder absoluter Ungleichverteilung) sogar unendlich viele mögliche Lorenzkurven. In diesem Punkt gleicht der Gini-Koeffizient jeder anderen Kennzahl, die aus der Akkumulation einer größeren Datenmenge abgeleitet ist. Ungleichverteilungskennzahlen wie der Gini-Koeffizient entstehen aus Aggregation von Daten mit dem Ziel, Komplexität zu reduzieren. Der damit einhergehende Informationsverlust ist also keine unbeabsichtigte Nebenwirkung. Für Komplexitätsreduktionen gilt generell, dass sie erst dann zu einem Nachteil werden, wenn man ihr Zustandekommen und ihre Abbildungsfunktion vergisst.

Fehlerquelle bei Vergleichen

Aussagen, in denen Ungleichheitskoeffizienten miteinander verglichen werden, erfordern eine besonders kritische Überprüfung der Berechnung der einzelnen Koeffizienten. Für einen korrekten Vergleich ist es erforderlich, dass diese Koeffizienten in allen Fällen einheitlich berechnet wurden. Beispielsweise führt die unterschiedliche Granularität der Eingangsdaten zu unterschiedlichen Ergebnissen bei der Berechnung der Ungleichverteilung. Ein mit wenigen Quantilen berechneter Gini-Koeffizient zeigt in der Regel eine etwas geringere Ungleichverteilung an als ein mit mehr Quantilen berechneter Koeffizient, weil im letzteren Fall dank höherer Messauflösung die Ungleichverteilung berücksichtigt werden kann, die innerhalb der Bereiche (d. h. zwischen den Quantilen) im ersten Fall wegen der gröberen Messauflösung unausgewertet bleibt.

In einfachen Worten: Eine höhere Auflösung der Daten liefert (fast immer) eine niedrigere Gleichverteilung.

Siehe auch

Weblinks

Travis Hale, University of Texas Inequality Project:The Theoretical Basics of Popular Inequality Measures (Theorie mit praktischen Beispielen; MS Word; 1,6 MB), Beispiel 1B
Rechner: on-line und downloadbare Skripte und Macros (für Python, Lua und OpenOffice.org 2.0 Calc)
Rechner: [1]
E-Learning-Video: Lorenzkurve und Gini-Koeffizient
World Income Inequality Database der Universität der Vereinten Nationen

Einzelnachweise

↑ Eurostat-Website
↑ Breiman, L. and Friedman, JH and Olshen, RA and Stone, CJ: Classification and regression trees. Chapman and Hall, New York 1984.
↑ Leitfadenreihe zum Kreditrisiko: Ratingmodelle und -validierung, Österreichische Nationalbank und Finanzmarktaufsicht, 2004. http://www.oenb.at/de/img/ratingmodelle_tcm14-16319.pdf
↑ On-Line-Rechner: Ungleichverteilung
↑ Vergleich: www.umverteilung.de/rechner/?quantiles=50,10|50,90 (blaue Kurve) und www.umverteilung.de/rechner/?quantiles=90,50|10,50 (rote Kurve)

Dieser Artikel basiert ursprünglich auf dem Artikel Gini-Koeffizient aus der freien Enzyklopädie Wikipedia und steht unter der Doppellizenz GNU-Lizenz für freie Dokumentation und Creative Commons CC-BY-SA 3.0 Unported. In der Wikipedia ist eine Liste der ursprünglichen Wikipedia-Autoren verfügbar.

[1] Eurostat-Website

[gini-gain-2] Breiman, L. and Friedman, JH and Olshen, RA and Stone, CJ: Classification and regression trees. Chapman and Hall, New York 1984.

[3] Leitfadenreihe zum Kreditrisiko: Ratingmodelle und -validierung, Österreichische Nationalbank und Finanzmarktaufsicht, 2004. http://www.oenb.at/de/img/ratingmodelle_tcm14-16319.pdf

[4] On-Line-Rechner: Ungleichverteilung

[5] Vergleich: www.umverteilung.de/rechner/?quantiles=50,10|50,90 (blaue Kurve) und www.umverteilung.de/rechner/?quantiles=90,50|10,50 (rote Kurve)

[1]

[2]

[3]

[4]

[5]