Anwendung von Machinelearning zur Schätzung kleinräumiger SDG-Indikatoren (LEARN4SDGis)

 

Projektziel und Realisierung

 

Wichtige sozialstatistische Indikatoren beruhen häufig auf Stichprobendaten. Bei der Beobachtung von Fortschritten sind oft regionale Unterschiede gefragt. Die Möglichkeiten der regionalen Gliederung sind jedoch durch den Stichprobenfehler begrenzt. Das gilt insbesondere für viele Indikatoren zur nachhaltigen Entwicklung, den sogenannten Sustainable Development Goals (SDGs).

Das mit einem EUROSTAT Grant geförderte Innovationsprojekt “Machine Learning for Sample Data Geographic information systems” (LEARN4SDGis) zielte genau darauf ab: Wie können wichtige Indikatoren kleinräumig geschätzt werden? Wie können valide Angaben, zum Beispiel für Armutsgefährdung auf beliebiger regionaler Ebene – etwa auf Raster-, Zählsprengel-, Gemeinde-, Bezirks- oder NUTS-Ebene – gemacht werden?  

Das Projekt wurde Anfang 2018 begonnen und Mitte 2020 fertiggestellt. Das Endprodukt ist ein Atlas für fünf kleinräumig darstellbare Indikatoren zu Bildung, Armut und Gesundheit. Die Indikatoren stehen alle im Kontext der SDGs der Agenda 2030. Bei jedem dieser Indikatoren geht es um einen Bevölkerungsanteil für ein bestimmtes Merkmal (z.B. Quote der Armutsgefährdung). Der Qualitätsausschuss des Statistikrates, der Fachbeirat für Sozialstatistik und die Landesstatistik wurden nach Abschluss des Projekts zu den damals vorliegenden Methoden und Ergebnissen konsultiert. Die Methoden und Datengrundlagen wurden zuletzt im Frühjahr 2021 aktualisiert.

 

Innovation im Rahmen des Projekts

 

Stichprobendaten wurden mit Geoinformationen und zusätzlichen Verwaltungsdaten verknüpft. Die Integration bereits vorhandener Daten liefert dabei wertvolle Informationen für die benötigte kleinräumige Schätzung. Zum Beispiel besteht bei Indikatoren zu Armut schon definitionsgemäß ein Zusammenhang mit den durch Lohnsteuerdaten auf Personenebene nahezu vollständig erfassten Einkommensverhältnissen. Aber auch der Zusammenhang mit regional verfügbaren Kennzahlen, wie der Zahl der Arbeitslosen laut AMS, der Häufigkeit von Neugeborenen mit einem niedrigen Geburtsgewicht oder der Rate von KfZ-Neuzulassungen, ist plausibel.

 

Aufgrund der Fülle an möglichen Zusatzinformationen wurden Algorithmen des „maschinellen Lernens“ (Machine Learning) angewandt, um die für eine verbesserte Schätzung relevanten Zusammenhänge in den Stichprobendaten automatisch zu erkennen und nach festgelegten Optimierungskriterien zu modellieren.

 

Folgende Machine Learning Ansätze wurden getestet:

  • Random Forest
  • Boosting
  • Support Vector Machines
  • Neuronale Netze.
     

Modelliert wurde jeweils das für die Berechnung eines Indikators erforderliche Merkmal (z.B. Armutsgefährdung). Die in Stichprobendaten trainierten Modelle wurden auf die Grundgesamtheit übertragen, um das relevante Merkmal zu einem bestimmten Stichtag für jede in einem Privathaushalt lebende Person zu schätzen.

 

Interpretation der Ergebnisse

 

Durch das Projekt konnten kartografische Darstellungen zu Armut, Gesundheit und Bildung auf kleinräumiger Ebene als erste Ergebnisse gewonnen werden. Diese Zielsetzung wurde durch Anwendung von „Machine Learning“ und Integration unterschiedlicher Datenquellen verfolgt. Diese Daten liefern wertvolle erste Einsichten, sind jedoch hinsichtlich Methodik oder europäischer Harmonisierung noch nicht vollständig ausgereift und werden noch entsprechend weiterentwickelt.

 

Die kleinräumigen Ergebnisse basieren letztlich auf den zur Verfügung stehenden Verwaltungsdaten. Wenn die Verwaltungsdaten nicht der Lebensrealität entsprechen, ist mit intuitiv unerwarteten Resultaten zu rechnen. Das gilt insbesondere für Abweichungen von Meldeadresse und der gelebten Haushaltszugehörigkeit, oder wenn beispielsweise der Lebensunterhalt aus nicht oder unvollständig steuerlich erfassten Einkünften bestritten wird. So sind Informationen zur Einkommenssituation von selbständig Beschäftigten in den Verwaltungsdaten nur unzureichend abgebildet. Das trägt dazu bei, dass Ergebnisse in Gebieten mit einem überdurchschnittlichen Anteil an selbständig Erwerbstätigen teilweise weniger plausibel erscheinen als in Gebieten mit einem hohen Anteil von Unselbständigen oder Pensionsbeziehenden. In ähnlicher Weise auswirken können sich regionale Konzentrationen von Personen, die überwiegend von Kapitaleinkünften, Trinkgeldern oder Saisonbeschäftigungen leben.

 

Generell gilt, dass auffällige Ergebnisse umso kritischer zu beurteilen sind, je kleinräumiger die Darstellung ausfällt. Die Ergebnisse weisen einen Schätzfehler auf, welcher zu einem Teil aus der Modellierung und zu einem anderen Teil aus der Stichprobe stammt. Besonders unzuverlässige Ergebnisse wurden daher unterdrückt.

 

Weitere Informationen, Projektergebnisse

Die Ergebnisse sind in einem interaktiven Atlas zugänglich. 

Der ursprüngliche Projektbericht an Eurostat ist nachzulesen.

Eine detaillierte Methodenbeschreibung wurde im September 2020 in in den Statistischen Nachrichten veröffentlicht .

Die seither vorgenommenen methodischen Weiterentwicklungen insbesondere Anwendung neuronaler Netze, wurden in einer aktualisierten Methodenbeschreibung zusammengefasst.