Entwicklung von R Paketen für methodische Arbeiten in der amtlichen Statistik 

 

Projektziel und Realisierung

 

Eine Vielzahl der Aufgaben des Bereichs Methodik bei Statistik Austria sind heute durch Funktionalitäten in R Paketen abgebildet. Einige davon wurden bei Statistik Austria zur hausinternen Nutzung entwickelt, aber eine Reihe dieser Pakete ist auch öffentlich verfügbar. Deshalb hat Statistik Austria einen Schwerpunkt gesetzt, der einerseits darauf abzielt, die Nutzung von R intern zu fördern und auszubauen und sich andererseits der Entwicklung von R-Paketen, die relevante methodische Themen der amtlichen Statistik betreffen, zu widmen. 

 

Innovation im Rahmen des Projekts

 

R gilt als lingua franca in der wissenschaftlichen Welt, was die Weiterentwicklung statistischer Methoden und deren Implementierung anlangt. Der forcierte Einsatz von R ermöglicht daher einen Austausch mit der Wissenschaft sowie mit anderen NSIs. In diesem Sinne sind die von Statistik Austria entwickelten R-Pakete auch NSIs weltweit im statistischen Produktionsprozess einsetztbar. 

 

Weitere Informationen, Projektergebnisse 

Auf Github (https://github.com/statistikat) sind die entsprechenden Entwicklungen dokumentiert. Produktiv nutzbare Pakete sind überdies auf CRAN (https://cran.r-project.org/) verfügbar. Einige Pakete sind auch auf der Liste  "Awesome official statistics software" (http://www.awesomeofficialstatistics.org ) angeführt. 

Liste der entwickleten R-Pakete:

Statistische Geheimhaltung:

  • sdcMicro (Templ et al., 2015) zur Geheimhaltung von Mikrodaten setzen
  • sdcTable (Meindl, 2017) zur Geheimhaltung von Tabellen (Würfel)
  • simPop (Temp et al., 2017) zur (modellbasierten) Generierung von synthetischen Datensätzen

 

Imputation: 

  • VIM (Kowarik et al., 2016) Visualization and Imputation of missing data

 

Saisonbereinigung:

  • x12 (Kowarik et al., 2014) zur Anwendung von X13-ARIMA-SEATS direkt aus R
  • persephone (https://github.com/statistikat/persephone) ein Wrapper für JDemetra+, dem offiziellen Tool zur Saisonbereinigung des ESS (derzeit noch in Entwicklung, aber nach Fertigstellung wird es x12 ersetzen).

 

Hoch- und Fehlerrechnung (Bootstrap) von Stichprobe:

  • surveysd (Gussenbauer et al., 2020) implementiert eine Bootstrap-Variante zur Fehlerrechnung für komplexe Stichprobendesigns sowie eine sehr flexibel "Iterative proportional fitting" Variante für die Hochrechnung.

Relevante Publikationen:

  • Gussenbauer J., Kowarik A, de Cillia G., 2020, surveysd: Survey Standard Error Estimation for Cumulated Estimates and their Differences in Complex Panel Designs, R package version 1.2.0, https://CRAN.R-project.org/package=surveysd
  • Kowarik, A., & Templ, M., 2016, Imputation with R package VIM. Journal of Statistical Software, 74(7), 1-16.
  • Kowarik, A., Meraner, A., Templ, M., & Schopfhauser, D., 2014, Seasonal Adjustment with the R Packages x12 and x12GUI. Journal of Statistical Software, 62(1),
    1-21.
  • Meindl, B., 2017, sdcTable: Methods for SDC (statistical disclosure control) in
    tabular data,https://cran.r-project.org/web/packages/sdcTable/index.html.
  • Templ, M., Meindl, B., Kowarik, A., & Dupriez, O., 2017, Simulation of synthetic
    complex data: The R-package simPop. Journal of Statistical Software, 79(i10).
  • Templ, M., Kowarik, A., & Meindl, B., 2015, Statistical disclosure control for microdata using the R package sdcMicro. Journal of Statistical Software, 67(1), 1-36.