Einsatz von Kassenscannerdaten und Webscraping in der Preisstatistik

 

Projektziel und Realisierung

 

Die Berechnung von Preisindizes haben in Statistik Austria eine über hundertjährige Tradition, Zeitreihen des Verbraucherpreisindex reichen bis 1958 zurück. Die zentrale, primärstatistische Datenerhebung dafür wird von Statistik Austria durchgeführt und findet persönlich in Geschäften, telefonisch, per Mail und mittels Internet­recherche statt. Um die Datenbeschaffung stetig zu verbessern, werden regelmäßig neue Datenquellen zur Ergänzung der Indizes evaluiert. Zwei Datenquellen konnten bereits erfolgreich in den statistischen Produktionsprozess integriert werden:

 

  • Preiserhebung im Internet: Das große Angebot im Internet erschwert eine händische Auswahl und Datenerfassung, daher wird auf automatisierte Preis- und Datenerfassung mittels sogenannter Webcrawler oder Webscraper zurückgegriffen. Diese Programme erfassen vordefinierte Variablen (z. B. Produktbeschreibungen, Mengen, Größen, und Preise) und speichern sie in strukturierter Form weiterverarbeitbar ab. Nach anfänglichen Erfahrungen mit Point & Click Tools, wird nun auf eigene Programmierung von Webscrapern in R und Python gesetzt. Die Skripte wurden in ein allgemeines Framework gesetzt und ermöglichen ein Monitoring durch automatisch generierte E-Mails und Reports – somit kann auf kleinste Webseitenänderungen sofort reagiert werden.
  • Scannerdaten: Scannerkassen erfassen jeden Kauf elektronisch und zeichnen sowohl den Preis, die Produktbezeichnung, den Rabatt als auch die gekaufte Menge auf. Ort und Datum des Verkaufs werden ebenfalls erfasst und können ausgewertet werden. Für eine Verwendung der Scannerdaten ist vorab eine Zuordnung sämtlicher Produkte entsprechend der ECOICOP-Klassen notwendig. Ein Framework verschiedener Machine-Learning Algorithmen (von Naive Bayes bis hin zu deep learning) wurde zu diesem Zweck konzipiert und liefert Genauigkeiten über 90 Prozent. Produkte, die von verschiedenen Algorithmen unterschiedlich klassifiziert werden, deuten auf Zuordnungsfehler hin und werden manuell nachbearbeitet.

 

Die Implementierung von Scannerdaten in die Indexberechnung ist für Jänner 2022 vorgesehen. Ab dann wird die Vor-Ort-Erhebung teilweise von Scannerdaten abgelöst. Aufgrund der Covid-bedingten Erhebungsausfälle im Frühling und Winter 2020 war es jedoch erforderlich, bereits vorab auf Scannerdaten zurückzugreifen, um fehlende Preismeldungen zu kompensieren.
 

Eine wichtige Rolle spielen folgende rechtliche Rahmenbedingungen, die die Nutzung der Daten ermöglichen:

Rechtliche Rahmenbedingungen:

 

Scannerdaten:

Seit 2019 regelt eine neue VPI-Verordnung die Bereitstellung von Scannerdaten der großen Supermarktketten an Statistik Austria. Darin werden u. a. die Erhebungseinheiten, die Periodizität der Datenlieferung, der Erhebungszeitraum bzw. die Erhebungsmerkmale gesetzlich festgelegt.

 

Webscraping:

Folgende Rahmenbedingungen sollten bei Webscraping eingehalten werden:

  • Webscraping-Programme sollen durch die Verwendung einer festgelegten Benennung (UserAgent-Bezeichnung) für Website-Betreiber eindeutig identifizierbar sein.
  • Technische Hürden (Captchas, IP-Sperren) seitens des Anbieters dürfen nicht umgangen werden.
  • Webscraping darf nicht dazu verwendet werden, die Datenbasis eines Website-Betreibers zu duplizieren, um sie an anderer Stelle zugänglich zu machen.
  • Webscraping-Prozesse dürfen die Performance der Infrastruktur des Website-Betreibers nicht negativ beeinflussen

Um diesen Ansprüchen gerecht zu werden, entsprechen unsere Webscraping-Aktivitäten den von Eurostat entwickelten Guidelines.
 

 

Innovation im Rahmen des Projekts

 

Die Innovation des Projekts liegt in der Verwendung neuer Datenquellen und der damit verbundenen Verbesserung der Qualität der Preisindizes: Die Datenbeschaffung ist effizienter, aktueller (u.a. keine verspäteten Preismeldungen) und kann höhere Datenmengen abdecken. Mit Scannerdaten kann langfristig anstelle eines stichprobenartigen ein vollständiges Warensortiment abgedeckt werden (vorerst beschränkt auf Lebensmittel- und Drogeriewarenhandel).

 

Interpretation der Ergebnisse

 

Die Datenquellen bzw. hohe Datenmenge lassen verschiedene Preisindexberechnungsmethoden zu, die zu verschiedenen Indexeigenschaften führen können und deren Vor- und Nachteile vor einer Entscheidung über die letztliche Verwendung für die Preisstatistik abgewogen werden müssen.

Die kann zu höherer Preisindexvolatilität führen. Ob und inwiefern es Abweichungen zu bereits als amtliche Statistik publizierten Ergebnissen gibt, ist zum derzeitigen Status noch unklar.

 

Weitere Informationen und Ergebnisse

 

Ziel ist die ersten Preisindizes, die auf automatisch mittels Webscraping erhobenen Preisen basieren, im Laufe des Jahres 2021 in den offiziellen Index aufzunehmen. Als erster Anwendungsbereich für diese Zwecke wurden Mobilfunk-Tarife ausgewählt.