Women in Data Science: Frau Dr. Barbara Wawrzyniak referiert über die Bedeutung mikrogeographischer Daten

Am 25. September 2020 findet in Bonn erstmals die Konferenz für „Women in Data Science (WiDS)“ als Hybridveranstaltung statt. In Kombination mit Zuhörern vor Ort im Digital Hub und virtuellen Gästen ermöglicht dieses neue Format den grenzenlosen Wissensaustausch über aktuelle Trends und Herausforderungen interdisziplinärer Forschungsfelder von Daten, Analysen und Anwendungen (mehr dazu unter www.womenindatascience.de).

Zu den TOP-Speakerinnen zählt auch Frau Dr. Barbara Wawrzyniak, Leiterin der Abteilung Daten & Analysen bei der infas 360 GmbH. Sie verantwortet u.a. das gesamte mikrogeographische Datenportfolio des Big Data Spezialisten aus Bonn und wird aus der Praxis berichten wie diese Daten von wachsender Bedeutung in Wirtschaft und Wissenschaft ihre Anwendung finden. Weitere Speakerinnen sind u.a. Prof. Dr. Frauke Kreuter, Leiterin für Statistik und Methoden der empirischen Sozialforschung an der Universität Mannheim sowie Frau Dr. Eva-Marie Muller-Stuler, Chief Data Scientist bei IBM Mittlerer Osten, Dubai.

Die Veranstaltung beginnt um 10h und ist in Bonn auf maximal 20 und virtuell auf 100 Personen beschränkt. Anmeldung ist kostenlos und erfolgt direkt über die Webseite www.womenindatascience.de.

Limbic®Types adressgenau: infas 360 lokalisiert das Konsumverhalten anhand von Persönlichkeitsstrukturen

Limbic®Types Kartenbeispiel

Die Limbic® Types sind eine Zielgruppensegmentierung im Rahmen des neuropsychologischen Limbic®-Ansatzes basierend auf dem Motiv- und Persönlichkeitssystem des Menschen. Sie spiegeln die kausalen Zusammenhänge (Motivationen, Treiber & Barrieren) für menschliches Entscheidungsverhalten wider. Die Limbic® Types wurden von der Nymphenburg Gruppe entwickelt und bereits in vielen Marktmodellen erfolgreich etabliert.

Gemeinsam mit infas 360 finden die Segmente nun erstmals im Smart Research-Verfahren ihren Einsatz. Zielsetzung ist die Implementierung spezifischer Limbic®-Fragen in die fortlaufende Multi-Client-Studie „CASA Monitor“ der infas 360, deren Ergebnisse dank der hohen Fallzahlen (10.000 Befragte je Welle) und der innovativen Small Area Methoden nachvollziehbar in die Fläche übertragen werden können.

Durch die exakte Verknüpfung der Befragungsergebnisse mit der Gebäudedatenbank CASA, die alle rund 22 Mio. postalischen Adressen mit ca. 1.000 Merkmalen wie Sozio-Demographie und Einkommen beinhaltet, können die Limbic® Types gebäudescharf berechnet und somit an die firmeneigenen CRM-Daten angereichert oder zu  jeder beliebigen Gebietsstruktur referenziert werden.

Für weiterführende Informationen kontaktieren Sie einfach unser Consulting-Team unter Consulting@infas360.de

Mutter aller Potenzialdaten: Adressen in Gebäuden mit Einwohner- und Haushaltszahlen

infas 360 gewinnt ein weiteres Bundesinstitut für die Nutzung ihrer Adresssubstanz mit den dazugehörigen Einwohner- und Haushaltszahlen.

Das Bundesamt für Kartographie, kurz BKG, führt amtliche Geodaten und die aller 16 Bundesländer sowie Daten von Drittanbietern zusammen, vereinheitlicht sie, bereitet sie auf und stellt sie digital als zentrales Dienstleistungszentrum anderen Bundesinstituten zur Verfügung.

Ab sofort zählt dazu auch die Mutter aller Potenzialdaten – wie sie im Geomarketing gerne bezeichnet wird – nämlich alle aktuellen postalischen Adressen für alle Gebäude in Deutschland sowie alle darin bekannten Einwohner- und Haushaltszahlen.

Die Daten werden deshalb so genannt, weil sie Ausgangspunkt unzähliger weiterer Datenberechnungen darstellen. So zum Beispiel ist der Adressbestand DER postalische Referenzbestand für Deutschland. Er wird gespeist aus den Quellen der Ämter, Deutscher Post und Deutscher Telekom und in einem aufwendigen, fortlaufenden Pflegeprozess recherchiert und konsolidiert.

Über die Einwohner- und Haushaltszahlen werden entweder auf Einzeladressebene (z.B. Anzahl erreichter Personen in einem beliebigen Einzugsgebiet) oder als Aggregat pro frei definiertem Gebiet weitere Basiskennziffern abgleitet (z.B. Versorgungsgrade). Jüngst halten diese Kennziffern sogar Einzug in sog. Mikrosimulationen, mit denen u.a. Stichprobenziehungen optimiert werden. Für Small Area Methoden bilden sie die Basis für nahezu alle weiteren sozio-demographischen Variablen auf Gebäudeebene wie z.B.

  • Altersstruktur
  • Dominierendes Alter
  • Verfügbares Einkommen in Klassen
  • Haushaltsstruktur
  • Ausländeranteil und Migration (auf Blockebene)
  • Konsumaffinitäten
  • Gebäudenutzung
  • usw.

Sollten Sie weitere Fragen zum postalischen Referenzbestand und/oder den Einwohner-/Haushaltszahlen haben, dann kontaktieren Sie uns einfach unter Consulting@infas360.de

e-Autos: Trotz Coronakrise steigt Kaufabsicht stark an

Jedes Jahr beobachtet infas 360 intensiv den Markt der Elektromobilität. Im Zeitraum Juni/Juli 2020, nach Lockdownende, wurden wieder rund 10.000 Personen befragt. Dazu zählte u.a. auch das Interesse und die konkrete Kaufabsicht für e-Autos als 100% Stromer. Und im Vergleich zu den Vorjahren 2018/19 ist die Anschaffungsplanung der Interessierten (29%) in den nächsten 24 Monaten von 19% (2018) über 24% (2019) auf nun 30% gestiegen. (vgl. nachfolgende Tabelle, Antworten nur aus der Gruppe der Interessierten).

Antworten Anzahl 2018 in % 2018 Anzahl 2019 in % 2019 Anzahl 2020 in % 2020
In den nächsten 12 Monaten 120 4,1 156 5,7 238 8,9
In mehr als 12 bis 24 Monaten 447 15,3 486 17,7 556 20,9
In mehr als 24 Monaten 1.809 61,8 1.572 57,3 1.448 54,2
Keine konkrete Kaufabsicht 552 18,8 529 19,3 426 16

Die Abfragevielfalt im CASA Monitor Energie zu Interesse und Kaufabsichten von Stromprodukten ist groß. Dazu zählen u.a. Photovoltaik, Solarthermie, Stromspeicher, Minikraftwerke, Wallboxen aber auch Hybridautos, e-Roller usw. Zu allen Produkten liegen aufgrund der hohen Fallzahlen detaillierte Zielgruppenprofile inkl. Veränderungen vor.

Des Weiteren bieten die rund 400 zusätzlich abgefragten und durch Datenanreicherung verfügbaren Items unzählige Tiefenauswertungen. Dazu gehören auch Einstellungen zur Nachhaltigkeit. Diese zeichnen sich in der Krise im Gegensatz zur erhöhten Kaufnachfrage für e-Autos eher durch einen Bedeutungsrückgang aus (mehr dazu hier: Kurzpräsentation )

Weitere Informationen können jederzeit bei infas 360 unter Consulting@infas360.de angefragt werden.

 

Eine wichtige Kennziffer fehlt in der Pandemie: Die Infektionen pro Haushalt

Laut Destatis lebten in Deutschland 2019 rund 82,8 Mio. Menschen in 41,5 Mio. Haushalten. 21,2% davon sind Einpersonenhaushalte. 78,8% sind folglich Mehrpersonenhaushalte, z.B. Ehe- oder Lebensgemeinschaften mit oder ohne Kinder. In dieser Gruppe der Mehrpersonen-Haushalte beträgt die mittlere Haushaltsgröße etwa 2,7 Personen (vgl. nachfolgende Tabelle, Quelle Destatis).

Haushaltsgröße Haushalte Haushalts­mitglieder
1 000 % 1 000 %
Insgesamt 41 506 100,0 82 785 100,0
Einpersonen­haushalte 17 557 42,3 17 557 21,2
2 – Personen­haushalte 13 781 33,2 27 562 33,3
3 – Personen­haushalte 4 952 11,9 14 856 17,9
4 – Personen­haushalte 3 783 9,1 15 130 18,3
Haushalte mit 5 Personen und mehr 1 434 3,5 7 680 9,3

So weit der Durchschnitt für Deutschland. Für präzise Analysen, Planungen und Prognosen in Wirtschaft und Wissenschaft muss diese Kennziffer allerdings deutlich feinräumiger sein. Gerade die Haushaltsanzahl und -größen an bestimmten Orten sind häufig elementar für entsprechende Untersuchungen. Aus diesem Grund berechnet und aktualisiert infas 360 jedes Jahr für Bundesinstitute und Unternehmen in einem aufwendigen Verfahren die Anzahl der Haushalte und Einwohner sogar bis auf Einzelhausebene bzw. pro Adresse (ca. 20 Mio. Wohnadressen, Whitepaper Haushalte Datenbeschreibung Haushalte PAGS2020 (1)).

Deren Bedeutung belegt auch die aktuelle Corona-Krise. Schließlich kann man Presseberichten entnehmen, dass auch Großfamilien das Infektionsgeschehen treiben. Erstaunlicherweise aber werden Fälle nach Haushaltsanzahl oder -größe gar nicht ausgewiesen – obwohl sie dieses Phänomen doch verifizieren könnten. Die Frage lautet: Warum ist das so? Eine Nachfrage dazu beim Bonner Gesundheitsamt führte zur Antwort, dass „kurzfristige Auswertungen von komplexen Vorgängen derzeit nicht leistbar seien“.

Dabei könnte die Verwendung der Haushaltsgröße in der Coronakrise weitere wichtige Kennziffern liefern: Wird eine Person positiv auf Covid19 getestet und entsprechend eine Quarantäne verhängt, so betrifft das automatisch alle im selben Haushalt lebenden Personen. Auch diese werden dann getestet und fallen ggfs. auch unter die Quarantänemaßnahmen. Daraus ließe sich z. B. eine höchst interessante Kennziffer für die Pandemie ableiten: Das Verhältnis der Anzahl Positivtestungen zur Anzahl aller Testungen (= Anzahl der Haushaltsmitglieder). Eine weitere wichtige Kennziffer ergäbe sich aus der Anzahl der Covid19-Infizierten (Stand RKI 02.08.2020, 209.893) pro Haushalt bzw. Haushaltsgröße. Läge z. B. dieser Wert über dem anfangs zitierten Mittelwert von 2,7 Mitgliedern je Haushalt in Mehrpersonenhaushalten, dann hieße das, dass überdurchschnittlich viele Familien betroffen wären.

Sie haben weitere Fragen zu den Haushalten oder deren Größen, dann kontaktieren Sie einfach unser Consulting-Team unter Consulting@infas360.de 

Mit georeferenzierten Daten gegen Corona

Geoinformationen leisten seit vielen Jahren einen wichtigen Beitrag in der Bewältigung und Prävention von Krisen. Bekannte Beispiele hierfür sind der Einsatz von Geodaten bei der Prognose und Visualisierung großflächiger Naturkatastrophen oder in der feinräumigen Einsatzplanung von Rettungsdiensten, Feuerwehr und Polizei. Eine aktuell sehr populäre Anwendung ist das internationale Karten-Dashboard der John-Hopkins-Universität und des RKI, die das internationale, nationale und regionale Infektionsgeschehen von COVID-19 darstellen.

Die Basis der regionalen Zahlen für Deutschland liefern die Gesundheitsämter der Kreise. Die Durchschnittszahlen auf Kreisebene zeigen aber nicht auf, dass das Infektionsgeschehen tatsächlich deutlich lokaler ist. Die Zahlen auf Kreisebene sind – wie wir längst wissen – letztlich die Summen punktueller Ereignisse. Wenn man den Verlauf der Pandemie richtig darstellen, verstehen und prognostizieren will, muss man vor allem die sog. Hotspots und Superspreader identifizieren, die deutlich lokaler und eben wesentlich für die regionale Ausbreitung (Spreading) sind. Auch deren Eindämmung könnte bestmöglich erreicht werden, wenn man zu allen auftretenden Fällen Ort und Zeitpunkt der Infektion und der potenziellen Weitergabe (Kontakte) bestimmen würde.

Und genau hier setzt die Georeferenzierung an. Vereinfacht ausgedrückt ermöglicht sie die Darstellung von verschiedensten Aufenthaltsorten (Wohnen, Arbeiten, Freizeit, usw.) z. B. von Infizierten in einer zentralen digitalen Karte. Auf diese Art und Weise können alle relevanten Informationen gebündelt und in einen Gesamtkontext gebracht werden. Voraussetzung für die Georeferenzierung ist die Geocodierung. Bei der Geocodierung werden automatisiert postalische Adressen geprüft und ggfs. korrigiert, z.B. die Wohnadressen von auf COVID-19 getesteten Menschen oder die eines von ihnen besuchten Restaurants.

Diese postalischen Adressen werden dann mit x/y-Koordinaten angereichert und können so lokalisiert werden. Aber auch alle anderen aus der bisherigen Erfahrung mit der Pandemie als relevant identifizierten Orte wie Senioren- und Pflegeheime, Schulen, Kitas, Krankenhäuser, Schlachtereien, Ärzte, Apotheken, Arbeitsplätze, mobile Testmöglichkeiten usw. liegen als postalische Adressen sowie x/y-Koordinaten vor.

Durch diese gemeinsame Georeferenz könnte das gesamte lokale Infektionsgeschehen dargestellt, Zusammenhänge erkannt, Verläufe besser nachvollzogen und zukünftige Entwicklungen konkreter prognostiziert werden. Je präziser, desto besser. An dieser Stelle setzt der Datenschutz ein. Für diese metergenaue Georeferenz bedarf es deshalb entweder einer Einverständniserklärung der Betroffenen wie sie z.B. bei Installation der Corona-App abgefragt wird oder einer Pseudonimisierung bzw. einer Anonymiosierung in Form räumlicher Aggregation (Zusammenfassung mehrerer Fälle auf einer gemeinsamen geographischen Ebene).

Warum werden aber die Möglichkeiten des Einsatzes georeferenzierter Daten nicht ausgeschöpft? Wir sind weit davon entfernt, dass der Bürger z. B. auf einer aktuellen digitalen Karte erfährt, wo und wann sich was in seinem individuellen Umfeld hinsichtlich des Corona-Infektionsgeschehens abspielt. Dabei gibt es Vergleichbares längst, wie z. B. beim Einbruchsradar für NRW, wo man sehr genau nachschauen kann, wo das Risiko wie hoch ist.

Es scheint so, dass auch die Gesundheitsämter nicht wirklich datengetrieben sind. Entweder fehlen dem öffentlichen Bereich die Kapazitäten und/oder die Kompetenzen. Dabei wäre die Georeferenzierung der Coronadaten und die Integration für das Infektionsgeschehen relevanter Zusatzinformationen zweifelsfrei zeitnah möglich. Schließlich sind vergleichbare Daten und Anwendungen in anderen Bereichen, aber auch in der Wirtschaft längst im Einsatz.

Aus diesem Grund unterstützt infas 360 ab sofort aktiv alle Gesundheitsämter, indem die nutzerfreundliche Kartensoftware easymap office inkl. Geocodierung und Georaster kostenfrei zur Verfügung gestellt wird.

Sollten Sie Fragen zur Georeferenzierung, den Hotspot-Adressen oder der Software haben, dann kontaktieren Sie uns unter Consulting@infas360.de

Infektions-Hotspot in Verl: Wohnen auf engstem Raum bei sehr hohem Ausländeranteil.

Was Gebäudedaten und Mikrogeographie über die in Quarantäne gesetzten Wohnhäuser im Arbeiterviertel von Verl noch verraten

Seit ein paar Tagen ist der Stadtteil Sürenheide in Verl bei Gütersloh in aller Munde. Wurden doch genau dort im Zuge der neu festgestellten Coronainfektionen von über 1.500 Mitarbeitern (Stand 23.6.2020) der Firma Tönnies rund 670 Menschen unter Quarantäne gesetzt.

Laut Presse geht es dabei um mehrere Wohngebäude im Zollenhausweg 1-29, der Grillenstraße 1-5 und 46-48 (50) sowie der Libellenstr. 39-41, übersichtlich dargestellt im dem Artikel „Arbeiterviertel in Verl abgeperrt„.

Über die postalischen Adressen können zu den jeweiligen Wohnblocks zahlreiche Zusatzinformationen aus der Gebäudedatenbank CASA von infas 360 abgefragt werden. Die CASA-Datenbank wird auf Basis aller amtlich verfügbaren Daten entwickelt und mit weiteren Geo- und Wirtschaftsdaten kombiniert, um möglichst tiefgreifende Insights zu jedem der rund 22,5 Mio. Gebäude in Deutschland zu ermöglichen (Whitepaper zu den Basisdaten). Eine erste Erkenntnis: Von den in der Presse 670 betroffenen Personen wohnen laut CASA-Datenbank 683.

Ziehen wir weiterhin beispielhaft die Häuser des im Quarantänebereich liegenden Bereiches Grillenstr. 46-50 heran, so lässt sich erkennen, dass sich die identische Bebauung in der parallel verlaufenden Libellenstraße 1-5 wiederfindet – es handelt sich um eine Zwillingsbebauung. In beiden Bereichen reihen sich jeweils 3 weitere große Wohngebäude an, weshalb sie als „Mehrparteienhaus en Block“ klassifiziert sind. Dies ist einer von 15 Gebäudebasistypen der CASA-Datenbank auf Basis der amtlichen 3D-Daten. Den Daten lässt sich auch entnehmen, dass die Gebäude versetzt aneinander gereiht sind und mit 10, 18 und 23 Metern bzw. 3, 5 und 7 Etagen unterschiedliche Bauhöhen und Wohnkapazitäten aufweisen (siehe dazu auch das aktuelle Gebäudefoto von P. Menzel). Direkt anliegend befinden sich zahlreiche Garagen, was nicht verwundert, denn die ÖPNV-Anbindung ist hier relativ schlecht und die nächste Apotheke ist 1,8 km entfernt.

In den größten Gebäuden im Quarantänebereich, Grillenstr. 48-50 und Libellenstr. 1-3, wohnen laut Deutscher Post und Analyse von infas 360 offiziell jeweils rund 100 Einwohner in 21 Haushalten. Der Ausländeranteil liegt hier bei 84% und der Anteil der bis 18 Jährigen bei knapp 10%. Die mittlere Wohnfläche einer Wohneinheit liegt zwischen 66 und 80 qm und kostet (Kaufpreis) geschätzt zwischen 75.000 und 100.000 Euro. Das Haushaltsnettoeinkommen wird auf unter 1.000 Euro monatlich berechnet. Gewerbe im Haus sind nicht verzeichnet.

Insgesamt beinhaltet die CASA-Datenbank rund 1.000 Merkmale zu Gebäude- und Wohnumfeld. Von der Dachflächenausrichtung über den Gasanschluss und Straßentyp bis hin zum nächst gelegenen fachspezifischen Arzt oder der Entfernung zu Krankenhäusern mit Intesivbetten inkl. deren aktueller Auslastung mit und ohne Beatmungsgerät (siehe Lösung www.trackyourbed.com ).

Auch in den aktuellen Corona-Zeiten zeigt sich wieder einmal, wie unterschiedlich die lokale Ausprägung von Phänomenen wie dem Infektionsgeschehen sein kann. Um die Gründe dafür besser erkennen, verstehen und eine Entwicklung prognostizieren zu können, bedarf es einer mehrdimensionalen Datenverknüpfung, die so nur mit Geoinformationen möglich ist. Zur besseren Corona-Risikoabschätzung hat infas 360 in den vergangenen Wochen dafür eigens die Datenbank CORA entwickelt, die neben den aktuellsten Fallzahlen zahlreiche weitere Spezialdaten beinhaltet (siehe Blogbeitrag CORA: Bundesweite Datenbank zur Corona-Risikoabschätzung).

Ein weiterer Vorteil: Gebäudedaten und Daten auf Gebäudeebene stellen zunächst immer sachbezogene Informationen dar und sind somit keine personenbezogenen Daten (siehe datenschutzrechtlicher Hinweis)

Sollten Sie weitere Fragen zur CASA-Datenbank haben, dann kontaktieren Sie unser Consulting-Team unter Consulting@infas360.de