Kostenloses Dokument erhältlich: Einsatzmöglichkeiten der Programmiersprache R für Small Area Methoden (SAM)

„Small Area Methods“ (SAM) bzw. die Small Area Estimation (SAE) (dt. feinräumige Schätzung) haben sich als Verfahren für Analysen der Gebietsplanung und des entsprechenden Marktpotenzials durchgesetzt. In diesem Kontext sind regionalisierte Daten zukunftsweisend, da diese zu feinräumigeren und exakteren Analyseergebnissen führen.

Für infas 360 hat Ayhan Doger, Freier Informatiker aus Bonn, die Möglichkeiten beleuchtet wie mit der Programmiersprache R Small Area Methoden angewendet werden können. Im Ergebnis steht nun Interessierten ein kostenloses, wissenschaftliches Dokument von 13 Seiten zur Verfügung, das aufzeigt wie Mithilfe spezieller R-Bibliotheken die Nutzung der Methoden programmiertechnisch unterstützt wird. Nach einer kurzen Einleitung in SAM, R, RStudio und das SAE-Package in R werden Implementierungsmöglichkeiten diskutiert und eine exemplarische Realisierung der SAE in R präsentiert.

Nachfolgend können Sie das Dokument kostenlos bei infas 360 anfordern. Hier aber zur besseren Übersicht das Inhaltsverzeichnis:

1 Einleitung. 
2 Kernbegriffe und -methoden
2.1 Regionalisierung 
2.2 SAE und SAM 
2.3 CRAN-R
3 Methoden und Werkzeuge
3.1 Entwicklungsumgebung RStudio
3.2 SAE-Package – CRAN-R
4 Implementierung
4.1 Installation der SAE-Packages
4.2 Anwendung der „Basic direct and indirect estimators“ im SAE-Package
4.3 Visualisierung per Plot
4.4 Vergleich der Direct Estimates mit den Empirical Bayes (EB)-Estimates
5 Ergebnisse.
6 Next Steps
7 Quellenverzeichnis

Sollten Sie sich für das Dokument interessieren, dann kontaktieren Sie uns. Das Dokument wird Studenten sowie Wissenschaft und Wirtschaft kostenlos zur Verfügung gestellt unter Consulting@infas360.de

 

Aktuell hohes Kaufinteresse für e-Bikes. Marktdurchdringung in Deutschland steht vor Verdopplung.

Im Rahmen der Untersuchung energieautarker Haushalte hat infas 360 rund 10.500 Personen umfassend zum aktuellen Besitz und geplanten Kauf energierelevanter Produkte- und Haussysteme befragt.

In diesem Zusammenhang wurde neben Photovoltaikanlagen, Stromspeichern & Smart Home-Techniken auch nach e-Bike, Hybrid- und e-Auto gefragt.

756 von 10.428 Personen (7,25%) gaben an, bereits ein e-Bike zu besitzen. Weitere 3.307 bzw. 31,8% sprachen wie folgt von einem konkreten Interesse

  • 15,3%: „Ich habe davon gehört und interessiere mich für das Produkt.“
  • 10% : „Ich beobachte die Angebote im Markt.“
  • 2,6% : „Ich habe mich zum Produkt bereits beraten lassen.“
  • 2,8% : „Ich plane zu kaufen und hole Angebote ein.“
  • 1% : „Ich habe mich entschieden zu kaufen.“

Neben Kaufinteresse an Energieprodukten wurde zusätzlich in der Studie der geplante Kaufzeitpunkt abgefragt (innerhalb von 12, 12-24 und > 24 Monaten).

Von den o.g. 3.307 planen in den nächsten 12 Monaten 22,8% die Anschaffung eines e-Bikes (754 Personen). Das ist eine gleichgroße Gruppe zu den Besitzern.

Zu Gender und Alter: Frauen interessieren sich deutlich weniger für das Produkt als Männer (63,4% zu 53,23%). Die affinste Altersgruppe als Absatzpotenzial ist Gruppe der 45-64 Jährigen. Aktuell ist noch die Gruppe der 65-74 Jährigen bei den Besitzern überproportional vertreten.

Zur Studie: Der CASA Monitor ist eine Online-Umfrage zu wechselnden Themen wie Energie, Telekommunikation, Kauf- und Freizeitverhalten. Es werden p.a. rund 30.000 Personen bundesweit befragt.  Die Ergebnisse liegen mittels Small Area Methoden feinräumig regionalisiert vor oder werden dazu genutzt, Zielgruppensegmentierungen für Strategie & CRM zu ermitteln. 

Der aktuelle CASA Monitor Energie (07/18) wird so erstmals eine bedürfnisorientierte Zielgruppensegmentierung für energieautarke Haushalte liefern.

Kontakt und weitere Infos unter Consulting@infas360.de

 

Siehe dazu auch: http://www.allgemeine-zeitung.de/lokales/bad-kreuznach/stadt-bad-kreuznach/das-e-bike-startet-voll-durch_18968453.htm

 

Dafür brauchen Sie keinem mehr aufs Dach zu steigen! Ob Flachdach, Sattel- oder Walmdach – alle Dachformen für alle Häuser verfügbar.

Angenommen Sie sind Dachdecker und möchten wissen, welche Form das Dach eines Gebäudes hat, ohne zu der Adresse hinfahren zu müssen – und angenommen Sie möchten jetzt auch noch wissen, wieviel Quadratmeter Fläche dieses Dach hat, ohne auf das Dach steigen zu müssen – dann, ja dann könnte der neue Datensatz der infas 360 genau das richtige sein:

Dank der Open Data Initiative der Länder Berlin, Hamburg, NRW und Thüringen (weitere werden folgen) sind amtliche Daten als 3D-Gebäudedaten im Leven-of-Detail 2 (LoD2) frei verfügbar. Das bedeutet, dass nicht nur Gebäudehöhe zu einem Gebäude bekannt ist (Klötzchenmodell), sondern auch die Dachstrukturen und damit die Dachtypen geometrisch angegeben werden.

Abbildung 1: LoD2 am Beispiel Bonn am Stadthaus, Quelle: Open Data NRW. 

infas 360 bereitet diese Daten nun so auf, dass zu jeder Adresse die Dachform (Flach, Sattel-, Walm-, Zeltdach usw.) und die dazugehörende Dachfläche angegeben werden kann. Beispielhaft wird der o.g. Ausschnitt nachfolgend in Google Maps 3D dargestellt. Hier sieht man graphisch die Verbindung aus 3D-Gebäudedaten und Straßen (Adressen)

Abbildung 2: 3D-Gebäudedaten mit Adressen am Beispiel Bonner Stadthaus, Quelle: Google Maps. 

Damit jedoch nicht genug. Als Spezialist für Small Area Methoden verfügt das Bonner Big Data Unternehmen über moderne statistische Schätzmethoden, um die frei verfügbaren LoD2-Daten der 4 Bundesländer auf die restlichen 12 und damit die gesamte Bundesrepublik zu übertragen.

Sie wollen so z.B. wissen, wieviel Solarfläche in einer bestimmten Adresse in Frankfurt a. M. (Hessen) oder Hannover (Niedersachsen) installierbar wäre? Das lässt sich nun berechnen. Insgesamt für ca. 22 Mio. Gebäude mit einer Adresse und auch für weitere rund 23 Mio. Gebäude ohne postalischer Adresse (z.B. für eine Werkshalle in einem Industriegebiet). Kombiniert man diese Informationen mit der mikrogeographischen Datenbank CASA, die rund 700 weitere Merkmale beinhaltet, ergibt sich ein beliebiges „Gebäude-Tiefenprofil“.

Sie interessieren sich für 3D-Gebäudeinformationen? Dann kontaktieren Sie uns unter Consulting-Team unter Consulting@infas360.de

 

Auf den Hund gekommen: Wie Small Area Methoden einen Hundeanteil für jedes Stadtviertel in Deutschland ermitteln.

Noch immer besetzen die Small Area Methoden in der Statistik ein Nischendasein. infas 360 veröffentlicht erstmals die Stärken und Vorteile in einer Praxisstudie am Beispiel von Hundebesitzern.

Zielsetzung der Studie war die Berechnung einer statistisch validen, nachvollziehbaren Kennziffer, die den

  • Hundeanteil bundesweit je Gemeinde und deren Orts- bzw. Stadtteile (ca. 80.000 feinräumige Gebiete) liefert, um auf dieser Basis bessere Standorte planen zu können.

Die Sekundärrecherche amtlicher Daten zeigte, dass eine entsprechende Potenzialszahl bundesweit flächendeckend nicht verfügbar ist (dafür in wenigen Städten z.B. Berlin, was zur Überprüfung des Schätzmodells hilfreich ist).

Aus diesem Grund wurden im CASA-Monitor 10.931 Personen befragt, ob sie einen oder mehrere Hunde besitzen, was 2.412 Fälle mit „Ja“ beantworteten. Die Fälle wurden mit den über 700 mikrogeographischen Informationen der CASA-Datenbank angereichert und mit drei verschiedenen statistischen Modellen analysiert und verglichen:

  1. Klassisches Scoring
  2. Diskriminanzanalyse
  3. Small Area Methoden

Die Daten wurden dann auf die Stadtbezirke von Berlin hochgerechnet und mit den dort vorhandenen amtlichen Daten verglichen mit folgendem Ergebnis:

Stadtbezirk Anteil Hunde
Logistisches Scoring
Anteil Hunde Diskriminan-zanalyse Anteil Hunde
Small Area Methodik
Anteil Hunde
amtlich
Charlottenburg-Wilmersdorf 2,4 2,8 5,0 7,8
Friedrichshain-Kreuzberg 0,2 0,3 2,5 4,3
Lichtenberg 3,5 4,5 5,0 7,9
Marzahn-Hellersdorf 12,3 14,0 10,1 10,4
Mitte 1,1 0,3 3,7 5,6
Neukölln 9,9 8,0 8,5 8,5
Pankow 9,9 8,9 11,0 9,7
Reinickendorf 14,7 14,4 11,5 10,1
Spandau 11,9 11,2 9,4 9,0
Steglitz-Zehlendorf 11,5 10,8 12,7 9,8
Tempelhof-Schöneberg 9,1 8,6 8,9 8,7
Treptow-Köpenick 13,7 16,2 11,9 8,2
Gesamt Berlin 100,0 100,0 100,0 100,0

Die Small Area Methoden (SAM) weisen mit 0,86 die höchste Korrelation zu den amtlichen Daten auf. Auf Gemeindeebene liegt die Korrelation sogar bei 0,98!

Geschätzt wurde SAM bundesweit auf Gebäudeebene für „Hundebesitzer mit 1, 2 oder mehr Hunden“. Folgende Variablen aus der CASA-Datenbank sind in SAM u.a. eingeflossen:

  • Anteil Personen mit Migrationshintergrund und Anzahl Personen „Ledig“
  • Entfernung zur nächsten ÖPNV-Haltest. (in Metern)
  • Kaufkraft je Haushalt in € pro Jahr und Mietspiegel (€/qm)
  • Anteil pro PLZ1 Ebene der Hundehalter aus dem CASA-Monitor mit > 10.000 Fällen
  • Größe des Gartens, Gebäudevolumen und Baudichte
  • durchschnittliche Wohnfläche pro Haushalt
  • Anteile Einwohner  >=10  bis <15 Jahre und  >=45  bis <60 Jahre

Aggregiert in eine bestimmte amtliche Raumebene, entsteht so z.B. Hundeanteil für jede Gemeinde und Stadtviertel. Ein solche Kennziffer eignet sich hervorragend für Planungszwecke, im Geomarketing oder in der Standortplanung.

Hundeanteil je Stadtbezirk in Berlin

Prinzipiell eignet sich SAM (Small Area Methoden) zur Berechnung jeder regionalen oder lokalen Schätzung von Befragungsdaten. Die komplette Studie ist erhältlich unter Consulting@infas360.de

P.S.: Den Anteil gibt es auch für Katzen und Ausgaben für Tiernahrung in EURO (die mit der Kaufkraft für Tiernahrung ins Verhältnis gesetzt werden kann).

 

Predicitve Policing: Wie Gebäude- und Regionaldaten Wohnungseinbrüche vorhersagen

In diesem Jahr (2017) veröffentlichte das Landeskriminalamt Nordrhein-Westfalen den Basis-Forschungsbericht Wohnungseinbruchdiebstahl (WED) https://lka.polizei.nrw/sites/default/files/2017-05/Basisbericht_Forschungsprojekt%20WED.pdf

Darin wird u.a. festgestellt, dass – unterschieden nach Häusern und Wohnungen – es sich bei den ersten Fällen mehrheitlich um freistehende Einfamilienhäuser (n = 1 328, 60,7 %) handelt. Weitere 25,6 Prozent der Delikte (n = 559) erfolgen in Reihenhäusern. Gebäude vom Typ Doppelhaushälfte machten dagegen nur 13,7 Prozent (n = 300) aller betroffenen Häuser aus.

Die Anteile der verschiedenen Wohngebäudetypen werden im Wesentlichen durch die Gemeindegrößen der Tatorte bestimmt. Der Anteil raumsparender Reihenhäuser und Doppelhaushälften ist in Großstädten dabei natürlich größer. In Großstädten mit mehr als 150 000 Einwohnern hatten Reihenhäuser und Doppelhaushälften einen Anteil von 51,5 Prozent (n = 399) an allen von WED betroffenen Tatobjekten. Dieser Anteil sinkt dem Bericht zur Folge kontinuierlich mit der Abnahme der Einwohnerzahl. So betrug der Anteil angegangener Reihenhäuser und Doppelhaushälften in Gemeinden bis 25.000 Einwohnern nur noch 16,4 Prozent (n = 64).

infas 360 hat auf amtlicher Basis alle bundesweit rund 20 Mio. Wohngebäude auf Adressebene analysiert und u.a. die einzelhausgenaue CASA-Gebäudetypologie in 98 Klassen entwickelt

Mehr Infos dazu unter http://infas360.de/service/news/so-wohnt-deutschland/

Für Predictive Analytics sollten alle über 700 berechnete CASA-Merkmale zur Anwendung kommen. Die Small Area Methodik bestimmt dann, welche Variablen am besten das Gebäude und seine Umgebung voraussagt.

Haben Sie Fragen zu regionalen Einbruchsdaten, Predicitive Analytics oder Predicitve Policing, dann kontaktieren Sie uns unter Consulting@infas360.de 

 

[:de]Small Area Statistics für SAS®Software[:]

[:de]Small Area Statistics oder Small-Area-Methoden (verkürzt SAM) beschäftigen sich im Wesentlichen mit der Entwicklung und Verbesserung statistischer Verfahren zur Schätzung kleinräumiger Daten, bei denen die Regionen nur sehr wenige oder gar fehlende (Befragungs-)Werte aufweisen. Im Zentrum steht dabei das Regionalisieren, also das Herunterrechnen von für größere Regionen vorliegenden aggregierten Daten in feinere geographische Einheiten bis in Wohnblocks, Straßenabschnitten oder sogar Einzeladressen.

Die Vorteile von SAM gegenüber herkömmlichen Schätzmodellen bestehen darin, dass in das Modell Informationen aus übergeordneten Raumebenen ebenso einfließen wie Informationen aus ähnlichen Regionen. Das führt zu sehr genauen Angaben, selbst wenn die Regionen nur kleine oder gar fehlende Fallzahlen aufweisen. Voraussetzung der Raumebenen ist eine hierarchisch überschneidungsfreie Struktur (nested data).

Und genau hier setzt nun das Umsetzungsmodell für die Business Analytic Software SAS an. infas 360 nutzt dazu sein Raumstrukturmodell PAGS, das überschneidungsfrei alle amtlichen und postalischen Raumstrukturen Deutschlands von der Gemeinde, den Postleitzahlen, den Orts-, Postorts- und Stadtteilen bis hin zu den Siedlungsblöcken, Straßenabschnitten und Einzelhausadressen. Dieses wird in SAS importiert und mit allen weiteren zur verfügbar stehenden Daten auf allen Raumebenen inkl. der (Befragungs-)fälle kombiniert.

Postalisch-amtliches Gliederungssystem (PAGS), das überschneidungsfreie Gebiete (nested areas) sicherstellt.

Sie interessieren sich für einen kostenlosen Informationstermin oder einen ausführlicheren Workshop zum Thema, dann kontaktieren Sie einfach unsere Consulting-Team unter Consulting@infas360.de

Einen programmatischen Ansatz für Small Area Statistics in SAS gibt der Artikel Small Area Estimation for Survey Data Analysis Using SAS® Software http://support.sas.com/resources/papers/proceedings11/336-2011.pdf[:]

[:de]Standortanalysen in Zeiten von Big Data[:]

[:de]

Neues White Paper zur Berechnung von Erfolgsfaktoren für Standorte und Filialen auf Basis von Mehrebenenmodellen (Small Area Statistics) erhältlich

In Zeiten von Big Data hat ein Filialnetzbetreiber direkt oder indirekt Zugriff auf unzählige Informationsquellen, die genutzt werden können, um gute von schlecht laufenden Filialen zu unterscheiden. Die erklärenden Parameter, z.B. für einen Umsatz pro Filiale (je qm Ladenfläche), sind die sogenannten Erfolgsfaktoren. Die Erfolgsfaktoren dienen dem Management z.B. zur Berechnung von Prognosewerten bestehender Standorte und/oder zur Lokalisierung neuer, geeigneter Standorte (White Spots).

Das bei infas 360 neu erhältliche White Paper erklärt das Verfahren wie man interne und externe Erfolgsfaktoren bestimmt und wie man letztere dazu benutzt die White Spots zu ermitteln.

White Paper „Standortanalysen im Geomarketing in Zeiten von Big Data – Berechnung von Erfolgsfaktoren für Standorte und Filialen auf Basis von Mehrebenenmodellen“ hier anfordern (consulting@infas360.de).

 [:]