TidyTuesday Submission CW26

Datum:
tags: R TidyTuesday
GitHub: bei GitHub bearbeiten

Letzte Woche habe ich zum ersten Mal an einem TidyTuesday teilgenommen und dabei einiges über UFO-Sichtungen gelernt.

Der TidyTuesday ist ein von der R4DS Community (sprich: “R for Data Science”) veranstaltes wöchentliches Projekt, das dabei helfen soll gängige Datenaufbereitungsprozesse zu üben. Grundlage sollen nach Möglichkeit die Pakete des tidyverse sein.

Jeden Montag wird ein Datensatz auf GitHub veröffentlicht, gemeinsam mit einem Artikel und einer Visualisierung. Ziel ist es dann die zur Verfügung gestellten Daten aufzubereiten und anschließend selbst eine Visualisierung zu bauen. Der Phantasie sind dabei keine Grenzen gesetzt. Es kann die Originalgrafik reproduziert oder was völlig neues entworfen werden.

Warum das Spaß macht? Weil die R Community seit einigen Jahren sehr inkludierend ist. Ziel ist nicht die Autoren des Originalartikels oder vermeintlich einfache Visualisierungen von anderen Teilnehmerinnen und Teilnehmern vorzuführen sondern sich einfach jede Woche selbst herauszufordern.

“I came for the software, but I stayed for the community” @revodavid

Letzte Woche nun hatte ich ein bisschen Zeit und war motiviert. Naiverweise dachte ich, dass mir ein paarh locker reichen würden … Pustekuchen. Aber der Ehrgeiz hat mich schnell gepackt, sodass ich zwei Abende bis spät in die Nacht saß.

In KW26 standen UFO-Sichtungen auf dem Programm. Als Grundlage diente ein Datensatz mit mehr als 80.000 (vermeintlichen?) UFO-Sichtungen auf der ganzen Welt, jeweils mit Angaben zum Beobachtungsort, der UFO-Form, einer Beschreibung und wie lang die Sichtung gedauert hat.

Um die Auswahl ein bisschen einzuschränken, habe ich mich zunächst auf die Sichtungen aus Deutschland konzentriert. Realtiv schnell kam dabei die Frage auf, wo in Deutschland eigentlich UFOs gesichtet werden. In den Städten? Auf dem Land? Im Norden? Im Süden? … und weil sich so etwas immer schlecht aus einer Tabelle ablesen lässt, habe ich mich für die Darstellung auf einer Karte entschieden. Wird schon nicht so schwer sein…

Für mich war es das erste Projekt mit shapefiles, also Polygonen die die Grenzen eines bestimmten Gebiets (bspw. einer Stadt oder eines Bundeslandes) beinhalten. Und leider waren die Städte im Datensatz nicht immer korrekt geschrieben. Es war also ein bisschen manuelle Arbeit notwendig. Zwei Ausreißer mussten auch noch raus geschmissen werden, da sonst Bamberg die Stadt mit der längsten Beobachtung (ich meine es waren 20 Tage am Stück) gewesen wäre.

Ergebnis hier.

Für mich erstaunlich war, dass die Rangliste nicht von den größten Städten (Berlin, Hamburg, München) angeführt wird, sondern auch “kleinere” Städte in den Top 10 vertreten sind. Wer es genau wissen will, kann in der Tabelle unten nachschauen.

Insgesamt sind UFOs hierzulande aber wohl doch nicht so der Renner ;-)


Stadt/Landkreis Beobachtungsdauer
Kaiserslautern10.922 Sek. (3,03h)
Bamberg10.180 Sek. (2,83h)
Bremen10.090 Sek. (2,80h)
Darmstadt10.017 Sek. (2,78h)
Potsdam10.003 Sek. (2,78h)
Hamburg10.000 Sek. (2,78h)
Nürnberg10.000 Sek. (2,78h)
Rhein-Hunsrück-Kreis7.200 Sek. (2,00h)
Bergstraße3.360 Sek. (0,93h)
Berlin3.105 Sek. (0,86h)

Code auf Github

Code zum reproduzieren gibt’s wie immer auf Github: https://github.com/s01ren/TidyTuesdaySubmissions



Zeit für deinen Senf ...