Projekt 399: CoronaDB

Inspiration

Wir wollten eigentlich eine Machine Learning Anwendung schreiben um die Ausbreitung der Corona-Pandemie in Deutschland tracken und vorhersagen zu können. Leider war das Finden von geeigneten Daten eine zu große Hürde für die Zeit. Wenn also das Auffinden von geeigneten Mikrodaten nicht einfach geht, wie soll die Forschung geeignete Modelle entwickeln können? Daher haben wir beschlossen unseren Projektauftrag umfassender zu interpretieren. Wir liefern mit CoronaDB eine aufbereitete Datenbasis mit der Forschende ihre Modelle schneller und besser machen können.

What it does

Im Github-Repo liegen aufbereitete CSV-Datensätze mit möglichen Features aus unterschiedlichen Datenquellen. Zusätzlich haben wir weitere interessante Datenquellen gesammelt und in dem Sheet festgehalten. Die Datensätze liegen auf Kreisebene vor (Identifikator ist die Kreisnummer aus dem Amtlichen Gemeindeschlüssel). Das zusammenführen der Daten ist reproduzierbar mithilfe der bereitgestellten Skripts. Mit diesen kann man auch direkt die aktuellsten COVID-19 Daten verwenden.

How I built it

Hartes scrapen und aufbereiten.

Challenges I ran into

Datenquellen haben uneinheitliche Standards und Formate. Diese zusammenzuführen ist tricky.

Accomplishments that I'm proud of

Wir haben in kurzer Zeit eine gute Grundlage für weitere Forschungsfragen geschaffen. Data Wrangling macht mindestens 80 % der Projektzeit aus. Wenn wir es schaffen dies mit unserem Projekt zu minimieren ist viel gewonnen.

Einige Highlights:

What's next for Projekt 399: CoronaDB

Wir haben noch eine ganze Menge an offenen Punkten.

Weitere Datenquellen aufnehmen und mit Inhabern für die Rechte in Kontakt treten.
Zusammenführen mit den Daten aus den anderen Hackathon-Projekten!
Ausarbeitung der Lizensen
Erstellen einer eigenen DOI, damit der Datensatz zitierbar ist
Eine eigene Analyse und Exploration der Daten

Teammitglieder

Aufgrund einer Verwechslung der Projekt Nummer, wurde das Projekt zuerst unter 400 auf DevPost erstellt (https://devpost.com/software/400-datenaggregierung-modellierung-auf-landkreisebene). Alle Mitglieder des alten Projektes haben dazu beigetragen, allerdings konnten wir kurzfristig nicht mehr alle hier hinzufügen.

Dies beinhaltet (alphabetisch geordnet):

Fabricio Arend Torres (https://devpost.com/FabricioArendTorres)
Marius Giebenhain https://devpost.com/MariusGiebenhain
Darina Goldin (https://devpost.com/drdarina)
Caroline Jakubowski (https://devpost.com/carokatur)
David Maas (https://devpost.com/davidraoulmaas)
Malte Riedesel (https://devpost.com/malteriedesel)
Patrick Schmidt (https://devpost.com/the-patpat)

Danke an alle für die Mitarbeit :).

Built With

Submitted to

#WirVsVirus

Created by

- Scripts for merging and restructuring COVID-19 case counts with the prepared datasets for the final CSVs.
- Script for Landkreis area and projections.
- various small organisational stuff
- The Pitch Video :)

Fabricio Arend Torres
Cleaned and prepared datasets from Regionaldatenbanken/Genesis and scrapped information on Intensivkliniken
Prepared and partially implemented interface (wip)

Marius Giebenhain
David Maas
Malte Riedesel
Arne Schömann