Inspiration
Wir wollten eigentlich eine Machine Learning Anwendung schreiben um die Ausbreitung der Corona-Pandemie in Deutschland tracken und vorhersagen zu können. Leider war das Finden von geeigneten Daten eine zu große Hürde für die Zeit. Wenn also das Auffinden von geeigneten Mikrodaten nicht einfach geht, wie soll die Forschung geeignete Modelle entwickeln können? Daher haben wir beschlossen unseren Projektauftrag umfassender zu interpretieren. Wir liefern mit CoronaDB eine aufbereitete Datenbasis mit der Forschende ihre Modelle schneller und besser machen können.
What it does
Im Github-Repo liegen aufbereitete CSV-Datensätze mit möglichen Features aus unterschiedlichen Datenquellen. Zusätzlich haben wir weitere interessante Datenquellen gesammelt und in dem Sheet festgehalten. Die Datensätze liegen auf Kreisebene vor (Identifikator ist die Kreisnummer aus dem Amtlichen Gemeindeschlüssel). Das zusammenführen der Daten ist reproduzierbar mithilfe der bereitgestellten Skripts. Mit diesen kann man auch direkt die aktuellsten COVID-19 Daten verwenden.
How I built it
Hartes scrapen und aufbereiten.
Challenges I ran into
Datenquellen haben uneinheitliche Standards und Formate. Diese zusammenzuführen ist tricky.
Accomplishments that I'm proud of
Wir haben in kurzer Zeit eine gute Grundlage für weitere Forschungsfragen geschaffen. Data Wrangling macht mindestens 80 % der Projektzeit aus. Wenn wir es schaffen dies mit unserem Projekt zu minimieren ist viel gewonnen.
Einige Highlights:
- Übersicht der verwendeten Datensätze
- Ein kleine Beispiel für mögliche Visualisierungen und Analysen
- Übersicht der verfügbaren Variablen
What's next for Projekt 399: CoronaDB
Wir haben noch eine ganze Menge an offenen Punkten.
- Weitere Datenquellen aufnehmen und mit Inhabern für die Rechte in Kontakt treten.
- Zusammenführen mit den Daten aus den anderen Hackathon-Projekten!
- Ausarbeitung der Lizensen
- Erstellen einer eigenen DOI, damit der Datensatz zitierbar ist
- Eine eigene Analyse und Exploration der Daten
Teammitglieder
Aufgrund einer Verwechslung der Projekt Nummer, wurde das Projekt zuerst unter 400 auf DevPost erstellt (https://devpost.com/software/400-datenaggregierung-modellierung-auf-landkreisebene). Alle Mitglieder des alten Projektes haben dazu beigetragen, allerdings konnten wir kurzfristig nicht mehr alle hier hinzufügen.
Dies beinhaltet (alphabetisch geordnet):
- Fabricio Arend Torres (https://devpost.com/FabricioArendTorres)
- Marius Giebenhain https://devpost.com/MariusGiebenhain
- Darina Goldin (https://devpost.com/drdarina)
- Caroline Jakubowski (https://devpost.com/carokatur)
- David Maas (https://devpost.com/davidraoulmaas)
- Malte Riedesel (https://devpost.com/malteriedesel)
- Patrick Schmidt (https://devpost.com/the-patpat)
Danke an alle für die Mitarbeit :).
Log in or sign up for Devpost to join the conversation.