Inspiration

Wir wollten eigentlich eine Machine Learning Anwendung schreiben um die Ausbreitung der Corona-Pandemie in Deutschland tracken und vorhersagen zu können. Leider war das Finden von geeigneten Daten eine zu große Hürde für die Zeit. Wenn also das Auffinden von geeigneten Mikrodaten nicht einfach geht, wie soll die Forschung geeignete Modelle entwickeln können? Daher haben wir beschlossen unseren Projektauftrag umfassender zu interpretieren. Wir liefern mit CoronaDB eine aufbereitete Datenbasis mit der Forschende ihre Modelle schneller und besser machen können.

What it does

Im Github-Repo liegen aufbereitete CSV-Datensätze mit möglichen Features aus unterschiedlichen Datenquellen. Zusätzlich haben wir weitere interessante Datenquellen gesammelt und in dem Sheet festgehalten. Die Datensätze liegen auf Kreisebene vor (Identifikator ist die Kreisnummer aus dem Amtlichen Gemeindeschlüssel). Das zusammenführen der Daten ist reproduzierbar mithilfe der bereitgestellten Skripts. Mit diesen kann man auch direkt die aktuellsten COVID-19 Daten verwenden.

How I built it

Hartes scrapen und aufbereiten.

Challenges I ran into

Datenquellen haben uneinheitliche Standards und Formate. Diese zusammenzuführen ist tricky.

Accomplishments that I'm proud of

Wir haben in kurzer Zeit eine gute Grundlage für weitere Forschungsfragen geschaffen. Data Wrangling macht mindestens 80 % der Projektzeit aus. Wenn wir es schaffen dies mit unserem Projekt zu minimieren ist viel gewonnen.

Einige Highlights:

What's next for Projekt 399: CoronaDB

Wir haben noch eine ganze Menge an offenen Punkten.

  • Weitere Datenquellen aufnehmen und mit Inhabern für die Rechte in Kontakt treten.
  • Zusammenführen mit den Daten aus den anderen Hackathon-Projekten!
  • Ausarbeitung der Lizensen
  • Erstellen einer eigenen DOI, damit der Datensatz zitierbar ist
  • Eine eigene Analyse und Exploration der Daten

Teammitglieder

Aufgrund einer Verwechslung der Projekt Nummer, wurde das Projekt zuerst unter 400 auf DevPost erstellt (https://devpost.com/software/400-datenaggregierung-modellierung-auf-landkreisebene). Alle Mitglieder des alten Projektes haben dazu beigetragen, allerdings konnten wir kurzfristig nicht mehr alle hier hinzufügen.

Dies beinhaltet (alphabetisch geordnet):

Danke an alle für die Mitarbeit :).

Built With

Share this project:

Updates