01_021_Krisenkommunikation_factcheckers-with-attitude

Du sitzt alleine zuhause und versuchst dich und andere so gut wie möglich vor dem Coronavirus zu schützen. Poldis Mama sagt Ibuprofen ist gefährlich, und der Bericht eines chinesischen Arztes sagt heißes Baden hilft. Der Präsident der USA meint das wäre im Sommer eh alles wieder vorbei, und irgendwo auf Twitter hast du irgendwas von Bleichmittel gelesen. Das klingt alles irgendwie nicht ganz richtig? Wir räumen auf mit Fake News!

Unsere Submission zum #WirVsVirus #Hackathon im Bereich 01_021_Krisenkommunikation.

Daten in unserem Github: https://github.com/yh08/factcheckers_with_attitude.git

Checkt unser Video auf Youtube: https://www.youtube.com/watch?v=5T4A9_oilqY

Und natürlich vielen vielen Dank an unsere zahlreichen fleißigen Helfer! Ohne die Community wäre dieses Projekt so nicht möglich gewesen.

Unsere Top5 Data Helper: LC_3107 (15,2%) MR_2208 (13%) Ulli Waltinger (11,1%) dk_1408 (9,3%) Nadine Sauermann (8,6%)

Und weitere Helfer: Malte Zietlow

Inspiration

Bei der Geschwindigkeit mit der uns heute täglich Nachrichten zur Corona-Krise erreichen ist es häufig schwierig Fake News zu erkennen. Durch die schnelle Verbreitung können Angst und Unsicherheit zu fatalen Folgen, wie Diskriminierung oder Massenpanik führen. Mittels eines Fake News Detectors wollen wir unseren Usern in dieser Situation schnell und unkompliziert Klarheit verschaffen.

What it does

Basierend auf einem Datensatz von verifizierten Nachrichten, Satirenachrichten und Fake News, wird der Algorithmus auf die Identifizierung von Fake News zum Coronavirus trainiert. User können aktuelle Nachrichten einlesen und erhalten einen Score, der deren Glaubwürdigkeit approximiert.

How I built it

Unser AI-System basiert auf einem Deep Language Model, welches mithilfe von Supervised Learning die Unterschiede zwischen echten und falschen Nachrichten in unserem Datensatz zu erkennen erlernt. Zum Ende des Hackathons können unsere Modelle zu einer ca. 90%igen Wahrscheinlichkeit Fake News von seriösen Nachrichten unterscheiden.

Challenges I ran into

Je größer der Datensatz, desto akkurater das Modell. Ein signifikanter Teil der Bearbeitungszeit wurde also durch die Suche nach Beispielnachrichten bestimmt. Dabei kamen unter Anderem Webcrawler sowie vorher verifizierte Datenpakete zum Einsatz. Die explizite Suche nach Fake News stellte sich als komplizierter heraus als von vornherein angenommen. Bevor eine Nachricht von einer unabhängigen Stelle als fake eingestuft wird kann sie nur schwer in den Datensatz aufgenommen werden. Eine erste Anlaufstelle stellten hier Zusammenfassungen etablierter Medien dar. Eine große Hilfe erhielten wir durch die Community, der wir baten uns sowohl falsche als auch wahre Nachrichten zuzuschicken. Die engagierten Helfer lieferten uns insgesamt 170 Nachrichten, die in unseren Datensatz mit eingebunden wurden. Die gesamte Größe des Datensatzes beläuft sich auf ca. 1317 Artikel.

Accomplishments that I'm proud of

What I learned

What's next for Factcheckers with Attitude

Submitted to

#WirVsVirus

Created by

Datensatz Erstellung, Merging, Bereinigung der NLP Daten, Initiatorin

Yen Ho
Koordination des Projekts, Kommunikation mit anderen Teams, Webcrawling, Deployment

Julius Tutz
Main background and field of interest in Data Science, statistics and Natural Language Processing / Machine Learning.
NLP Engineer working on data crawling and model development

Steffen Freisinger
Annotation und Bereinigung von Daten, Korrespondenz mit der Community, Organisation von Devpost und Youtube

Daniel Hofmeister

Updates

Daniel Hofmeister started this project — Mar 21, 2020 10:14 AM EDT

Leave feedback in the comments!

Log in or sign up for Devpost to join the conversation.