Few-shot Meta-Learning zur automatisierten Bildarchivierung

Unsere Benutzeroberfläche
Meta Learning - Prinzip

Wir sind Team Ananas! Wir haben die Challenge "Bildarchivierung" gewählt.

Inspiration

Während eines Bauprojektes werden viele verschiedene Fotoaufnahmen angefertigt. Diese sind ungeordnet und nur schwer zu durchsuchen und zu kategorisieren.
Unser Modell und unsere Benutzeroberfläche schafft hier Abhilfe.

Was erreicht unser Ansatz?

Mit unserem Meta-Learning Ansatz können wir präzise Bildkategorisierung durchführen. Dies geschieht mit nur wenigen gelabelten Daten. Klassiche transfer Learning Ansätze benötigen mehr Daten und haben schlechtere Performance.

Unser Meta Model hat "gelernt zu lernen". Dadurch kann es sehr schnell auf neue Daten angepasst werden. Sollen neue Klassen klassifiziert werden, kann das mit nur sehr wenigen Beispielbildern der neuen Klasse geschehen, außerdem dauert das training nur wenige Epochen.

Dadurch lassen sich individuell neue Klassen hinzufügen. Nach der Auslieferung können beim Kunden mit sehr wenig aufwand neue Klassen erkannt werden. Der Kunde muss dafür nur wenige Beispielbilder selbst labeln, dann kann ein Model auf diesen Daten trainiert werden. Dadurch ist die Lösung deutlich weniger statisch als vergleichbare Lösungen.

Warum Meta Learning?

Durch Meta Learning bekommen wir ein Model, das gelernt hat zu lernen. Anstatt nur zu versuchen möglichst gute Ergebnisse auf dem Trainingsdatensatz zu erzielen haben wir eine Model, welches sich als Startpunkt eignet um beliebige Klassen zu erkennen. Haben verschiedene Kunden verschiedene Klassen die sie erkennen wollen kann mit geringem Aufwand für jeden Kunden ein individuelles Model trainiert werden.

Wie haben wir unsere Lösung zusammengebaut?

Mithilfe von Torch, dem Meta-Learning Framework Learn2Learn, YoloNet, dem OWL-ViT Transformer und gradio, haben wir unsere End2End Machine Learning Pipeline inklusive Benutzeroberfläche umgesetzt.

Herausforderungen auf die wir gestoßen sind

Die Erstellung des einfach zu adaptierenden Meta-Modells benötigt viele Trainingsiterationen und ein Hackathon-Wochenende reicht für perfekte Ergebnisse hier nicht aus. Allerdings konnten wir in der kurzen Zeit trotzdem gute Ergebnisse erzielen.

Zudem ist Meta Learning ein sehr aktives Forschungsgebiet. Deshalb gibt es noch keine etablierte Bibliothek, und die verfügbaren Implementierungen sind teilweise schlecht dokumentiert.

Meilensteine auf die wir stolz sind

Wir haben einen neuartigen Ansatz mit wenigen Daten zu lernen.

Wir haben einen Rahmen für einfache Bildkategorisierung geschaffen und können so die Produktivität bei der Verarbeitung visueller Daten steigern.

Was haben wir gelernt?

Das Arbeiten mit Learn2Learn, Huggingface Transformer, Gradio, viele Herausforderungen die es in der Digitalisierung der Bauwirtschaft gibt.

Was sind die nächsten Schritte?

Längeres Training eines Metamodells
Adaptation des Meta Models auf mehr Klasssen
GUI zum einfachen adaptieren eines Meta Models
Verbessern der Benutzeroberfläche
Verbesserung der Vorkonditionierung

Built With

gradio
huggingface
torch

Submitted to

SDaCathon 2022 - Hack the Construction
- Winner 1. Platz Bildarchivierung

Created by

OWL-ViT Transformer based Image tagging, implementation of UI and Demo

Yannick Funk
meta_learning implementation.

Luis Augenstein
Leon Jungemeyer
Elisa Muhr

Updates

Yannick Funk started this project — Nov 12, 2022 03:07 PM EST

Leave feedback in the comments!

Log in or sign up for Devpost to join the conversation.