Datathon 2025

Inspiration

Les analystes se noient dans les 10-K/10-Q, les news, la volatilité et les prévisions. Nous voulions une priorisation rapide et explicable, via une expérience swipe familière.

What it does

Classe les entreprises du S&P 500 avec un score composite (0→1). Swipe / Back sur des cartes, réglage des pondérations en direct, badges/risques/extraits visibles.

How we built it

Nous avons conçu une architecture simple, modulaire et robuste, en privilégiant des services managés sur AWS pour rester focalisés sur la valeur métier (analyse financière et explicabilité) tout en bénéficiant d’une intégration naturelle, d’une scalabilité automatique et d’un faible coût d’exploitation. Nous appliquons le RAG uniquement là où il apporte de la valeur : sur les documents juridiques très longs et les documents additionnels. Ces-derniers correspondent à d’autres fichiers comme One big beautiful act qui pourraient être ajoutés par l’utilisateur. La vectorisation via Titan et l’indexation sémantique dans OpenSearch Serverless permettent d’extraire des passages précis et de justifier les réponses par des extraits citables, ce qui renforce la confiance et la traçabilité. Pour les rapports 10-K, nous réalisons un pré-traitement léger avec l’API sec-parser, qui conserve fidèlement la structure du document (items, sections, hiérarchie). Cette conservation de la structure nous permet de cibler et de sélectionner uniquement les parties les plus pertinentes (comme la section 7) avant de les soumettre au LLM pour des analyses ciblées (identification des risques, évaluation de la situation financière, etc). De même, les informations en ligne (actualités et prix) sont traitées directement par le LLM sans pré-traitement lourd, car elles sont volatiles et déjà orientées signal. Cette séparation des voies — RAG pour le juridique ; sec-parser + Bedrock pour les 10-K ; Bedrock direct pour les signaux externes — simplifie la pipeline, réduit la latence et évite la complexité inutile. Enfin, la restitution en scores partiels (perspectives, confiance, market cap, prise en compte des documents additionnels) puis en score agrégé pondéré par quatre curseurs offre une lecture claire et actionnable : classement des titres selon un score paramétré par l’utilisateur, fiches explicatives et extraits à l’appui. L’ensemble compose une solution serverless, explicable et opérationnelle, alignée avec l’esprit du concours et prête pour un one-pager et une démo.