Inspiração:
Segundo dados do Painel Coronavírus, plataforma atualizada diariamente pelo Ministério da Saúde com o objetivo de ser o veículo oficial de comunicação sobre a situação epidemiológica do coronavírus no Brasil, hoje, 17/05/2020, contamos com cerca de 233.142 casos confirmados, sendo 15.633 o número de óbitos até o dado momento. Tragicamente, tais números nos colocam à frente de países como a Itália e a Espanha no que tange ao número total de casos causados pelo vírus.
Motivados por esta problemática, inspirados pela vontade de auxiliar a sociedade como um todo e baseados no desafio D-051, do Hackcovid-19, que sugestiona a Ciência de Dados como potencial ferramenta de embate à pandemia, nosso time tirou ideias do papel e trouxe à tona uma solução: EsteJa, a plataforma de auxílio ao diagnóstico de COVID-19. Seu nome é uma homenagem às pesquisadoras brasileiras (Este)r Sabino e (Ja)queline Goes, que sequenciaram o genoma do coronavírus em apenas 48 horas.
O que faz?
A EsteJa utiliza aprendizado de máquina para inferir se o paciente precisa ou não de atendimento especializado a partir de dados dos seus exames. Ao inserir estes dados, a ferramenta indica ao médico se o paciente analisado possui perfil comum aos demais infectados pelo COVID-19. A partir dessa análise, o médico possui subsídio estatístico para que as suas decisões sejam melhor tomadas em relação ao encaminhamento do paciente.
Como construímos?
A plataforma EsteJa é disponibilizada em uma aplicação web desenvolvida com Django, Javascript e Python e utiliza o modelo Decision Tree J48, treinado com o auxílio do software Weka na base disponibilizada pelo Hospital Israelita Albert Einstein. Os dados utilizados foram pré-processados e estudados de forma a possibilitar o alcance de resultados satisfatórios em detrimento da pouca quantidade de dados e do pouco tempo disponível para o desenvolvimento.
Desafios:
O maior desafio enfrentado pelo grupo foi o esparsamento dos dados relacionado ao vírus no Brasil. A base utilizada (a melhor encontrada nas pesquisas realizadas pelo time) possuía, inicialmente, 5644 observações de 111 variáveis; depois de realizado o pré-processamento - que primou em manter a maior proporção de registros x variáveis possível (uma vez que não adotamos registros com quaisquer campos nulos) - restaram apenas 598 observações de 16 variáveis. Além disso, outro grande desafio foi o pouco tempo disponível para integrar uma equipe com skills distintas, idealizar a ferramenta e, o mais importante: tirá-la do papel.
Feitos dos quais nos orgulhamos!
Nos orgulhamos de, apesar das numerosas limitações, termos alcançado a marca de 84,28% de classes corretamente classificadas. Das 598 observações, 478 foram classificadas como negativo para COVID-19 sendo realmente casos negativos; 26 foram classificadas como positivo sendo verdadeiramente positivos; 39 foram classificadas como positivo sendo, na verdade, negativos; e 55 foram classificadas como negativo sendo, na verdade, positivos.
Certamente, com maior tempo para desenvolvimento/análise estatística e uma base menos esparsa em mãos, os resultados tornar-se-iam ainda mais expressivos.
O que aprendemos:
Além de aprendermos aspectos relacionados ao COVID-19 - que nunca antes havíamos parado para refletir - e de nos atentarmos mais a questões como a subnotificação de casos no Brasil e no mundo, este hackathon foi uma oportunidade para saírmos de nossa zona de conforto (já que a equipe é formada por pessoas de diferentes universidades, de diferentes cursos e com diferentes habilidades), trabalharmos em conjunto e desenvolvermos uma ferramenta com potencial para ajudar milhares de pessoas. De certa forma, também aprendemos a superar as limitações existentes, uma vez que os dados utilizados, referentes ao coronavírus no Brasil, enfrentam grande esparsamento.
É importante citar que o esparsamento de dados merece destaque e necessita de auxílio/esforço tanto de entidades governamentais como de entidades não-governamentais. Ao tornar mais e mais dados públicos e acessíveis, possibilita-se o surgimento e o aprimoramento de outras ferramentas como a EsteJa, que tem por objetivo zelar pelo bem-estar e saúde da população.
Próximos passos para a EsteJa:
- Mais dados para melhorar as inferências
- Testar outros modelos para comparar as performances
- Feature Engineering para correlacionar dados e encontrar conexões importantes que melhorem a qualidade do modelo.
Login e senha para acessar a aplicação
usuário de teste: teste e senha: teste@esteja
Log in or sign up for Devpost to join the conversation.