Um conjunto de dados brasileiro classificado para apoio ao diagnóstico diferencial da SRAG por COVID-19 e influenza
O conjunto de dados foi coletado da plataforma do SIVEP (Sistema de Informação da Vigilância Epidemiológica da Gripe) e é referente aos registros de pacientes diagnosticados com Síndrome Respiratória Aguda Grave (SRAG) do Brasil no período de 2020 a 2021. Inicialmente, o conjunto de dados possuía 2....
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dataset |
Sprache: | eng |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | O conjunto de dados foi coletado da plataforma do SIVEP (Sistema de Informação da Vigilância Epidemiológica da Gripe) e é referente aos registros de pacientes diagnosticados com Síndrome Respiratória Aguda Grave (SRAG) do Brasil no período de 2020 a 2021.
Inicialmente, o conjunto de dados possuía 2.693.764 registros e 168 atributos; e após a execução de um filtro para restringir informações apenas sobre pacientes com SRAG por COVID-19 e SRAG por Influenza, o conjunto de dados passou a ter 1.778.289 registros de pacientes com COVID-19 e 9.874 registros de Influenza. Realizou-se um balanceamento dos dados para posteriormente iniciar o tratamento de limpeza. Após o balanceamento, o conjunto de dados ficou com 19.041 registros, sendo 9.167 classificados como casos de COVID-19 e 9.874 classificados como casos de Influenza
Em seguida, todos os atributos foram avaliados seguindo os critérios de exclusão: (1) atributos com mais de 60% dos dados nulos (NaN); (2) atributos como identificadores, datas irrelevantes, dados fora do contexto demográfico, social ou de saúde; (3) atributos com mais que 60% dos dados nulos (NaN), mas que são considerados importantes por especialistas da área, diante do domínio do problema (COVID-19 e influenza), posteriormente preenchidos com o valor da média, mediana ou baseado em algum critério de agrupamento; (4) atributos cujo passo (3) não foi possível de ser executado pela natureza do valor; e (5) exclusão de atributos redundante.
Toda essa etapa de pré-processamento dos dados serviu para construir um conjunto de dados que pode ser utilizado para treinar modelos de inteligência artificial para auxiliar no diagnóstico diferencial de COVID-19 e Influenza. Após o pré-processamento, o conjunto de dados ficou com 46 atributos relacionados a dados sociodemográficos, clínicos e laboratoriais, e a classe alvo (classi_fin). |
---|---|
DOI: | 10.17632/cs95vym6hn.2 |