Um conjunto de dados brasileiro classificado para apoio ao diagnóstico diferencial da SRAG por COVID-19 e influenza

O conjunto de dados foi coletado da plataforma do SIVEP (Sistema de Informação da Vigilância Epidemiológica da Gripe) e é referente aos registros de pacientes diagnosticados com Síndrome Respiratória Aguda Grave (SRAG) do Brasil no período de 2020 a 2021. Inicialmente, o conjunto de dados possuía 2....

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Maicon Herverton Lino Ferreira da Silva Barros
Format:	Dataset
Sprache:	eng
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	O conjunto de dados foi coletado da plataforma do SIVEP (Sistema de Informação da Vigilância Epidemiológica da Gripe) e é referente aos registros de pacientes diagnosticados com Síndrome Respiratória Aguda Grave (SRAG) do Brasil no período de 2020 a 2021. Inicialmente, o conjunto de dados possuía 2.693.764 registros e 168 atributos; e após a execução de um filtro para restringir informações apenas sobre pacientes com SRAG por COVID-19 e SRAG por Influenza, o conjunto de dados passou a ter 1.778.289 registros de pacientes com COVID-19 e 9.874 registros de Influenza. Realizou-se um balanceamento dos dados para posteriormente iniciar o tratamento de limpeza. Após o balanceamento, o conjunto de dados ficou com 19.041 registros, sendo 9.167 classificados como casos de COVID-19 e 9.874 classificados como casos de Influenza Em seguida, todos os atributos foram avaliados seguindo os critérios de exclusão: (1) atributos com mais de 60% dos dados nulos (NaN); (2) atributos como identificadores, datas irrelevantes, dados fora do contexto demográfico, social ou de saúde; (3) atributos com mais que 60% dos dados nulos (NaN), mas que são considerados importantes por especialistas da área, diante do domínio do problema (COVID-19 e influenza), posteriormente preenchidos com o valor da média, mediana ou baseado em algum critério de agrupamento; (4) atributos cujo passo (3) não foi possível de ser executado pela natureza do valor; e (5) exclusão de atributos redundante. Toda essa etapa de pré-processamento dos dados serviu para construir um conjunto de dados que pode ser utilizado para treinar modelos de inteligência artificial para auxiliar no diagnóstico diferencial de COVID-19 e Influenza. Após o pré-processamento, o conjunto de dados ficou com 46 atributos relacionados a dados sociodemográficos, clínicos e laboratoriais, e a classe alvo (classi_fin).
DOI:	10.17632/cs95vym6hn.2