Análise de dados do programa de triagem neonatal de fibrose cística através da quantificação de IRT – Tripsinogênio Imunorreativo utilizando aprendizado de máquina para reduzir falsos positivos

dc.contributor.advisorOliveira, Virgínia Klausner de
dc.contributor.authorCustódio, Paulo Rogério Siqueira
dc.contributor.event2São José dos Campos
dc.contributor.refereeVieira, Lúcia
dc.contributor.refereeSakane, Kumiko Koibuchi
dc.contributor.refereeOgawa, Guilherme Maerschner
dc.contributor.refereeGodoy, Carlos Marcelo Gurjão de
dc.date.accessioned2025-01-30T14:29:31Z
dc.date.available2025-01-30T14:29:31Z
dc.date.issued2023-03-07
dc.description.abstractEssa pesquisa trata-se da utilização de florestas aleatórias para criação de uma metodologia para desenvolvimento de um modelo capaz de fazer previsão de casos verdadeiros positivos na triagem neonatal de fibrose cística, utilizando dados sintéticos para treinamento do modelo e variando os parâmetros do modelo para buscar aquele que retorne o melhor poder preditivo, assim tendo uma prova de conceito para utilização dessa metodologia para encontrar um modelo capaz de fazer a previsão de verdadeiros positivos para fibrose cística em um banco de dados real. A fibrose cística é uma doença, que faz parte do programa nacional de triagem neonatal brasileiro que é causada por mutações do gene de Condutância Transmembrana da Fibrose Cística (CFTR, do inglês Cystic Fibrosis Transmembrane Conductance Regulator). Esta doença é caracterizada pela produção de um muco espesso podendo causar problemas respiratórios, gastrointestinais, complicações metabólicas entre outras enfermidades que variam de acordo com as mais de 2000 mutações existentes. Já a floresta aleatória é um algoritmo comum de aprendizado de máquina que consiste em utilizar um banco de dados para treinar um modelo de inúmeras árvores de decisão capazes de criar critérios para tentar explicar um dado alvo baseando-se em atributos, para poder fazer previsões em um novo banco de dados desconhecido utilizando somente os atributos. Esse tipo de tecnologia vem ganhando espaço na área da saúde principalmente na área de diagnóstico por conta de seu alto poder preditivo. A triagem dessa doença faz parte do programa de tiragem neonatal brasileiro através do teste do pezinho, que é feita com a quantificação da tripsina imunorreativa, este exame possui alta incidência de falsos positivos. Se esta prova de conceito for positiva pode-se fornecer atendimento precoce a esses pacientes, aumentando suas expectativas de vida. Para isso, foi utilizado índices gerais (número de pacientes triados e número de exames alterados) de triagens e diagnóstico do laboratório de triagem neonatal APAE (Associação de Pais e Amigos dos Excepcionais) de São Luís do Maranhão, para desenvolver uma metodologia que buscasse sempre a melhor sensibilidade para o modelo. Os resultados obtidos nesta dissertação com dados sintéticos mostram que essa metodologia pode permitir alcançar o objetivo devido a melhora que ela trouxe na sensibilidade do modelo mesmo que utilizando dados sintéticos para o treinamento, o que tende a melhorar quando utilizar dados reais de pacientes, pois a correlação desses dados será maior o que fará com que o modelo tenha melhor ajuste sobre os dados sendo capaz de explica-los com a sensibilidade e precisão superior à obtida com os dados sintéticos.
dc.description.abstract2This research is about the use of Random Forests to predict true positive cases in neonatal screening for cystic fibrosis disease. Cystic fibrosis is a disease, which is part of the Brazilian national neonatal screening program that is caused by mutations in the CFTR (Cystic Fibrosis Transmembrane Conductance Regulator) gene. This disease is characterized by the production of a dense mucus that can cause respiratory, gastrointestinal, metabolic complications among other diseases that can vary according to the more than 2000 existing mutations. Random forests are a field of study of machine learning that consists of using a database to train an algorithm of multiple decision trees that are capable of creating criteria to try to explain a given target based on attributes, in order to be able to do predictions in a new unknown database using attributes only. This type of technology has been gaining ground in the health area, mainly in the area of diagnosis due to its high predictive power. So this research proposes the development of a methodology to generate a model capable of learning from an artificial database of patients screened for cystic fibrosis and predict which of them have the greatest chance of being a true positive. Screening for this disease is part of the Brazilian neonatal screening program through the tootsy test, which is screened through the quantification of immunoreactive trypsin, which have a high incidence of false positives, thus being able to provide early care to these patients, increasing their life expectancy. For this, general screening and diagnostic indexes from the neonatal screening laboratory APAE (Association of Parents and Friends of the Handicapped) in São Luís do Maranhão were used to develop a methodology that always sought the best sensitivity for the algorithm. The results obtained in this dissertation with artificial data show that this technique can allow reaching the objective due to the improvement it brought in sensitivity even when using artificial data for model training, which tends to improve when using real patient data, since the correlation of these data will be greater, which will make the model have a better fit on the data, being able to explain them with sensitivity and precision superior to that obtained with artificial data.
dc.description.physical92 f.
dc.format.mimetypePDF
dc.identifier.affiliationUniversidade do Vale do Paraíba
dc.identifier.bibliographicCitation2CUSTÓDIO, Paulo Rogério Siqueira. Análise de dados do programa de triagem neonatal de fibrose cística através da quantificação de IRT – Tripsinogênio Imunorreativo utilizando aprendizado de máquina para reduzir falsos positivos. São José dos Campos, 2024. 92 f. Dissertação (Mestrado em Engenharia Biomédica) - Universidade do Vale do Paraíba, Instituto de Pesquisa e Desenvolvimento, Sâo José dos Campos, 2024,
dc.identifier.urihttps://repositorio.univap.br/handle/123456789/532
dc.language.isopt_BR
dc.publisher.countryBrasil
dc.publisher.initialsUNIVAP
dc.publisher.institutionUniversidade do Vale do Paraíba
dc.publisher.programMestrado em Engenharia Biomédica
dc.publisher.spatialSão José dos Campos
dc.subject.keywordFibrose cística
dc.subject.keywordTriagem neonatal
dc.subject.keywordTripsina imunorreativa
dc.titleAnálise de dados do programa de triagem neonatal de fibrose cística através da quantificação de IRT – Tripsinogênio Imunorreativo utilizando aprendizado de máquina para reduzir falsos positivos
dc.title.alternativeData analysis of neonatal screening program of cystic fibrosis through the quantification of IRT - trypsinogen immunorreative using machine learning to reduce false positives
dc.typeDissertação
dc.type.masterDegreeAcadêmico

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação_Paulo_Custódio.pdf
Tamanho:
2.78 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: