Validação da espectroscopia ATR-FTIR associada ao Machine Learning para identificação de um polimorfismo genético
| dc.contributor.advisor | Canevari, Renata de Azevedo | |
| dc.contributor.author | Diniz, Ramon Varella | |
| dc.contributor.event2 | São José dos Campos | |
| dc.contributor.referee | Castilho, Maiara Lima | |
| dc.contributor.referee | Santos, Laurita dos | |
| dc.date.accessioned | 2026-05-15T19:47:47Z | |
| dc.date.available | 2026-05-15T19:47:47Z | |
| dc.date.issued | 2026-04-09 | |
| dc.description.abstract | Polimorfismos de nucleotídeo único (SNPs) desempenham um papel central na suscetibilidade genética a distúrbios multifatoriais, como obesidade e diabetes mellitus tipo 2 (DM2), o que evidencia a necessidade de estratégias de genotipagem escaláveis e de baixo custo. Este estudo avaliou a viabilidade da espectroscopia no infravermelho com transformada de Fourier por reflexão total atenuada (ATR-FTIR) combinada a machine learning (ML) para discriminar os diferentes tipos de genótipos do SNP -3826A/G localizado no gene UCP1. A genotipagem do SNP foi realizada pela PCR quantitativa em tempo real (qPCR) utilizando ensaios TaqMan em amostras de DNA extraído do sangue de 190 participantes para a definição dos grupos genotípicos (AA, AG e GG). A PCR qualitativa foi realizada em todas as amostras e nos controles negativos de reação (NTCs). Os amplicons da PCR e os NTCs foram utilizados na análise espectral. As análises de componentes principais (PCA), modelos supervisionados de ML e deep learning (DL) foram aplicadas diretamente aos espectros normalizados por Variância Normal Padrão (SNV) nos intervalos espectrais de 2800–3800 cm?¹ , 950–1200 cm?¹ e 900 – 1100 cm?¹ . A viabilidade da técnica de ATR-FTIR associada ao ML foi avaliada por meio da comparação com a qPCR e o sequenciamento de nova geração (NGS), ambas técnicas de genotipagem consideradas atualmente padrão ouro. O melhor desempenho observado na discriminação entre os genótipos AA e GG foi obtido com o modelo de DL de perceptron multicamdas com arquitetura residual simulada na região de 2800–3800 cm?¹, área sob a curva (AUC) de 0,654 e acurácia de 0,716. Nas regiões de fingerprint do DNA de 900–1100 cm?¹ e 950–1200 cm?¹, o melhor desempenho foi observado com o modelo de regressão logística, com AUC de 0,635 e 0,644 e acurácia de 0,696 e 0,720, respectivamente. A técnica de ATR-FTIR associada ao ML apresentou melhor viabilidade de execução em relação as técnicas de sequenciamento e qPCR, com um tempo de processamento por amostra similar a qPCR e menor que o NGS e um custo inferior a ambas as técnicas. Este estudo é pioneiro na aplicação da espectroscopia ATR-FTIR associada ao ML na discriminação de SNPs do genoma humano, mostrando ser uma abordagem com um alto potencial de rastreamento, relativamente rápida e de baixo custo. O estabelecimento de novos critérios e modelos de ML poderão aumentar significativamente o desempenho da técnica na identificação desses polimorfismos genéticos. | |
| dc.description.abstract2 | Single nucleotide polymorphisms (SNPs) play a central role in genetic susceptibility to multifactorial disorders such as obesity and type 2 diabetes mellitus (T2DM), highlighting the need for scalable and cost-effective genotyping strategies. This study evaluated the feasibility of attenuated total reflection Fourier transform infrared (ATR-FTIR) spectroscopy combined with machine learning (ML) to discriminate different genotypic variants of the -3826A/G SNP located in the UCP1 gene. SNP genotyping was performed by quantitative real-time PCR (qPCR) using TaqMan assays in DNA samples extracted from the blood of 190 participants to define the genotypic groups (AA, AG, and GG). Qualitative PCR was performed for all samples and for the negative template controls (NTCs). PCR amplicons and NTCs were used for spectral analysis. Principal component analysis (PCA), supervised ML models, and deep learning (DL) models were applied directly to spectra normalized by Standard Normal Variate (SNV) within the spectral ranges of 2800–3800 cm?¹, 950–1200 cm?¹, and 900–1100 cm?¹. The feasibility of ATR-FTIR combined with ML was evaluated through comparison with qPCR and next- generation sequencing (NGS), both currently considered gold-standard genotyping techniques. The best performance in discriminating AA and GG genotypes was achieved using a DL multilayer perceptron model with a simulated residual architecture in the 2800–3800 cm?¹ region, yielding an area under the curve (AUC) of 0.654 and an accuracy of 0.716. In the DNA fingerprint regions of 900–1100 cm?¹ and 950 –1200 cm?¹, the best performance was obtained with a logistic regression model, with AUC values of 0.635 and 0.644 and accuracy values of 0.696 and 0.720, respectively. ATR-FTIR combined with ML demonstrated greater feasibility of implementation compared with sequencing and qPCR techniques, presenting a processing time per sample similar to qPCR and shorter than NGS, as well as lower cost than both techniques. This study is pioneering in applying ATR-FTIR spectroscopy combined with ML for discrimination of SNPs in the human genome, demonstrating high screening potential as a relatively rapid and cost-effective approach. The establishment of new criteria and ML models may significantly improve the performance of this technique in identifying these genetic polymorphisms. | |
| dc.description.physical | 117 p. | |
| dc.description.sponsorship | Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) | |
| dc.description.uri | Processo nº 2024/19969-6 | |
| dc.format.mimetype | ||
| dc.identifier.affiliation | Universidade do Vale do Paraíba | |
| dc.identifier.affiliation | Universidade do Vale do Paraíba | |
| dc.identifier.affiliation | Universidade do Vale do Paraíba | |
| dc.identifier.affiliation | Universidade Brasil | |
| dc.identifier.bibliographicCitation2 | DINIZ, Ramon Varella. Validação da espectroscopia ATR-FTIR associada ao Machine Learning para identificação de um polimorfismo genético. São José dos Campos, SP, 2026. 117 f.; PDF. Dissertação (Mestrado em Engenharia Biomédica) - Universidade do Vale do Paraíba, Instituto de Pesquisa e Desenvolvimento, São José dos Campos/SP, 2026. | |
| dc.identifier.uri | https://repositorio.univap.br/handle/123456789/1186 | |
| dc.language.iso | pt_BR | |
| dc.publisher.country | Brasil | |
| dc.publisher.initials | UNIVAP | |
| dc.publisher.institution | Universidade do Vale do Paraíba | |
| dc.publisher.program | Mestrado em Engenharia Biomédica | |
| dc.publisher.spatial | São José dos Campos | |
| dc.subject.keyword | Engenharia Biomédica | |
| dc.subject.keyword | Aprendizado do computador | |
| dc.subject.keyword | Machine learning | |
| dc.subject.keyword | Polimorfismo (Genética) | |
| dc.subject.keyword | Espectroscopia de infravermelho | |
| dc.title | Validação da espectroscopia ATR-FTIR associada ao Machine Learning para identificação de um polimorfismo genético | |
| dc.title.alternative | Validation of ATR-FTIR spectroscopy associated with machine learning for the identification of a genetic polymorphism | |
| dc.type | Dissertação | |
| dc.type.masterDegree | Mestrado acadêmico |