APLICANDO O MODELO PREDITIVO DE APRENDIZADO DE MÁQUINA PARA O DIAGNÓSTICO DO DIABETES TIPO 2 COM LINGUAGEM R

2023-1068.jovemO diabetes permanece uma doença incurável, porém o pré-diabetes não. O pré-diabetes é uma condição em que os níveis de glicose no sangue estão elevados, mas ainda não atingiram um limite para serem considerados diabetes tipo 2. Com esse intuito estamos desenvolvendo e aprimorando um modelo de previsão com precisão considerada relevante, visando identificar possíveis futuros casos de diabetes, antecipando sua prevenção e normalizando seus níveis de glicose no sangue.

Monte Carmelo/MG

Escola Estadual Gregoriano Canedo

Ciências Exatas e da Terra

Pôster Científico Relatório

Palavras-chave

Ciências de Dados, Machine Learning, Algoritmo Random Forest, Algoritmo Regressão Logística, Diabetes Mellitus

Resumo Científico

O diabetes permanece uma doença incurável, porém o pré-diabetes não. O pré-diabetes é uma condição em que os níveis de glicose no sangue estão elevados, mas ainda não atingiram um limite para serem considerados diabetes tipo 2. Com esse intuito estamos desenvolvendo e aprimorando um modelo de previsão com precisão considerada relevante, visando identificar possíveis futuros casos de diabetes, antecipando sua prevenção e normalizando seus níveis de glicose no sangue, com o objetivo de melhorar o atendimento aos pacientes. O conjunto de dados utilizado para a análise e construção do modelo foi originalmente publicado pelo Instituto Nacional de Diabetes e Doenças Digestivas e Renais dos Estados Unidos. A Ciência de Dados tem como objetivo analisar e explorar conjunto de informações de banco de dados, selecionando melhores algoritmos para a construção de modelos de Aprendizado de Máquina ou Machine Learning para prever se um paciente tem ou não diabetes usando alguns parâmetros do conjunto de dados, como por exemplo Insulina e Glicose. A ferramenta utilizada para a preparação, análise, treinamento e teste dos dados foi a linguagem R, desenvolvida originalmente com fins estatísticos e análise de dados. O projeto trata-se de um estudo observacional em que foram gerados dois modelos a partir de um conjunto de dados de mulheres norte-americanas com idade entre 21 e 81 anos utilizando a linguagem R com técnicas de tratamento de dados, o melhor resultado foi observado com o algoritmo Random Forest ou Floresta Aleatória que atingiu uma acurácia de 88%, o segundo modelo preditivo utilizou o algoritmo Logistic Regression ou Regressão Logística com 77% de assertividade. Sendo assim a maior precisão foi do modelo utilizando o algoritmo Random Forest. Lembrando, este campo não tem o objetivo de substituir os profissionais da saúde, e sim apenas melhorar o atendimento dos pacientes.