ISEG

Aluno: Nelson Sousa Marques

Resumo

Os resultados das ferramentas estatísticas são baseados em resultados numéricos onde a interpretação e compreensão do que está gerado passa pelo intérprete que está a analisar os resultados. Esta tarefa de compreensão é muitas vezes complicada por vários fatores sendo um dos quais o facto do intérprete não conseguir captar dos resultados o que é relevante para avaliar o modelo formulado, não conseguindo avalia-lo como válido ou não, o que poderá levar à utilização de modelos que podem ser descabidos e sem fundamento. Com esta ideia em consideração foi desenvolvido, em ambiente Linux, um pequeno sistema com técnicas de data mining de carácter associativo. Neste sistema é gerado um relatório por cada modelo, onde são analisados os fatores mais relevantes para a criação de modelos, guiando desta forma o intérprete a decidir validar e utilizar o modelo criado ou a rejeitá-lo. O objetivo deste trabalho passou pela aprendizagem da linguagem Python aplicado a dados, uma aprendizagem aprofundada sobre data mining, as técnicas e métodos existentes e uma verificação das ferramentas de machine learning, de modo a criar como produto final um sistema com algumas técnicas. Foi possível a realização do trabalho proposto com a criação do sistema. Foram formulados métodos para produzir um modelo de regressão linear múltipla, regressão logística, um modelo de correlação linear e um modelo de regras de associação. Para três modelos foram gerados métodos tendo por base bibliotecas e machine learning. Para as regras de associação foi criado um método de raiz baseado no algoritmo FP-Growth.

Trabalho final de Mestrado

TFM_Nelson Sousa Marques