Search button

Qualidade dos Dados & Machine Learning: Uma nova abordagem aos Censos Populacionais e Habitacionais

Aluno: InÊs Margarida Silva Paz Lopes


Resumo
O projeto realizado consiste no processo de recolha e preparação de dados manuscritos em papel, da aplicação do inquérito Censo Populacional e Habitacional a uma população de mais de vinte milhões de pessoas. Este é um tipo de inquérito que se faz à população de um país, tendo como objetivo retirar conclusões a nível geográfico tanto da população, como das suas condições de vida. Os Censos são realizados com alguma frequência, o que permite efetuar comparações e perceber a transformação da sociedade e de um país, ao longo dos anos. Com o objetivo de tornar os mais de vinte milhões de inquéritos manuscritos em informação útil e de qualidade acerca de um país e de uma população foi necessário dividir o trabalho em três fases, a fase recolha de dados e da sua conversão de imagem para um formato digital onde o texto possa ser editável, a fase de limpeza e tratamento dos dados e, por último, a fase de análise e classificação dos mesmos. De acordo com cada fase, foram utilizadas diversas metodologias e tecnologias, como é o caso do OCR (Optical Character Recognition), NLP (Natural Language Processing) e Machine Learning, respetivamente. Estas abordagens permitiram uma melhor, mais rápida e mais fiável análise de resultados.


Trabalho final de Mestrado