Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior

dc.contributor.advisorAlbuquerque Júnior, Gabriel Alves de
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1399502815770584
dc.contributor.authorMercês, Thamires Lopes das
dc.contributor.authorLatteshttp://lattes.cnpq.br/8266687622316308
dc.date.accessioned2025-12-11T22:11:51Z
dc.date.issued2025-08-08
dc.degree.departamentEstatística e Informática
dc.degree.graduationBacharelado em Sistemas da Informação
dc.degree.levelbachelor's degree
dc.degree.localRecife
dc.description.abstractA grande quantidade de informações coletadas em censos da educação e avaliações nacionais demanda métodos eficientes para extração de conhecimento, permitindo identificar padrões e tendências relevantes. Nesse contexto, a clusterização se destaca como uma ótima técnica para segmentar e interpretar grandes volumes de dados educacionais, sendo o K-Means um dos algoritmos mais utilizados devido à sua simplicidade e eficiência. No entanto, quando aplicado a conjuntos de dados de alta dimensionalidade, seu desempenho pode ser comprometido, tornando necessário o uso de técnicas de redução de dimensionalidade como Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) e Uniform Manifold Approximation and Projection (UMAP). Este trabalho investiga o impacto dessas técnicas na qualidade dos agrupamentos gerados pelo K-Means em uma base de dados composta pela junção dos Microdados do Censo da Educação Superior de 2022 e os indicadores de qualidade educacional Conceito Enade e CPC. A análise é realizada utilizando o índice de silhueta como métrica de avaliação e comparando o tempo de execução de cada método. Com dois componentes, o PCA superou o t-SNE e o UMAP na maioria dos testes. Com três componentes, o PCA teve melhor desempenho que o t-SNE em todos os testes, mas ficou equilibrado com o UMAP, onde foi superior em cinco dos nove cenários. Observou-se, ainda, que a quantidade de clusters teve influência relevante nos resultados, especialmente no desempenho crescente do UMAP à medida que se aumentava o número de clusters. O UMAP e o t-SNE mostraram resultados equilibrados com dois componentes. Porém, com três componentes, o UMAP se mostrou melhor em todos os cenários. Além disso, o PCA foi a técnica mais rápida em todos os cenários avaliados, superando tanto o t-SNE quanto o UMAP em termos de tempo de execução.
dc.description.abstractxThe large amount of information collected in education censuses and national assessments demands efficient methods for knowledge extraction, allowing the identification of relevant patterns and trends. In this context, clustering stands out as a great technique to segment and interpret large volumes of educational data, with K-Means being one of the most widely used algorithms due to its simplicity and efficiency. However, when applied to high-dimensional datasets, its performance can be compromised, making it necessary to use dimensionality reduction techniques such as Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE), and Uniform Manifold Approximationand Projection (UMAP). This work investigates the impact of these techniques on the quality of clusters generated by K-Means in a database composed of the merger of the 2022 Higher Education Census Microdata and the educational quality indicators Enade Score and CPC. The analysis is conducted using the silhouette index as an evaluation metric and comparing the execution time of each method. With two components, PCA outperformed t-SNE and UMAP in most tests. With three components, PCA performed better than t-SNE in all tests, but was on par with UMAP, outperforming it in five of the nine scenarios. It was also observed that the quantity of clusters had a relevant influence on the results, especially on UMAP’s increasing performance as the number of clusters increased. UMAP and t-SNE showed balanced results with two components. However, with three components, UMAP performed better in all scenarios. Furthermore, PCA was the fastest technique in all evaluated scenarios, outperforming both t-SNE and UMAP in terms of execution time.
dc.format.extent76 f.
dc.identifier.citationMERCÊS, Thamires Lopes das. Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior. 2025. 76 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2025.
dc.identifier.urihttps://arandu.ufrpe.br/handle/123456789/8073
dc.language.isopt_BR
dc.publisher.countryBrazil
dc.publisher.initialsUFRPE
dc.rightsopenAccess
dc.rights.licenseAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectEnsino superior
dc.subjectCenso escolar
dc.subjectAnálise de dados
dc.subjectAprendizado do computador
dc.subjectMineração de dados (Computação)
dc.subjectClusterização
dc.subjectRedução de dimensionalidade (Estatística)
dc.titleComparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior
dc.typebachelorThesis

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Imagem de Miniatura
Nome:
tcc_thamireslopesdasmerces.pdf
Tamanho:
4.08 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
license.txt
Tamanho:
1.87 KB
Formato:
Item-specific license agreed upon to submission
Descrição: