Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior

Mercês, Thamires Lopes das

Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior

dc.contributor.advisor	Albuquerque Júnior, Gabriel Alves de
dc.contributor.advisorLattes	http://lattes.cnpq.br/1399502815770584
dc.contributor.author	Mercês, Thamires Lopes das
dc.contributor.authorLattes	http://lattes.cnpq.br/8266687622316308
dc.date.accessioned	2025-12-11T22:11:51Z
dc.date.issued	2025-08-08
dc.degree.departament	Estatística e Informática
dc.degree.graduation	Bacharelado em Sistemas da Informação
dc.degree.level	bachelor's degree
dc.degree.local	Recife
dc.description.abstract	A grande quantidade de informações coletadas em censos da educação e avaliações nacionais demanda métodos eficientes para extração de conhecimento, permitindo identificar padrões e tendências relevantes. Nesse contexto, a clusterização se destaca como uma ótima técnica para segmentar e interpretar grandes volumes de dados educacionais, sendo o K-Means um dos algoritmos mais utilizados devido à sua simplicidade e eficiência. No entanto, quando aplicado a conjuntos de dados de alta dimensionalidade, seu desempenho pode ser comprometido, tornando necessário o uso de técnicas de redução de dimensionalidade como Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) e Uniform Manifold Approximation and Projection (UMAP). Este trabalho investiga o impacto dessas técnicas na qualidade dos agrupamentos gerados pelo K-Means em uma base de dados composta pela junção dos Microdados do Censo da Educação Superior de 2022 e os indicadores de qualidade educacional Conceito Enade e CPC. A análise é realizada utilizando o índice de silhueta como métrica de avaliação e comparando o tempo de execução de cada método. Com dois componentes, o PCA superou o t-SNE e o UMAP na maioria dos testes. Com três componentes, o PCA teve melhor desempenho que o t-SNE em todos os testes, mas ficou equilibrado com o UMAP, onde foi superior em cinco dos nove cenários. Observou-se, ainda, que a quantidade de clusters teve influência relevante nos resultados, especialmente no desempenho crescente do UMAP à medida que se aumentava o número de clusters. O UMAP e o t-SNE mostraram resultados equilibrados com dois componentes. Porém, com três componentes, o UMAP se mostrou melhor em todos os cenários. Além disso, o PCA foi a técnica mais rápida em todos os cenários avaliados, superando tanto o t-SNE quanto o UMAP em termos de tempo de execução.
dc.description.abstractx	The large amount of information collected in education censuses and national assessments demands efficient methods for knowledge extraction, allowing the identification of relevant patterns and trends. In this context, clustering stands out as a great technique to segment and interpret large volumes of educational data, with K-Means being one of the most widely used algorithms due to its simplicity and efficiency. However, when applied to high-dimensional datasets, its performance can be compromised, making it necessary to use dimensionality reduction techniques such as Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE), and Uniform Manifold Approximationand Projection (UMAP). This work investigates the impact of these techniques on the quality of clusters generated by K-Means in a database composed of the merger of the 2022 Higher Education Census Microdata and the educational quality indicators Enade Score and CPC. The analysis is conducted using the silhouette index as an evaluation metric and comparing the execution time of each method. With two components, PCA outperformed t-SNE and UMAP in most tests. With three components, PCA performed better than t-SNE in all tests, but was on par with UMAP, outperforming it in five of the nine scenarios. It was also observed that the quantity of clusters had a relevant influence on the results, especially on UMAP’s increasing performance as the number of clusters increased. UMAP and t-SNE showed balanced results with two components. However, with three components, UMAP performed better in all scenarios. Furthermore, PCA was the fastest technique in all evaluated scenarios, outperforming both t-SNE and UMAP in terms of execution time.
dc.format.extent	76 f.
dc.identifier.citation	MERCÊS, Thamires Lopes das. Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior. 2025. 76 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2025.
dc.identifier.uri	https://arandu.ufrpe.br/handle/123456789/8073
dc.language.iso	pt_BR
dc.publisher.country	Brazil
dc.publisher.initials	UFRPE
dc.rights	openAccess
dc.rights.license	Attribution 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	Ensino superior
dc.subject	Censo escolar
dc.subject	Análise de dados
dc.subject	Aprendizado do computador
dc.subject	Mineração de dados (Computação)
dc.subject	Clusterização
dc.subject	Redução de dimensionalidade (Estatística)
dc.title	Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior
dc.type	bachelorThesis

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: tcc_thamireslopesdasmerces.pdf
Tamanho:: 4.08 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.87 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

TCC - Bacharelado em Sistemas da Informação (Sede)