Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior
| dc.contributor.advisor | Albuquerque Júnior, Gabriel Alves de | |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/1399502815770584 | |
| dc.contributor.author | Mercês, Thamires Lopes das | |
| dc.contributor.authorLattes | http://lattes.cnpq.br/8266687622316308 | |
| dc.date.accessioned | 2025-12-11T22:11:51Z | |
| dc.date.issued | 2025-08-08 | |
| dc.degree.departament | Estatística e Informática | |
| dc.degree.graduation | Bacharelado em Sistemas da Informação | |
| dc.degree.level | bachelor's degree | |
| dc.degree.local | Recife | |
| dc.description.abstract | A grande quantidade de informações coletadas em censos da educação e avaliações nacionais demanda métodos eficientes para extração de conhecimento, permitindo identificar padrões e tendências relevantes. Nesse contexto, a clusterização se destaca como uma ótima técnica para segmentar e interpretar grandes volumes de dados educacionais, sendo o K-Means um dos algoritmos mais utilizados devido à sua simplicidade e eficiência. No entanto, quando aplicado a conjuntos de dados de alta dimensionalidade, seu desempenho pode ser comprometido, tornando necessário o uso de técnicas de redução de dimensionalidade como Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) e Uniform Manifold Approximation and Projection (UMAP). Este trabalho investiga o impacto dessas técnicas na qualidade dos agrupamentos gerados pelo K-Means em uma base de dados composta pela junção dos Microdados do Censo da Educação Superior de 2022 e os indicadores de qualidade educacional Conceito Enade e CPC. A análise é realizada utilizando o índice de silhueta como métrica de avaliação e comparando o tempo de execução de cada método. Com dois componentes, o PCA superou o t-SNE e o UMAP na maioria dos testes. Com três componentes, o PCA teve melhor desempenho que o t-SNE em todos os testes, mas ficou equilibrado com o UMAP, onde foi superior em cinco dos nove cenários. Observou-se, ainda, que a quantidade de clusters teve influência relevante nos resultados, especialmente no desempenho crescente do UMAP à medida que se aumentava o número de clusters. O UMAP e o t-SNE mostraram resultados equilibrados com dois componentes. Porém, com três componentes, o UMAP se mostrou melhor em todos os cenários. Além disso, o PCA foi a técnica mais rápida em todos os cenários avaliados, superando tanto o t-SNE quanto o UMAP em termos de tempo de execução. | |
| dc.description.abstractx | The large amount of information collected in education censuses and national assessments demands efficient methods for knowledge extraction, allowing the identification of relevant patterns and trends. In this context, clustering stands out as a great technique to segment and interpret large volumes of educational data, with K-Means being one of the most widely used algorithms due to its simplicity and efficiency. However, when applied to high-dimensional datasets, its performance can be compromised, making it necessary to use dimensionality reduction techniques such as Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE), and Uniform Manifold Approximationand Projection (UMAP). This work investigates the impact of these techniques on the quality of clusters generated by K-Means in a database composed of the merger of the 2022 Higher Education Census Microdata and the educational quality indicators Enade Score and CPC. The analysis is conducted using the silhouette index as an evaluation metric and comparing the execution time of each method. With two components, PCA outperformed t-SNE and UMAP in most tests. With three components, PCA performed better than t-SNE in all tests, but was on par with UMAP, outperforming it in five of the nine scenarios. It was also observed that the quantity of clusters had a relevant influence on the results, especially on UMAP’s increasing performance as the number of clusters increased. UMAP and t-SNE showed balanced results with two components. However, with three components, UMAP performed better in all scenarios. Furthermore, PCA was the fastest technique in all evaluated scenarios, outperforming both t-SNE and UMAP in terms of execution time. | |
| dc.format.extent | 76 f. | |
| dc.identifier.citation | MERCÊS, Thamires Lopes das. Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior. 2025. 76 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2025. | |
| dc.identifier.uri | https://arandu.ufrpe.br/handle/123456789/8073 | |
| dc.language.iso | pt_BR | |
| dc.publisher.country | Brazil | |
| dc.publisher.initials | UFRPE | |
| dc.rights | openAccess | |
| dc.rights.license | Attribution 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | Ensino superior | |
| dc.subject | Censo escolar | |
| dc.subject | Análise de dados | |
| dc.subject | Aprendizado do computador | |
| dc.subject | Mineração de dados (Computação) | |
| dc.subject | Clusterização | |
| dc.subject | Redução de dimensionalidade (Estatística) | |
| dc.title | Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior | |
| dc.type | bachelorThesis |
