Navegando por Assunto "Mineração de dados (Computação)"

Agora exibindo 1 - 20 de 29

Abordagem híbrida e independente de domínio para extração de aspectos na análise de sentimentos
(2018) Lins, André Lucas Machado; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340; http://lattes.cnpq.br/3233947254235611
As opiniões são centrais a quase todas as atividades humanas e são chaves influenciadoras do nosso comportamento. Nossas crenças e percepções da realidade, e as escolhas que fazemos, são em grau considerável, condicionadas a como os outros veem e avaliam o mundo. Tendo em vista esta afirmação a área da Análise de Sentimentos ou Mineração de Opinião vem crescendo constantemente, a possibilidade de entender os sentimentos e opiniões que pessoas expressam sobre determinados assuntos enchem os olhos de todos. A Análise de Sentimentos(AS) é o estudo computacionaldasopiniões,atitudeseemoçõesdaspessoasemrelaçãoaumaentidade. A literatura sobre Análise de Sentimentos é bastante vasta, existindo inúmeras variações de como realizar essa tarefa. Uma dessas variações da AS que vem recebendo bastanteatençãodospesquisadoresnosúltimosanoséaAnálisedeSentimentosbaseada em Aspectos(ASBA). Nessa abordagem os sentimentos são identificados em relação a aspectos de sentenças, a fim de discernir os tópicos que são tratados em cada sentença ou documento. A ASBA é dividida em três grandes tarefas que são a extração,classificaçãoeagregaçãodoaspecto,sendoaextraçãodoaspectocomoa tarefa mais complexa. Existem muitas abordagens para resolver a tarefa da extração de aspecto para ASBA, porém muitas dessas são abordagens dependentes de um domínio, o que dificulta replicar estas abordagens para outros domínios que não possuam as mesmas características. Logo, este trabalho visa propor um método híbrido e independente de domínio para extração de aspectos para ASBA, que consiste em quatro grandes etapas. A primeira identifica todos os aspectos candidatos a partir de regrassemânticasparacadasentença.Apósissoégeradoumléxicodetodasassentenças contendo os aspectos e sentimentos mais relevantes. Então segue-se a poda dos aspectos candidatos utilizando regras semânticas através do léxico de aspectos e sentimentos criados e, por último, é feita a seleção dos aspectos restantes através de um limiar dinâmico. Essa proposta foi avaliada nas bases de dados do Semeval 2016, contendo opiniões sobre vários aspectos relacionados com restaurantes e laptops, utilizando as métricas de avaliação mais utilizadas na literatura. Os resultados experimentais obtidos sugerem que o método proposto é competitivo quando comparado a vários outros métodos dependentes e independentes de domínio do estado da arte.
An implementation of a mathematical-computational method for the detection and treatment of financial outliers in higher education
(2023-09-06) Freitas, Nathan Cavalcante; Gouveia, Roberta Macêdo Marques; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/1613649528791400
O Censo da Educação Superior ocorre anualmente, coletando dados de Instituições de Ensino Superior (IES) no Brasil. Diferentes fatores podem levar a anomalias ou outliers em alguns destes dados coletados. Este trabalho propõe um método matemático-computacional para detectar e tratar valores financeiros atípicos das IES. Para tanto, adota-se as análises univariadas e bivariadas dos dados. Foram analisados dados de despesas e receitas das IES do Censo de 2016 a 2019. Esta análise revelou que 204 de 2.224 IES, aproximadamente 10%, reportaram algum dado atípico.
Análise da evasão no ensino superior: predição e prevenção por meio da mineração de dados educacionais
(2024-03-05) Ferreira, Rodolfo André Barbosa; Mello, Rafael Ferreira Leite de; http://lattes.cnpq.br/6190254569597745; http://lattes.cnpq.br/2982020271806247
Tendo em vista que a evasão ocorre por abandono, transferência ou desistência do curso; quando o aluno se desliga da instituição que está matriculado ou quando o aluno abandona definitivamente ou não o curso superior, este artigo busca identificar métodos e técnicas automáticas para auxiliar os gestores a prevenir casos de evasão por meio das predições. Para realizar o estudo foi utilizada a Mineração de Dados Educacionais (MDE), que aplica técnicas de mineração de dados, tais como banco de dados, estatísticas e aprendizado de máquina nas áreas da educação. Foram empre- gues dados de 5144 alunos com características relacionadas ao curso, semestre e demografia constantes no banco de dados fornecido pelo Sistema de Informações e Gestão Acadêmica (SIGA) da Universidade Federal Rural de Pernambuco (UFRPE) para os cursos de Zootecnia, Engenharia de Pesca e Agronomia. Os dados, exceto aqueles que são informações pessoais, restritas e sensíveis, foram separados em Ca- racterísticas Acadêmicas por Semestre, Acadêmicas Gerais, dos Cursos, Demográficas e Característica alvo. O estudo usa o algoritmo de aprendizado de máquina LSTM e os otimizadores SGD e Adam, explorando diferentes valores para os parâmetros de taxa de aprendizagem, momentum, tamanho de lotes e número de épocas.
Análise de sentimentos de tweets relacionados a vacinas antes e durante a pandemia da COVID-19 no Brasil
(2023-03-01) Silva, Íkaro Alef de Lima; Andrade, Ermeson Carneiro de; http://lattes.cnpq.br/2466077615273972; http://lattes.cnpq.br/7938306473921402
No início de 2020, a doença COVID-19 se alastrou rapidamente pelo mundo e uma das formas de combatê-la é a vacina. Governos enfrentaram problemas com notícias falsas e grupos contrários à vacinação. Assim, se faz necessário entender os sentimentos da população para propor políticas públicas eficientes. Este artigo descreve uma análise de sentimentos em tweets relacionados a vacinas no Brasil de junho de 2020 a junho de 2021. Os resultados revelaram picos do total de tweets em janeiro e maio de 2021, a predominância de tweets positivos e sentimentos de confiança, medo, submissão e tristeza. Também estão associados ao ex-presidente Jair Bolsonaro. A polaridade negativa foi a menos comum, mostrando que a população brasileira foi receptiva às vacinas.
Análise de sentimentos em publicações do Stackoverflow
(2019-08-22) Santos, Luiz Felipe dos; Trindade, Cleyton Carvalho da; http://lattes.cnpq.br/6298429503812388
A utilização de redes sociais, fóruns e diversos meios de comunicação, vem crescendo ex-ponencialmente, refletindo diretamente na quantidade de dados gerados na internet, uma grande parcela dos dados gerados, estão abertos e podem ser acessados e processados. Com isso, as possibilidades geradas com os dados abertos, tem atraído vários pesquisadores e empresas, com o intuito de extrair informações preciosas sobre seus clientes. As informações extraídas a partir dessa massa de dados, podem mudar a estratégia de diversas empresas e pessoas. Nos fóruns sobre computação, é possível visualizar o mesmo padrão, várias pessoas interagindo e gerando diversas informações sobre a tecnologia da informação e seus derivados. A pesquisa passará por todo o ciclo da análise de sentimentos, captação dos dados na plataforma do StackOverflow, tratamento dos dados, processamento de linguagem natural, treinamento dos algoritmos e a classificação. Com o intuito de mostrar as etapas de processamento e classificação dos dados, comparar as abordagens de classificação e extrair informações sobre a base de dados analisada. Após a aplicação do ciclo da análise de sentimentos, foi possível comparar os resultados de cada classificador e extrair informações sobre a base de dados analisada, sobre a performance dos classificadores em base de dados não estruturadas e a dificuldade de trabalhar com base de dados na língua portuguesa.
Análise de sentimentos em reviews de jogos digitais da Plataforma Steam
(2024-09-26) Albuquerque, Júlia de Melo; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584
A análise de sentimento é uma área que investiga as expressões emocionais da linguagem humana, buscando compreender as necessidades e opiniões subjacentes expressas em textos. Sua complexidade existe na habilidade de discernir não apenas o conteúdo textual, mas também as matrizes emocionais implícitas. Com o avanço tecnológico, a facilidade de expressar a opinião publicamente se dissemina por diversos meios, sendo campo dos jogos online uma vertente que atrai inúmeras publicações de jogadores sobre os diversos títulos disponíveis. No entanto, essa diversidade de públicos e temas torna desafiador compreender o sentimento expresso que permeia esse universo. O objetivo deste estudo é aplicar técnicas de análise de sentimento em avaliações de jogos digitais, adotando uma abordagem focada em algoritmos de aprendizado de máquina supervisionados e bibliotecas pre-polarizadas, a fim de identificar o melhor caminho de classificação capaz de discernir os sentimentos expressos pelos usuários nas avaliações. Nessa operação está sendo considerada uma abordagem com todas as opiniões e outra focada em gênero específico de cada jogo. Essa análise foi conduzida por meio da exploração de dados provenientes de uma empresa de distribuição de jogos online (Steam), seguindo com uma preparação desses dados devido às particularidades presentes nos registros. Os resultados revelam que os modelos de aprendizado de máquina superam as abordagens tradicionais, como a utilização da biblioteca VADER, apresentando uma precisão maior em aproximadamente 10% nas capturas, observou-se uma diferença de 20% a mais em métricas como recall e F1-score. Esse estudo representa uma contribuição analítica para a área da análise de sentimento, destacando a capacidade do modelo construído em lidar com a complexidade da linguagem humana.
Análise de sentimentos em Tweets relacionados ao desmatamento da Floresta Amazônica
(2021-12-17) Silva, Vinicius José Paes e; Andrade, Ermeson Carneiro de; http://lattes.cnpq.br/2466077615273972; http://lattes.cnpq.br/7437953784606274
A Floresta Amazônica está sendo devastada no maior ritmo dos últimos anos. Em 2021, Amazônia registra o maior acúmulo de desmatamento em 5 anos, passando de 13 mil km2 entre agosto de 2020 a julho de 2021. Um aumento de 22% no desmatamento, em relação ao mesmo período do ano anterior, sendo o maior número desde 2006. Embora muitos trabalhos abordem o tema de desmatamento, nenhum deles foca em analisar os sentimentos da população brasileira com relação ao tema. Este trabalho apresenta uma análise dos sentimentos dos usuários brasileiros do Twitter relacionados ao desmatamento da Floresta Amazônica através da mineração de texto do Twitter e busca entender como os usuários brasileiros opinam e dialogam sobre a desmatamento da Floresta Amazônica. Os resultados revelam que os usuários brasileiros tendem a reagir a acontecimentos relacionados ao desmatamento da floresta Amazônica no Twitter e, que em sua maioria, os usuários apresentam sentimento negativo sobre o tema, alcançando picos de aproximadamente 60% dos tweets em determinado momento.
Análise dos componentes principais supervisionada: uma abordagem não-paramétrica
(2019-02-04) Sousa, Raul Pedro de Vasconcelos; Carvalho, Tiago Buarque Assunção de; http://lattes.cnpq.br/7150833804013500; http://lattes.cnpq.br/3362844917050042
Problemas de classificação tem se tornado cada vez mais comuns, sendo utilizados desde da detecção de emails spams até classificação de tumores em malignos e benignos. Nestes problemas a quantidade de características desempenha um papel fundamental tanto na qualidade quanto no desempenho dos classificadores, nos quais, dados que possuem alta dimensionalidade tendem apresentar taxa de acerto inferior e maior tempo de processamento. Assim técnicas de extração de características são excelentes opções para contornar essa situação, gerando novas características e selecionando as melhores para a classificação. O Principal Component Analysis (PCA) é uma das técnicas de extração de características mais utilizadas obtendo, em termos gerais, ótimos resultados, contudo, por ser uma técnica não supervisada que utiliza a variância como critério de seleção, há situações em que o método não consegue extrair as melhores características. Então desenvolvemos uma versão supervisionada do PCA utilizando classificação Bayesiana em conjunto com técnica de estimação de densidade de Kernel (janela de Parzen) para avaliar e selecionar as características, ao invés de utilizar a variância como na tradicional implementação do PCA. Propondo assim uma seleção que utiliza o erro Bayesiano como critério base da avaliação. Esse método surgiu como uma extensão do Minimum Classification Error PCA (MCPCA) que utiliza o erro Bayesiano como métrica também, contudo, apresentado uma série de restrições, como ser limitado a problemas de apenas 2 classes. Comparamos o método proposto com o PCA, MCPCA e com o Supervised PCA (SPCA), outra abordagem supervisionada do PCA, comparando a taxa de acerto por quantidade de características em 4 classificadores para 16 bases de dado. O método proposto apresentou maior taxa de acerto em 72% dos casos, enquanto o PCA, MCPCA e SPCA conseguiram 31%, 36%, 12% respectivamente. No cenário de apenas uma característica o resultado obtido foi de 89%, 14%, 37%, e 25% dos casos para o proposto, PCA, MCPCA e SPCA respectivamente.
Análise dos Impactos da Gestão do Tempo no Desempenho Acadêmico Através da Mineração de Dados Educacionais
(2023-03-29) Nascimento, Pricylla Santos Cavalcante do; Rodrigues, Rodrigo Lins; http://lattes.cnpq.br/5512849006877767; http://lattes.cnpq.br/2042576149331188
Com os avanços tecnológicos, nasceram também novos desafios. Entre estes está a dificuldade de identificar fatores que corroboram com um bom desempenho acadêmico dos alunos de cursos EAD. Assim, este trabalho tem o objetivo de analisar os impactos da gestão do tempo no desempenho acadêmico dos discentes. Para isso, foram utilizadas a técnica K-means para a realização do agrupamento dos discentes em relação ao seu desempenho acadêmico, uma Rede Neural Artificial para classificar estes grupos com base nas variáveis de gestão do tempo, e o método SHAP para interpretar de forma eficiente os resultados dessa classificação. Para a construção desta pesquisa, utilizou-se dados de cursos EAD extraídos da plataforma moodle de uma universidade pública do estado de Pernambuco. Como conclusão, foi possível observar quais características da gestão do tempo impactam positivamente no desempenho acadêmico do aluno.
Aplicação de técnicas de mineração de dados educacionais para previsão do desempenho de estudantes a partir de dados do ENADE
(2021-03-04) Lima, Thacyo Eslley Burgo de; Silva, Paulo Mello da; http://lattes.cnpq.br/8976586263200932; http://lattes.cnpq.br/7863661692692517
Com o crescimento cada vez maior nos dados, faz-se necessário aplicação de técnicas para extrair informações e conhecimentos a partir do conjunto de dados que estão disponibilizados, com isso encontra-se a Mineração de Dados. Esse trabalho tem como objetivo prever o desempenho dos alunos dos cursos de Sistema de Informação a partir dos dados do Exame Nacional de Desempenho de Estudantes (Enade) realizado no ano de 2017. Para isto, foram utilizados algoritmos de aprendizagem de maquina para a descoberta do conhecimento e auxiliar na tomada de decisão. Foram utilizados 4 algoritmos para comparação, os quais obtiveram acurácia superior a 60%, mostrando que é viável realizar a predição
Aspect term extraction in aspect-based sentiment analysis
(2019) Francisco, Alesson Delmiro; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340
O uso crescente da Internet criou a necessidade de analisar uma vasta quantidade dedados. Uma grande quantia de dados é apresentada como Texto em Linguagem Naturalnão estruturado, com várias maneiras de expressar a mesma informação. É uma tarefaimportante extrair informação e significado destes conteúdos não estruturados, comoopiniões em produtos ou serviços. A necessidade de extrair e analisar a vasta quantidadede dados criados todos os dias na Internet ultrapassou as capacidades humanas, comoresultado, várias aplicações de mineração de texto que extraem e analisam dados textuaisproduzidos por humanos estão disponíveis atualmente, uma destas aplicações é a Análise deSentimentos usada para que empresas e provedores de serviços possam usar o conhecimentoextraído de documentos textuais para melhor entender como seus clientes pensam sobreeles. No entanto, a tarefa de analisar texto não estruturado é difícil, por isso é necessárioprover informação coerente e resumos concisos para as revisões. Análise de Sentimentoé o processo de identificar e categorizar computacionalmente opiniões expressadas numtexto, especialmente para determinar a atitude do autor sobre um tópico ou produto emparticular. Análise de Sentimentos Baseada em Aspectos (ABSA) é um sub-campo daAnálise de Sentimentos que tem como objetivo extrair opiniões mais refinadas e exatas,quebrando o texto em aspectos. A maior parte dos trabalhos atuais na literatura não lucramde recursos baseados em semântica ou análises baseadas em Processamento de LinguagemNatural na fase de pré-processamento. Para tratar essas limitações, um estudo nestesrecursos é feito com o objetivo de extrair as características necessárias para a execuçãoda tarefa, e para fazer a melhor combinação para Extração de Termo de Aspecto. Estetrabalho tem como o principal objetivo implementar e analisar um método de Extraçãode Termo de Aspecto (ATE) de críticas de usuários (restaurantes e laptops). O métodoproposto é baseado em uma abordagem supervisionada chamada Campos CondicionaisAleatórios (CRF) que otimiza o uso de características para classificação, esta escolha éjustificada pelos trabalhos relacionados anteriores que demonstram a eficácia do CRFpara ATE. Um estudo também é feito em métodos para propor novas características eexperimantar com combinações de características para obter as melhores combinações.O estudo detalhado é feito a partir da experimentação com características de palavra,n-gramas e características customizadas utilizando um algoritmo supervisionado CRF pararealizar a tarefa de Extração de Termo de Aspecto com resultados em termo de Precisão,Cobertura e F-Measure, as métricas padrões de avaliação adotadas na área. Por fim, umaavaliação comparativa entre o método proposto para ATE contra outros trabalhos daliteratura mostra que o método apresentado neste trabalho é competitivo.
Classificação automática de discursos de ódio em textos do twitter
(2019) Nascimento, Robson Murilo Ferreira do; Souza, Ellen Polliana Ramos; http://lattes.cnpq.br/6593918610781356; http://lattes.cnpq.br/8962852253787699
Discurso do ódio, ou no inglês Hate Speech, pode ser definido como qualquer ato de comunicação que inferiorize uma pessoa por sua etnia, raça, religião, orientação sexual, nacionalidade ou outras características. Esse ato está se tornando cada vez mais comum nas redes sociais, onde muitas pessoas confundem liberdade de expressão com intolerância. Os jovens são os principais afetados, pois representam um grupo mais fácil de ser atingido pela ideologia propagada pelos Haters, os quais exaltam a violência, adotam ideologias racistas e xenofóbicas, intolerância religiosa e etc. Uma ferramenta capaz de ajudar a combater esse problema, é a Mineração de Texto, que busca extrair regularidades, padrões ou tendências de textos em linguagem natural, assim podendo ser definida como um método de extração de informações relevantes em bases de dados não estruturadas ou semi-estruturadas. Considerando o Twitter como uma das redes sociais mais utilizadas no Brasil, este trabalho tem como objetivo de implementar e avaliar técnicas supervisionadas de aprendizagem de máquina, com intuito de identificar de forma automática discurso de ódio em tweets. Para isso, foram utilizados dois corpus, um na língua inglesa, previamente disponibilizado, e outro com a língua português do Brasil,o qual foi montado com texto do Twitter, que posteriormente parte dele foi anotado de forma manual, e ambos passaram por um pré-processamento, a fim de criar coleções douradas, utilizadas para construção e avaliação dos modelos supervisionados. Por fim, foi realizada uma análise comparativa dos algoritmos de aprendizagem de máquina: SVM, Naive-Bayse e Regressão Logística, combinados com a técnica de processamento de linguagem natural stemming.
Coh-Metrix PT-BR: uma API web de análise textual para à educação
(2021-03-02) Salhab, Raissa Camelo; Mello, Rafael Ferreira Leite de; http://lattes.cnpq.br/6190254569597745; http://lattes.cnpq.br/6761163457130594
O CohMetrix é um sistema computacional que provê diferentes medidas de análise textual incluindo legibilidade, coerência e coesão textual. Essas medidas permitem uma análise mais profunda de diferentes tipos de textos educacionais como redações, respostas de perguntas abertas e mensagens em fóruns educacionais. Este artigo apresenta o protótipo, site e API, com a adaptação das medidas do CohMetrix para a língua portuguesa do Brasil.
Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior
(2025-08-08) Mercês, Thamires Lopes das; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8266687622316308
A grande quantidade de informações coletadas em censos da educação e avaliações nacionais demanda métodos eficientes para extração de conhecimento, permitindo identificar padrões e tendências relevantes. Nesse contexto, a clusterização se destaca como uma ótima técnica para segmentar e interpretar grandes volumes de dados educacionais, sendo o K-Means um dos algoritmos mais utilizados devido à sua simplicidade e eficiência. No entanto, quando aplicado a conjuntos de dados de alta dimensionalidade, seu desempenho pode ser comprometido, tornando necessário o uso de técnicas de redução de dimensionalidade como Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) e Uniform Manifold Approximation and Projection (UMAP). Este trabalho investiga o impacto dessas técnicas na qualidade dos agrupamentos gerados pelo K-Means em uma base de dados composta pela junção dos Microdados do Censo da Educação Superior de 2022 e os indicadores de qualidade educacional Conceito Enade e CPC. A análise é realizada utilizando o índice de silhueta como métrica de avaliação e comparando o tempo de execução de cada método. Com dois componentes, o PCA superou o t-SNE e o UMAP na maioria dos testes. Com três componentes, o PCA teve melhor desempenho que o t-SNE em todos os testes, mas ficou equilibrado com o UMAP, onde foi superior em cinco dos nove cenários. Observou-se, ainda, que a quantidade de clusters teve influência relevante nos resultados, especialmente no desempenho crescente do UMAP à medida que se aumentava o número de clusters. O UMAP e o t-SNE mostraram resultados equilibrados com dois componentes. Porém, com três componentes, o UMAP se mostrou melhor em todos os cenários. Além disso, o PCA foi a técnica mais rápida em todos os cenários avaliados, superando tanto o t-SNE quanto o UMAP em termos de tempo de execução.
Estudo comparativo de algoritmos de classificação supervisionada para classificação de polaridade em análise de sentimentos
(2019) Albuquerque, Rotsen Diego Rodrigues de; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/6441716676783585
Com o grande aumento de dados na internet, mostra-se uma rica fonte para a avaliação da opinião pública sobre uma entidade específica. Consequentemente, o número de opiniões disponíveis torna impossível uma tomada de decisão se for necessário ler e analisar todas as opiniões. Como o uso de Machine Learning tem sindo bastante usado, irei apresentar um estudo comparativo de dois algoritmos para classificar oscomentários usando técnicas de processamento de linguagem natural e Análise de Sentimentos. O dados obtidos foram obtidos manualmente onde através do site de competições chamado Kaggle temos cerca de 50.000 comentários sobre diversos filmes. Este estudo tem por finalidade usar também os conceitos da ciência de dados e Machine Learning, processamento de linguagem natural e analises de sentimentos para agregar mais informação sobre a industria de entretenimento e cinema. Por isso esses algoritmos foram criados para que seja possível mostrar os resultados para esse domínio nos reviews de filmes registrados no site da grande industria cinematográfica o famoso IMDB. Após a aplicação dos treinos e testes, a máquina teve uma Acuráciade 86% sobre a predição de textos comentados de filmes.
Ferramenta adaptável para auxílio no processo de coleta de dados em pesquisas estruturadas
(2019) Nascimento, Thiago Lucas Freire; Albuquerque, Hidelberg Oliveira; Albuquerque, Héldon José Oliveira; http://lattes.cnpq.br/3563291777221100; http://lattes.cnpq.br/0955255065576989; http://lattes.cnpq.br/1424806662151417
A ciência nasce da incessante busca pelo conhecimento partindo da problematização e questionamentos aos acontecimentos históricos sobre o mundo e a realidade na qual vivemos. Para que haja ciência é preciso desenvolver estudos os quais pode ou não vir associados a uma hipótese, a qual carece de ser explicada e provada. Para a realização desses estudos, se faz necessário obter uma grande quantidade de dados os quais possam representar uma dada realidade. Posteriormente, são aplicados a esses dados métodos e técnicas específicas a fim de extrair informações que auxiliem na descoberta de resultados, revelando respostas para ajudar na compreensão do problema proposto ou gerando novos questionamentos. Contudo, fazer essa tarefa do modo tradicional, ou seja, manualmente é tido como uma tarefa ineficaz e desconfortável por diversos fatores, um deles é a ocorrência de erros devido à alta interação humana nas atividades. O processo de coleta de dados informatizado consiste em reduzir os esforços humanos decorrentes das atividades feitas manualmente. Este trabalho teve como objetivo desenvolver uma solução computacional para auxiliar pesquisadores no processo de coleta, armazenamento e processamento de dados em pesquisas de diversas áreas e tipos de contexto. Para isso, foi feito um levantamento na literatura das tecnologias e métodos disponíveis que pudessem ser utilizados no desenvolvimento da solução de modo a atender os requisitos demandados pelo domínio proposto. Este trabalho propôs o desenvolvimento de uma ferramenta que permitisse ao pesquisador organizar e gerenciar melhor suas pesquisas. Além disso, oferecer maior comodidade ao pesquisador possibilitando a coleta de dados através de um aplicativo para dispositivos móveis, realizando essa atividade em campo sem a necessidade de conexão à internet, de maneira centralizada, integra e segura. Para isso, foi projetada uma aplicação Web a qual possibilita ao usuário pesquisador realizar os cadastros necessários para desempenhar uma pesquisa, acompanhando o andamento do processo e por fim visualizando os resultados através de métricas estatísticas descritivas e entre outras. A utilização conjunta das arquiteturas móvel e Web, permite aos usuários acesso às informações e a realização das atividades de qualquer lugar e a qualquer momento. Para a atividade de elicitação e análise de requisitos, foram realizadas várias reuniões com a equipe de pesquisadores formada pelo coordenador da pesquisa e cinco alunos pesquisadores, nesse contexto os membros da equipe assumiram o papel de stakeholders. Afim de obter informações acerca do processo e como era feito, entrevistas com perguntas direcionadas e a técnica de prototipagem foram utilizadas durante as reuniões com os stakeholders. A avaliação feita, teve como objetivo avaliar a interface em busca de possíveis problemas que venham a comprometer a experiência de interação do usuário com a ferramenta e propor melhorias factíveis. Para isso, foi aplicado um questionário com perguntas relacionadas ao tipo de avaliação com a equipe de pesquisadores que participaram ativamente no processo de desenvolvimento e utilizaram a ferramenta em campo por completo. Com base nos resultados da avaliação, foi possível identificar que, a ferramenta possui alguns elementos que necessitam de conserto. Outro ponto revelado pela avaliação foi o nível de familiaridade dos usuários com a ferramenta, tendo em vista que não houve nenhum tipo de dificuldade para responder os questionários de avaliação. Por fim, a ferramenta desenvolvida auxilia pesquisadores a desempenhar pesquisas de diversos tipos, simplificando e reduzindo os esforços provenientes do processo feito da maneira tradicional, ou seja, manualmente.
Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
(2019) Silva, João Marcos Nascimento da; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340; http://lattes.cnpq.br/5276914899067852
Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano. Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações. Este trabalho foca no primeiro problema que serve de base para o segundo, isto é, primeiramente tem-se que se identificar e classificar as entidades para, em seguida, com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver. A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL) em inglês. Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização, parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades (ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa. Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação. Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.
Implementação de um sistema mobile colaborativo para acompanhamento do quadro de pacientes com esclerose múltipla por meio de análise de sentimento
(2024-10-02) Araujo, Paula Priscila da Cruz; Gouveia, Roberta Macêdo Marques; Tschá, Elizabeth Regina; http://lattes.cnpq.br/9598413463162759; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/0280090820230057
O estudo visa desenvolver um sistema mobile para facilitar o acompanhamento de pacientes acometidos por Esclerose Múltipla (EM) baseado no Toolkit Human-Centered Design (HCD) para atender as necessidades dos pacientes. O aplicativo permite que eles registrem e monitorarem emoções, sintomas e tratamentos, oferecendo relatórios mensais e alertas personalizados. Para a análise de sentimentos, foram utilizados os algoritmos de aprendizado de máquina XGBoost e Naive Bayes, sendo o XGBoost demonstrando melhor desempenho, com uma acurácia de 87,56% e um F1-Score de 0,876, enquanto o Naive Bayes, obteve 62,25% de acurácia e um F1-Score de 0,524. Os resultados indicam a eficácia da ferramenta no acompanhamento emocional e médico, contribuindo para a melhoria na qualidade de vida.
Mineração de dados educacionais para a classificação de perfis de evasão do ensino superior
(2022-08-19) Rafael Gentil de Barros Santos; Ellen Polliana Ramos Souza; http://lattes.cnpq.br/6593918610781356; http://lattes.cnpq.br/3501823453025704
A evasão escolar é uma problemática que atinge diversas instituições e é considerada uma grande preocupação para empresários, diretores, pesquisadores, pais e alunos. As perdas ocasionadas pela evasão tanto no setor público como privado, causam ociosidade de professores, funcionários, equipamentos e espaço físico. Este trabalho tem como objetivo desenvolver de um comitê de classificador para realizar a predição dos discentes com possibilidade de evasão. O método CRISP-DM foi usado para entender, preparar e modelar os dados da solução. Para a preparação dos dados, foram utilizadas as ferramentas Pentaho e RapidMiner. A linguagem de programação Python foi utilizada para implementar o comitê de classificador. Como resultados, espera-se ajudar no entendimento do perfil dos discentes com a possibilidade de evasão e como esse fenômeno pode ser evitado pelos gestores das instituições.
Prevendo a evasão escolar em uma instituição de ensino técnico utilizando mineração de dados educacionais
(2021-07-16) Lemos, Ítalo Vinícius do Rego; Nascimento, André Câmara Alves do; http://lattes.cnpq.br/0622594061462533; http://lattes.cnpq.br/9146227756985212
A evasão escolar é um dos principais problemas que ocorrem no âmbito da educação e vem se tornando uma realidade bastante frequente dentro das instituições de ensino públicas ou privadas, resultando em consequências imensuráveis tanto na vida do estudante que deixa de frequentar a escola quanto para a sociedade como um todo. Por ser um fenômeno que preocupa muito os profissionais da educação, se faz necessário revertê-lo, assim estes profissionais necessitam de recursos que sejam eficientes em demonstrar conhecimento dentro e fora do ambiente de ensino e traçar estratégias para lidar com tal cenário. Ser capaz de prever uma possível evasão traz benefícios tando para o estudante quanto para as instituições. A partir disso, uma metodologia que vem se mostrando hábil no combate à evasão escolar e capaz de fornecer conhecimento para a instituição de ensino é a Mineração de Dados Educacionais. Com base nisso, este trabalho teve como objetivo aplicar técnicas de Mineração de Dados e de Aprendizagem de Máquina para prever possíveis casos de evasão antes que o estudante ingresse na instituição de ensino. Através de indicadores sociais e econômicos do estudante e de sua família ele é classificado como um potencial evasor ou não. Este estudo adotou uma base de dados real de uma instituição de ensino pública brasileira, com dados de candidatos que concorreram ao seu processo de ingresso (vestibular) para uma vaga no ensino técnico. Durante a pesquisa foram utilizados 3 modelos de classificação Decision Tree, Random Forest e XGBoost tendo o algoritmo XGBoost atingindo uma taxa de 74% de acerto na predição de evasores, sendo superior aos demais mas ainda apresentando uma alta número de estudantes classificados como não evadidos mas que se evadiram de fato. Diante desses resultados, concluímos que se faz necessário mais indicadores para detectar, de forma satisfatória, o possível candidato que irá se evadir.