Logo do repositório
Comunidades & Coleções
Busca no Repositório
Guia Arandu
  • Sobre
  • Equipe
  • Como depositar
  • Fale conosco
  • English
  • Português do Brasil
Entrar
Novo usuário? Clique aqui para cadastrar.Esqueceu sua senha?
  1. Início
  2. Pesquisar por Autor

Navegando por Autor "Silva, Kenedy Felipe dos Santos da"

Filtrar resultados informando o último nome do autor
Agora exibindo 1 - 1 de 1
  • Resultados por Página
  • Opções de Ordenação
  • Imagem de Miniatura
    Item
    Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
    (2021-07-20) Silva, Kenedy Felipe dos Santos da; Sampaio, Pablo Azevedo; http://lattes.cnpq.br/8865836949700771; http://lattes.cnpq.br/7479192156880225
    As técnicas estudadas relacionadas à aprendizagem por reforço estão se tornando cada vez mais comuns em desafios do mundo real, porém um desafio é reduzir o tempo de aprendizado. Atualmente o tempo de aprendizado e/ou quantidade de interações realizadas pelo agente de aprendizagem por reforço podem resultar em altos custos nas aplicações, pois o treinamento dos modelos podem consumir bastante tempo, exigindo muitas interações do agente com o ambiente da tarefa. Este trabalho busca melhorar o aprendizado utilizando uma nova combinação de técnicas, a técnica Teacher-Student (Aluno-Professor) com a Reward Shaping (modelagem de recompensas). A técnica Teacher-Student visa escolher dentre um conjunto de tarefas similares que treinam para uma tarefa principal, de acordo com o aprendizado do aluno. A técnica Reward Shaping, altera a recompensa para tentar acelerar o aprendizado, fornece feedbacks mais frequentes sobre os comportamentos apropriados, ou seja, reporta recompensas com mais frequência. Adaptamos algoritmos de Teacher-Student para essa combinação de técnicas, e usamos o ambiente Lunar Lander como estudo de caso, usando quatro modelos de recompensa elaborados em (ALBUQUERQUE, 2021) para este ambiente. Foram realizados experimentos executando diferentes treinamentos para comparar essa abordagem com o treinamento apenas no Lunar Lander original (sem alteração das recompensas), e com os resultados obtidos em (ALBUQUERQUE, 2021) ao adotar cada um dos modelos de recompensas individualmente. A combinação das técnicas Teacher-Student com Reward Shaping contribuíram para uma nova experiência na área de aprendizagem por reforço, conseguindo acelerar o aprendizado do agente, considerando a duração de 600 mil passos de treinamento, atingindo o desempenho alvo em 2 de 5 propostas, além de conseguir aprender melhor que a abordagem original do Lunar Lander com algoritmo PPO.
Logo do SIB-UFRPE
Arandu - Repositório Institucional da UFRPE

Universidade Federal Rural de Pernambuco - Biblioteca Central
Rua Dom Manuel de Medeiros, s/n, Dois Irmãos
CEP: 52171-900 - Recife/PE

+55 81 3320 6179  repositorio.sib@ufrpe.br
Logo da UFRPE

DSpace software copyright © 2002-2025 LYRASIS

  • Enviar uma sugestão