Logo do repositório
Comunidades & Coleções
Busca no Repositório
Guia Arandu
  • Sobre
  • Equipe
  • Como depositar
  • Fale conosco
  • English
  • Português do Brasil
Entrar
Novo usuário? Clique aqui para cadastrar.Esqueceu sua senha?
  1. Início
  2. Pesquisar por Autor

Navegando por Autor "Albuquerque, Renilson da Silva"

Filtrar resultados informando o último nome do autor
Agora exibindo 1 - 1 de 1
  • Resultados por Página
  • Opções de Ordenação
  • Imagem de Miniatura
    Item
    Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
    (2021-07-19) Albuquerque, Renilson da Silva; Sampaio, Pablo Azevedo; http://lattes.cnpq.br/8865836949700771; http://lattes.cnpq.br/3364503614448061
    A aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.
Logo do SIB-UFRPE
Arandu - Repositório Institucional da UFRPE

Universidade Federal Rural de Pernambuco - Biblioteca Central
Rua Dom Manuel de Medeiros, s/n, Dois Irmãos
CEP: 52171-900 - Recife/PE

+55 81 3320 6179  repositorio.sib@ufrpe.br
Logo da UFRPE

DSpace software copyright © 2002-2026 LYRASIS

  • Enviar uma sugestão