Download PDF
ads:
UNIVERSIDADE FEDERAL DE GOIÁS
ESCOLA DE ENGENHARIA ELÉTRICA E DE
COMPUTAÇÃO
GRUPO PIRENEUS
ULISSES RODRIGUES AFONSECA
Sistema Tutor Inteligente
baseado em Aprendizado por
Reforço
Goiânia
2007
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ULISSES RODRIGUES AFONSECA
Sistema Tutor Inteligente
baseado em Aprendizado por
Reforço
Dissertação apresentada ao Programa de Pós–
Graduação do Escola de Engenharia Elétrica e de
Computação da Universidade Federal de Goiás, como
requisito parcial para obtenção do título de Mestre em
Engenharia Elétrica e de Computação.
Área de concentração: Engenharia da Computação
´
Linha de pesquisa: Sistemas Inteligentes
Orientador: Prof. Weber Martins, PhD.
Co–Orientador: Prof. Lauro E. Guimarães Nalini, Dr.
Goiânia
2007
ads:
ULISSES RODRIGUES AFONSECA
Sistema Tutor Inteligente
baseado em Aprendizado por
Reforço
Dissertação defendida no Programa de Pós–Graduação do Es-
cola de Engenharia Elétrica e de Computação da Universi-
dade Federal de Goiás como requisito parcial para obtenção
do título de Mestre em Engenharia Elétrica e de Computação,
aprovada em 15 de Setembro de 2007, pela Banca Examina-
dora constituída pelos professores:
Prof. Weber Martins
Escola de Engenharia Elétrica e de Computação – UFG
Presidente da Banca
Prof. Lauro E. Guimarães Nalini
Departamento de Psicologia – UCG
Prof. Gelson da Cruz Júnior
EEEC – UFG
Prof. Edna Lúcia Flores
FEELT – UFU
Todos os direitos reservados. É proibida a reprodução total ou
parcial do trabalho sem autorização da universidade, do autor e do
orientador.
Ulisses Rodrigues Afonseca
Dedico este trabalho a minha família, por aceitarem se privar de
nossos bons momentos enquanto eu realizava minha busca pela realização
pessoal.
Agradecimentos
Meus agradescimentos ao Weber pelos ensinamentos, orientação e pa-
ciência. Ao co-orientador Lauro pelas preciosas informações sobre Psicologia.
Aos amigos do Pireneus Fernando, Viviane, Lena, e Delermando pelas di-
cas, sugestões, conselhos e bons momentos no laboratório. Aos funcionários
da UFG pelos serviços prestados. Aos alunos da FASAM e da UCG pela par-
ticipação na coleta de dados. Aos amigos Eugênio, Marcio, Olegário, Piero e
José Olimpio pelas sugestões, conselhos e esclarecimentos durante o desen-
volvimento do trabalho. À Juliane pela ajuda nas correções finais do texto.
Life is like playing a violin in public and learning the instru-
ment as one goes on.
Samuel Butler,
escritor inglês (1835 - 1902).
Resumo
AFONSECA, Ulisses R.. Sistema Tutor Inteligente baseado em
Aprendizado por Reforço. Goiânia, 2007. 82p. Dissertação de Mes-
trado. Grupo Pireneus, Escola de Engenharia Elétrica e de Computa-
ção, Universidade Federal de Goiás.
Em Sistemas Tutores Inteligentes (STI), várias técnicas de Inteligência Com-
putacional têm sido empregadas para fornecer ensino individualizado e mai-
ores ganhos de conhecimento ao aluno. Esta trabalho apresenta o desenvol-
vimento de um Sistema Tutor Inteligente inédito baseado em Aprendizado
por Reforço: proposta, implementação e avaliação empírica. A implementação
combina o método Softmax de escolha de ações com o sumário do histórico
de navegação do aluno. O Aprendizado por Reforço é usado para determinar
um plano de curso dinâmico que considera a história de navegação pessoal
do estudante e seu desempenho. Experimentos comparam o sistema proposto
à navegação livre (onde o estudante escolhe como navegar no conteúdo do
curso sem qualquer ajuda externa). A análise estatística dos dados coletados
mostrou resultados promissores comparados a outros STI híbridos mais com-
plexos, baseados em redes neurais perceptrons de multi-camadas.
Palavras–chave
Sistema Tutor Inteligente, Aprendizado por Reforço.
Abstract
AFONSECA, Ulisses R.. Smart Tutoring Systems based on Rein-
forcement Learning. Goiânia, 2007. 82p. MSc. Dissertation. Grupo
Pireneus, Escola de Engenharia Elétrica e de Computação, Universi-
dade Federal de Goiás.
In Intelligent Tutoring Systems (ITS), several techniques from Computati-
onal Intelligence have been employed to provide individualized tuition and
higher knowledge gains. This work presents the development of a novel In-
telligent Tutoring System based on Reinforcement Learning: proposal, imple-
mentation and empirical evaluation. The implementation employs the soft-
max method to choose actions together with historical user navigation data.
Reinforcement Learning is used to determine a dynamic course plan that
takes into account the student’s personal navigation history and his perfor-
mance. Empirical experiments have compared the proposed system to free
navigation (where students choose how to navigate on the course contents
without any external guidance). Statistical analysis of collected data has
shown promising results compared to other more complex hybrid ITS based
on Multilayer Perceptrons.
Keywords
Smart Tutoring, Reinforcement Learning.
Sumário
Lista de Figuras 12
Lista de Tabelas 14
1 Introdução 1
1.1 Tema 1
1.2 Problemas e Hipóteses 2
1.3 Objetivos 2
1.4 Justificativa 3
1.5 Visão Geral 4
2 Tecnologia e Educação 5
2.1 Introdução 5
2.2 Educação a Distância 6
2.3 Aprendizagem Aberta e à Distância 8
2.4 Internet na Educação a Distância 10
2.5 Instrução Assistida por Computador 10
2.6 Problemas Apresentados pela IAC 14
2.7 Conclusão 14
3 Sistemas Educacionais Inteligentes 15
3.1 Introdução 15
3.2 Sistemas Tutores Inteligentes 16
3.2.1 Tarefas dos STI 16
3.2.2 Arquitetura dos Sistemas Tutores Inteligentes 16
3.2.3 Sistemas Tutores Inteligentes baseados em Redes Neurais 17
Sistema Tutor Inteligente baseado em múltiplas RNAs 19
Sistema Tutor Inteligente Híbrido Baseado Em Caracte-
rísticas Psicológicas 19
Sistema Tutor Inteligente Híbrido Baseado Em Estilos
de Aprendizagem 20
AutoTutor, um STI usando linguagem natural e RNA 21
3.2.4 Sistemas Tutores Inteligentes baseados em Agentes 21
Sistema Tutor Inteligente utilizando Agentes Lógicos
(WLOG) 23
Um Assistente Inteligente para o Ensino das Seções Cô-
nicas (STI Cônica) 23
Sistema Tutor Inteligente Multi-agente (MATHTUTOR) 25
3.2.5 Sistemas Tutores Inteligentes baseados em Sistemas Fuzzy 26
Sistema Tutor Inteligente para Aprendizado de JAVA
(JITS) 27
3.2.6 Sistemas Tutores Inteligentes utilizando Aprendizado
por Reforço 28
Proposta de BENNANE para a Aplicação do Aprendizado
por Reforço em STI 28
Proposta de GUELPELI, RIBEIRO e OMAR para mode-
lagem autônoma de aprendiz 29
3.3 Sistemas Educacionais Hipertexto Adaptativos 30
3.4 Conclusão 31
4 Aprendizado por Reforco 32
4.1 Introdução 32
4.2 Elementos do aprendizado por reforço 34
4.3 Exploração do problema 35
4.4 Retorno e Desconto 36
4.5 Aplicação da Técnica ao Problema 36
4.6 Mecanismos de Aprendizado por Reforço 37
4.6.1 Métodos de Valor-de-Ação 38
4.6.2 Controle ótimo e programação dinâmica 39
Processo de Decisão Markoviano 40
Cálculo da política ótima 41
As interações para obter a política ótima 42
4.6.3 Métodos de Monte Carlo 42
4.6.4 Aprendizado por diferença temporal: TD e Q-learning 43
4.7 Conclusão 44
5 Sistema Proposto 45
5.1 Introdução 45
5.2 Estratégia pedagógica 45
5.3 Plano de Curso 47
5.4 Modelagem do Ambiente 47
5.4.1 Modelo do ambiente 47
5.5 Função de Valor das Ações 48
5.6 Reforço Para o Aluno 49
5.7 Avaliação do Aluno 49
5.8 Especificação do Algoritmo de Reforço 51
5.9 Conclusão 52
6 Experimento e Resultados 53
6.1 Introdução 53
6.2 Material Pedagógico 53
6.3 Definição dos Reforços Para o Algoritmo e Para o Aluno 54
6.4 Simulação da Temperatura e do Caimento 55
6.4.1 Comportamento do sistema simulado 55
6.4.2 Escolha da temperatura 58
6.4.3 Escolha do caimento 60
6.5 Avaliação do Desempenho do Aluno 61
6.6 Sistema Tutor Livre 62
6.7 Implementação Dos Sistemas Tutores Livre e Inteligente 62
6.8 Seleção das Variáveis Coletadas 63
6.9 Critérios para a Adoção das Amostras Coletadas 64
6.10 Coleta de Dados 65
6.11 Análise dos Resultados 65
6.11.1 Análise Descritiva 65
6.11.2 Análise inferencial 69
Nota Inicial 70
Ganho normalizado 71
Quantidade de níveis visitados 71
Tempo necessário para visitar todos os contextos 72
Nota no teste final 73
6.12 Conclusão 73
7 Conclusão 75
7.1 Principais Contribuições 76
7.2 Sugestões para trabalhos futuros 77
Referências Bibliográficas 78
A Outros modelos desenvolvidos 81
A.1 Modelo intermediário 81
A.2 Modelo completo 81
Lista de Figuras
2.1 Representação da estratégia pedagógica do tutorial clássico. 12
2.2 Representação da estratégia pedagógica do tutorial focado em
atividades. 12
2.3 Representação da estratégia pedagógica do tutorial customizado. 13
2.4 Representação da estratégia pedagógica do tutorial de avanço
por conhecimento. 13
2.5 Representação da estratégia pedagógica do tutorial exploratório. 13
2.6 Representação da estratégia pedagógica do tutorial gerador de
lições. 14
3.1 Componentes do IES. 15
3.2 Representação do neurônio artificial. 18
3.3 Exemplo de um Perceptron de Múltiplas Camadas. 19
3.4 Estratégia pedagógica do STI implementado por CARVALHO. 20
3.5 Estratégia pedagógica do STI implementado por MELO, adap-
tado de [Melo et al. 2005]. 20
3.6 Arquitetura do STI implementado por MATTEO, BAROGLIO e
PATTI, adaptado de [Baldoni, Baroglio e Patti 2004]. 23
3.7 Arquitetura do STI implementado por ZEFERINO e outros,
adaptado de [Zeferino, Rapkiewicz e Morales 2004]. 24
3.8 Arquitetura do MATHTUTOR, um STI multi-agente, adaptado
de [Cardoso et al. 2004]. 25
3.9 Exemplo de funções de pertinência. Adaptado de
[Kasabov 1996], página 168. 27
3.10 Interação dos componentes do STI usando Aprendizado por
Reforço. Adaptado de [Bennane 2002]. 29
4.1 Limites do agente no Aprendizado por Reforço. 33
4.2 Interação Agente-Ambiente em Aprendizado por Reforço. 33
4.3 Exemplo de uma distribuição de Gibbs. 39
4.4 Exemplo de um grafo para um Processo Markoviano. 40
5.1 Estratégia pedagógica utilizando contextos e níveis onde a seta
representa um caminho percorrido. 46
5.2 Representação básica da estratégia pedagógica para a técnica
de RL quando o aluno já visitou três níveis de um contexto. 48
5.3 Avaliação do aluno - pré-teste, teste final e exercícios em cada
nível. 50
6.1 Simulação (média de mil repetições) onde o aluno acerta todos
os exercícios. 56
6.2 Simulação (média de mil repetições) onde o aluno escolhe sem-
pre a opção parcialmente correta. 57
6.3 Simulação (média de mil repetições) onde o aluno sempre erra
as questões. 57
6.4 Simulação (média de mil repetições) onde o aluno sempre res-
ponde que não sabe. 58
6.5 Média da quantidade total de níveis visitados (mil repetições). 59
6.6 Média da quantidade total de recompensas (mil repetições). 59
6.7 Média de níveis visitados: simulação (1000 interações) para a
temperatura de 1 a 15 com caimento de 1%. 60
6.8 Simulação (1000 interações) com a temperatura 2 onde o aluno
erra todos os exercícios. 61
6.9 Arquitetura do Sistema Proposto. 63
6.10 Quantidade de níveis visitados no módulo livre e no módulo
inteligente. 68
6.11 Porcentagem de erros por contexto nos módulos livre e inteligente. 68
6.12 Média da nota por contexto no módulo livre e inteligente (com e
sem desconto). 69
A.1 Modelo intermediário da estratégia pedagógica para as técnicas
de RL. 81
A.2 Modelo completo da estratégia pedagógica para as técnicas de RL. 82
Lista de Tabelas
5.1 Representação do acúmulo de recompensas. 48
6.1 Definição dos reforços. 54
6.2 Definição da pontuação no pré-teste e no teste final. 61
6.3 Número de coletas (quantidade de alunos) para os módulos livre
e inteligente. 65
6.4 Estatísticas das notas nas tutorias livre e inteligente. 66
6.5 Estatísticas dos ganhos absoluto e normalizado na tutoria livre
e inteligente. 66
6.6 Estatísticas do STL e do STI baseado nas características psico-
lógicas - Adaptado da Tabela 2, página 92 [Melo et al. 2005]. 66
6.7 Estatísticas do STL e do STI baseado no estilo de aprendizagem
- Adaptado da Tabela 2, página 89 [Meireles et al. 2005]. 66
6.8 Diferença no ganho do STI e STL obtida nos sistemas de MELO,
MEIREIRES e o sistema proposto. 67
6.9 Resumo da quantidade de níveis visitados por contexto, nota
final obtida e porcentagem de erros nos exercícios. 70
6.10 Teste t - nota inicial presumindo variâncias diferentes. 71
6.11 Teste t - ganho normalizado presumindo variâncias diferentes. 72
6.12 Teste t - quantidade de níveis visitados por contexto presumindo
variâncias diferentes. 72
6.13 Teste t - tempo necessário para visitar todos os contextos por
contexto presumindo variâncias diferentes. 73
6.14 Teste t - média de nota por nível visitado presumindo variâncias
diferentes. 74
CAPÍTULO 1
Introdução
Este capítulo apresenta o tema e sua delimitação, o problema seleci-
onado, as hipóteses respondidas, os objetivos e a justificativa deste trabalho.
Finalmente é descrita uma visão geral da estrutura do trabalho e dos seus
capítulos.
1.1 Tema
O tema deste trabalho é Sistemas Tutores Inteligentes (STI). STI
proporcionam um ensino individualizado em que o aluno é um agente
ativo no processo de aprendizagem. Em STI são aplicados seis grandes áreas
de conhecimento (Psicologia, Lingüística, Inteligência Artificial, Neurociên-
cia, Antropologia e Filosofia) para criar um modelo de ensino que considera,
no processo, o conhecimento prévio do aluno sobre o tema a ser aprendido, sua
habilidade com ferramentas de informática e suas capacidades cognitivas.
Em STI, este trabalho delimita-se ao uso do Aprendizado por Re-
forço (RL, do inglês Reinforcement Learning), uma técnica de aprendizado de
máquina, como mecanismo de individualização da aprendizagem. Exis-
tem vários métodos para implementar RL e dentre eles o escolhido para a
implementação foi o softmax. Para a utilização desta técnica, o ambiente de
aprendizado foi modelado para representar as respostas dos alunos como re-
forços (recompensas) e as possíveis opções de navegação na estratégia pedagó-
gica como ações a serem automaticamente escolhidas. A finalidade do softmax
é escolher a próxima atividade em que o aluno obtém melhor desempenho e
que no final da tutoria, apresente maior retenção de conhecimento.
1.2 Problemas e Hipóteses 2
1.2 Problemas e Hipóteses
O problema selecionado para este trabalho é verificar a aplica-
bilidade das técnicas de Aprendizado por Reforço, especificamente o método
softmax de seleção de ações, em Sistemas Tutores Inteligentes para proporcio-
nar melhoria na aquisição de conhecimento do aluno
1
. Este trabalho responde
a três hipóteses, sendo elas:
1. Se o Aprendizado por Reforço pode ser utilizado para guiar o aluno
na tutoria inteligente
2
, então a aquisição de conhecimento obtida
pelos alunos com essa técnica é superior a obtida pelos alunos na
tutoria livre
3
.
2. O uso da tutoria inteligente reduz a quantidade de fragmentos que
o aprendiz necessita visitar em relação a tutoria livre;
3. Na tutoria inteligente, o tempo de aprendizado é menor em relação
a tutoria livre.
1.3 Objetivos
O principal objetivo deste trabalho é aplicar técnicas de Apren-
dizado por Reforço para determinar dinamicamente um plano de ensino
para cada aluno conduzindo-o ao melhor aproveitamento possível (melhor
aquisição de conhecimento). O plano de ensino é a determinação de uma
seqüência de informações (como texto, imagens e perguntas) que são apre-
sentadas ao aprendiz e que normalmente é determinado para um grupo de
pessoas (turma). RL pode ser utilizado para guiar cada aluno de forma perso-
nalizada pelo conteúdo enquanto o sistema é utilizado. Os objetivos específicos
são:
melhorar o aproveitamento (aquisição) do conteúdo a ser aprendido;
reduzir o tempo gasto na aprendizagem;
1
A aquisição de conhecimento do aluno refere-se ao aprendizado de novos conceitos. Existe
ainda a aquisição de conhecimento das técnicas de Inteligência Artificial para representar o
aluno ou seu conhecimento.
2
Tutoria Inteligente é o processo de guiar o aluno no conteúdo a ser aprendido de forma
automática pelo Sistema Tutor Inteligente.
3
Tutoria Livre é o processo onde o aluno escolhe o próximo conteúdo a ser visitado e quando
avançar para o próximo tópico.
1.4 Justificativa 3
reduzir a quantidade de fragmentos do conteúdo necessário para
aprender;
comparar os resultados do sistema proposto com outras ferra-
mentas baseadas em Redes Neurais Artificiais;
avaliação empírica da utilização de técnicas de Aprendizado por
Reforço em STI.
1.4 Justificativa
A computação introduziu novas maneiras de disponibilizar o
conhecimento. Existem várias opções como os diversos formatos de livros
digitais
4
, documentos em hipertexto, imagens, sons e softwares educa-
cionais. Estas ferramentas são apenas extensões de livros e fornecem o
material didático da mesma forma que eles. Elas apresentam o conteúdo es-
truturado em capítulos e tópicos de forma seqüencial. Fica a critério do aluno
e das restrições de navegabilidade da ferramenta como o aprendiz navega
pelo conteúdo.
Independentemente de como o material é disponibilizado nessas fer-
ramentas, muitos conceitos podem não ser aprendidos pela falta de sub-
jetividade da ferramenta ou pela incapacidade do aluno de utilizar o
conteúdo de forma eficiente. Ferramentas que determinam um plano de
curso (seqüência de textos, imagens, perguntas, exemplos, etc) individuali-
zado e dinâmico podem aumentar o desempenho do aluno. Estas ferramen-
tas podem considerar, por exemplo, a individualidade do aluno em relação a
capacidade cognitiva, estilo de aprendizagem, características psicológicas ou
seu histórico de aprendizado. O conteúdo pode ser dirigido de forma ex-
clusiva, proporcionando um melhor aproveitamento.
Para criar as ferramentas de ensino personalizado são utilizadas téc-
nicas de Inteligência Artificial. Elas são aplicadas em diversas áreas e
permitem aos sistemas computacionais a adaptação dinâmica ao problema
apresentando bons resultados. Uma dessas técnicas, classificada como apren-
dizado de máquina, é o Aprendizado por Reforço. Ela pode ser utilizada
para guiar o aluno de forma individualizada e potencializar a aquisição de co-
nhecimento. Ao contrário de outras técnicas, são dispensados os longos ques-
4
São exemplos de formatos de livros digitais: Portable Document Format (PDF), Docbook,
Postscrit, Plucker, arquivos de ajuda do Windows, etc.
1.5 Visão Geral 4
tionários de estilo de aprendizagem, de perfil psicológico e de habilidades com
computadores.
As ferramentas adaptativas podem ser utilizadas pelos professores
como auxílio às suas aulas e, principalmente, em Educação Aberta ou à
Distância. A educação agora é continuada
5
e em grande escala e necessita-se
de atualização profissional, independente da área de atuação. A informática
é um dos mecanismo mais eficientes para disponibilizar essa educação auxi-
liado pela Internet e pelo o uso de documentos hipertexto e ferramentas em
ambiente web. Pode-se beneficiar o aprendizado neste contexto ao agregar os
mecanismos de individualização do ensino proporcinoados pelas técnicas de
Inteligência Artificial.
1.5 Visão Geral
Os Capítulos 2, 3 e 4 apresentam o embasamento teórico para o
desenvolvimento deste trabalho. O segundo capítulo aborda como a educa-
ção e a tecnologia se integram para oferecer melhores condições no âm-
bito da comunicação interpessoal e no desenvolvimento de ferramentas para
auxiliar o aprendizado. No terceiro capítulo são tratados os diferentes tipos
de softwares educacionais que integram técnicas de Inteligência Artificial
para individualizar o processo de aprendizado. No quarto capítulo é explicado
o Aprendizado por Reforço, a técnica de aprendizado de máquina utilizada
neste trabalho e seus diferentes algoritmos com foco no método escolhido para
integrar a solução, o softmax.
Os Capítulos 5 e 6 apresentam o desenvolvimento deste trabalho. O
capítulo 5 descreve a solução proposta para responder as hipóteses levan-
tadas sob o aspecto científico. No sexto capítulo o experimento é delineado e
são fornecidas as estatísticas descritivas dos dados coletados e uma série
de generalizações utilizando-se basicamente o teste t de Student para res-
ponder as hipóteses levantadas.
O Capítulo 7 conclui este trabalho e aponta suas principais contri-
buições. São listadas algumas sugestões para trabalhos futuros como con-
tinuação desta pesquisa ou para a constituição de novas pesquisas sobre a
aplicação de Aprendizado por Reforço em Sistema Tutores Inteligentes.
5
Outro termo utilizado para educação continuada é "educação para a vida".
CAPÍTULO 2
Tecnologia e Educação
2.1 Introdução
Este capítulo apresenta a incorporação da tecnologia na educação. São
abordadas as aplicações da tecnologia na Educação Presencial, na Educação
à Distância e na Aprendizagem Aberta e a Distância. O uso da Internet
na Educação à Distância é explorado seguido da Instrução Assistida por
Computador e os problemas em sua aplicação.
O ensino presencial é ainda o mais utilizado e se caracteriza pela
presença simultânea do instrutor (professor, orientador, etc) e do aprendiz
em espaço e tempo [Belloni 1999, Meireles et al. 2005]. Porém, hoje necessi-
tamos de uma educação ao longo da vida, pois a formação básica não é
mais suficiente. As condições sócio-econômicas exigem mudanças nos siste-
mas educacionais e a educação passou a ser integrada aos locais de trabalho
e às expectativas de vida dos indivíduos [Belloni 1999].
A Educação à Distância (EaD) surgiu como uma forma de superar
os problemas modernos dos sistemas de ensino. Foi a partir da modernidade,
com o desenvolvimento de mídias de massa (impresso, sinais eletrônicos), que
a EaD vem se firmando como uma proposta viável. Agora, é uma modalidade
de educação adequada para atender às demandas educacionais modernas
[Belloni 1999].
As tecnologias de comunicação são integradas à educação, produ-
zindo ferramentas e métodos que a modificaram. No primeiro momento,
os meios de comunicação em massa (rádio e TV) permitiram a disseminação
do conhecimento ajudando a popularizar a EaD, paralelamente, o sistema de
telefonia permitiu o contato intersubjetivo entre o professor e os alunos. Inú-
meras experiências são relatadas em todo o mundo, como exemplo a TV Escola
no Brasil.
As tecnologias da informação (TI) permitiram o desenvolvimento
de programas de computador que auxiliam nas aulas ou substituem os
2.2 Educação a Distância 6
professores em algumas tarefas. Agora, o homem vive a era da informa-
ção, uma revolução provocada pela TI, em que a Internet tornou-se um meio
promissor e em alguns momentos necessária para a Educação à Distância. A
rede mundial de computadores permite a distribuição de conteúdo de forma
eficiente, desde textos e imagens a vídeos de alta qualidade. Existem meca-
nismos de comunicação interpessoal ou em grupo de forma off-line (e-mail) e
on-line (chat, áudio conferências e vídeo conferências). Estamos vivenciando
as tentativas de uso de técnicas da Inteligência Artificial como mecanismo
para considerar as experiências, o conhecimento prévio e as habilidades do
aprendiz.
2.2 Educação a Distância
Com as limitações do modelo de ensino presencial e frente
às possibilidades oferecidas pelo desenvolvimento tecnológico, educadores e
psicólogos desenvolveram uma alternativa educacional, a Educação a
Distância (EaD) [Meireles et al. 2005]. A EaD surgiu em meados do século
passado, aproximadamente em 1940, impulsionada pelo desenvolvimento dos
meios de transporte e comunicação (trens, correio) [Belloni 1999]. O modelo
é baseado na idéia de que parte do processo ensino-apredizagem poderia
dispensar a presença física do agente transmissor junto aos aprendizes
[Meireles et al. 2005]. A EaD foi definida de várias maneiras mas basicamente
pelo que ela não é [Belloni 1999]. Dentre as características de consenso na
definição, seguem algumas:
a separação do agente transmissor e do aprendiz no tempo ou espaço
[Meireles et al. 2005], porém, a separação entre o professor e o aluno em
termos de tempo talvez seja a mais importante [Belloni 1999];
o controle do rítmo de estudo pelo aprendiz (aprendizagem autodiri-
gida) [Meireles et al. 2005] e [Belloni 1999];
a comunicação não contínua entre o aprendiz e o agente transmissor
[Meireles et al. 2005];
No modelo de EaD, o sucesso do estudante depende em grande parte
de sua motivação e condições de estudo. Os alunos são na maioria adultos
de 25 a 40 anos que trabalham e estudam em tempo parcial. Outros fatores
importantes são o uso de meios tecnológicos e a existência de uma estrutura
organizacional complexa. Segundo BELLONI, na EaD quem ensina é a ins-
tituição e não o professor e a relação entre professor e estudante é, além de
2.2 Educação a Distância 7
auxiliada pelos meios tecnológicos, caracterizada por regras técnicas e não
mais por normas sociais [Belloni 1999], em que:
não existe praticamente nenhum conhecimento das necessidades do
aprendiz;
a relação é construída por orientações e diretivas e não pelo contato
pessoal;
busca-se os objetivos pela eficiência e não pela interação pessoal.
Na EaD, uma nova distribuição do trabalho é necessária. No ensino
presencial as funções dos docentes constitem em selecionar, organizar e trans-
mitir o conhecimento e realizar contatos pessoais e coletivos em sala de aula
ou atendimento individual (orientação e conselho). As novas atividades do
professor no ensino a distância são:
1. preparação e autoria de unidades curriculares (cursos) e de textos que
constituem a base dos materiais pedagógicos realizados em diferentes
suportes - o professor é um autor que seleciona conteúdos e elabora
textos em formatos explicativos;
2. atividades e tutoria a distância mediada por diversos meios acessíveis.
Segundo [Belloni 1999], pode-se classificar as funções do professor em EaD
como:
professor formador: orienta o estudo e a aprendizagem (função didá-
tica pedagógica);
conceptor e realizador de cursos e materiais: prepara planos de
estudo, currículos e programas, seleciona conteúdos, elabora textos - tem
função didática de transmissão do conhecimento;
professor pesquisador: orienta e participa das pesquisas dos alunos;
professor tutor: orienta o aluno em seus estudos na disciplina;
"tecnólogo educacional": responsável pela organização pedagógica dos
conteúdos e a adequação deles aos suportes técnicos a serem utilizados;
professor "recurso": responde às perguntas dos estudantes com relação
aos conteúdos de uma disciplina e organiza os estudos e as avaliações;
monitor: coordena e orienta as atividades de exploração presencial.
2.3 Aprendizagem Aberta e à Distância 8
A integração das novas tecnologias de informação e comunica-
ção na educação deixou de ser apenas um meio de melhorar a eficiência dos
sistemas e apresenta-se como ferramenta pedagógica na formação dos indi-
víduos. BELLONI indica a tendência da EaD a se tornar um elemento regular
dos sistemas educativos para atender a crescente demanda e assumir grande
importância, especialmente no ensino pós-secundário (população adulta), en-
sino superior regular e formação contínua (fruto da obsolência gerada pela
tecnologia) [Belloni 1999].
A tecnologia utilizada na EaD desde seu surgimento permite distin-
guir três gerações. A primeira é a do ensino por correspondência do final
do século XIX impulsionada pelo desenvolvimento dos caminhos de ferro que
apresentam uma interação lenta entre o aluno e o professor e um alto grau
de autonomia em relação ao local de estudo. A segunda etapa é a do ensino
multimeios à distância dos anos 60 que destaca-se pelo uso do material
impresso e os meios de comunicação audiovisuais (antena ou cassete), que
tiveram muitos fracassos nas televisões escolares e bons resultados na edu-
cação popular. A terceira e última geração teve início nos anos 90 com o
desenvolvimento da TI que hoje implica em mudanças radicais no modo
de ensinar e aprender cujas unidades de curso são concebidas sob a forma de
programas interativos informatizados (que tendem a substituir as unidades
de cursos impressos). Atualmente conta-se com redes telemáticas com amplas
potencialidades (banco de dados, email, listas de discussão, sites etc), unida-
des CDROM didáticos e de divulgação científica e de cultura geral.
No ensino por correspondência e por multimeios à distância, a intera-
ção é pequena, apesar dos serviços de apoio como a tutoria e aconselhamento
por telefone e encontros pessoais. O processo de aprendizagem vivido do es-
tudante não é claro e disponível ao orientador. A TI trouxe novas formas de
comunicação interpessoal e em grupo que, inclusive, permitem a intersubjeti-
vidade torna-se um meio promissor para a EaD e para o processo de tutoria e
auxilio dos alunos.
2.3 Aprendizagem Aberta e à Distância
A Aprendizagem Aberta e à Distancia (AAD)
1
tem coerência com
as transformações sociais e econômicas. É definida pela abertura re-
lacionada ao acesso, lugar e rítmo de estudo. Diferente da EaD que a
1
Ou ODL, do inglês Open Distance Learning.
2.3 Aprendizagem Aberta e à Distância 9
não-contigüidade e não-simultaneidade são elementos centrais, na AAD a ca-
racterística marcante é a autonomia do estudante. Os atendimentos são
presenciais e não presenciais, com uso enfático dos meios de comunicação
para aumentar a eficácia do sistema. O aprendiz é o elemento central no pro-
cesso de aprendizagem e existe ênfase excessiva nos processos de ensino (es-
trutura da organização, planejamento, concepção de metodologias, produção
de materiais, etc) e pouco destaque no processo de aprendizagem (caracterís-
ticas e necessidades dos estudantes, modelos e condições de estudo, níveis de
motivação). A idéia da auto-aprendizagem é crucial para à Educação a
Distância. A intersubjetividade pessoal entre professores e alunos e entre os
estudantes promove, permanentemente, a motivação educacional. É na EaD
que pode-se desenvolver a educação aberta e flexível [Belloni 1999].
Segundo BELLONI, a pedagogia e a tecnologia sempre foram elemen-
tos fundamentais e inseparáveis da educação [Belloni 1999]. As instituições
educacionais não poderão mais deixar de integrar as ferramentas tecnológi-
cas, sob pena de se tornarem obsoletas ou perderem contato com as novas
gerações. A autora ainda cita que o ensino e a aprendizagem centrados no
estudante é fundamental e deve-se integrar na concepção de metodolo-
gias, nas estratégias e nos materiais de ensino as características sociocul-
turais, conhecimento e experiências do aluno. Assim será possível criar
condições de auto-aprendizagem.
Na AAD os cursos são modularizados. São apresentados pequenos mó-
dulos autônomos, que não perdem relevância científica e utilidade didática,
em menus de temas relevantes que oferecem aos estudantes amplas possibi-
lidades de escolha. Mesmo assim os alunos encontram dificuldade ao:
responderem às exigências de autonomia;
gerirem o tempo;
planejarem o estudo;
lidarem com a autodireção necessária à aprendizagem autônoma;
Na aprendizagem autônoma, o processo de aprendizagem é centrado
no aprendiz que é autônomo, gestor de seu processo de aprendizagem e
capaz de se autodirigir e de auto-regular esse processo. Então, esse modelo
é apropriado a adultos com maturidade e motivação, possuindo um mínimo
de habilidade de estudo [Belloni 1999].
As experiências dos alunos devem ser aproveitadas e é necessá-
rio buscar caminhos para a elaboração de métodos e estratégias de ensino que
2.4 Internet na Educação a Distância 10
levem em consideração a situação de aprendizagem autônoma dos estudantes.
Deve ser considerado no processo o conhecimento já acumulado.
2.4 Internet na Educação a Distância
A EaD depende mais do suporte técnico em comunicação que a
educação convencional. Esse suporte é necessário ao disponibilizar o mate-
rial de estudo e na comunicação interpessoal
2
. A Internet como meio de
mediação combina a flexibilidade da interação humana com a independência
no tempo e no espaço e, ainda oferece:
interação
3
simultânea e não-simultânea entre o professor e o aluno e
entre os alunos com chat
4
, email e grupo de discussão;
interatividade
5
com materiais de boa qualidade e de grande variedade
via WEB sites.
Na aprendizagem à distância, a interação pessoal é importante
e pode ser feita nesse ambiente, utilizando um sistema computacional
com várias possibilidades interativas para busca e intercâmbio de in-
formações. Outra característica importante destes sistemas é a possibili-
dade de sua adaptação as características do aprendiz. Segundo BAL-
DONI, este é um tópico atual de pesquisa que vem atraindo muita atenção
[Baldoni, Baroglio e Patti 2004].
2.5 Instrução Assistida por Computador
A tecnologia da informação passou a oferecer inúmeras possibilida-
des à educação. As aplicações educacionais desenvolvidas com esta tecnolo-
gia foram classificadas como aplicações de Instrução Assitida por Computa-
dor
6
(IAC). Existem diversos software educacionais classificados da seguinte
forma:
2
A comunicação entre o professor e o aluno em EaD é indireta.
3
Ação recíproca entre duas ou mais pessoas onde ocorre intersubjetividade
4
Conversa online utilizando texto ou voz com um software de computador.
5
Potencialidade técnica oferecida por determinados meios como a possibilidade do usuário
agir sobre a máquina e de receber uma retroação da máquina sobre algum elemento.
6
A sigla CAI, do inglês Computer-Assited Instruction, também é muito utilizada.
2.5 Instrução Assistida por Computador 11
sistema tutor: software que assume o papel de um “professor” apresen-
tando conceitos e avançando em níveis diferenciados ao avaliar respostas
do estudante, o modelo é baseado em Instrução Programada
7
;
ferramentas: aplicada a tarefas como construção de gráficos auxiliando
a aprendizagem;
simulador: software que simula um sistema real ou imaginário;
jogos educativos: utilização do computador como forma lúdica no
aprendizado.
A IAC surgiu com bases na Instrução Programada (IP). Teve sua
origem na área educacional, influenciada pela teoria comportamentalista de
Skinner. Sua abordagem é centrada no professor em que o aluno deve receber
explicações expositivas para depois exercitá-las no computador.
Existem vários aspectos dos softwares educacionais de IAC que devem
ser avaliados ou questionados. Como estes softwares têm a finalidade educa-
cional, detalhes podem afetar direta ou indiretamente a aprendizagem dos
conceitos ou situações pretendidos. Por exemplo, falhas no software podem in-
terromper o aprendizado. Erros cometidos nos princípios de design dificultam
o processo de uso do software. Formas incoerentes de implementar os concei-
tos prejudicam a aprendizagem [Peres e Meira 2003].
Os softwares educacionais fornecem ao aluno o conteúdo em diversos
níveis, exemplos, atividades e exercícios. Existem várias estratégias peda-
gógicas para apresentar todo esse conteúdo ao aluno. Seguem algumas con-
cepções de estratégias pedagógicas aplicadas a diferentes ferramentas:
tutorial clássico: o conteúdo é apresentado em três níveis de dificul-
dade e em cada nível o aluno é submetido a exemplos e a prática, como
mostra a Figura 2.1;
tutorial com foco em atividades: como apresentado na Figura 2.2,
utiliza-se antes da atividade uma preparação com conhecimentos e mo-
tivações iniciais;
7
Instrução Programada é a expressão técnica que designa um conjunto de procedimentos
de ensino caracterizado pela subdivisão do contéudo a ser aprendido em pequenas partes,
apresentação gradual dessas partes em passos sucessivos conforme o ritmo de aprendizagem
do aprendiz e o contingenciamento de consequências positivas para respostas corretas em
cada parte. A Instrução Programada é uma aplicação tecnológica dos princípios de aprendiza-
gem operante, tendo sido desenvolvida e extensivamente estudada pelo psicólogo behaviorista
B. F. Skinner.
2.5 Instrução Assistida por Computador 12
Figura 2.1: Representação da estratégia pedagógica do tu-
torial clássico.
Figura 2.2: Representação da estratégia pedagógica do tu-
torial focado em atividades.
tutorial customizado: o aprendiz tem a oportunidade de escolher
caminhos (diferentes conteúdos) durante a aprendizagem onde um deles
pode ser um teste que determina o próximo conteúdo, como ilustrado na
Figura 2.3;
tutorial de avanço por conhecimento: o aprendiz pode omitir con-
teúdos previamente conhecidos, ele é submetido a testes de dificuldade
progressiva para determinar o ponto de entrada na seqüência a ser
aprendida, como mostrado na ilustrado na Figura 2.4;
2.5 Instrução Assistida por Computador 13
Figura 2.3: Representação da estratégia pedagógica do tu-
torial customizado.
Figura 2.4: Representação da estratégia pedagógica do tu-
torial de avanço por conhecimento.
tutorial exploratório: um cardápio de documento, banco de dados e
outras fontes de informações são oferecidos ao estudante, como ilustrado
na Figura 2.5;
Figura 2.5: Representação da estratégia pedagógica do tu-
torial exploratório.
tutorial gerador de lições: o resultado de um teste define a seqüência
personalizada de tópicos a serem exposto ao aprendiz, como mostrado na
Figura 2.6.
2.6 Problemas Apresentados pela IAC 14
Figura 2.6: Representação da estratégia pedagógica do tu-
torial gerador de lições.
2.6 Problemas Apresentados pela IAC
Toda a tecnologia aplicada aos softwares de Instrução Assistida por
Computador acaba resultando em uma extensão dos livros didáticos. Es-
sas ferramentas não consideram as diferenças entre os alunos em relação
às suas características pessoais e suas experiências. São ferramentas
para a transmissão de conhecimento. Com base na IAC e nas técnicas de In-
teligência Artificial, surge a Instrução Inteligente Assistida por Compu-
tador, que tenta considerar no processo de aprendizado, as habilidades do
aprendiz, seu conhecimento prévio e sua capacidade cognitiva.
2.7 Conclusão
Este capítulo apresentou uma revisão de como as tecnologias de comu-
nicação e informação foram integradas à educação. Essas tecnologias produ-
zem ferramentas e métodos para a comunicação interpessoal, disseminação
do conhecimento, auxilio nas aulas e automação de algumas tarefas no en-
sino. Agora, a Inteligência Artificial é empregada nessas ferramentas para
personalizar o processo de ensino-aprendizagem.
CAPÍTULO 3
Sistemas Educacionais Inteligentes
3.1 Introdução
Este capítulo apresenta os Sistemas Educacionais Inteligentes. Inici-
almente, as características desses softwares são apresentadas e em seguida
eles são classificados em Sistemas Tutores Inteligentes e Sistemas Educacio-
nais Hipertexto Adaptativos. São apresentados exemplos utilizando diferen-
tes ténicas de Inteligência Artificial.
Na década de 1970, iníciou a aplicação de técnicas de Inteligência
Artificial nos software de Instrução Assistida por Computador, dando origem
aos softwares de Instrução Inteligente Assistida por Computador (ICAI, do in-
glês Intelligent Computer Assisted Instruction) ou Sistemas Tutores Inteligen-
tes (STI). Eles foram desenvolvidos em software stand-alone ou baseados
em web. Outro tipo é o Sistema Educacional Hipermídia Adaptativo
(AEHS, do inglês Adaptive Educational Hypermedia Systems) desenvolvido
especificamente para a WEB e que adiciona a apresentação e a navegação
inteligente [Prentzas e Hatzilygeroudis 2002].
A categoria de softwares inteligentes para educação é chamada de
Sistemas Educacionais Inteligentes (IES, do inglês Intelligent Educational
Systems). Os principais componentes do Sistemas Educacionais Inteligentes
estão representados na Figura 3.1 e são descritos abaixo:
Figura 3.1: Componentes do IES.
3.2 Sistemas Tutores Inteligentes 16
domínio de conhecimento: é o conteúdo a ser aprendido, constituído
de texto, imagens, sons, exercícios, etc;
modelo do usuário: é uma representação do aprendiz, podem ser uti-
lizadas as características psicológicas, perfil de aprendizagem, conheci-
mento prévio do conteúdo, diferença de seu conhecimento com o do sis-
tema, capacidade cognitiva e estado mental, histórico de navegação, etc;
modelo pedagógico: é constituído pela estratégia pedagógica esco-
lhida;
interface com usuário: um mecanismo para apresentar os diversos
tipos de conteúdo e de perceber as interações com o sistema.
3.2 Sistemas Tutores Inteligentes
Os Sistemas Tutores Inteligentes têm origens na área da Ciência da
Computação e base teórica na Psicologia Cognitivista. A estrutura básica do
conteúdo a ser aprendido é dividida em módulos e é baseada em heurísti-
cas. A seqüência de estudo do material didático depende das característi-
cas do aluno e de sua modelagem que tenta avaliar as respostas durante
a interação com o sistema. Com o objetivo de personalizar o ensino e tornar a
ferramenta adaptativa, são aplicadas técnicas de Inteligência Artificial.
3.2.1 Tarefas dos STI
São várias as tarefas dos Sistemas Tutores Inteligente e o conjunto
é normalmente determinado pelo mecanismo de individualização do aluno.
Dentre as principais tarefas, destacam-se:
a extração das características do aluno e o armazenamento e manuten-
ção delas;
a seleção do conteúdo a ser apresentado conforme o estado atual do
modelo do aluno, o domínio de conhecimento disponível;
a elaboração de um histórico das ações dos usuários que pode ser utili-
zado na tomada de decisão ou para a avaliação por um instrutor;
3.2.2 Arquitetura dos Sistemas Tutores Inteligentes
Não existe uma arquitetura padronizada para a implementa-
ção dos Sistemas Tutores Inteligentes. A modularização é diferente, de-
3.2 Sistemas Tutores Inteligentes 17
pendendo de como o conhecimento é armazenado, da técnica de IA utili-
zada e da forma de modelar o aluno. Mas, freqüentemente, segundo MELO
e BOLZAN/GIRAFFA, os sistemas tutores apresentam [Melo et al. 2005,
Bolzan e Giraffa 2002]:
Módulo da base de domínio: contém o material institucional a ser en-
sinado e, em alguns casos, um sistema de geração de exemplos, processo
de simulação e formulação de diagnósticos;
Módulo do modelo do aluno: é responsável por representar o conhe-
cimento e as habilidade cognitivas do usuário em um determinado mo-
mento e deve armazenar, ao menos, o histórico de como o aluno está
utilizando o material;
Módulo tutorial ou de estratégia de ensino: contém uma represen-
tação do modelo pedagógico e é responsável pelo plano de apresentação
do material instrucional;
Módulo de interface: realiza a interface com o usuário e apresenta
o conteúdo nas diversas formas e recebe informações como resposta de
exercícios e avaliações;
Módulo de controle: realiza a coordenação do tutor como promover a
troca de informações, realizar o acesso a base de dados, armazenar o
histórico de sessões e realizar comunicação com programas externos.
3.2.3 Sistemas Tutores Inteligentes baseados em Redes
Neurais
As Redes Neurais Artificiais (RNA) são utilizadas como mecanismo
de individualização de ensino em STI para agregar informações subjetivas.
Elas permitem agregar, à tutoria, informações subjetivas como perfil psicoló-
gico e estilo de aprendizagem além de realizar tarefas como classificação de
conteúdo, etc.
As RNAs consistem em um conjunto de elementos chamados neurô-
nios artificiais, conectados, formando um mecanismo de processamento dis-
tribuído e paralelo que tem propensão para armazenar conhecimento experi-
mental e torná-lo disponível [Haykin 1998]. Os neurônios artificiais são uni-
dades de processamento simples cuja estrutura é similar ao neurônio biológico
humano. As conexões entre os neurônios são chamadas sinápses e cada uma
possui um peso. Os pesos é que representam o conhecimento que é adquirido
3.2 Sistemas Tutores Inteligentes 18
por um procedimento de aprendizado chamado algoritmo de aprendiza-
gem.
A Figura 3.2 apresenta um neurônio artificial chamado de Perceptron.
É um modelo proposto por McCulloch e Pitts em 1943. Ele é composto pelas
entradas (i) , pelos pesos (w), pela saída (o), pelo somador (Σ) e por uma
função de ativação (
). O processamento é realizado pelo somador e pela
função de ativação. O somador soma os sinais de entradas ponderados pelas
sinápses enquanto a função de ativação restringe a amplitude da saída de um
neurônio, normalmente a um intervalo fechado [0, 1] ou [1, 1].
Figura 3.2: Representação do neurônio artificial.
Um arranjo ou arquitetura comum para criar uma Rede Neural Ar-
tificial é o Perceptron de Multi Camada (ou MLP, do inglês Multi-Layer Per-
ceptron). O desenvolvimento do MLP solucionou a incapacidade do Perceptron
de tratar dados não linearmente separáveis. O MLP é composto por múltiplas
camadas de neurônios, onde a primeira é chamada “Camada de Entrada” e a
última, “Camada de Saída”. A camada ou conjunto de camadas intermediárias
são simplesmente chamadas de "Camada oculta". A Figura 3.3 apresenta um
exemplo de MLP com dois neurônios na camada de entrada, um na camada de
saída e duas camadas intermediárias com três e quatro neurônios compondo
a camada oculta.
O algoritmo de aprendizagem utilizado para treinar uma rede neural
artificial está diretamente relacionado com a arquitetura da rede. O algorimo
mais aplicado ao Multi-Layer Perceptron é o backpropagation [Haykin 1998,
Sutton e Barto 1998].
3.2 Sistemas Tutores Inteligentes 19
Figura 3.3: Exemplo de um Perceptron de Múltiplas Ca-
madas.
Sistema Tutor Inteligente baseado em múltiplas RNAs
ALENCAR realizou investigações sobre a aplicação de redes neu-
rais em Sistema Tutores Inteligentes demonstrando a capacidade de uma
RNA extrair padrões que poderiam ser utilizados para auxiliar na navega-
ção [Alencar 2000]. Em 2002, MARTINS e CARVALHO implementaram uma
melhoria na proposta de ALENCAR utilizando um modelo pedagógico no qual
o material didático é dividido vários contextos (pequenos trechos ou unidades
do curso) e cada contexto em cinco níveis distintos: facilitado, médio, avan-
çado, perguntas freqüentes e exemplos [Martins e Carvalho 2004]. O sistema
inteligente é responsável por encaminhar o aluno pelos níveis de cada con-
texto e pelos contextos, utilizando generalizações produzidas por um conjunto
de redes neurais.
Sistema Tutor Inteligente Híbrido Baseado Em Características Psi-
cológicas
Em 2005, MELO propôs um Sistema Tutor Inteligente que utiliza ge-
neralizações feitas por uma rede neural a partir das características psicológi-
cas, do conhecimento prévio do aluno e de sua familiaridade com o ambiente
WEB [Melo et al. 2005]. O trabalho desenvolvido foi uma melhoria do sistema
proposto por CARVALHO, utilizando apenas uma rede neural para todo o tu-
tor. Além da rede neural, também são utilizados um conjunto de regras simbó-
licas para complementar a decisão de navegação resultante do processamento
3.2 Sistemas Tutores Inteligentes 20
Figura 3.4: Estratégia pedagógica do STI implementado
por CARVALHO.
da rede neural. As regras são fornecidas por especialistas com experiência em
docência o que fornece maior credibilidade às decisões do STI. A Figura 3.5
apresenta a arquitetura do sistema inteligente:
Figura 3.5: Estratégia pedagógica do STI implementado
por MELO, adaptado de [Melo et al. 2005].
Sistema Tutor Inteligente Híbrido Baseado Em Estilos de Aprendiza-
gem
Em 2005, MEIRELES realizou uma modificação no STI de MELO,
substituindo o modelo do aluno (características psicológicas) por estilos de
aprendizagem [Meireles et al. 2005]. O estilo de aprendizagem, um termo da
3.2 Sistemas Tutores Inteligentes 21
Psicologia, descreve como cada estudante começa a se concentrar, processar
e reter novas informações. Para obter as características do estilo de aprendi-
zagem de cada aluno, foi utilizado o Questionário de Estilo de Aprendizagem,
com 80 questões para descobrir suas tendências gerais de comportamento que
mede o estilo de aprendizagem individual.
AutoTutor, um STI usando linguagem natural e RNA
GRAIG e outros desenvolveram um Sistema Tutor Inteligente que si-
mula o padrão de discurso e dialogo entre tutores humanos [Graig et al. 2007].
O sistema produz diálogos que são sensíveis ao conhecimento do aprendiz de
forma a melhorar o seu nível de compreensão. Este sistema é composto por
sete módulos, sendo eles:
Indexador (Curriculum Script): organiza os tópicos e conteúdos do tuto-
rial;
Analisador de Linguagem/Léxico (Language Extration): analisa as pala-
vras escritas pelo aprendiz utilizando o teclado;
Classificador de Discurso (Speech act classification): segmenta e classi-
fica o conteúdo produzido pelo aprendiz, utilizando uma rede neural, em
uma das categorias de fala modeladas no sistema;
Analisador Semântico (Latent semantic analysis): compara a diferença
entre dois textos usando técnicas estatísticas;
Seletor de Tópico (Topic Selection): seleciona o próximo tópico usando
regras Fuzzy;
Gerador de Diálogo (Dialog movie generator): gera os diálogos em cada
turno ao final da interação do usuário;
Interface de Diálogo (Animated Agent Module): mostra o diálogo em uma
forma mais convencional aos humanos.
3.2.4 Sistemas Tutores Inteligentes baseados em Agentes
Segundo NORVIG e RUSSEL, um agente é qualquer coisa que pode
perceber seu ambiente usando sensores e agir utilizando efetuadores. Um
agente inteligente tenta realizar ações corretas no ambiente para tentar
atingir um objetivo. Durante sua interação com o ambiente, ele avalia seu
desempenho pelo sucesso de suas ações [Russell e Norvig 1995].
3.2 Sistemas Tutores Inteligentes 22
O agente inteligente é autônomo, mapeia estados em ações e atu-
aliza seus estados internos enquanto interage com o ambiente. O processo
de tomada de decisão (escolha das ações) normalmente é realizado utilizando
raciocínio com conhecimento. São utilizados, por exemplo, as técnicas de
raciocínio baseado em casos
1
e sistemas baseados em conhecimento
2
. O conhecimento nos agentes inteligentes pode ser a representação das re-
gras de especialistas, os casos (exemplos) ou o conhecimento aprendido
durante sua interação com o ambiente.
O processo de inferência é uma cadeia de combinações. Os dois me-
canismos utilizados para inferência são chamados de encadeamento para
frente e encadeamento para trás. No primeiro, o processo é iniciado com o
fornecimento de dados e no segundo com a definição de um objetivo.
No encadeamento para frente, todos os dados disponíveis em um de-
terminado momento são aplicados a todas as regras possíveis para inferir o
máximo de conclusões. O processo é realizado novamente se forem produzidas
conclusões úteis a alguma regra ou quando um novo conhecimento é disponi-
bilizado.
No encadeamento para trás, o processo de inferência é iniciando
quando um objetivo é identificado. As regras que possuem este objetivo como
antecedente são disparadas. As informações necessárias para essas regras são
recuperadas da base de dados. O processo é repetido enquanto o objetivo não
for atingido.
Existem várias propostas e implementações de Sistemas Tutores Inte-
ligentes baseadas em agentes inteligentes. Estes sistemas são desenvolvidos,
normalmente, utilizando ferramentas disponíveis para a implementação de
agentes ou sistemas especialistas como o DyLOG
3
, JESS
4
, CLIPS
5
e Fuzzy-
CLIPS
6
(que integra a lógica fuzzy
7
ao CLIPS).
Existem também abordagens utilizando sistemas multi-agentes e
1
Solução de novos problemas utilizando o conhecimento de problemas e soluções similares.
2
Solução de problemas utilizando regras extraídas de humanos expecialistas em um
determinado problema.
3
DyLOG é uma linguagem lógica para a modelagem e programação de agentes inteligents.
4
JESS é um ambiente para o desenvolvimento de agentes inteligentes utilizando conheci-
mento em forma de regras.
5
CLIPS é uma ferramenta para a reprentação de conhecimento e raciocínio basedo em
regras.
6
FuzzyCLIPS é uma extensão do CLIPS que integra ao sistema de representação e ao
raciocínio os conceitos de conjuntos fuzzy e lógica fuzzy.
7
A lógica fuzzy é um método de raciocínio com expressões lógicas que descrevem a
pertinencia em conjuntos fuzzy enquanto estes constituem um meio para especificar o quanto
um objeto satisfaz uma descrição vaga [Russell e Norvig 1995].
3.2 Sistemas Tutores Inteligentes 23
agentes distribuídos [Frigo, Pozzebon e Bittencourt 2004]. Em sistemas
multi-agentes vários agentes tentam atingir o objetivo cooperando com a
partilha de informações ou tarefas. O problema pode ser dividido em subpro-
blemas que podem ser solucionados separadamente por um agente e a soma
dos resultados correspodem a solução do problema geral.
Sistema Tutor Inteligente utilizando Agentes Lógicos (WLOG)
MATTEO, BAROGLIO e PATTI desenvolveram um STI utilizando
agentes em um ambiente WEB [Baldoni, Baroglio e Patti 2004]. O agente foi
implementado utilizando a linguagem DyLOG para representar o domínio de
conhecimento e para implementar o módulo de controle. O sistema basica-
mente recebe um problema do usuário com uma situação inicial, resolve o
problema, apresenta a solução ao usuário e adapta a solução com uma inte-
ração com o usuário. A Figura 3.6 apresenta a arquitetura do sistema tutor
inteligente WLOG.
Figura 3.6: Arquitetura do STI implementado por MAT-
TEO, BAROGLIO e PATTI, adaptado de
[Baldoni, Baroglio e Patti 2004].
Um Assistente Inteligente para o Ensino das Seções Cônicas (STI
Cônica)
ZEFERINO, RAPKIEWICS e MORALES desenvolveram um tutor in-
teligente específico para o ensino de seções cônicas (Geometria Analítica) no
ensino médio [Zeferino, Rapkiewicz e Morales 2004]. Devido as característi-
cas do domínio, a ênfase do sistema é a interface e a estratégia de ensino. O
conhecimento foi fornecido por um professor de matemática com dez anos de
3.2 Sistemas Tutores Inteligentes 24
experiência em docência. O módulo de controle do sistema foi implementado
utilizando a ferramenta JEZZ e a linguagem Java e é responsável por:
Selecionar uma estratégia de ensino;
Selecionar o material instrucional na base de conhecimento do domínio;
Apresentar o material pela interface;
Diagnosticar o comportamento do aluno monitorando seu progresso.
No STI Cônica, o aluno é caracterizado por um dos três estereótipos
disponíveis. Esta associação é utilizada para escolher a próxima atividade. A
avaliação do aluno é dinâmica de acordo com a complexidade dos exercícios
propostos pelo tutor, pelos erros cometidos e pelas solicitações de ajuda do
estudante.
A arquitetura utilizada pelo STI Cônica foi proposta por VICCARI
em sua tese de doutorado intitulada “Um Tutor Inteligente para a Pro-
gramação em Lógica - Idealização, Projeto e Desenvolvimento”. A tese
foi desenvolvida na Universidade de Coimbra em 1990. A representa-
ção da arquitetura proposta por VICCARI pode ser vista na Figura 3.7
[Zeferino, Rapkiewicz e Morales 2004].
Figura 3.7: Arquitetura do STI implementado por
ZEFERINO e outros, adaptado de
[Zeferino, Rapkiewicz e Morales 2004].
3.2 Sistemas Tutores Inteligentes 25
Sistema Tutor Inteligente Multi-agente (MATHTUTOR)
CARDOSO e outros desenvolveram um STI multi-agente que integra
diferentes formalismos para facilitar o desenvolvimento do conteúdo em um
tutorial e ao mesmo tempo fornecer adaptabilidade e flexibilidade na apre-
sentação [Cardoso et al. 2004]. Foram adotados, no desenvolvimento da ferra-
menta:
A lógica de primeira ordem para o modelo do aprendiz;
Redes de Petri para o modelo pedagógico;
Interação do aprendiz com os agentes para a tomada de decisão;
Cada agente no sistema MATHTUTOR contém um sistema tutorial
completo chamado de agente tutorial (TA, do inglês Tutorial Agent) com o ob-
jetivo em um subdomínio do conhecimento. O conjunto de agentes corresponde
ao módulo Sociedade Multi-Agente do sistema que também é composto pela
interface do aprendiz e pela interface de autoria. A arquitetura desse sistema
é mostrada na Figura 3.8.
Figura 3.8: Arquitetura do MATHTUTOR, um STI multi-
agente, adaptado de [Cardoso et al. 2004].
O módulo de autoria auxilia o professor a propor, para cada subdomí-
nio, um currículo composto por unidades pedagógicas, associações de proble-
mas e pré-requisitos. A grade de pré-requisitos é compilada em uma rede de
Petri. Essa rede é traduzida em um conjunto de regras de sistemas especialis-
tas.
Os tokens da rede de Petri contêm ponteiros para o modelo do aprendiz
e para o modelo do domínio. As transições da rede de Petri são controladas por
condições relacionadas ao modelo do aprendiz. Ao disparar essas transições,
ações são produzidas para atualizar o modelo do aprendiz.
3.2 Sistemas Tutores Inteligentes 26
3.2.5 Sistemas Tutores Inteligentes baseados em Siste-
mas Fuzzy
Os Sistemas Fuzzy representam o conhecimento de forma simbó-
lica (IA simbólica) e ao mesmo tempo de forma numérica (IA subsimbólica)
[Kasabov 1996]. São sistemas especialistas baseados em dados e regras ine-
xatas, subjetivas, ambíguas ou vagas. Seus componentes são:
Variáveis fuzzy de entrada e saída;
Um conjunto de regras fuzzy;
Um mecanismo de inferência fuzzy.
A Lógica Fuzzy é um exemplo de mecanismo de inferência, utilizado
em Sistemas Fuzzy, que permite realizar um raciocínio aproximado. O resul-
tado das proposições na Lógica Fuzzy apresentam resultados graduais entre
verdadeiro e falso. A lógica Fuzzy é uma generalização da lógica boolena.
As regras da lógica Fuzzy, assim como nos sistemas especialistas, são
obtidas pelo conhecimento dos peritos na área de aplicação, por experiência
ou formuladas por alguma técnica de aprendizado de máquina. As regras
normalmente possuem a forma "se X então Y".
Na inferência, um conjunto de regras é aplicada às entradas, produ-
zindo as saídas. As entradas e saídas podem ser exatas ou fuzzy. São apli-
cadas as funções de fuzzificação ou defuzzificação para a conversão entre os
dois tipos de valores. Para os valores fuzzy são utilizados conceitos fuzzy (por
exemplo: baixo, mediano e alto) definidos em termos de conjuntos fuzzy.
Nos conjuntos fuzzy, os objetos podem pertencer parcialmente ao con-
junto. O grau de pertinência é determinado por uma função de pertinência.
Essas funções permitem transformar informações vagas, normalmente des-
critas em linguagem natural, em um formato numérico e vice-versa. O valor
do grau de pertinência varia de zero a um, onde o grau zero indica “não per-
tence” e um indica “pertence completamente”.
A Figura 3.9 apresenta uma função de pertinência para três conjuntos
fuzzy da variável “altura” (de seres humanos). Utilizando os marcadores
(linhas pontilhadas) da figura, uma pessoa com altura de um metro e sessenta
centímetros pertence ao mesmo tempo aos conjuntos mediano e alto. O grau
de pertinência no conjunto mediado é de 0,28 enquanto no conjunto alto, é de
0,8.
3.2 Sistemas Tutores Inteligentes 27
60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250
altura
mediano alto
Figura 3.9: Exemplo de funções de pertinência. Adaptado
de [Kasabov 1996], página 168.
Sistema Tutor Inteligente para Aprendizado de JAVA (JITS)
O Sistema Tutor Inteligente para Aprendizado de Java (JITS, do in-
glês Java Intelligent Tutoring System) é um Sistema Tutor Inteligente pro-
jetado para ensinar a programar na linguagem Java em colégios e universi-
dades. O protótipo, desenvolvido por SYKES e FRANEK, foi construído sobre
um pequeno subconjunto da linguagem de programação em um contexto espe-
cífico [Sykes e Franek 2004]. A arquitetura do sistema é composta por quatro
módulos, sendo eles:
Projeto de Currículo (conjunto de problemas, soluções e respostas incor-
retas);
Módulo Inteligente (fornece feedback inteligente ao aprendiz);
Infra-estrutura Web Distribuída (conjunto de tecnologia implementadas
em JavaBeans, JavaServer Pages para fornecer suporte a apresentação
do tutor e a uso do Módulo Inteligente);
Interface com o Usuário.
O Módulo Inteligente utiliza, para fornecer dicas ao aluno, a saída do
compilador, a saída da máquina virtual Java e um módulo chamado Fuzzy
3.2 Sistemas Tutores Inteligentes 28
Scanner. O módulo fuzzy calcula a distância entre o código Java escrito pelo
aluno e a solução. Essa distância é especificada por um conjunto de inserções,
exclusões e transposições de strings para transformar o código do aluno no
código solução para um determinado problema.
3.2.6 Sistemas Tutores Inteligentes utilizando Aprendi-
zado por Reforço
Existem algumas propostas para a utilização de Aprendizado por
Reforço em Sistemas Tutores Inteligentes. Nessas propostas, a técnica é
utilizada para determinar um Plano de Ensino (ou estratégia) a partir de um
modelo do usuário que é atualizado dinâmica e interativamente.
Proposta de BENNANE para a Aplicação do Aprendizado por Reforço
em STI
BENNANE discutiu como a técnica de Aprendizado por Reforço pode
ser utilizada em Sistemas Tutores Inteligentes para individualizar e adaptar
as situações de aprendizagem [Bennane 2002]. Segundo seu artigo, o modelo
pedagógico deve atender aos seguintes requisitos:
Avaliar as ações do aprendiz e determinar os valores dos parâmetros de
transição, a recompensa do algoritmo e o caminho de aprendizagem;
Selecionar as situações de aprendizagem a partir da base de dados e
apresentar a escolhida pela unidade de avaliação;
Apresentar as recompensas ao usuário seguindo a unidade de avaliação.
Os componentes do STI e a interação entre eles para realizar essas
tarefas podem ser visualizados na Figura 3.10.
A Unidade de Avaliação avalia as ações do aluno e fornece a recom-
pensa. Quando o usuário é bem sucedido o aluno é geralmente direcionado
para um nível de dificuldade maior em uma próxima situação a ser apren-
dida. A ação do aprendiz pode ser a escolha de uma resposta em uma questão
fechada, digitar uma resposta em uma questão aberta ou rever um situação
demonstrativa.
A Unidade de Transição segue as instruções (ordens) da unidade
de avaliação, recupera o conteúdo selecionado a partir da base de dados e
apresenta ao usuário (função de recuperação de conteúdo e apresentação).
A Unidade de Recompensa escolhe e envia o feedback adequado ao
aprendiz pela suas ações. A mensagem apresentada ao aprendiz pode ser um
3.2 Sistemas Tutores Inteligentes 29
Figura 3.10: Interação dos componentes do STI usando
Aprendizado por Reforço. Adaptado de
[Bennane 2002].
encorajamento para seguir as ações executadas com sucesso, uma indicação
para completar as instruções ou uma mensagem contendo a resposta correta.
As transições podem ser representadas por uma matriz de 5 linhas e
N colunas. As linhas representam diferentes níveis de dificuldade crescente e
as colunas as diferentes situações a serem aprendidas. O interesse principal
do artigo é o desenvolvimento de um algoritmo de transição para guiar o aluno
por essas situações e níveis de dificuldade.
Proposta de GUELPELI, RIBEIRO e OMAR para modelagem autô-
noma de aprendiz
GUELPELI, RIBEIRO e OMAR apresentaram um módulo de
diagnóstico a ser agregado em Sistemas Tutores Inteligentes que uti-
liza o algoritmo Q-Learning para modelar autonomamente o aprendiz
[Guelpeli, Ribeiro e Omar 2003]. Neste trabalho foi proposto que o estado
cognitivo (nível de conhecimento) do aprendiz é representado por cinco esta-
dos: E
0
=> [0, 2], E
1
=>]2, 4], E
2
=>]4, 6], E
0
=>]6, 8], E
0
=>]8, 10]. O estado
inicial é determinado por uma avaliação inicial do aluno.
O módulo inteligente determina qual o próximo conteúdo a ser apre-
sentado escolhendo uma entre 10 ações (prova, exercício, questionário, per-
gunta, trabalhos, testes, etc) que possui o maior valor de utilidade. O mapea-
mento entre os estados e ações é determinado por uma matriz de cinco linhas
por dez colunuas correspondendo aos valores de utilidade Q
t
(s
t
, at). Os valores
são atualizados pelo algoritmo Q-Learning utilizando um reforço positivo ou
3.3 Sistemas Educacionais Hipertexto Adaptativos 30
negativo respectivamente quando um aluno produz resultados favoráveis ou
desfavoráveis para cada par (s
t
, a) produzido.
O módulo foi avaliado utilizando simulações de três modelos não
determinísticos. O algoritmo convergiu para uma boa política de ações usando
uma taxa de apredizado com valor 0,9 e uma taxa de desconto temporal de
0,9. Foi averiguado que essa técnica pode ser utilizada independentemente
do conteúdo e o sistema se adapta a várias estratégias pedagógicas. Porém,
houve uma lentidão na convergência e um número elevado de ações devem
ser escolhidas em determinados estados cognitivos do estudante.
3.3 Sistemas Educacionais Hipertexto Adapta-
tivos
Os Sistemas Educacionais Hipertexto Adaptativos diferem dos Siste-
mas Tutores Inteligentes basicamente por suas características de navega-
ção adaptativa e apresentação adaptativa. Essas características forne-
cem maior liberdade ao usuário (aprendiz). Na navegação adaptativa, o obje-
tivo é encontrar a melhor seqüência para a disponibilização do material di-
dático. O foco da apresentação adaptativa é a apresentação de cada tópico do
material.
Existem dois métodos para a apresentação adaptativa: explicações
adicionais e variações de explicação. Nas
explicações adicionais
, as várias
peças de informações que constituem a unidade de curso são associadas
com condições. Quando elas são satisfeitas, a informação correspondente é
apresentada e alguns usuários vão obter informações adicionais comparados a
outros. Nas variações de explicação, variantes do conteúdo educacional são
selecionados, de acordo com o modelo do usuário, como variantes de páginas
ou de fragmentos (conceitos).
Na navegação adaptaviva, existem diferentes técnicas para guiar o
aluno e ao mesmo tempo oferecer liberdade de escolha, sendo elas:
Seleção automática (Direct guidance): apresenta a próxima unidade
do curso que é melhor adaptada ao aluno e sua condição mental, é
normalmente usada em conjunto com outra técnica para aumentar a
liberdade do aluno;
Classificação de Link (Link sorting): classifica as opções de navegação
oferecidas ao aluno em ordem de relevância;
3.4 Conclusão 31
Anotação de Link (Link annotation): de acordo com as propriedades da
página, os links são marcados com cores ou ícones;
Modificação de Link (Link hidding, removal or disabling): os links de
pouco interesse são escondido, apresentados como texto simples ou to-
talmente removidos.
3.4 Conclusão
Este capítulo apresentou os Sistemas Tutores Inteligentes e os Siste-
mas Educacionais Inteligentes, duas classificações para os Sistemas Educa-
cionais Inteligentes. Foram apresentados implementações de Sistemas Tuto-
res Inteligentes aplicando, como mecanismo de individualização do processo
ensino-aprendizagem, as Redes Neurais Artificiais, Agentes Inteligentes, Sis-
temas Fuzzy e duas propostas para a utilização de Aprendizado por Reforço.
O foco da abordagem nessas implementações foi a arquitetura do sistema, a
estratégia pedagógica aplicada e o mecanismo de avaliação do aluno.
CAPÍTULO 4
Aprendizado por Reforco
4.1 Introdução
Este capítulo aborda o Aprendizado por Reforço. São apresentados
suas características, suas diferenças em relação à outras técnicas de Inteli-
gência Artificial, seus elementos, os diferentes mecanismos de aprendizado e
a aplicação da técnica pelas características do problema.
Aprendizado por Reforço (RL, do inglês Reinforcement Learning) é
uma técnica de aprendizado de máquina onde agentes aprendem por su-
cessivas interações com o ambiente [Kaelbling, Littman e Moore 1996]. O
agente é responsável pela seleção de possíveis ações conforme a situação espe-
cífica apresentada pelo ambiente. O ambiente responde às ações e apresenta
novas situações ao agente. A cada ação, uma recompensa ou penalidade é for-
necida ao agente, indicando o quão desejado é o novo estado [Mitchell 1997].
Segundo SUTTON e BARTO, a definição de RL é baseado no problema
e, não, no método de aprendizado. Trata-se de problemas onde o agente deve
aprender a escolher dentre as ações disponíveis que alteram o estado do am-
biente [Sutton e Barto 1998]. Uma função de recompensa define a qualidade
da seqüência de ações [Mitchell 1997]. O agente pode ou não conhecer, previ-
amente, o efeito de suas ações sobre o ambiente.
O agente conecta-se ao ambiente pelos processos de percepção e
ação, conforme representado na Figura 4.1 [Kaelbling, Littman e Moore 1996].
O limiar entre o ambiente e o agente é definido pelo controle do agente.
Quanto às fronteiras entre o agente e o ambiente, se o agente tem controle
absoluto de algo significa que tal parte integra o próprio agente. As par-
tes que o agente não pode modificar arbitrariamente integram o ambiente
[Sutton e Barto 1998]. A definição completa do ambiente é chamada de tarefa
(task).
O agente aprende por suas próprias experiências ao interagir com
o ambiente, tentando atingir um objetivo. O estado do ambiente é um si-
4.1 Introdução 33
Figura 4.1: Limites do agente no Aprendizado por Reforço.
nal, contendo uma informação qualquer do ambiente como sensação imedi-
ata, uma versão processada dessa sensação ou uma estrutura complexa. O
agente deve descobrir quais ações têm maiores recompensas e seu objetivo é
maximizar tais recompensas em curto e longo prazo. Aprendizado por Reforço
busca aprender, mapeando situações a ações, no sentido de maximizar as re-
compensas recebidas e o retorno esperado (acúmulo das recompensas que
o agente espera coletar após o instante atual) [Sutton e Barto 1998].
A cada ação escolhida, o ambiente fornece um sinal de retorno, cha-
mado reforço (ou recompensa), indicando a qualidade desta escolha. A Fi-
gura 4.2 representa um agente que, no instante t, recebeu a recompensa r
t
,
observou o ambiente no estado S
t
e escolheu a ação a
t
. Após sua interação com
o ambiente (aplicação da ação), no instante t+1, o agente recebe a recompensa
r
t+1
e o estado do ambiente muda para S
t+1
.
Figura 4.2: Interação Agente-Ambiente em Aprendizado
por Reforço.
A principal diferença entre RL e outras técnicas de aprendizado de
máquina é a utilização da avaliação das ações escolhidas. Em outros métodos,
como por exemplo as Redes Neurais Artificiais, instruções são utilizadas para
4.2 Elementos do aprendizado por reforço 34
informar a ação correta para cada situação específica. O sistema pode, então,
generalizar esses mapeamentos a situações não exemplificadas. No RL, o
agente tenta descobrir, dentre as possíveis ações, quais promovem melhores
resultados com base apenas em sua própria experiência. A interação entre o
agente e o ambiente é representado na Figura 4.2. Assim, o RL é caracterizado
por:
O agente é programado sem especificar como atingir o objetivo
[Kaelbling, Littman e Moore 1996];
O problema é considerado como um todo;
Os reforços (recompensas) podem ocorrer atrasados em relação às ações
[Sutton e Barto 1998].
4.2 Elementos do aprendizado por reforço
Segundo SUTTON e BARTO, RL consiste dos seguintes elementos:
Política (policy): mapeamentos de estados percebidos à ações que devem
ser escolhidas nesse estado;
Função de Recompensa (reward function): mapeamentos de estados
percebidos ou pares estado-ação à recompensas;
Função de Valor (value function): fornece, para uma ação ou par ação-
estado, o valor total de recompensas que o agente espera acumular a
partir da escolha dessa ação ou escolher uma ação que leva um um
determinado estado;
Modelo do Ambiente (model of the environment): imita o comporta-
mento do ambiente.
A política define o comportamento do agente em um determinado
momento (qual a melhor ação em curto prazo). Pode ser representada com
funções, tabelas ou processos de pesquisa. A Função de Recompensa define o
objetivo do problema e a recompensa, representada por um número, indica
os estados preferenciais para uma ação imediata. O objetivo do agente é
maximizar as recompensas a longo prazo utilizando a Função de Recompensas
para atualizar sua Política.
A função de valor, ao contrário da Função de Recompensa, deter-
mina o que é bom a longo prazo. Ela fornece o valor (ou a utilidade) de
uma ação ou de um estado. Normalmente, é o total de recompensas que o
4.3 Exploração do problema 35
agente espera acumular ao selecionar uma ação (Valor de Ação) ou ao atingir
um determinado estado (Valor de Estado). O agente pode utilizar uma Função
de Valor para atualizar sua Política.
O modelo do ambiente é usado para predizer resultados em tarefas de
planejamento. O uso do modelo do ambiente é opcional e quando existe, pode
ser incompleto ou impreciso.
Segundo KAELBLING et al [Kaelbling, Littman e Moore 1996], o mo-
delo de RL consiste formalmente em:
Um conjunto discreto de estados do ambiente representado por S;
Um conjunto discreto de ações do agente representado por A;
Um conjunto de sinais de reforço escalares, tipicamente 0 e 1 ou
números reais.
4.3 Exploração do problema
O agente equilibra o uso do conhecimento acumulado e a seleção de
ações ainda não experimentadas enquanto determina a melhor política. Ao
aproveitar seu conhecimento, obtém maiores recompensas a curto prazo. O
termo exploitation é utilizado quando o conhecimento adquirido é explorado.
Quando o agente explora o desconhecido, ele descobre o efeito de outras ações.
Ao conhecer melhor o ambiente, o agente pode realizar melhores escolhas no
futuro. O termo exploration é utilizado quando novas opções são avaliadas
[Sutton e Barto 1998, Mitchell 1997].
Ao otimizar a curto prazo, o agente pode escolher ações com pro-
babilidade proporcional às recompensas que elas podem produzir no pas-
sado. Porém, ao considerar apenas a recompensa imediata, o agente pode
reduzir o valor acumulado das recompensas ao longo do tempo. A longo
prazo, o agente pode escolher ações com efeito desconhecido ou que não
possuem historicamente a probabilidade de produzir o melhor desempenho
[Sutton e Barto 1998].
As recompensas podem sofrer pequenas alterações durante as inte-
rações. A modificação pode ser conseqüência, por exemplo, de ruídos. Neste
caso, a recompensa não corresponde a qualidade da ação. Os ambientes que
apresentam esses distúrbios necessitam de mais exploração.
4.4 Retorno e Desconto 36
4.4 Retorno e Desconto
Além do balanceamento da exploração do conhecido e do desconhecido
(exploitation e exploration), o agente pode utilizar o retorno para obter
maiores ganhos em longo prazo. O retorno é definido como a seqüência de
recompensas que o agente espera coletar no futuro ao escolher uma ação.
No caso mais simples, o retorno R
t
esperado no instante t é a soma das
recompensas a partir deste instante até o passo final τ, como mostrado na
Equação 4-1.
R
t
= r
t+1
+ r
t+1
+ r
t+1
+ . . . + r
τ
(4-1)
Ao definir um instante final τ , presume-se tarefas episódicas. Devem
existir, durante as interações, estados finais para determir o fim dos episódios.
O retorno é, então, calculado do instante t atual até o instante em que um dos
estados finais é atingido.
Ao utilizar o retorno para escolher ações, o agente pode reduzir a im-
portância das recompensas mais afastadas no tempo. É utilizado o desconto
ou taxa de desconto, representado por γ, para determinar o valor presente
das futuras recompensas. O valor de γ é definido no intervalo 0 γ 1 e o
retorno com desconto é calculado pela Equação 4-2.
R
t
= r
t+1
+ γr
t+1
+ γ
2
r
t+1
+ γ
3
r
t+2
+ . . . (4-2)
A equação do retorno com desconto pode ser reduzida a equação
do retorno sem desconto ao adotar o valor zero para a taxa de desconto.
Com o desconto, mesmo com uma quantidade infinita de passos, a soma das
recompensas futuras tem valor finito.
4.5 Aplicação da Técnica ao Problema
Diferentes classes de problemas podem ser solucionadas com o Apren-
dizado por Reforço. RL é aplicado em problemas de estratégias de controle
para robôs móveis, jogos de tabuleiro, controle adaptativo para sistemas de
controle, etc. Existem diversas características nesses problemas que definem
como pode-se solucioná-los utilizando RL, dentre elas:
Os ambientes podem ser estacionários ou não-estacionários;
Características do problema podem ser previamente conhecidas;
4.6 Mecanismos de Aprendizado por Reforço 37
As tarefas podem ser contínuas ou cíclicas;
As recompensas podem ser recebidas imediatamente ou em atraso;
Os estados podem ser parcialmente observáveis;
O aprendizado é por "vida-longa".
Quando o resultado de uma ação (em um determinado estado) não
muda durante as interações, chama-se o ambiente de estacionário. Podem
existir ambientes não-estacionários, onde o valor real das ações muda com
o tempo. Pode-se estabelecer, nesses ambientes, maior peso às recompensas
recentes utilizando um parâmetro chamado step-size.
O conhecimento prévio de como o agente pode atingir seu objetivo pode
ser utilizado. Esse conhecimento pode ser representado como uma política
inicial ou uma função de valor inicial.
Nas tarefas contínuas, a interação entre agente e ambiente progride
sem limite. Nesse caso, é difícil determinar o retorno
1
pois o passo final tende
ao infinito (momento t final). Nas tarefas episódicas, existe uma seqüência de
episódios onde cada um consiste em uma seqüência finita de passos. Existe,
nessas tarefas, o estado inicial e o estado terminal, ambos determinar os
episódios.
Normalmente, as recompensas são recebidas pelo agente logo após a
execução da ação selecionada (recompensa imediata). Em alguns ambien-
tes, as recompensas podem ser recebidas após algumas interações. Quando o
agente recebe um (recompensa atrasada), o crédito não pode ser atribuído
a última ação escolhida.
Os estados podem ser parcialmente observáveis. Este é um resul-
tado do mecanismo de sensação do ambiente. O agente deve descobrir uma
boa política utilizando apenas essas informações parciais do ambiente;
O aprendizado é por vida-longa. O agente continuar interagindo inde-
finidamente e pode aprender várias situações diferentes em um mesmo ambi-
ente utilizando os mesmos sensores.
4.6 Mecanismos de Aprendizado por Reforço
Existem três linhas para solucionar problemas com Aprendizado por
Reforço. A primeira delas é a tentativa-e-erro (trial-and-error) que tem ori-
1
O retorno é o somatório das recompesas que o agente espera receber no futuro ao escolher
uma ação.
4.6 Mecanismos de Aprendizado por Reforço 38
gem na lei de efeito de Edward Thorndike que estabelece que as ações são
escolhidas de acordo com o bom ou o mau resultado produzido por elas no
passado. Os métodos de tentativa-e-erro combinam busca e memória para de-
terminar uma política ótima. A segunda, chamada de Aprendizado por di-
ferença temporal (temporal-difference learning), foi formalizada por Sutton
e é baseado na psicologia de aprendizagem animal e nos reforçadores secun-
dários introduzidos por Skinner. A terceira linha, chamada controle ótimo
(optimal control), utiliza programação dinâmica (e as Equações de Bell-
man) para determinar uma política ótima.
4.6.1 Métodos de Valor-de-Ação
Os métodos de valor-de-ação são métodos simples que estimam o valor
de ações e utilizam essas estimativas para escolher as ações. É uma procura
por ações no espaço de ações disponíveis que tenha boa performance no estado
atual. O valor atual de uma ação é representado por Q
(a), e a estimativa
por Q
t
(a). No caso mais simples, em um determinado instante t, a estimativa
pode ser calculada pela média das recompensas recebidas quando a ação a foi
escolhida nas k
a
tentativas anteriores. A Equação para essa estimativa é:
Q
t
(a) =
r
1
+ r
2
+ ... + r
k
a
k
a
(4-3)
Enquanto a quantidade de amostras da ação a cresce para o infinito,
Q
t
(a) converge para Q
(a). No método greedy escolhe-se a ação que tem
maior estimativa de valor obtendo-se uma pequena exploração das ações
disponíveis. O método ε-greedy permite a exploração selecionando uma ação
não ótima com probabilidade ε. Quando a ação não-ótima é escolhida, a chance
das ações é igual. Assim, a probabilidade de escolher a pior ação é a mesma
para a ação próxima à melhor.
O método softmax resolve o problema do ε-greedy, atribuindo às
ações uma probabilidade proporcional as suas estimativas de valor. A melhor
ação continua tendo a maior probabilidade de ser selecionada, enquanto todas
as outras são distribuídas em um ranking de acordo com suas estimativas. O
método mais comum para calcular as probabilidades é a distribuição de Gibbs
ou Boltzmann que escolhe a ação a no tempo t com a probabilidade calculada
pela Equação 4-4.
p (a, t) =
e
Q
t
(a)
Σ
n
b=1
e
Q
t
(b)
(4-4)
4.6 Mecanismos de Aprendizado por Reforço 39
Onde τ é a temperatura e n é a quantidade de ações disponíveis.
A temperatura é um parâmetro que, quando tem valor alto, proporciona
chance quase equiprovável para todas ações. Quanto mais baixo seu valor,
maior é a diferença de probabilidade das ações que possuem estimativas de
valor diferenciadas. A Figura 4.3 apresenta um exemplo da distribuição de
probabilidade Gibbs para dez elementos que possuem o conjunto de pesos
(ou valores de ações) {10, 18, 20, 15, 13, 10, 8, 5, 2, 1} com valor cinco para o
parâmetro temperatura.
10 18 20 15 13 10 8 5 2 1
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
Valores (Pesos)
Probabilidade
Figura 4.3: Exemplo de uma distribuição de Gibbs.
As estimativas de valores para os métodos de valor-de-ação podem
ser atualizadas, quando representadas pela média de recompensas, incremen-
talmente a partir da Equação 4-5. A equação requer apenas uma pequena
quantidade de memória para armazenar apenas a estimativa de valor (Q
k
) e
a quantidade de interações para a ação (k). Desta maneira, a complexidade
computacional é reduzida.
Q
k+1
= Q
k
+
1
k + 1
[r
k+1
Q
k
] (4-5)
Onde k + 1 é o instante em que a recompensa r
k+1
é recebida. A média
das k recompensas recebidas anteriormente é representada por Q
k
.
4.6.2 Controle ótimo e programação dinâmica
Programação dinâmica, (DP, do inglês Dynamic Programming),
refere-se a um conjunto de algoritmos que utilizam um modelo perfeito do
ambiente para calcular a política ótima. O modelo é descrito como um pro-
4.6 Mecanismos de Aprendizado por Reforço 40
cesso de decisão markoviano. Os algoritmos, ao assumirem um modelo
perfeito, são limitados por consumirem muito recurso computacional.
Processo de Decisão Markoviano
O processo de decisão markoviano (ou MDP, do inglês markov decision
process), é uma tarefa (task) que satisfaz a propriedade markoviana. Isto é,
os estados e o ambiente devem ser markovianos. Se o espaço de estados e o
espaço de ações são finitos e satisfazem a propriedade de Markov então temos
um processo de decisão de markoviano finito.
Quando um estado, ou seu sinal, contém todas as informações relevan-
tes para a tomada de decisão, ele é chamado estado markoviano ou é dito
que possui propriedade markoviana. Neste caso, é necessário mais que a
sensação imediata (ou o sinal do ambiente), porém, nunca requer mais do que
o histórico ou sumário de todas as sensações experimentadas. Se o sinal
de estado apresenta a propriedade de Markov, a resposta do ambiente no ins-
tante t + 1 depede apenas do estado atual e da ação em t. Isto permite prever
o próximo estado considerando apenas o estado atual e as possíveis ações.
O ambiente que permite predizer o próximo estado e a próxima recom-
pensa considerando o estado atual e uma ação é dito ambiente markoviano.
Este ambiente permite, então, predizer todos os futuros estados e recompen-
sas esperadas a partir do conhecimento apenas do estado atual.
A dinâmica do processo markoviano pode ser representada por um
grafo de transição, como exemplificado na Figura 4.4, onde existe um nó para
cada estado, representado por um circulo, e um para cada ação-estado,
representado por um ponto.
Figura 4.4: Exemplo de um grafo para um Processo Mar-
koviano.
4.6 Mecanismos de Aprendizado por Reforço 41
No MDP, a probabilidade dos possíveis novos estados é determinado
pelas ações possíveis e pelo estado atual. É possível prever a recompensa
esperada considerando o estado atual, a ação escolhida e o próximo estado.
Para qualquer estado s e uma ação a, a probabilidade de cada novo estado
possível s
é representada
2
pela Equação 4-6 também chamada probabilidade
de transição. De maneira similar, o valor esperado da próxima recompensa
considerando o estado atual s, uma ação a e o próximo estado s
, o valor
esperado para a próxima recompensa é representado pela Equação 4-7.
P
a
ss
= P r{s
t+1
= s
| s
t
= s, a
t
= a} (4-6)
R
a
ss
= E{r
t+1
| s
t
= s, a
t
= a, s
t+1
= s
} (4-7)
Cálculo da política ótima
A idéia principal da DP é utilizar funções de valor para organizar
e estruturar a busca por boas políticas [Sutton e Barto 1998]. Pode-se obter
facilmente políticas ótimas quando são encontrada funções de valor Q
(valor
de ação) ou V
(valor de estado) ótimas que satisfazem as Equações de
Bellman 4-8 e 4-9.
Q
(s, a) = E{r
t+1
+ γmax
a
Q
(s
t+1
, a
) | s
t
= s, a
t
= a } (4-8)
V
(s) = max
a
E{r
t+1
+ γV
(s
t+1
) | s
t
= s, a
t
= a } (4-9)
Onde s
representa o novo estado, E indica que é um valor esperado
(futuro), r
t+1
é a recompensa esperada no instante t+1, γ é a taxa de desconto,
max indica que é a seleção do valor máximo e a
são as possíveis ações.
A Equação 4-9 fornece o retorno esperado ao selecionar a ação a no
estado s e ao utilizar a política ótima. A Equação 4-8 é semelhante, porém,
ela fornece o retorno esperado ao ser guiado para o estado s. Ela define a
qualidade das ações que levam imediatamente a esse estado.
2
O uso da palavra “representado” significa que a equação não indica como a probabilidade
é calculada.
4.6 Mecanismos de Aprendizado por Reforço 42
As interações para obter a política ótima
Durante a interação com o ambiente, pode-se utilizar três métodos
para obter a política ótima:
Avaliação de política: As funções de valor (de ação ou estado-ação) são
calculadas interativamente a partir da política atual. A ação que possui
maior valor ou que leva ao estado com maior valor é escolhida.
Melhoria de política: É o processo que produz uma política melhorada
ao escolher uma nova política de forma greedy
3
ou E-greedy
4
. As opções,
representadas por π
, são geradas ao utilizar ações diferentes da produ-
zida pela política π atual. A qualidade é comparada pelo resultado do
cálculo de uma função de valor (de ação ou estado) utilizando as diferen-
tes Políticas.
Interação de política: Consiste na aplicação da avaliação de política
seguido da melhoria de política. É o mecanismo mais comum da aplica-
ção de programação dinâmica em Aprendizado por Reforço.
4.6.3 Métodos de Monte Carlo
Os métodos de Monte Carlo (MC), assim como nos métodos de progra-
mação dinâmica, usam estimativas de funções de valor e interagem para obter
a melhor política. Eles se diferenciam por não assumirem um modelo com-
pleto do ambiente e requererem apenas as experiências do agente. As
principais características dos métodos MC são:
Necessitam apenas de amostras de seqüências de estados-ações e refor-
ços de interações reais ou de simulação;
São tratados apenas ambientes episódicos;
As estimativas são incrementais episódio a episódio.
No MC, a avaliação da política é realizada, para uma determinada
política π, pelo cáculo do valor de estado para cada estado presente no final
de um episódio. Os valores dos estados podem ser calculados como a média do
retorno (somatório esperado das recompensas).
Existem dois métodos, no MC, para calcular o valor de um estado. No
primeiro, chamado método MC toda-visita, a função de valor de estado é
3
Escolher sempre a melhor opção.
4
Escolher uma opção não ótima com probabilidade E.
4.6 Mecanismos de Aprendizado por Reforço 43
calculada seguindo todas as visitas ao estado em um conjunto de episódios. No
segundo, chamado método primeira-visita, é utilizado somente o acúmulo
proporcionado pela primeira visita. Ambos os métodos convergem para a
função de valor de estado ótima quando o número de visitas tende ao infinito.
Quando não existe um modelo, o valor de um estado não é suficiente
para determinar uma política. Neste caso, o valor de uma ação pode ser
utilizado. Aqui, a função de valor de ação é o retorno esperado quando, no
estado s , a ação a é escolhida e a política atual é seguida. No método toda-
visita, o valor da ação é calculado como a média do retorno recebido após a
ação ser selecionada. No método primeira-visita, é calculado como a média
de retorno seguindo a primeira visita em cada episódio em que os estado foi
visitado após a ação ser selecionada.
4.6.4 Aprendizado por diferença temporal: TD e Q-
learning
Aprendizado por diferença temporal é uma combinação das idéias
dos métodos de Monte Carlo e programação dinâmica. Utilizando essas técni-
cas é possível aprender sem um modelo da dinâmica do ambiente. O aprendi-
zado é realizado atualizando estimativas baseado em partes das experiências.
TD(0) é o método mais simples de Aprendizado por Diferença
Temporal. Ele atualiza a função de valor como no MC, porém sem aguardar
o fim de um episódio e faz predição, como no DP, utilizando um histórico do
conhecimento. No instante t + 1, o valor do estado V (s
t
) é atualizado após a
escolha da ação, utilizando a recompensa observada r
t+1
, a estimativa do valor
do estado V (s
t+1
), a taxa de aprendizado α e a taxa de desconto γ. O novo valor
do estado é calculado pela Equação 4-10.
V (s
t
) V (s
t
) + α[r
t+1
+ γV (s
t+1
) V (s
t
)] (4-10)
Q-Learning é um método para aprender ou determinar uma fun-
ção de valor de ação Q que determina a utilidade esperada de uma ação. A
função é calculada a partir de um estado s
t
, aplicando uma ação a
t
e seguindo
uma determinada política. O aprendizado independe da política utilizada. A
Equação 4-11 apresenta a fórmula de atualização de Q utilizando a taxa de
aprendizado α, uma taxa de desconto γ, a recompensa r recebida ao selecionar
a em s, o valor da ação sub-seqüente Q(a
t+1
, s
t+1
) recebida ao selecionar a ação
sub-seqüente a
t+1
no estado sub-seqüente s
t+1
.
4.7 Conclusão 44
Q(s
t
, a
t
) = Q(s
t
, a
t
) + α [r + γQ(s
t+1
, a
t+1
) Q(s
t
, a
t
)] (4-11)
O valor de Q para o estado e a ação corrente resume em um simples
número toda a informação necessária para determinar o reforço cumulativo
descontado que será obtido no futuro se a ação a for selecionada no estado s.
4.7 Conclusão
Este capítulo apresentou o Aprendizado por Reforço. A técnica foi ex-
plicada e foram abordados diferentes mecanismos para implementá-la. O am-
biente foi diferenciado do agente sob a perspectiva dessa técnica de aprendi-
zado de máquina. Foi demonstrado como o ambiente pode ser caracterizado
em relação às diferentes propriedades importantes no Aprendizado por Re-
forço. O método softmax de seleção de ações e a distribuição Gibs para a proba-
bilidade de seleção das ações disponíveis, ambos utilizados na experimentação
deste trabalho, foram detalhados com maior ênfase.
CAPÍTULO 5
Sistema Proposto
5.1 Introdução
O principal objetivo deste trabalho é propor e avaliar a aplicação de
técnicas de Aprendizado por Reforço em Sistemas Tutores Inteligentes como
mecanismo de individualização da aprendizagem. Este capítulo apresenta
uma solução para a tutoria inteligente aplicando o método softmax de seleção
de ações e a distribuição de Gibs para a probabilidade de escolha das ações.
Esse método guia o aluno ao escolher qual o próximo conteúdo a ser visitado
baseado em uma estimativa de qual deles pode produzir melhor desempenho.
A solução proposta é avaliada empiricamente no Capítulo 6 deste trabalho.
5.2 Estratégia pedagógica
Em continuidade ao trabalho desenvolvido no Grupo Pireneus desde
1999, o conteúdo do curso é dividido em vários contextos e cada um em cinco
níveis [Melo et al. 2005] [Meireles et al. 2005]. Cada contexto é um pequeno
trecho do curso, um fato, um procedimento, um princípio ou um conceito a ser
aprendido. Os níveis são diferentes formas de apresentar o conteúdo de um
mesmo contexto. São três níveis principais diferenciados por profundidade de
conteúdo compostos por textos e figuras e dois auxiliares, sendo eles:
Intermediário: apresentação do conteúdo de forma abrangente e aces-
sível com nível de dificuldade mediano;
Facilitado: onde o mesmo conteúdo do nível intermediário é abordado
utilizando um linguagem de compreensão mais imediata ao custo de
alguma exatidão no conteúdo;
Avançado: mais informações utilizando um linguagem técnica;
5.2 Estratégia pedagógica 46
Perguntas freqüentes: nível que busca prover de um conjunto de
perguntas importantes e suas respostas;
Exemplos: exemplificação do conteúdo ou sua aplicação.
Os três primeiros níveis apresentam o mesmo conteúdo utilizando
textos e figuras em diferentes níveis de dificuldade. Os outros dois níveis
fornecem material de apoio.
Ao iniciar o curso, o aluno sempre é direcionado ao nível intermediário
do primeiro contexto. Após cada nível visitado, um exercício de múltipla es-
colha é apresentado. Após sua escolha, o aluno é guiado automaticamente
para outro nível do mesmo contexto ou para o próximo contexto. Portanto o
sistema proposto utiliza a mesma estratégia pedagógica do sistema imple-
mentado por MEIRELES [Meireles et al. 2005] e MELO [Melo et al. 2005].
Algumas restrições de navegação são impostas:
Para avançar para o próximo contexto, é necessário visitar e responder
questões de, no mínimo, dois níveis do contexto atual;
O aluno é direcionado para o nível intermediário sempre que avança
para o próximo contexto;
O aluno não pode retornar a um dos contextos anteriores ou visitar um
mesmo nível duas vezes.
O esquema de navegação utilizando a estratégia pedagógica é mos-
trado na Figura 5.1.
Figura 5.1: Estratégia pedagógica utilizando contextos e
níveis onde a seta representa um caminho per-
corrido.
5.3 Plano de Curso 47
5.3 Plano de Curso
Durante o processo ensino-aprendizagem, o módulo inteligente de-
termina um plano de curso dinâmico, atualizado a cada interação com o
aluno. Ao responder aos exercícios dos níveis, a técnica de aprendizado por re-
forço reajusta sua representação das opções de navegação e do aluno de acordo
com o grau de acerto da sua resposta. O aluno obtém um diferente plano de
curso baseado na integração do grau de acerto de todos os exercícios respon-
didos.
5.4 Modelagem do Ambiente
É necessário criar um modelo do ambiente para ser utilizado junto
à técnica de aprendizado por reforço. Na solução proposta, o modelo é uma
representação da estratégia pedagógica e as possíveis respostas aos
exercícios. Os modelos mais simples podem considerar apenas as possíveis
decisões e o acúmulo de recompensas. Nos mais complexos, pode-se armazenar
um histórico de todas as ações selecionadas e considerar, para a tomada de
decisão, todos os possíveis caminhos e o possível ganho acumulado para cada
um deles até chegar ao último nível a ser visitado.
Foram desenvolvidos um modelo básico, um intermediário e um com-
pleto. O modelo básico foi escolhido para implementação, segundo a diretriz
científica de aumentar a complexidade gradativamente
1
.
5.4.1 Modelo do ambiente
O modelo aplicado é uma versão simples da estratégia pedagógica
onde apenas as possíveis opções de navegação são consideradas. O
conjunto de ações que podem ser escolhidas é dinâmico conforme as restrições
de navegação mencionadas e os níveis visitados. O sistema inteligente tenta
descobrir qual ação (qual o próximo nível) pode produzir um maior reforço
(fazer com que o aluno obtenha um melhor desempenho). Nesta modelagem,
o histórico de navegação apenas acumula os resultados das navegações ante-
riores. A Figura 5.2 ilustra como a decisão pode ser tomada no modelo básico.
O histórico do aluno é representado pela tabela H, como representado
na Tabela 5.1, que armazena a quantidade de visitas em cada nível (k
1,2,4 ou 5
),
1
O princípio da Lâmina de Occan diz: “Se duas hipóteses explicam os dados com igual
eficiência, deve prevalecer a mais simples”
5.5 Função de Valor das Ações 48
Figura 5.2: Representação básica da estratégia pedagó-
gica para a técnica de RL quando o aluno
visitou três níveis de um contexto.
a quantidade de mudança de contexto (k
6
) e o somátorio das recompensas
(acúmulo) obtidas ao responder aos exercícios de cada nível (Σr
k
1,2,4,5 ou 6
). As
informações do nível intermediário (ou nível 3) são interpretadas como avanço
para o próximo contexto. Para a tomada de decisão, são utilizadas somente as
linhas correspondentes as opções válidas no instante.
Tabela 5.1: Representação do acúmulo de recompensas.
visitas recompensas
nível facilitado k
1
Σr
k
1
nível intermediário - -
nível avançado k
3
Σr
k
3
perguntas freqüentes k
4
Σr
k
4
exemplos k
5
Σr
k
5
próximo contexto k
6
Σr
k
6
5.5 Função de Valor das Ações
O aluno é individualizado no sistema pelo acúmulo de recom-
pensas coletadas ao responder aos exercícios de cada nível visitado.
As perguntas objetivas possuem quatro alternativas. Sempre existe uma al-
ternativa correta, uma errada, uma parcialmente correta e a opção "não sei".
Cada tipo de resposta produz um reforço diferente para a técnica de aprendi-
zado de máquina. Este reforço é utilizado para individualizar o plano de curso
pelo algoritmo de aprendizado por reforço.
O valor das ações, nessa solução, são calculados a partir do acúmulo
de recompensas no passado. A Tabela 5.1 é utilizada para calcular o valor de
5.6 Reforço Para o Aluno 49
cada ação. A Equação 5-1 é uma adaptação da Equação 4-3 para calcular o
valor das ações na solução proposta.
Q (a) =
H
(a,1)
H
(a,2)
| a = {1, 2, 4, 5 ou 6} (5-1)
Onde a indica um nível selecionado ou o avanço de contexto (consi-
derando que o nível intermediário significa mudança de contexto), H
(a,1)
é a
quantidade de visitas àquele nível (armazenado na linha a e coluna 1 da ta-
bela H) e H
(a,2)
é o somatório das recompensas ao visitar o nível (armazenado
na linha a e coluna 2 da tabela H).
5.6 Reforço Para o Aluno
O reforço produzido para o sistema é diferente do produzido para o
usuário. O reforço para o sistema é um número que indica a qualidade das
ações do sistema. Ele é utilizado pelo algoritmo de reforço para aprender a
guiar o aluno. O reforço para o aluno, no presente contexto, se refere a um
feedback informativo, na forma de uma mensagem, que é apresentado na tela
do computador. A mensagem informa o grau de acerto nos exercícios, ou nas
questões do pré-teste e do teste final.
O conceito de “reforço” na psicologia comportamental refere-se, como
processo, ao aumento da probabilidade de ocorrência de uma resposta como
decorrência da conseqüencia da mesma com um estímulo reforçador. Como
um procedimento, refere-se à operação de apresentação do estímulo reforçador
como consequência de uma resposta. No caso do comportamento operante,
denomina-se “contingência de reforço” o conjunto possível de condições sob as
quais o responder produz estímulos reforçadores [Skinner 1972].
5.7 Avaliação do Aluno
Além dos exercícios, durante o curso, apresentados após cada nível
visitado, o aluno é avaliado em outros dois momentos: antes e depois do
curso. Antes da navegação é aplicado um pré-teste e, após, o aluno passa
por um teste final. Ambos os testes cobrem todo o conhecimento abordado no
curso principalmente no nível intermediário. Estes dois testes são utilizadas
5.7 Avaliação do Aluno 50
para avaliar o ganho normalizado
2
, ou seja, a retenção de conhecimento após
utilizar o STI. Na Figura 5.7, pode-se ver a seqüência da aplicação dos testes
e dos contextos.
Figura 5.3: Avaliação do aluno - pré-teste, teste final e
exercícios em cada nível.
O ganho normalizado é uma medida que permite avaliar o quanto o
aluno aprendeu em relação ao quanto ainda restava para aprender. Pode-se,
então, comparar a retenção de conhecimento de alunos com diferentes níveis
de conhecimento. O ganho normalizado corrige a distorção entre grandes e
pequenos valores de notas iniciais presente no ganho absoluto
3
. Os ganhos
absoluto e o normalizado são calculados respectivamente pelas Equações 5-2
e 5-3 abaixo
4
:
GA =
NF N I
NI
100% (5-2)
GN =
NF N I
M NI
100% (5-3)
2
O ganho normalizado é utilizado para avaliar o ganho de um aluno quando ele realiza
um pré-teste e um pós-teste ao estudar um tema. É uma medida do que foi aprendido pelo
máximo que poderia ter sido aprendido.
3
Como exemplo da distorção produzida pelo ganho absoluto, considere dois alunos A e B
respectivamente com nota inicial 1,0 e 6,0 e nota final 3,0 e 9,0. O aluno A tem um ganho
absoluto de 200% enquanto o aluno B tem um ganho absoluto de 50%.
4
Estas fórmulas são adaptadas de LAKDAWALA [Lakdawala et al. 2002].
5.8 Especificação do Algoritmo de Reforço 51
Onde GA é ganho absoluto, GN ganho normalizado, NF nota no teste
final, NI nota no pré-teste e M a nota máxima que pode ser obtida.
5.8 Especificação do Algoritmo de Reforço
Foi escolhido o método softmax para a escolha das ações e o acúmulo
de recompensas para calcular a utilidade das ações. A adaptabilidade e a sim-
plicidade foram os critérios utilizados para estas duas escolhas. Este meca-
nismo necessita manter apenas as informações das recompensas coletadas (k
a
e Σr
k
a
) e as possíveis ações que podem ser escolhidas (a, a 1, 2, 3, 4, 5, 6) a
cada interação.
Na solução proposta, a temperatura permite determinar, no inter-
valo t, se as opções de navegação serão mais ou menos equiprováveis conside-
rando o acúmulo de recompensas nesse instante. Assim, é possível nas primei-
ras interações, garantir maior ou menor exploração
5
. A taxa de caimento da
temperatura reduz constantemente a temperatura, aumentando a diferença
de probabilidade da escolha entre as ações com recompensas diferentes.
Os valores para a temperatura e para o caimento podem ser defini-
dos a partir de situações conhecidas. É possível avaliar o comportamento do
sistema ao utilizar inicialmente valores altos e baixos para a temperatura e
quais as conseqüências ao diminuí-la com aceleração alta ou baixa. Essas si-
mulações podem ser realizadas pré-definindo as respostas aos exercícios (ou
comportamento do aluno) e avaliando o comportamento do sistema. O desem-
penho é comparado, utilizando-se diferentes temperaturas para o mesmo con-
junto de respostas. Após a definição da temperatura, o mesmo procedimento
pode ser realizado com o caimento.
As ações são selecionadas pelo método softmax a partir da distribuição
de Gibbs. A Equação 5-4 é utilizada para calcular a probabilidade de seleci-
onar cada ação em um determinado instante. Ela é uma adaptação da dis-
tribuição de Gibbs (Equação 4-4) para utilizar a função de valor da solução
proposta (Equação 5-1).
p (a) =
e
Q(a)
Σ
b=V
e
Q(b)
(5-4)
5
A exploração é definida em dois termos, a busca e o aproveitamento de conhecimento.
Na busca, também chamada de exploration, novas situações são exploradas para procurar
melhores resultados. No aproveitamento do conhecimento, conhecido como exploitation, o
conhecimento já adquirido é utilizado para melhorar o desempenho.
5.9 Conclusão 52
A cada interação, as ações que direcionam o aluno a um nível
visitado são excluídas do conjunto de ações possíveis. Quando dois níveis são
visitados, a ação que leva ao próximo contexto é adicionada ao conjunto de
ações válidas. Utilizando-se essas restrições, na Equação 5-4, V é conjunto de
ações válidas. Por exemplo, quando o aluno visitou o nível intermediário e
o facilitado, as ações possíveis são: visitar o nível avançado, visitar o nível
perguntas freqüentes, visitar os exemplos ou avançar de contexto. V é o
conjunto {3, 4, 5, 6}.
5.9 Conclusão
Este capítulo apresentou a solução proposta, neste trabalho, para
a aplicação do Aprendizado por Reforço em Sistemas Tutores Inteligentes.
Foram descritos a estratégia pedagógica utilizada, o modelo do ambiente de
ensino-aprendizagem aplicado, a forma de aplicação da ténica de aprendizado
de máquina e como o aluno é avaliado.
CAPÍTULO 6
Experimento e Resultados
6.1 Introdução
Este capítulo apresenta a avaliação empírica do Sistema Tutor Inte-
ligente (STI) proposto. O experimento é delineado incluindo a definição das
variáveis coletadas e dos parâmetros e valores adotados. É descrito o Sistema
Tutor Livre (STL) desenvolvido para ser utilizado como referência na avalia-
ção do desempenho do STI. Os dados coletados na tutoria livre e inteligente
são apresentados e comparados utilizando estatística descritiva. Oportuna-
mente, o desempenho do tutor inteligente também é comparado a outras so-
luções utilizando Redes Neurais Artificiais. Finalmente, são apresentadas as
inferências sobre a tutoria inteligente, utilizando como referência a tutoria
livre e como ferramenta a estatística inferencial.
6.2 Material Pedagógico
O tema do curso utilizado no experimento é Introdução a Informá-
tica que foi gentilmente cedido por MELO e MEIRELES. Ele foi preparado
pelo Grupo Pireneus
1
e foi utilizado no desenvolvimento de outros trabalhos,
inclusive por MELO [Melo et al. 2005] e MEIRELES [Meireles et al. 2005]. A
técnica utilizada para desenvolver o curso foi baseada em Instrução Pro-
gramada
2
, uma tecnologia de ensino proposta inicialmente por Skinner. O
material pedagógico é composto por 15 contextos, sendo eles:
1. Introdução a informática;
1
O Pireneus é um grupo de pesquisa científica da da Escola de Engenharia Elétrica e de
Computação da Universidade Federal de Goiás que se dedica a área de Sistemas Inteligentes.
2
A Instrução Programada é uma aplicação tecnológica dos princípios de aprendizagem
operante, extensivamente estudados em Análise Experimental do Comportamento, uma
disciplina científica da psicologia. [Skinner 1972].
6.3 Definição dos Reforços Para o Algoritmo e Para o Aluno 54
2. Introdução a informática (segunda parte);
3. Processamento de dados;
4. Tipos de computadores;
5. Estrutura do sistema computacional;
6. Hardware;
7. CPU;
8. Codificação da informação;
9. Memória;
10. Periféricos;
11. Software;
12. Sistemas operacionais;
13. Programas aplicativos;
14. Multimídia;
15. Programação de computadores.
6.3 Definição dos Reforços Para o Algoritmo e
Para o Aluno
O modelo do ambiente adotado para o algoritmo de aprendizado im-
plica em um reforço para cada grau de acerto dos exercícios. Os reforços ado-
tados neste experimento são apresentados na Tabela 6.1.
Tabela 6.1: Definição dos reforços.
grau de acerto reforço
correto 1.0
incorreto -1.0
parcialmente correto 0.5
não sabe 0.0
6.4 Simulação da Temperatura e do Caimento 55
Os valores da Tabela 6.1 foram utilizados na simulação do algoritmo
na coleta de dados. Eles foram convencionados para indicar, ao direcionar o
aluno a um determinadonível, que a ação foi:
Boa, quando o aluno acertar o exercício;
Indesejável, quando o aluno erra o exercício;
Mediana, quando o aluno escolhe a resposta parcialmente correta;
Indiferente, quando o aluno responde que não sabe.
Para o aluno, os reforços
3
são apresentados em forma de frases, sendo
elas:
"Parabéns! Resposta Correta.", quando acerta;
"Esta não é a resposta mais correta.", quando escolhe a opção parcial-
mente correta;
"Resposta incorreta.", quando erra;
"Obrigado pela sinceridade.", quando informa que não sabe a resposta.
6.4 Simulação da Temperatura e do Caimento
Os parâmetros do método softmax foram determinados por simulação.
Inicialmente, o comportamento do sistema foi verificado com um valor pré-
fixado para a temperatura e para o caimento. Em seguida, a temperatura foi
escolhida adotando como critério a quantidade média de níveis visitados em
cada valor. Finalmente, o caimento da temperatura foi selecionado com novas
simulações a partir da temperatura adotada.
6.4.1 Comportamento do sistema simulado
Precedendo a determinação dos parâmetros, o comportamento do sis-
tema foi avaliado utilizando-se valores pré-fixados. São adotados os valores
dois para a temperatura, um para o caimento e quinze para a quantidade de
contextos. A quantidade de níveis visitados e acúmulo de recompensas são
observados em quatro situações:
O aluno acerta todos os exercícios;
3
Este reforço citado se refere ao termo da Psicologia.
6.4 Simulação da Temperatura e do Caimento 56
Ele sempre escolhe a opção parcialmente correta;
Ele erra todas os exercícios;
Ele sempre responde que não sabe.
Quando o aluno acerta todos os exercícios, a quantidade média de
níveis visitados reduz a cada novo contexto. A Figura 6.1 mostra a redução
na quantidade média de níveis visitados para 1000 simulações. A média de
níveis visitados é 38,25 e a média do somatório dos reforços recebidos é 38,25.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Contexto
Figura 6.1: Simulação (média de mil repetições) onde o
aluno acerta todos os exercícios.
Ao escolher sempre a resposta parcialmente correta, a quantidade
média de níveis visitados por contexto reduz. Porém, como mostra a Figura
6.2, a velocidade de redução da média é menor em relação ao acerto. A média
de níveis visitados é 43,44 e a média do somatório dos reforços recebidos é
21,72.
Ao errar todos os exercícios, o aluno é forçado a visualizar uma
quantidade maior de níveis por contexto. Como pode ser observado na Figura
6.3, a quantidade média de níveis visitados aumenta a cada novo contexto e
tende a quantidade máxima. A quantidade média de níveis visitados é 62,46
e a média do somatório dos reforços recebidos é 62,46.
6.4 Simulação da Temperatura e do Caimento 57
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Contexto
Figura 6.2: Simulação (média de mil repetições) onde o
aluno escolhe sempre a opção parcialmente
correta.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Contexto
Figura 6.3: Simulação (média de mil repetições) onde o
aluno sempre erra as questões.
6.4 Simulação da Temperatura e do Caimento 58
Se o aluno sempre responde que não sabe, o algoritmo em alguns
momentos apresenta uma quantidade maior de contexto e, em outros, menor.
Na Figura 6.4, pode-se verificar que a quantidade média de níveis visitados
por contexto é 3,5. A quantidade média de níveis visitados é 52,50 e o
somatório dos reforços é zero.
2 3 4 5 6 7 8 9 10 11 12 13 14 15
Contexto
Figura 6.4: Simulação (média de mil repetições) onde o
aluno sempre responde que não sabe.
Conforme a estratégia pedagógica adotada, era esperado um aumento
gradual na quantidade de níveis visitados para os alunos que sempre erram
os exercícios. Aumentando a quantidade de informações apresentadas e con-
seqüentemente proporcionar maior aprendizado. Quando o aluno conhece
o conteúdo e sempre acerta aos exercícios, é esperado uma redução na quan-
tidade de níveis visitados. A simulação apresentou resultados satisfa-
tórios, indicando que o algoritmo está corretamente implementado.
As Figuras 6.5 e 6.6 apresentam, respectivamente, a média do total de níveis
para cada caso e o somatório dos reforços recebidos.
6.4.2 Escolha da temperatura
A temperatura foi determinada pelo resultado da simulação do ambi-
ente alterando seu valor de um a quinze com incremento de um. O caimento
6.4 Simulação da Temperatura e do Caimento 59
Certo Parcialmente correto Errado Não sabe
Figura 6.5: Média da quantidade total de níveis visitados
(mil repetições).
Certo Parcialmente Correto Errado Não sabe
Figura 6.6: Média da quantidade total de recompensas
(mil repetições).
foi fixado em um porcento (1%). Para cada valor da temperatura, quatro si-
tuações foram diferenciadas: alunos que acertam todos os exercícios, sempre
escolhem a opção parcialmente correta, erram todos exercícios ou sempre res-
pondem que não sabem.
A Figura 6.7, apresenta uma síntese da simulação. Foi escolhido o
6.4 Simulação da Temperatura e do Caimento 60
valor 2 para a temperatura. Este valor apresenta uma grande diferença
em relação à quantidade de níveis visitados apesar da pequena quantidade
de reforços. A quantidade de reforços disponíveis para o algoritmo depende
da quantidade de contextos do curso, neste experimento quinze contextos e no
máximo 75 reforços.
Figura 6.7: Média de níveis visitados: simulação (1000
interações) para a temperatura de 1 a 15 com
caimento de 1%.
6.4.3 Escolha do caimento
O caimento da temperatura também foi determinado utilizando simu-
lações. A quantidade de interações do algoritmo, para um curso de quinze
contextos e cinco níveis, é de 30 no mínimo e 75 no máximo. Como o valor
da temperatura inicial é baixo, o caimento proporcionará uma pequena alte-
ração no comportamento do algoritmo. A Figura 6.8 apresenta a quantidade
de níveis visitados por contexto com temperatura fixa de dois e com quatro
diferentes valores para o caimento.
6.5 Avaliação do Desempenho do Aluno 61
Figura 6.8: Simulação (1000 interações) com a tempera-
tura 2 onde o aluno erra todos os exercícios.
6.5 Avaliação do Desempenho do Aluno
O aluno foi avaliado no pré-teste e no teste final com uma questão
para cada contexto. São 15 questões para cada teste cobrindo todo o conheci-
mento abordado. O ganho normalizado, foi calculado utilizando-se os valores
da Tabela 6.2 para cada grau de acerto. Estes valores foram adotados por
[Melo et al. 2005] e [Meireles et al. 2005] e são utilizadas neste trabalho para
permitir comparações entre as notas obtidas pelos alunos nos três sistemas.
Tabela 6.2: Definição da pontuação no pré-teste e no teste
final.
grau de acerto pontuação
correto 5,0
incorreto 0,0
parcialmente correto 1,0
não sabe 0,0
6.6 Sistema Tutor Livre 62
6.6 Sistema Tutor Livre
Para avaliar o Sistema Tutor Inteligente, são necessários valores
de referência. Com este objetivo, foi desenvolvido o Sistema Tutor Livre
(STL). Nele, o próprio aluno determina o plano de curso. A estratégia
pedagógica e as restrições de navegação impostas são as da tutoria inteligente.
Porém, o aluno é livre para escolher qual o próximo nível a ser visitado
e quando avançar para o próximo contexto. Após a mensagem informando
o grau de acerto de cada exercício, um menu com as opções de navegação
(possíveis níveis ou próximo contexto) é disponibilizado.
A avaliação do tutor inteligente pode ser realizada comparando seu
desempenho (ganho normalizado, tempo, etc.) com o obtido no tutor livre.
É necessário, antes de qualquer afirmação, aplicar o teste estatístico t para
garantir que os alunos submetidos a ambos os tutores possuam conhecimento
inicial equivalente sobre o conteúdo.
6.7 Implementação Dos Sistemas Tutores Li-
vre e Inteligente
Os tutores livre e inteligente foram implementados em uma única es-
trutura modular. Dois módulos, interface e framework, fornecem uma es-
trutura básica para o funcionamento do ambiente. Outro módulo, o de tuto-
rial, é responsável exclusivamente pela navegação pelos níveis e contextos.
Esta estrutura permite a troca do mecanismo de tomada de decisão (e
de navegação) simplesmente pela substituição do módulo de tutoria. As in-
formações são armazenadas em um Sistema Gerenciador de Banco de Dados
(SGDB). Segue a descrição e responsabilidade de cada módulo:
O módulo de interface com o usuário é responsável pela interação
do sistema com o usuário. Ele apresenta o conteúdo e os exercícios dos
níveis, as questões do pré-teste e do teste final, os avisos ao usuário, os
menus e telas. Quando necessário, esse módulo também encaminha as
interações do usuário ao módulo tutor.
A base de dados é responsável por persistir
4
todas as informações está-
ticas e dinâmicas incluindo o cadastro dos alunos, os cursos disponíveis,
4
Persistir é um termo da computação que abrange todas as rotinas de inclusão, alteração,
exlusão e pesquisa de informações em memória, arquivo ou qualquer outro meio de armaze-
namento.
6.8 Seleção das Variáveis Coletadas 63
os textos de nível, as imagens, as respostas dos exercícios ou questões
dos testes, estados e parâmetros do algoritmo de aprendizado por re-
forço, etc. É utilizado um Sistema Gerenciador de Banco de Dados para
guardar e organizar essas informações.
O módulo framework fornece um conjunto de rotinas para manipular
as informações armazenadas na base de dados, montar a interface com
o usuário, controlar a sessão
5
, controlar e registrar o acesso ao sistema
ambiente de aprendizado, etc.
O módulo de tutoria é responsável por fornecer mecanismos de nave-
gação entre os contextos e níveis do sistema. Foram desenvolvidos dois
módulos, o de tutoria livre e o de tutoria inteligente.
A implementação modular possibilita a avaliação de outras técnicas
de instrução assistida necessitando apenas de um novo módulo de tutoria. A
Figura 6.9 apresenta a integração dos módulos.
Figura 6.9: Arquitetura do Sistema Proposto.
6.8 Seleção das Variáveis Coletadas
A quantidade de variáveis envolvidas no processo de ensino-
aprendizagem utilizando ferramentas computacionais é grande. Elas podem
estar relacionadas ao custo computacional, a tomada de decisão da técnica de
IA utilizada para personalização do ensino, a questões psicológicas, sobre a
interatividade do aprendiz, etc. Como o objetivo deste trabalho é a validação
do Aprendizado por Reforço como uma técnica para personalização do ensino,
apenas as variáveis necessárias serão coletadas. Essas variáveis limitam-se
ao desempenho dos alunos no STI e no STL (em relação as notas, ganho de
conhecimento e tempo de estudo), sendo elas:
5
Com o controle da sessão, é possível registrar o que o usuário faz e diante de algum
problema restaurar sua navegação no curso de onde parou.
6.9 Critérios para a Adoção das Amostras Coletadas 64
A data e a hora em que os níveis de cada contexto é visualizados;
A data e a hora em que as ou questões dos testes ou os exercícios de
níveis são respondidos;
As notas em cada questão do teste inicial e final;
A nota de cada exercício dos níveis visitados;
As escolhas para transição de nível e contexto realizadas pelos dos
alunos no STL;
As ações escolhidas pelo método softmax para as transições de nível e
contexto no STI;
A quantidade de níveis visitados em cada contexto;
A nota no pré-teste e no teste final;
O ganho absoluto;
O ganho normalizado;
Intervalo de tempo de uso do sistema para completar o curso.
6.9 Critérios para a Adoção das Amostras Co-
letadas
Um teste piloto foi realizado com 7 pessoas para verificar o correto
funcionamento do ambiente de aprendizado. Foram identificados distúrbios
provocados pelo comportamento do usuário. Essas interferências podem pre-
judicar os resultados desta investigação. Foram estabelecidos alguns critérios,
na tutoria livre e inteligente, para o aproveitamento da coleta, sendo eles:
1. O aluno deve concluir todo curso (visitar todos os contextos e respon-
der completamente o pré-teste e o teste final).
2. A nota inicial deve ser inferior a 7,5 pois o maior objetivo dessas fer-
ramentas de ensino são os alunos que possuem quantidade significativa
de conteúdo a ser aprendido.
3. O aluno não pode visitar um mesmo nível de um contexto duas
vezes. Este comportamento pode ser provocado por um erro da rede de
computadores obrigando o usuário a recarregar a página ou pelo uso da
função voltar do browser.
6.10 Coleta de Dados 65
4. O aluno não pode responder mais de uma vez a uma mesma ques-
tão. No ambiente Web, o aluno pode tentar manipular sua nota utili-
zando a função (ou botão) voltar do browser e responder uma pergunta
que ele acabou de errar.
6.10 Coleta de Dados
No total, cento e vinte e quatro alunos foram submetidos à tutoria li-
vre e inteligente. Destes, vinte e seis não concluíram todas as etapas do curso,
nove apresentaram distúrbios durante a coleta e oitenta e nove concluiram
corretamente. Apenas cinqüenta e sete alunos atenderam ao quarto item dos
critérios de seleção e foram utilizados nas avaliações da tutoria inteligente. A
Tabela 6.3 sumariza a coletas de dados para ambos os sistemas tutores.
Tabela 6.3: Número de coletas (quantidade de alunos)
para os módulos livre e inteligente.
STI STL Total
Coletado 75 49 124
Não concluiu o curso 14 12 26
Completou com erro 6 3 9
Completou todo o curso 55 34 89
Completou todo o curso nota abaixo de 7,5 32 25 57
A quantidade de coletas válidas paras ambos os sistemas tutores é
proporcional. Este é um indício de boa representatividade das duas amostras.
6.11 Análise dos Resultados
6.11.1 Análise Descritiva
Como pode ser observado na Tabela 6.4, a nota inicial no STI e
no STL estão próximas e um pouco acima da média tradicional de
aprovação, cinco pontos. Na mesma tabela, pode-se verificar que a nota final
obtida na tutoria inteligente foi superior a tutoria livre.
No ganho absoluto, conforme a Tabela 6.5, a tutoria inteligente ofere-
ceu maiores valores para a retenção de conhecimento e o ganho normalizado,
foi mais homogêneo.
6.11 Análise dos Resultados 66
Tabela 6.4: Estatísticas das notas nas tutorias livre e in-
teligente.
nota inicial nota final
STI STL STI STL
média 5,65 5,83 8,04 7,01
desvio padrão 1,32 1,43 1,43 1,65
Tabela 6.5: Estatísticas dos ganhos absoluto e normali-
zado na tutoria livre e inteligente.
ganho absoluto ganho normalizado
STI STL STI STL
média 51,22 26,28 52,61 23,32
desvio padrão 50,75 44,44 34,16 41,63
Os dados coletados por MELO e MEIRELES foram realizadas com o
mesmo público: alunos do primeiro ano de cursos de graduação em computa-
ção. Em ambos os trabalhos, a coleta foi realizada na modalidade de tutoria
livre e inteligente [Melo et al. 2005, Meireles et al. 2005]. As informações so-
bre as notas inicial e final e sobre o ganho obtido nessas duas pesquisas são
resumidas nas Tabelas 6.6 e 6.7.
Tabela 6.6: Estatísticas do STL e do STI baseado nas ca-
racterísticas psicológicas - Adaptado da Ta-
bela 2, página 92 [Melo et al. 2005].
item nota inicial nota final ganho norm.
STI STL STI STL STI STL
média 3,92 4,56 7,21 6,87 58,02 39,59
desvio padrão 2,21 1,78 1,83 1,66 25,79 32,87
Tabela 6.7: Estatísticas do STL e do STI baseado no es-
tilo de aprendizagem - Adaptado da Tabela 2,
página 89 [Meireles et al. 2005].
item nota inicial nota final ganho norm.
STI STL STI STL STI STL
média 3,72 4,56 7,29 6,87 57,76 39,59
desvio padrão 2,35 1,78 1,81 1,66 26,63 32,87
6.11 Análise dos Resultados 67
Ao comparar a nota inicial (nas tutorias livre e inteligente) obtida
pelos aluno no sistema proposto com o sistema baseado nas característi-
cas psicológicas [Melo et al. 2005] e o baseado no perfíl de aprendizagem
[Meireles et al. 2005], pode-se verificar um aumento significativo. Como o
curso utilizado nos três sistemas foi o mesmo, podemos levantar questiona-
mentos sobre:
Maior alcance da informática na sociedade;
Melhoria na qualidade dos cursos superiores;
Inserção de computadores em escolas de primeiro e segundo graus.
O ganho normalizado do sistema proposto neste trabalho é, respec-
tivamente 9,32% e 9,78%, menor do que o obtido por MELO e MEIRELES
[Melo et al. 2005, Meireles et al. 2005]. Porém, a diferença no ganho normali-
zado entre o STI e o STL no sistema proposto é maior. A diferença entre o
aprendizado guiado e o livre é respectivamente 62,92% e 62,03% supe-
rior aos trabalhos de MELO e MEIRELES.
Tabela 6.8: Diferença no ganho do STI e STL obtida nos
sistemas de MELO, MEIREIRES e o sistema
proposto.
diferença no ganho normalizado
sistema proposto 29,29
sistema baseado nas características psi-
cológicas [Melo et al. 2005]
18,43
sistema baseado no perfil de aprendiza-
gem [Meireles et al. 2005]
18,17
Pode-se verificar na Figura 6.10 que a quantidade média de níveis
visitados por contexto é, na tutoria inteligente, em média um nível a menos
que na tutoria livre.
A quantidade de escolhas de opções incorretas nos exercícios foi menor
na tutoria inteligente. A quantidade de erros cometidos pelos alunos ao usar
o tutor inteligente é 3,27% inferior ao apresentado no tutor livre. A Figura
6.11 apresenta a porcentagem de erros cometidos por contexto nos módulos
livre e inteligente.
6.11 Análise dos Resultados 68
Figura 6.10: Quantidade de níveis visitados no módulo
livre e no módulo inteligente.
Figura 6.11: Porcentagem de erros por contexto nos módu-
los livre e inteligente.
Em uma escala de zero a dez, a nota final obtida no módulo inteli-
gente é, se os erros são descontados, aproximadamente um ponto. Quando os
erros são descontados, a média é reduzida para sessenta e sete décimos. É
importante ressaltar que para efeitos comparativos com os outros sistemas,
os alunos não são penalizados pelos erros. A Figura 6.12 permite uma compa-
ração visual das notas na tutoria livre e inteligente com e sem desconto dos
erros.
6.11 Análise dos Resultados 69
Figura 6.12: Média da nota por contexto no módulo livre
e inteligente (com e sem desconto).
E importante ressaltar que a nota e o ganho obtido no tutor
inteligente é, além de superior, obtida com uma quantidade menor
de visita aos níveis disponíveis. A Tabela 6.9 apresenta a quantidade
de níveis visitados, a nota final sem desconto, a nota final com desconto e
a porcentagem de erros para cada contexto do curso.
6.11.2 Análise inferencial
O objetivo da análise inferencial apresentada neste tópico é comparar
o desempenho obtido pelos alunos na tutoria livre e inteligente utilizando
ferramentas de estatística inferencial. Essa análise permite afirmar se o
sistema proposto é, com uma determinada significância, responsável pela
melhoria na retenção de conhecimento obtida aluno. Em caráter secundário,
são realizadas inferências sobre a quantidade de níveis visitados e o tempo
gasto no processo ensino-aprendizagem.
6.11 Análise dos Resultados 70
Tabela 6.9: Resumo da quantidade de níveis visitados por
contexto, nota final obtida e porcentagem de
erros nos exercícios.
Níveis Nota média Nota média Porcentagem
visitados com desconto sem desconto média de erros
Contexto STI STL STI STL STI STL STI STL
1 3,50 4,60 7,76 7,04 8,55 8,00 8,04 10,43
2 3,31 4,48 7,24 5,34 8,09 6,77 8,49 14,29
3 3,72 4,40 7,28 6,56 8,20 7,84 9,24 12,73
4 3,13 4,48 7,16 6,52 8,58 8,04 11,00 15,18
5 3,25 4,44 8,38 6,56 8,37 7,37 0,00 8,11
6 3,53 4,48 8,02 7,04 8,37 7,84 3,54 8,04
7 3,03 4,52 7,24 7,06 7,77 7,50 5,15 6,19
8 3,41 4,64 7,22 6,74 7,69 7,12 7,34 5,17
9 3,78 4,52 6,04 5,61 7,11 6,30 8,26 7,08
10 3,31 4,56 5,44 5,11 6,36 6,11 8,39 9,65
11 3,22 4,52 7,64 5,76 7,83 7,17 4,85 14,16
12 3,31 4,64 8,06 6,38 8,15 7,14 0,94 7,76
13 3,19 4,56 7,42 6,16 8,18 7,05 7,78 11,4
14 3,09 4,64 8,14 7,78 8,44 8,22 4,04 6,03
15 3,38 4,56 7,15 6,09 7,80 7,05 6,48 9,65
média 3,34 4,54 7,34 6,38 7,97 7,30 6,25 9,72
desvio padrão 0,22 0,07 0,78 0,13 0,59 0,72 3,11 3,23
variância 0,05 0,01 0,60 0,36 0,35 0,52 9,66 10,41
Nota Inicial
Comparando a nota inicial obtida pelos alunos no módulo livre e
no módulo inteligente pode-se considerar segundo o teste t
6
considerando
variâncias diferentes que a diferença nas duas amostras é casual (aleató-
ria) com nível de significância de 5%. A hipótese nula é de igualdade para
a média da nota inicial nos dois tipos de tutoria enquanto a hipótese al-
ternativa é desigualdade. Conforme descrito na Tabela 6.10 a estatística
t observada, com valor -0,49, está fora da região crítica delimitada pelo t
crítico bi-caudal com nível de significância de 5%, iniciando em -1,68 e termi-
nando em +1,68.
O fortalecimento da hipótese de igualdade entre as médias da nota
inicial permite afirmar que os alunos nas duas amostras possuem co-
nhecimento prévio semelhante do conteúdo (são amostras de uma mesma
6
O teste t de Student é uma ferramenta estatística para a comparação da média para
amostras pareadas ou não pareadas.
6.11 Análise dos Resultados 71
Tabela 6.10: Teste t - nota inicial presumindo variâncias
diferentes.
STI STL
Média 5,65 5,83
Variância 1,74 2,05
Observações 32 25
Hipótese da diferença de média 0
gl 50
Stat t -0,49
P(Tt) bi-caudal 63%
t crítico bi-caudal 2,01
população). Pode-se, então, comparar o desempenho dos sistemas em relação
a retenção de conhecimento, tempo utilizado e quantidade de níveis visitados.
Ganho normalizado
A principal hipótese que este trabalho verifica é se a retenção de
conhecimento (ganho normalizado) é superior quando o aluno utiliza a tutoria
inteligente. Utilizando-se a média do ganho normalizado obtido nos dois
tutores, a hipótese nula é semelhança no ganho normalizado obtido
pelos alunos nos tutores (igualdade) e a hipótese alternativa é que o
ganho normalizado no tutor inteligente é superior. Como mostrado na
Tabela 6.11, a estatística t observada, com valor 2,85, está dentro da região
crítica que é determinada pelo t crítico uni-caudal a esquerda com nível
de significância de 5% e com valor +1,68. A hipótese nula foi rejeitada
em favorecimento à hipótese de que a retenção de conhecimento no
módulo inteligente é superior.
Quantidade de níveis visitados
Uma hipótese secundária neste trabalho é que o aluno necessita visi-
tar uma quantidade menor de níveis no tutor inteligente. Utilizando a média
de níveis visitados em cada contexto, a hipótese nula é que a quantidade
de níveis visitados no tutor inteligente e livre são iguais e a hipótese
alternativa é que a quantidade de níveis visitados no módulo inte-
ligente é inferior. Pode-se verificar na Tabela 6.12 que a estatística t ob-
servada, com valor -20,19, está dentro da região crítica determinada pelo t
crítico uni-caudal a esquerda, com nível de significância de 5% e iniciando-se
6.11 Análise dos Resultados 72
Tabela 6.11: Teste t - ganho normalizado presumindo va-
riâncias diferentes.
STI STL
Média 52,61 23,32
Variância 1166,92 1733,1
Observações 32 25
Hipótese da diferença de média 0
gl 46
Stat t 2,85
P(Tt) uni-caudal 0%
t crítico uni-caudal 1,68
em -1,74 . A hipótese nula é rejeitada em favor do fortalecimento da hipó-
tese de que a quantidade de níveis visitados utilizando-se o módulo
inteligente é menor.
Tabela 6.12: Teste t - quantidade de níveis visitados por
contexto presumindo variâncias diferentes.
STI STL
Média 3,34 4,54
Variância 0,05 0,01
Observações 15 15
Hipótese da diferença de média 0
gl 17
Stat t -20,19
P(Tt) uni-caudal 0%
t crítico uni-caudal 1,74
Tempo necessário para visitar todos os contextos
Outra hipótese secundária deste trabalho é a redução no tempo neces-
sário para visitar todos os contextos ao utilizar o módulo inteligente. Nesta
comparação, utilizando-se a média de tempo, são desconsiderados o pré-teste e
o teste final. A hipótese nula é que o tempo para visitar todos os contex-
tos na tutoria inteligente e livre são iguais e a hipótese alternativa é
que o tempo necessário ao utilizar o módulo inteligente é menor. Pode-
se verificar na Tabela 6.13 que a estatística t observada, com valor -0,6919,
está fora da região crítica determinada pelo t crítico uni-caudal a esquerda,
com nível de significância de 5% e valor -1,6772. A hipótese nula é fortalecida
6.12 Conclusão 73
e não pode-se afirmar que o tempo utilizado no módulo inteligente é
menor.
Tabela 6.13: Teste t - tempo necessário para visitar todos
os contextos por contexto presumindo variân-
cias diferentes.
STI STL
Média 63,09 70,48
Variância 1348,41 1795,54
Observações 32 25
Hipótese da diferença de média 0
gl 48
Stat t -0,6919
P(Tt) uni-caudal 25%
t crítico uni-caudal 1,677224
Nota no teste final
Os alunos que utilizaram o tutor inteligente obtiveram em média,
nota final com valores superiores ao obtido no tutor livre em 10%. Para con-
firmar esta diferença, a hipótese de que o tutor inteligente possibilita nota
final superior é testada estabelecendo-se que a hipótese nula é de igual-
dade na média da nota final em ambos os tutores enquanto a hipótese
alternativa é que a média no tutor inteligente é maior. A estatística t
observada, com valor 2,48, está dentro da região crítica determinada pelo t
crítico uni-caudal a direita, com nível de significância de 5% e valor +1,68.
A hipótese nula é rejeitada em favor do fortalecimento de que a nota final
obtida no tutor inteligente é superior.
6.12 Conclusão
Este capítulo apresentou a simulação, implementação e coleta de
dados do sistema de tutoria inteligente. Um sistema de tutoria livre também
foi implementado e submetido a coleta de dados para ser utilizado como
referência do desempenho do tutor inteligente. Foram descritos o material
pedagógico utilizado, o valor atribuido a cada grau de acerto nas questões
objetivas e o retorno utilizado no algoritmo. Os mesmos valores para o retorno,
a temperatura e o caimento foram aplicados na coleta de dados da tutoria
livre e inteligente. Essas coletas foram realizada com alunos de graduação
6.12 Conclusão 74
Tabela 6.14: Teste t - média de nota por nível visitado
presumindo variâncias diferentes.
STI STL
Média 8,03 7,01
Variância 2,04 2,72
Observações 32 25
Hipótese da diferença de média 0
gl 48
Stat t 2,48
P(Tt) uni-caudal 1%
t crítico uni-caudal 1,68
em cursos de Computação. Os dados coletados em ambos os tutores foram
apresentados utilizando a estatística descritiva e posteriormente comparados
utilizando o teste t de Student (estatística inferencial). A solução proposta
também foi comparada com outras soluções baseadas em Redes Neurais
Artificiais.
CAPÍTULO 7
Conclusão
Este trabalho apresentou o desenvolvimento de dois sistemas tutores:
o Sistema Tutor Inteligente baseado em Aprendizado por Reforço e o
Sistema Tutor Livre. Ambos utilizam a mesma estratégia pedagógica, são
implementados com a mesma estrutura modular e a interface com o usuário
é baseada no ambiente web.
A estratégia pedagógica divide o curso em vários contextos e
cada um com cinco níveis. Cada contexto apresenta um fato, procedimento,
princípio ou conceito a ser aprendido. A cada nível de um contexto, o aluno
responde a um exercício de múltipla escolha. No mínimo dois níveis devem
ser visitados para avançar para o próximo contexto. Os alunos não podem
visualizar um contexto ou responder a um exercício duas vezes.
Na tutoria inteligente, o aluno é guiado automaticamente pelos
níveis e contextos. A escolha de qual nível deve ser visitado ou quando avançar
para o próximo contexto é realizada pelo método de Aprendizado por Reforço
softmax e pelo histório de navegação do aluno. As respostas dos exercícios de
cada nível são utilizadas como histórico de navegação e os graus de acerto
são convertidos em reforços para o algoritmo. No tutor inteligente, é o
algoritmo que decide dinamicamente o plano de curso do aluno.
Na tutoria livre, o aluno escolhe qual o próximo nível visitar e
quando avançar para o próximo contexto. Nessa tutoria, é o próprio aluno
decide seu plano de curso. O desempenho dos alunos na tutoria livre é
utilizado como referência para determinar se o tutor inteligente proporciona
maior retenção de conhecimento.
No experimento, os alunos foram submetidos a um curso de Introdu-
ção a Informática com quinze contextos na tutoria livre e inteligente. Antes
de visitar o primeiro contexto, os alunos responderam a um pré-teste que
avalia o conhecimento prévio sobre o conteúdo. Após a navegação em todos os
contextos do curso, os alunos responderam a um teste final. Utilizando-se as
notas obtidas nestas avaliações, o ganho de conhecimento é calculado pela
7.1 Principais Contribuições 76
fórmula do Ganho Normalizado. Este mecanismo permite calcular o quanto
o aluno aprendeu em relação ao que ele ainda poderia aprender.
Utilizando-se basicamente o teste t de Student presumindo variân-
cias diferentes, o dois sistemas foram comparados em relação a quantidade de
níveis visitados, tempo de navegação e retenção (ganho) de conhecimento. Em
todas as inferências, o nível de significância utilizado foi de 5%.
A principal hipótese corroborada neste trabalho é que os alunos
obtém maior retenção de conhecimento ao utilizar a tutoria inteli-
gente. O ganho normalizado foi utilizado para calcular o ganho de conheci-
mento de cada aluno. Este mecanismo avalia o quanto o aluno aprendeu em
relação ao conhecimento que ele ainda pode aprender. Ao mesmo tempo em
que o ganho de conhecimento é maior, foi fortalecida a hipótese que, na tu-
toria inteligente, é menor a quantidade necessária de visitas (para
aprendizado) aos níveis disponíveis. Porém, constou-se que o tempo ne-
cessário para visitar todos os contextos do curso no tutor inteligente
e livre são semelhantes.
7.1 Principais Contribuições
Os sistemas tutores apresentados por MELO e MEIRELES uti-
lizam Redes Neurais Artificiais para guiar o aluno [Melo et al. 2005,
Meireles et al. 2005]. Nesses tutores, são utilizados resultados dos testes
de perfil psicológico e de estilo de aprendizagem com parte do mecanismo
de individualização. A principal contribuição deste trabalho é a eliminação
desses longos questionários, guiando o aluno basicamente pelo seu histó-
rico (comportamento) durante o processo de ensino-aprendizagem. Outras
contribuições foram obtidas, sendo elas:
Avaliação empírica do uso do método softmax no tutor inteligente
utilizando-se o modelo básico da estratégia pedagógica e com sustenta-
ção estatística;
Construção de um sistema tutor modular que possibilita futuras imple-
mentações de STI com outras técnicas de Inteligência Artificial reapro-
veitando toda a estrutura para armazenar dados, interface de usuário,
etc.
Construção de três modelos para a representar a estratégia pedagógica
que podem ser utilizados em diferentes técnicas de aprendizado por
reforço;
7.2 Sugestões para trabalhos futuros 77
Migração do curso de Introdução a Informática, desenvolvido pelo Grupo
Pireneus utilizando-se técnicas de Instrução Programada, para um Sis-
tema Gerenciador de Banco de Dados (incluindo texto, figuras, exercícios
e testes).
7.2 Sugestões para trabalhos futuros
Seguem algumas sugestões para trabalhos futuros como continuação
da pesquisa apresentada nesta dissertação ou para o desenvolvimento de
novas pesquisas em Sistemas Tutores Inteligentes:
1. Avaliar o comportamento do aprendizado quando for oferecida uma
segunda chance ao aluno para responder a um exercício que ele acabou
de errar completamente ou parcialmente;
2. Implementar o tutor inteligente utilizando representações mais comple-
xas da estratégia pedagógica aplicada nesta solução e outros métodos de
Aprendizado por Reforço;
3. Verificar e corrigir as incoerências da tutoria inteligente nesta imple-
mentação (por exemplo guiar o aluno para o nível avançado quando ele
errou o intermediário);
4. Verificar se o histórico de navegação pode ser utilizado, nesta implemen-
tação com o softmax, como conhecimento inicial para curso com afinida-
des (por exemplo, que possuem pré-requisito);
5. Verificar a aplicação de técnicas de Aprendizado por Reforço em outras
estratégias pedagógicas.
6. Integrar o resultado de testes psicológicos com a ténica de Aprendizado
por Reforço.
Referências Bibliográficas
[Alencar 2000] ALENCAR, W. S. Sistemas Tutores Inteligentes Baseados em
Redes Neurais. [S.l.]: Dissertação de mestrado - Universidade Federal de
Goiás, Escola de Engenharia Elétrica e de Computação, Goiás, Brasil,
2000.
[Baldoni, Baroglio e Patti 2004] BALDONI, M.; BAROGLIO, C.; PATTI, V. Web-
Based Adaptative Tutoring: An Approach Based on Logic Agents and
Reasoning about Actions. [S.l.]: Università degli Studi di Torino, Itália, 2004.
[Belloni 1999] BELLONI, M. L. Educação a distância. Campinas, SP, Brasil:
Autores Associados, 1999. ISBN 8585101773.
[Bennane 2002] BENNANE, A. An approach of reinforcement learning use
in tutoring systems. Lecture Notes in Computer Science, Springer, Berlin,
Heidelberg, Alemanha, v. 2363/2002, p. 775–782, 2002.
[Bolzan e Giraffa 2002] BOLZAN, W.; GIRAFFA, L. M. M. Estudo comparativo
sobre Sistemas Tutores Inteligentes Multiagentes. [S.l.]: Technical Report
Series, Number 024. Faculdade de Informática, PUCRS, Brasil, 2002.
[Cardoso et al. 2004] CARDOSO, J. et al. MATHTUTOR: A Multi-Agent Intel-
ligent Tutoring System. [S.l.]: IAIA-IFIP 2004 International Conference on
Artificial Intelligence Applications and Innovations, IFIP World Computer
Congress, Toulouse - Fran?a, 2004.
[Dayan e Hinton 1993] DAYAN, P.; HINTON, G. Feudal reinforcement lear-
ning. Advances in Neural Information Processing Systems, Morgan Kauf-
mann, San Francisco, CA, EUA, v. 5, p. 71–278, 1993.
[Frigo, Pozzebon e Bittencourt 2004] FRIGO, L. B.; POZZEBON, E.; BITTEN-
COURT, G. O Papel dos Agentes Inteligentes nos Sistemas Tutores Inteli-
gentes. [S.l.]: World Congress on Engineering and Technology Education,
São Paulo, Brasil, 2004.
Referências Bibliográficas 79
[Graig et al. 2007] GRAIG, S. D. et al. The Tutoring Research Group. De-
partment of Psychology, The University of Memphis, TN 38152, EUA. [S.l.]:
Disponível em http://psyc.memphis.edu/trg/trg.htm, 2007.
[Guelpeli, Ribeiro e Omar 2003] GUELPELI, M. V. C.; RIBEIRO, C. H. C.;
OMAR, N. Utilização de Aprendizado por Reforço para Modelagem
Autônoma de Aprendiz em um Tutor Inteligente. [S.l.]: XIV Simpósio Brasi-
leiro de Informática na Educação - UFRJ, Brasil, 2003.
[Haykin 1998] HAYKIN, S. Neural Networks: A Comprehensive Foundation.
Upper Saddle River, NJ, EUA: Prentice Hall PTR, 1998. ISBN 0132733501.
[Kaelbling, Littman e Moore 1996] KAELBLING, L. P.; LITTMAN, M. L.; MOORE,
A. W. Reinforcemente Learning: A Survey. [S.l.]: Journal of Artificial Intelli-
gence Research, 1996.
[Kasabov 1996] KASABOV, N. K. Foundations of Neural Networks, Fuzzy Sys-
tems, and Knowledge Engineering. Cambridge, Massachusetts. London,
England.: MIT Press, 1996. ISBN 0262112124.
[Lakdawala et al. 2002] LAKDAWALA, V. K. et al. An instrument for assessing
knowledge gain in a first course in circuit theory. Department of Electrical
and Computer Engineering. Old Dominion University, EUA, 2002.
[Martins e Carvalho 2004] MARTINS, W.; CARVALHO, S. D. de. An intelligent
tutoring system based on self-organizing maps. Lecture Notes on Com-
puter Science, v. 3220, p. 573–579, 2004.
[Martins et al. 2004] MARTINS, W. et al. A novel hybrid intelligent tutoring
system and its use of psychological profiles and learning styles. Lecture
Notes on Computer Science, v. 3220, p. 830–832, 2004.
[Meireles et al. 2005] MEIRELES, V. et al. Análise de funcionalidade da rede
neural artificial em sistemas tutores inteligentes baseados em estilos de
aprendizagem. Anais do VII Congresso Brasileiro de Redes Neurais, Natal,
RN, Brasil, p. 452–457, 2005.
[Melo et al. 2005] MELO, F. R. et al. Rede neural artificial em sistemas tutores
inteligentes híbridos baseados em tipologia psicológica - implementa-
ção e análise empírica. Anais do VII Congresso Brasileiro de Redes Neu-
rais, Natal, RN, Brasil, p. 411–416, 2005.
Referências Bibliográficas 80
[Mitchell 1997] MITCHELL, T. M. Machine Learning. [S.l.]: McGraw-Hill, EUA,
1997. ISBN 0070428077.
[Peres e Meira 2003] PERES, F.; MEIRA, L. Avaliação de software educacio-
nal centrado no diálogo: interface, colaboração e conceitos científicos.
[S.l.]: Universidade Federal de Pernanbuco, Departamento de Psicolo-
gia, Brasil, 2003.
[Prentzas e Hatzilygeroudis 2002] PRENTZAS, J.; HATZILYGEROUDIS, I. Intel-
ligente educational systems for individualized learning. Workshop on
Computer Science and Information Technologies CSIT2002, Patras, Gré-
cia, 2002.
[Russell e Norvig 1995] RUSSELL, S. J.; NORVIG, P. Artificial intelligence: a
modern approach. Upper Saddle River, NJ, EUA: Prentice-Hall, Inc., 1995.
ISBN 0131038052.
[Skinner 1972] SKINNER, B. F. Tecnologia do ensino. [S.l.]: Editora da Univer-
sidade de São Paulo. São Paulo, Brasil, 1972.
[Sutton e Barto 1998] SUTTON, R. S.; BARTO, A. G. Reinforcemente learning:
an introduction. [S.l.]: MIT Press, Cambridge, Massachusetts, EUA, 1998.
ISBN 0262193981.
[Sykes e Franek 2004] SYKES, E. R.; FRANEK, F. A Prototype for an Intelligent
Tutoring System for Students Learning to Program in Java. [S.l.]: IEEE
International Conference on Advanced Learning Technologies, Joensuu,
Finlândia, 2004.
[Zeferino, Rapkiewicz e Morales 2004] ZEFERINO, L. H.; RAPKIEWICZ, C. E.;
MORALES, G. Um Assitenten Inteligente para o Ensino das Seções Côni-
cas. [S.l.]: Lab. de Engenharia de Produção, Universidade Estadual do
Norte Fluminense, Rio de Janeiro, Brasil, 2004.
APÊNDICE A
Outros modelos desenvolvidos
A.1 Modelo intermediário
No modelo intermediário, são considerados no histórico de na-
vegação, as informações de transições do aluno: o contexto , o nível de
origem, sua resposta ao exercício no nível atual e para qual o nível ele foi gui-
ado. Ao contrário do modelo básico, o sistema pode, além de avaliar as opções
possíveis, considerar no processo, a transição de um nível para outro (p. ex.
navegar do nível intermediário para o avançado). Na Figura A.1 podemos ver
a representação das imformações utilizadas neste modelo.
Figura A.1: Modelo intermediário da estratégia pedagó-
gica para as técnicas de RL.
A.2 Modelo completo
No modelo mais completo, o sistema pode considerar todas as op-
ções de planos de curso a partir do estado atual. A ação pode ser esco-
lhida utilizando seu valor calculado pelo retorno (acúmulo de rescompensas
esperadas a partir do estado autual e escolhendo uma ação). No histórico de
navegação, deve ser considerado o uma seqüencia de transições semelhante ao
A.2 Modelo completo 82
utilizado no modelo intermediário. A Figura A.2 é uma representação parcial
do modelo completo.
Figura A.2: Modelo completo da estratégia pedagógica
para as técnicas de RL.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo