Download PDF
ads:
FUNDAMENTOS E APLICAÇÕES DOS CRITÉRIOS
DE INFORMAÇÃO: AKAIKE E BAYESIANO
PAULO CÉSAR EMILIANO
2009
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
PAULO CÉSAR EMILIANO
FUNDAMENTOS E APLICAÇÕES DOS CRITÉRIOS DE
INFORMAÇÃO: AKAIKE E BAYESIANO
Dissertação apresentada à Universidade Federal de
Lavras como parte das exigências do Programa
de Pós-graduação em Estatística e Experimentação
Agropecuária, para obtenção do título de “Mestre”.
Orientador
Prof. Dr. Mário Javier Ferrua Vivanco
Co-orientador
Prof. Dr. Fortunato Silva de Menezes
LAVRAS
MINAS GERAIS-BRASIL
2009
ads:
Emiliano, Paulo César.
Fundamentos e aplicações dos critérios de informação: Akaike e
Bayesiano / Paulo César Emiliano. – Lavras : UFLA, 2009.
92 p. : il.
Dissertação (Mestrado) – Universidade Federal de Lavras, 2009.
Orientador: Mário Javier Ferrua Vivanco.
Bibliografia.
1. Critério de Informação de Akaike. 2. Entropia . 3. Critério de
Informação de Schwarz. 4. Informação de Kullback-Leibler 5.
Seleção de Modelos. I. Universidade Federal de Lavras. II. Título.
CDD – 536.73
Ficha Catalográfica Preparada pela Divisão de Processos Técnicos da
Biblioteca Central da UFLA
PAULO CÉSAR EMILIANO
FUNDAMENTOS E APLICAÇÕES DOS CRITÉRIOS DE
INFORMAÇÃO: AKAIKE E BAYESIANO
Dissertação apresentada à Universidade Federal de
Lavras, como parte das exigências do Programa
de Pós-graduação em Estatística e Experimentação
Agropecuária, para obtenção do título de “Mestre”.
APROVADA em 19 de fevereiro de 2009.
Prof. Dr. Fortunato Silva de Menezes UFLA
Prof. Dr. Marcelo Angelo Cirillo UFLA
Prof. Dr. Telde Natel Custódio UFSJ
Prof. Dr. Mário Javier Ferrua Vivanco
UFLA
(Orientador)
LAVRAS
MINAS GERAIS - BRASIL
Aos meus pais, Francisco e Alzira ,
que souberam conduzir com
muita sabedoria a minha
formação.
" If you have an apple and I have an apple and we exchange apples
then you and I still have one apple.
But if you have an idea and I have an idea and we exchange these ideas,
then each of us will have two ideas."
George Bernard Shaw
AGRADECIMENTOS
Primeiramente a Deus, que deu-me forças em todos os momentos de minha
vida, e a Nossa Senhora Aparecida, que sempre intercede por mim e da qual sou
devoto.
Meus sinceros agradecimentos ao professor Mário Javier Ferrua Vivanco, pela
paciência com que me orientou, disponibilidade em auxiliar-me a qualquer mo-
mento, pelas críticas e sugestões.
Aos meus pais, Francisco e Alzira, pela confiança, compreensão, carinho,
apoio e tudo que sou devo a eles.
Aos meus irmãos Rosemeire e Washington, pelo carinho, compreensão e tor-
cida em todos os momentos.
A todos os colegas de mestrado e doutorado em Estatística, em especial ao
Ed Carlos, Altemir, Ricardo, Augusto, Tânia, Patrícia, Denise, Ana Paula, Isabel,
Hiron, Stephânia e Richardson.
Aos meus professores Hélia, grande amiga e companheira, que ensinou-me a
entender o que aquelas letrinhas significavam quando eu tinha seis anos, e até hoje
eu não esqueci; ao professor William por introduzir-me ao mundo maravilhoso da
matemática, de uma forma que apaixonei-me por ela; à professora Cássia, pelos
freqüentes incentivos que dava à nossa turma acreditando em nós e incentivando-
nos.
A todos da Escola Estadual Santa Tereza, professores, “tias” da cantina, ami-
gos, que foram fundamentais em minha formação.
A todos da Universidade Federal de Viçosa, que de uma forma ou de outra
contribuíram para a realização deste trabalho. Em especial aos professores Olím-
pio, Margareth e Paulo Tadeu, a quem muito admiro e que foi muito importante na
consolidação do meu conhecimento em matemática.
Aos funcionários do Departamento de Ciências Exatas: Edila, Josi, Joyce,
Maria, Selminha e Vânia, pela simpatia e boa vontade no atendimento.
Aos professores do Departamento de Ciências Exatas, pelos ensinamentos
prestados.
À Universidade Federal de Lavras e ao Departamento de Ciências Exatas, pela
oportunidade da realização deste curso.
À FAPEMIG, pela bolsa de estudos, essencial para a realização deste trabalho.
Aos demais que, direta ou indiretamente, contribuíram para a elaboração deste
trabalho.
SUMÁRIO
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . i
LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . ii
RESUMO . . . . . . . . . . . . . . . . . . . . . . . . iii
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . iv
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . 1
2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . 4
2.1 Modelos . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Informação . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 A informação de Kullback-Leibler . . . . . . . . . . . . . 15
2.2.2 Entropia . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2.1 Visão física da entropia . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2.2 Visão estatística da entropia . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 A função de verossimilhança . . . . . . . . . . . . . . . 32
2.2.4 O estimador da função suporte . . . . . . . . . . . . . . 35
3 OS CRITÉRIOS DE INFORMAÇÃO AIC E BIC . . . . . . 39
3.1 Critério de informação de Akaike . . . . . . . . . . . . . 40
3.2 Critério de informação bayesiano . . . . . . . . . . . . . 42
3.3 Algumas considerações acerca do AIC e do BIC . . . . . . . . 49
4 APLICAÇÕES DO AIC E BIC . . . . . . . . . . . . . 51
4.1 Os dados . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Igualdade de médias e / ou de variâncias de distribuições normais. . 51
4.3 Seleção de variáveis em modelos de regressão. . . . . . . . . 60
4.4 Seleção de modelos para os dados M&M e produção de biomassa . 62
4.4.1 Análise dos dados dos pesos de M&M . . . . . . . . . . . 62
4.4.2 Análise dos dados da produção de biomassa na grama de pântano. . 64
5 CONCLUSÕES . . . . . . . . . . . . . . . . . . . 66
6 ESTUDOS FUTUROS. . . . . . . . . . . . . . . . . 67
REFERÊNCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . 68
ANEXOS . . . . . . . . . . . . . . . . . . . . . . . . 70
LISTA DE TABELAS
1 Resultados do estudo da produção aérea de biomassa na grama de
pântano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2 Dados utilizados no estudo de pesos (em gramas) de uma amostra
de confeitos M&M. . . . . . . . . . . . . . . . . . . . . . . . . . 72
3 Dados utilizados no estudo das características que influenciam a
produção aérea de biomassa na grama de pântano. . . . . . . . . . 73
i
LISTA DE FIGURAS
1 Modelo esquemático de um sistema geral de comunicação. . . . . 8
2 Representação gráfica das distribuições Gama(4,4) - linha contí-
nua - e Weibull(2,20) - linha pontilhada . . . . . . . . . . . . . . 29
3 Representação das distribuições Gama(4,4) - linha contínua - e
Lognormal(2,2) - linha pontilhada . . . . . . . . . . . . . . . . . 29
4 Representação gráfica das distribuições Gama(4,4) - linha contí-
nua - e Inversa Gaussiana(16,64) - linha pontilhada . . . . . . . . 29
5 Representação gráfica da distribuição Gama(4,4) - linha contínua
- e da distribuição F(4,10) - linha pontilhada . . . . . . . . . . . . 29
6 Decomposição dos termos do viés. . . . . . . . . . . . . . . . . . 76
ii
RESUMO
Emiliano, Paulo César. Fundamentos e Aplicações dos Critérios de Informa-
ção: Akaike e Bayesiano. 2009. 92p. Dissertação (Mestrado em Estatística e
Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras.
*
Objetivou-se com este estudo apresentar os fundamentos do critério de informação
de Akaike (AIC) e do critério de informação Bayesiano (BIC), amplamente utiliza-
dos na seleção de modelos, e geralmente pouco entendidos. A seleção de modelos
é de vital importância em estudos científicos, devendo portanto estar embasada em
princípios científicos concretos, como a parcimônia. O AIC e o BIC são critérios
que penalizam a verossimilhança, para que um modelo mais parcimonioso seja
selecionado. Estes critérios baseiam-se nos conceitos de informação e entropia,
que são fundamentais para o completo entendimento dos mesmos. Procurou-se
explicar tais conceitos para que o entendimento desses critérios fosse completo.
Também foram dadas duas aplicações do AIC e BIC, em regressão e na seleção
de modelos normais. Os resultados obtidos ao utilizar-se os dois critérios foram
os mesmos para as duas aplicações feitas, e embora os mesmos modelos tenham
sido selecionados, o AIC e o BIC não necessariamente proporcionam os mesmos
resultados.
Palavras-chave: Critério de Informação de Akaike, Entropia, Critério de Informa-
ção de Schwarz, Informação de Kullback-Leibler, Seleção de Modelos.
*
Comitê Orientador: Mário Javier Ferrua Vivanco - UFLA (Orientador), Fortunato Silva de
Menezes (Co-orientador)
iii
ABSTRACT
Emiliano, Paulo César. Fundamentals and Applications Criteria for Infor-
mation: Akaike and Bayesian. 2009. 92p. Dissertation (Master in Statistics and
Agricultural Experimentation ) Federal University of Lavras, Lavras.
*
This study presented the foundations of the Akaike Information Criterion (AIC)
and the Bayesian Information Criterion. (BIC), largely used in the selection of
models, and usually little understood. The selection of models is essential in sci-
entific studies, consequently, it should be based on solid scientific foundations, as
the parsimony. The AIC and BIC are criteria that punish the likelihood, so that
a more parsimonious model is selected. These criteria are based on concepts of
information and entropy, that are fundamental for their complete understanding. It
was tried to explain such concepts in order to make the understanding of these cri-
teria complete and clear. Two applications of AIC and BIC were Also given, both
in regression and in the selection of normal models. The results obtained when
using the two methods were the same for the two done applications. But although
the same models have been selected -AIC and BIC- they do not necessarily provide
the same results.
Key-words: Akaike Information Criterion, Bayesian Information Criterion, En-
tropy, Kullback-Leibler Information, Model Selection.
*
Guindance Committee: Mário Javier Ferrua Vivanco - UFLA. (Adviser), Fortunato Silva de
Menezes - UFLA. (Co-Adviser)
iv
1 INTRODUÇÃO
Muitas pessoas têm o dom da ciência, são cientistas e tentam entender os fenô-
menos que muito intrigam os homens. Porém, a maioria da população não es-
tuda estes fenômenos, seja porque os acha complicados demais ou porque não têm
acesso à informação para entendê-los. Cabe, pois, aos cientistas levar a informação
e explicar os fenômenos a estas pessoas da forma mais simples possível.
Em geral um fenômeno em estudo pode ser explicado através de um modelo.
Os modelos são os principais instrumentos utilizados na estatística. Eles são uma
versão simplificada de algum problema ou situação da vida real e destinam-se a
ilustrar certos aspectos do problema, sem contudo, se ater a todos os detalhes.
Geralmente os fenômenos observados são muito complexos e é impraticável
descrever tudo aquilo que é observado com total exatidão. Dificilmente consegue-
se traduzir em simbologias e fórmulas matemáticas aquilo que é visto com perfeita
exatidão. Se isto for possível, deve-se ao fato do fenômeno ser perfeitamente
conhecido e um modelo determinístico o explica. Um modelo determinístico é
estabelecido quando tudo relacionado ao fenômeno em estudo é conhecido, e por
isso ele é, exatamente o mecanismo de geração dos dados obtidos no estudo.
Mas em situações práticas o total conhecimento do fenômeno não acontece,
o que torna impossível descrever o mesmo através de um modelo determinístico.
Faz-se uso então dos modelos estatísticos, aqueles em que uma parte sistemá-
tica e outra parte aleatória, como por exemplo, os modelos lineares generalizados.
Neste tipo de modelo, não se pode determinar quais dados serão obtidos antecipa-
damente, mas o conjunto do qual os resultados são obtidos é usualmente conhe-
cido. Ao se aproximar um fenômeno por um modelo probabilístico, haverá perda
de informação ao fazer-se tal modelagem, sendo que esta perda deve ser mínima
1
para não comprometer o entendimento do fenômeno em estudo.
Não raro, tem-se mais de um modelo para descrever o mesmo fenômeno, haja
vista que não há uma receita a ser seguida, tendo cada pesquisador a liberdade de
modelar o fenômeno seguindo a metodologia que julgar mais adequada. Desse
modo, ao se deparar com dois (ou mais modelos) é natural questionar: “Dentre
estes modelos qual deles é o mais adequado?”. O conceito de melhor modelo é
controverso, mas um bom modelo deve conseguir equilibrar a qualidade do ajuste
e a complexidade, sendo esta, em geral, medida pelo número de parâmetros pre-
sentes no modelo; quanto mais parâmetros, mais complexo o modelo, sendo pois
mais difícil interpretar o modelo. A seleção do “melhor” modelo torna-se então
evidente.
Burnham & Anderson (2004), enfatizam a importância de selecionar modelos
baseados em princípios científicos. Diversas são as metodologias utilizadas para
selecionar modelos tais como C
p
de Mallows, Regressão Stepwise, Critério de
Informação de Akaike (AIC), Critério de Informação Bayesiano (BIC), Critério
de Informação Generalizado (GIC), dentre outros.
As metodologias acima citadas, baseiam-se nos conceitos de Informação e
Entropia. Estes conceitos são de fundamental importância para que se possa ter
completo entendimento dos critérios AIC e BIC, que serão objetos de estudo neste
trabalho.
Nos critérios AIC e BIC cada modelo um valor e o modelo que apresentar
o menor valor AIC (ou BIC) é considerado como o “melhor” modelo. Um ques-
tionamento natural que se faz é: “Por que o Critério com menor AIC (ou BIC) é
selecionado?”.
Objetivou-se com este trabalho explicar, ilustrar e comparar os critérios AIC e
BIC, amplamente utilizados para a seleção de modelos e por vezes pouco entendi-
2
dos. Através de algumas aplicações, espera-se que a metodologia destes critérios
seja entendida para que, ao se utilizar tais critérios, tenha-se perfeita consciência
do resultado obtido e se saiba interpretá-lo com total segurança.
3
2 REFERENCIAL TEÓRICO
Nesta seção, serão apresentados alguns conceitos que serão úteis para atingir
o objetivo proposto neste trabalho.
2.1 Modelos
Em estudos nas mais diversas áreas, tais como ciências sociais, epidemiologia,
zootecnia, etc, vários aspectos que são não determinísticos. Assim sendo, mo-
delos puramente matemáticos não são adequados para modelar esse tipo de estudo.
Um caminho para a modelagem de fenômenos não determinísticos são os modelos
probabilísticos.
De acordo com Stevenson (2001), um modelo é uma versão simplificada de
algum problema ou situação da vida real destinado a ilustrar certos aspectos do
mesmo sem levar em conta todos os detalhes. Além disso, o modelo permite checar
se sua forma funcional está representando bem o fenômeno em estudo, sem porém
deixar de levar em conta o conhecimento do pesquisador acerca do assunto.
Para fenômenos complexos
*
, é bastante raro ter um modelo plausível, mas
vários para escolher um dentre eles. Em tais situações, a seleção do modelo se
torna um problema fundamental. Porém Ghosh & Samanta (2001), afirmam que
para muitos cientistas, modelos são sinônimos de paradigmas. Assim, o problema
de escolher um modelo aparece quando aquela ciência estiver nas encruzilha-
das. Por exemplo, quando físicos tinham que escolher entre a gravitação na Teoria
Clássica de Newton e a gravitação na Teoria da relatividade de Einstein.
Na estatística clássica, normalmente a seleção de modelos é feita na fase de
análise exploratória dos dados. Uma análise cuidadosa de dados deve sempre con-
*
Aqueles em que muitas variáveis interferindo no modelo, sendo estas muitas das vezes
desconhecidas
4
siderar o problema de determinação do modelo, isto é, o problema da avaliação e
escolha do modelo que melhor represente a situação em estudo (Miranda, 2006).
Todo subseqüente estatístico depende da análise do modelo selecionado.
Ocasionalmente, estudos de sensibilidade da análise subseqüente com res-
peito ao modelo selecionado. Porém, a estatística, em geral, não enfatiza a seleção
de modelos, nem uma devida certeza acerca do modelo que é assumido atra-
vés de convenção ou seleção por análise exploratória. Entretanto, certas áreas
da estatística clássica em que a seleção do modelo desempenha um papel impor-
tante, como por exemplo, regressão linear e séries temporais. Assim, o problema
torna-se de seleção de modelos ( Ghosh & Samanta, 2001).
De acordo com Mazerolle (2004), seleção de modelo é a tarefa de escolher
um modelo estatístico de um conjunto de modelos plausíveis. Em sua forma mais
básica, esta é uma das tarefas fundamentais das pesquisas científicas. Dos tantos
modelos plausíveis que poderiam ser ajustados aos dados, como pode-se escolher
um bom modelo?. A modelagem estatística geralmente decide entre um conjunto
de possíveis modelos, conjunto este que deve ser selecionado pelo pesquisador.
Freqüentemente, modelos simples, como polinômios, são usados como ponto de
partida. Burnham & Anderson (2004) enfatizam a importância de selecionar mo-
delos com bace em princípios científicos.
Ao se estudar um fenômeno, o conhecimento prévio que o pesquisador tem
acerca deste é de fundamental importância e deve ser levada em conta. Porém, este
deve embasar-se também em outros princípios científicos para fazer sustentar suas
conclusões acerca do fenômeno. De acordo com Mazerolle (2004), três princípios
regulam nossa capacidade de fazer inferência nas ciências:
1- Simplicidade e parcimônia
Sugerem que a explicação mais simples é passível de ser a mais provável.
5
2- Trabalhando Hipóteses
A seleção de modelos traduz-se em testar para os dados em mãos uma série de
modelos plausíveis.
3- O poder da evidência
Dá uma indicação de qual modelo é o melhor entre os modelos testados, e o poder
do teste para cada modelo.
Conforme Mazerolle (2004), seria ingênuo esperar que os melhores resultados
incluam todas as variáveis no modelo. Isto viola o princípio científico fundamen-
tado na parcimônia, que requer que dentre todos os modelos que expliquem bem
os dados, deve-se escolher o mais simples. Assim, deve-se conciliar um modelo
mais simples, mas que explique bem o fenômeno em estudo.
Segundo Konishi & Kitagawa (2008), uma vez que o conjunto de possíveis
modelos foi selecionado, a análise matemática permite determinar o melhor destes
modelos. O significado de “melhor” é controverso. Uma boa técnica de seleção
de modelos equilibrará qualidade do ajuste e complexidade. Modelos mais com-
plexos poderão melhor adaptar sua forma para ajustar-se aos dados (por exemplo,
um polinômio de quinta-ordem pode ajustar exatamente seis pontos), mas muitos
parâmetros podem não representar nada útil ou explicável.
De acordo com Mazerolle (2004), a qualidade do ajuste é geralmente determi-
nada usando-se razão de verossimilhanças ou uma aproximação dela, conduzindo
a um teste qui-quadrado. A complexidade é geralmente medida contando o nú-
mero de parâmetros inclusos no modelo. Entretanto, antes de se construir modelos
(por exemplo, um modelo de regressão linear ou qualquer outro modelo generali-
zado) deve-se ter em mente que não existem modelos verdadeiros. Tem-se apenas
modelos aproximados da realidade. O que se faz então é minimizar a perda de
6
informações. George Box fez uma famosa afirmativa acerca disso: “Todos os mo-
delos são errados, mas alguns são úteis”
1
.
2.2 Informação
A palavra informação vem do latim “informare”, dar forma, pôr em forma
ou aparência, criar, representar, apresentar, criar uma idéia ou noção, algo que
é colocado em forma, em ordem. Como se pode ver, informação é um termo
altamente polissêmico (que tem vários significados) (Ribeiro, 2008).
Segundo Ribeiro (2008), a teoria da informação é um ramo do conhecimento
humano cujos objetivos envolvem a conceituação matemática do termo informação
e a construção de modelos capazes de descrever os processos de comunicação. O
artigo “A Mathematical Theory of Communications”, publicado por Claude Shan-
non em 1948, lançou as bases para a moderna teoria das comunicações Shannon
(1948), apud Ribeiro, (2008). Qualquer processo de comunicação envolve trans-
ferência de informação entre dois ou mais pontos. Segundo Fernandes & Azevedo
(2006), o problema fundamental das comunicações é o de reproduzir em um ponto,
exatamente ou aproximadamente, uma mensagem selecionada em um outro ponto.
De acordo com Shannon (1948) apud Ribeiro (2008), um sistema de comuni-
cação consiste de 5 partes:
1- Uma fonte de informação que produz uma mensagem ou seqüência de men-
sagens a serem comunicadas ao terminal receptor;
2- Um transmissor (codificador) que opera na mensagem de modo que esta
possa ser transmitida sobre o canal;
3- Um canal que é o meio pelo qual a informação será transmitida. Este meio
1
Tradução nossa. All models are wrong but some are useful”(Draper & Smith, 1998)
7
contém ruído (em casos ideais o ruído é desconsiderado) e irá alterar de
alguma forma a mensagem original;
4- O receptor (decodificador), que apenas faz a função inversa do transmissor
de modo a obter a mensagem original;
5- O destino, para quem a mensagem é encaminhada.
Esquematicamente, tem-se a Figura 1 abaixo (Ash, 1965):
FIGURA 1: Modelo esquemático de um sistema geral de comunicação.
Segundo Shannon (1948) apud Ribeiro (2008), uma fonte de informação é
um elemento participante do processo de comunicação que produz informação,
enquanto que o destinatário é o elemento que recebe a informação produzida por
essa fonte. Em uma conversação os participantes costumeiramente se revezam
nos papéis de fonte e destinatário, e a informação circula na forma de palavras,
possivelmente selecionadas de um vocabulário conhecido por todo o grupo.
Se um português disser a um polaco “Bom dia”, provavelmente não haverá
transmissão de informação entre os dois. No entanto, se o português disser “Dzien
dobry”, provavelmente o polaco irá retribuir com um sorriso, pois entendeu a sau-
dação. Logo, para que haja transmissão de informação, o código usado na comu-
nicação tem de ser perceptível por ambas as partes.
8
Segundo Ash (1965), um conjunto de palavras-código capaz de representar
todas as saídas possíveis de uma fonte constitui um código para a fonte de infor-
mação. Codificadores são elementos (seres humanos, circuitos, programas, etc),
que representam as mensagens geradas pela fonte empregando um código espe-
cífico. Um decodificador é responsável por desfazer o mapeamento realizado por
um codificador.
De acordo com Ash (1965), Shannon desenvolveu a teoria da informação e
transmissão de sinais digitais baseados em seqüências de zeros e uns. É que
define o problema fundamental da comunicação como o de “reproduzir num local,
de forma aproximada ou exata, uma mensagem selecionada noutro local”. Assim
estabeleceu-se então o esquema de transmissão de informação, hoje clássico, com
uma mensagem que parte de uma fonte, é codificada e emitida por um transmissor,
passa por um canal de comunicação, sofre perturbações designadas por ruídos, e
chega depois ao receptor, passando por um sistema de decodificação. Ao falar
de “uma mensagem selecionada”, Shannon refere-se a uma seqüência informativa
que pode ser escolhida dentre muitas outras que aparecerão com iguais ou dife-
rentes probabilidades. Define então a quantidade de informação com base na sua
incerteza ou dificuldade de previsão.
Supondo, por exemplo, que um emissor transmita a mensagem “bom dia”, letra
por letra, ao emitir as primeiras letras, há uma expectativa da parte do receptor, que
surgir as letras “b”, “o”, “m”, um espaço, e depois o “d” e o “i”. O “a” final
é quase inútil, pois sua probabilidade de ocorrência é tão grande, para dar sentido
à seqüência anterior, que a quantidade de informação transmitida por essa letra é
muito menor que a transmitida pelas primeiras. Assim, quanto menor é a incerteza
ou dificuldade de previsão, menor é a quantidade de informação, e vice-versa (Ash,
1965).
9
Se, por exemplo, houver o evento X=“O sol nasce”, a resposta à pergunta “O
sol nascerá hoje?” não traz nenhuma informação; entretanto, se fez a pergunta “O
Cruzeiro será o campeão mundial de 2009?” Como isso é pouco provável, uma
resposta positiva a essa pergunta oferece uma quantidade de informação muito
maior que divulgar uma resposta negativa. Assim, eventos improváveis contém
mais informações do que os eventos mais prováveis (Ribeiro, 2008).
De acordo com Fernandes & Azevedo (2006), a teoria da informação de Shan-
non é apropriada para medir incerteza sobre um espaço desordenado, isto é, ela é
útil para analisar variáveis qualitativas nominais, tais como sexo, raça, etc., pois
não é possível uma ordenação dos seus resultados. Neste sentido não é possível
definir uma distância entre os elementos do espaço, tais como a distância entre o
sexo masculino e o sexo feminino.
A noção de distância, acima referida, pode ser entendida a partir da seguinte
definição (Domingues, 1982):
Definição 2.1 Dado um conjunto M = seja d : M × M R
+
e indique-se
por d(x, y) a imagem de um par genérico (x, y) M × M, através da função d.
Diz-se que d é uma distância sobre M se as seguintes condições se verificam:
d(x, y) = 0 x = y, x, y M (2.1)
d(x, y) = d(y, x), x, y M (2.2)
d(x, y) d(x, z) + d(z, y), x, y, z M (2.3)
Por exemplo, a informação de Shannon é usada sobre um espaço de letras do
alfabeto, já que letras não têm “distâncias” entre elas, não sendo possível quantifi-
car o quanto a letra “m” se distancia da letra “e”.
De acordo com Bolfarine & Sandoval (2000), uma medida alternativa de in-
10
formação foi criada por Fisher, para medir incerteza sobre um espaço ordenado,
isto é, a informação de Fisher pode ser usada para variáveis qualitativas ordinais
que permitem uma ordenação dos seus resultados (tais como conceitos finais em
uma disciplina, peso de pessoas, etc.). Para informação sobre valores de parâme-
tros contínuos, como as alturas de pessoas, a informação de Fisher é usada, já que
tamanhos estimados têm uma distância bem definida.
Conforme Bolfarine & Sandoval (2000), a informação de Fisher é assim defi-
nida:
Definição 2.2 A quantidade
I
F
(θ) = E
log (f (X|θ))
θ
2
é denominada informação de Fisher de θ.
Se há uma amostra aleatória X
1
, X
2
, . . . X
n
, da variável aleatória X com fun-
ção de densidade de probabilidade f (x|θ) e informação de Fisher I
F
(θ), a in-
formação total de Fisher de θ correspondente à amostra observada é a soma da
informação de Fisher das n observações da amostra, isto é,
E
log L (θ|X)
θ
2
= nI
F
(θ) ,
em que log L (X|θ) é a função de log verossimilhança, que será definida em 2.21.
Sabendo como a informação é gerada, como se pode medir quanta informa-
ção é produzida? Como quantificar uma determinada mensagem recebida? Com
propósito de responder estas perguntas considere-se a situação abaixo descrita em
Silva (2008):
Exemplo
11
Um sistema deve transmitir o estado do tempo. Suponha que se classifica o tempo
da seguinte forma: limpo, nublado, chuvoso e nevoeiro. Define-se informação
como a quantidade de incerteza que o receptor tem acerca da mensagem que está
recebendo. Por exemplo, suponha que o receptor conhece as seguintes probabili-
dades para o estado do tempo:
Estado do tempo Probabilidade
Limpo 0.65
Nublado 0.20
Chuvoso 0.10
Nevoeiro 0.05
Como a probabilidade do tempo estar limpo é grande, na maioria das vezes, o
tempo está limpo, e ao se dizer que ele está limpo transmite-se pouca informação.
Por outro lado, ao se dizer que ele está com nevoeiro, trata-se de uma situação
pouco freqüente, e portanto, transmite-se muita informação.
De acordo com as probabilidades conhecidas, uma seqüencia típica de trans-
missão diária poderia ser: “limpo limpo limpo limpo limpo nublado nublado chu-
voso limpo”. Se for usado o seguinte código binário para codificar as mensagens:
Estado do tempo Código
Limpo 00
Nublado 01
Chuvoso 10
Nevoeiro 11
a mensagem acima referida é codificada da seguinte forma: “00 00 00 00 00
01 01 10 00”, ou seja, o número de “bits” necessários para transmitir é 18.
O número de “bits” necessários para codificar uma determinada informação
segue uma relação inversa à probabilidade de ocorrência do evento. Assim quanto
12
maior for a probabilidade de ocorrência do evento transmitido, (quanto menor
a informação transmitida), menos “bits” serão necessários para codificá-la, e
quanto menor a probabilidade de ocorrência do evento (maior informação), mais
“bits” serão necessários para codificá-la.
Nesta forma de transmissão haverá uma compressão dos dados que acarreta
perda de uma pequena parte da informação que foi originalmente transmitida.
Segundo Kawada (1987) apud Konishi & Kitagawa (2008), para quantificar a
informação perdida ao ajustarmos um modelo, existem diversas medidas propostas
na literatura. Como exemplo tem-se:
1- A Estatística de χ
2
, dada por:
χ
2
=
k
i=1
g
2
i
f
i
1 =
k
i=1
(f
i
g
i
)
2
f
i
.
2- A distância de Hellinger, dada por:
I
K
(g; f) =
f (x)
g (x)
2
dx.
3- A informação generalizada, dada por:
I
λ
(g; f) =
1
λ
g (x)
f (x)
λ
1
g (x) dx. (2.4)
4- O critério Deviance, dado por:
D (ψ) = 2
log L (ψ; x) log L
ψ; x

,
em que ψ é o espaço paramétrico e
ψ é o espaço restrito.
13
5- A divergência, dada por:
D (g; f) =
u (t(x))g (x) dx =
u
g (x)
f (x)
g (x) dx, (2.5)
sendo que t(x) =
g (x)
f (x)
.
6- A L
1
norm, dada por:
L
1
(g; f) =
|g (x) f (x)|dx.
7- A L
2
norm, dada por:
L
2
(g; f) =
{g (x) f (x)}
2
dx.
8- A Informação de Kullback-Leibler, dada por:
I (g; f) = E
g
log
g (X)
f (X)

=
+
−∞
g (x) log
g (x)
f (x)
dx, (2.6)
sendo f, g f
i
e g
i
são funções de distribuição quaisquer, λ R
+
e u(x) uma
função tal que u : R R
+
.
Se em (2.6), g(x) é a “verdadeira” distribuição, ou seja, g(x) é o modelo de-
terminístico, do qual verdadeiramente são gerados os dados (raramente conhecido
devido à complexidade do fenômeno) e f(x) for o nosso modelo estatístico sele-
cionado para modelar o fenômeno, o valor da informação de Kullback - Leibler é
uma quantificação da similaridade entre nosso modelo estatístico e a “verdadeira”
distribuição.
Conforme Mazerolle (2004), Kullback e Leibler definiram esta medida, pos-
teriormente chamada Informação de Kullback-Leibler (K-L) para representar a
14
informação perdida pela aproximação de nosso modelo da realidade.
De acordo com Konishi & Kitagawa(2008), vale a pena observar que se na
equação (2.4) se fizer λ 0 e sob certas condições de regularidade, será obtida a
informação de Kullback-Leibler; de fato:
lim
λ0
I
λ
(g; f) = lim
λ0
1
λ
g (x)
f (x)
λ
1
g (x) dx
=
lim
λ0
1
λ
g (x)
f (x)
λ
1
g (x)
dx
=
g (x) lim
λ0
1
λ
g (x)
f (x)
λ
1

dx
L
Hospital
=
g (x) lim
λ0
g (x)
f (x)
λ
ln
g (x)
f (x)
dx
=
g (x) ln
g (x)
f (x)
dx = I (g; f) .
Além disso, se em (2.5), tomar-se u(x) = log(x) encontrar-e-á também a infor-
mação de Kullback-Leibler, isto é, ela é um caso especial da divergência. De fato:
D (g; f) =
u
g (x)
f (x)
g (x) dx =
log
g (x)
f (x)
g (x) dx = I (g; f) .
2.2.1 A informação de Kullback-Leibler
Seja X uma variável aleatória discreta com distribuição de probabilidades
p(X). De acordo com Ribeiro (2008), Shannon definiu a quantidade de infor-
mação associada à ocorrência do evento X
i
como:
I(X
i
) = log
1
p
i
= log (p
i
) , (2.7)
15
em que p
i
é a probabilidade de ocorrência do evento X
i
. A função definida em
(2.7) indica o total de conhecimento sobre o resultado de um certo evento, assim
como intuitivamente esperava-se, um evento menos provável tem mais informação
que outro mais provável. Se o logaritmo tiver base 2, o conteúdo da informação
será expresso em bits. Se a base do logaritmo é e, então o conteúdo da informa-
ção é medido em nuts e finalmente se a base for 10 o conteúdo da informação
será medido em hartley. Nesse trabalho, é utilizada a base e, pois a informação
com a qual Kullback e Leibler trabalham é definida nessa base, porém em alguns
exemplos a base 2, também será utilizada.
A utilização do log na função definida por Shannon pode ser explicada facil-
mente no caso de acontecimentos eqüiprováveis. Por exemplo, se o número de
símbolos que constituem o alfabeto é M , então o número de bits, N, necessários
para representar todos os M símbolos é: M = 2
N
, sendo N = log
2
M. No caso
de símbolos eqüiprováveis: p (s
i
) =
1
M
, logo são necessários N = log
2
1
p(s
i
)
, bits
para representar cada símbolo.
Considere-se uma fonte S cujas saídas são seqüências de elementos selecio-
nados de um conjunto A = {a
0
, a
1
, a
2
, . . . , a
n
}. Esse conjunto é o alfabeto da
fonte e os seus elementos a
i
, i = 0, 1, 2, . . . , n, são denominados letras ou sím-
bolos (Ribeiro, 2008). Considerando-se que os símbolos emitidos pela fonte são
estatisticamente independentes entre si, estamos na presença de uma fonte sem
memória. Nesse caso, a fonte fica completamente descrita pelo seu alfabeto A e
pelas probabilidades de ocorrência dos símbolos do alfabeto fonte:
P = {p(a
0
), p(a
1
), p(a
2
), ..., p(a
n
)}, sendo que
n
i=1
p(a
i
) = 1.
A ocorrência do símbolo a
i
significa a geração de I(a
i
) = log
2
1
p(a
i
)
bits de
16
informação.
Como exemplo considere o arremesso de uma moeda em que P (cara) =
1
4
e
P (coroa) =
3
4
. Assim o conteúdo da informação é:
I (cara) = log
2
1
4
= 2bits e I (coroa) = log
2
3
4
= 0, 41bits.
Sendo X e Y dois eventos, é desejável que a função de informação tenha
algumas propriedades (Shannon, 1948):
1- Se P (X = x) = 0 ou P (X = x) = 1, então I(X) = 0;
2- Se 0 < P (X = x) < 1, então I(X) > 0;
3- Se P (X = x) < P (Y = y), então I(X) > I(Y );
4- Se X e Y são eventos independentes, então I(X, Y ) = I(X) + I(Y ).
Em seu artigo publicado em (1948), Shannon demonstrou que existe uma
função, satisfazendo as pressuposições acima:
I(X) = K
n
i=1
p
i
log p
i
em que K > 0 e I(X) é uma medida de incerteza contida na variável aleatória.
A função H =
n
i=1
p
i
log p
i
(a constante K é meramente uma constante
que depende da unidade de medida) desempenha um papel central na Teoria
da Informação, sendo uma medida de incerteza contida na variável aleatória. A
função I pode ser transformada na função entropia, definida em certas formulações
de mecânica-estatística em que p
i
é a probabilidade do sistema estar na fase i. A
quantidade I é, por exemplo, a constante do famoso teorema de Boltzmann (Young
& Freedman, 2003). Aqui, a quantidade H =
n
i=1
p
i
log p
i
será chamada de
entropia do conjunto de probabilidades p
1
, p
2
, ..., p
n
.
17
A informação de Kullback-Leibler baseia-se na Entropia de variáveis aleató-
rias.
2.2.2 Entropia
Entropia (do grego entropé) é uma medida da quantidade de desordem de um
sistema.
2.2.2.1 Visão física da entropia
Fisicamente, o conceito de entropia está intimamente associado a conceitos da
termodinâmica. Nas linhas a seguir falar-se-á um pouco mais acerca deste assunto.
Segundo Halliday et al. (1996), a energia é um dos conceitos da física com
aplicação mais visível no dia-a-dia. Para mover um carro, por exemplo, é neces-
sário obter energia através da queima do combustível. Para os eletrodomésticos
funcionarem, depende-se da energia elétrica. O primeiro princípio da termodinâ-
mica ocupa-se do estudo da energia e da sua conservação. Contudo, nem toda a
energia gerada está disponível para ser transformada em trabalho útil. Existem
processos que acontecem em um sentido. Segundo o Dicionário Aurélio, que
reflete o nosso linguajar coloquial, algo é reversível quando se pode reverter, ou
se pode retornar ao estado inicial. Silva (2005), afirma que em Física, um pro-
cesso é reversível quando pode partir do estado final e alcançar o estado inicial
usando os mesmos micro-estados que utilizou para alcançar o estado final. Um
livro deslizando sobre uma mesa terá sua energia mecânica convertida em calor;
porém o processo inverso jamais foi visto por alguém (um livro que repousasse
sobre uma mesa começasse a se mover espontâneamente e a temperatura do livro
e da mesa diminuíssem); estes são os processos irreversíveis. O Segundo Princí-
pio da Termodinâmica trata desta questão, assim como das possíveis maneiras de
18
transformar calor em trabalho (Halliday et al., 1996).
O Segundo Princípio da Termodinâmica apresentado por Kelvin-Planck é o
seguinte: “É impossível construir uma máquina térmica que, operando em ciclo,
não produza nenhum efeito além da absorção de calor de um reservatório e da re-
alização de uma quantidade igual de trabalho” (Young & Freedman, 2003). Em
sua essência, diz que é impossível construir uma máquina que trabalhe com rendi-
mento de 100%. Para saber o quanto da energia pode ser considerada disponível
para consumo, é necessário conhecer um outro conceito: o de entropia.
Segundo Silva (2008a), o conceito físico de entropia surgiu na época da má-
quina a vapor, proposto pelo prussiano Rudolf Emmanuel Clausius (1822-1888),
para explicar o máximo de energia que poderia ser transformada em trabalho útil.
Tal conceito é definido como (Halliday et al., 1996):
Definição 2.3 Entropia S é uma propriedade cuja variação dS, no decurso de
uma transformação elementar, internamente reversível, de um sistema fechado, se
obtém dividindo a quantidade de calor dQ, que o sistema troca nessa transfor-
mação, pela temperatura absoluta T a que o sistema se encontra nesse momento.
Isto é:
dS =
dQ
T
rev
.
Tudo o que se disse acerca da entropia não é suficiente para compreender o
verdadeiro significado físico dessa propriedade. Para tal tem-se que recorrer ao
método utilizado na termodinâmica estatística, que faz uso da natureza microscó-
pica da matéria para explicar as suas propriedades macroscópicas (Young & Fre-
edman, 2003). A entropia pode ser considerada como uma medida da desordem
molecular ou aleatoriedade molecular.
Tendo como referência um sistema de partículas, o conceito de entropia ganha
com Boltzmann uma nova conotação. A entropia passa a ser entendida como uma
19
medida da distribuição das partículas em termos de posição espacial e quantidade
de movimento. Aqui, máxima entropia passa a significar distribuição homogênea
ou mínima desordem, quando a probabilidade de uma certa partícula se encontrar
em uma determinada posição, com uma certa quantidade de movimento é idên-
tica à probabilidade de qualquer outra partícula específica se encontrar na mesma
situação.
De acordo com Nussenzveig (1981), tem-se a seguinte definição de entropia
no sentido estatístico de Boltzmann:
Definição 2.4 A entropia é dada pela equação
S = k [logW ]
em que k é uma constante (unidade termodinâmica da medida da entropia - Cons-
tante de Boltzmann) e W é o número de microestados de entropia S o número to-
tal de estados microscópicos compatível com o estado macroscópico do sistema).
Assim, a variação da entropia de um estado i para um estado j é
H
B
= S
i
S
j
= k log
W
i
W
j
, (2.8)
em que H
B
é a variação da entropia de Boltzmann, S
i
e S
j
são as entropias no
estado i e j, respectivamente e W
i
e W
j
são números de microestados compatíveis
com a ocorrência dos macroestados i e j, respectivamente.
Sendo p(x) e q(x) as funções densidades dos estados i e j respectivamente,
pode-se reescrever (2.8) como:
H
B
= k log
p(x)
q(x)
. (2.9)
20
Conforme Nussenzveig (1981), como fundador da Mecânica Estatística (Hu-
ang, 1987), Boltzmann propôs sucessivas “explicações” para o fenômeno do calor,
baseadas em uma abordagem probabilística.
Segundo Halliday et al. (1996), à medida que um sistema torna-se mais de-
sorganizado a nível molecular, as posições das suas moléculas tornam-se menos
previsíveis e a sua entropia aumenta . Por isso, a entropia da fase sólida é mais
baixa do que a das outras fases pois, nos sólidos, as moléculas oscilam em torno
de posições de equilíbrio, não podendo mover umas relativamente às outras e, em
qualquer momento, as suas posições são previsíveis com uma certa precisão. Na
fase gasosa as moléculas movem-se ao acaso, colidindo umas com as outras, mu-
dando de direção, o que torna extremamente difícil prever, com alguma precisão, o
estado microscópico ou configuração molecular de um gás. Associado a este caos
molecular está um elevado valor da entropia.
2.2.2.2 Visão estatística da entropia
Segundo Chakrabarti & Chakrabarty (2007), um dos desdobramentos mais ri-
cos e polêmicos do conceito probabilístico de entropia desenvolvido por Boltz-
mann foi sua extensão ao campo da Teoria da Informação. Quando a informação
de ordem j é transmitida, a informação transportada é I
j
= log
2
P
j
bits, con-
forme a expressão (2.7), mas em geral transmiti-se não somente um símbolo, e sim
um conjunto deles (mensagem). Assim, tem-se a informação média associada aos
n símbolos transportados.
Para medir a quantidade de informação, Shannon criou o conceito estatístico
de entropia, que é diferente do conceito homônimo encontrado em termodinâmica.
Porque esta denominação foi escolhida? Segundo Vicki (2007) ao que parece,
foi o matemático norte-americano de origem húngara, John Von Neumann, quem
21
sugeriu este termo. Teria dito, ironicamente, “deve chamá-la de entropia por
duas razões: primeiro, porque essa mesma função matemática é utilizada em
termodinâmica, com esse nome; segundo, e mais importante, porque pouca gente
sabe realmente o que é entropia e, se usar esse termo numa discussão, sairá sempre
ganhando”.
De acordo Mackay (2005) a entropia é definida como :
Definição 2.5 A média ponderada das auto-informações por sua probabilidade
de ocorrência é o que chamamos de entropia, isto é:
H(X) =
n
i=1
p
i
I
p
i
=
n
i=1
p
i
log p
i
(2.10)
sendo p
i
a probabilidade do evento X
i
.
Pode-se também ver a equação (2.10) como
H(X) =
n
i=1
p
i
log p
i
= E [log p
i
] .
Este conceito de entropia é útil para medir a quantidade de informação trans-
mitida por uma fonte.
Segundo Wiener (1970) apud Martins (1995), referindo-se a uma sugestão de
J. Von Neumann e abstraindo o sinal de negativo, N. Wiener propôs uma extensão
do conceito para distribuições contínuas, e definiu:
Definição 2.6 Seja uma variável aleatória X, contínua, real e centrada (média
zero) com uma função de densidade de probabilidade g (x). A entropia é definida
por
H
E
= log
g (x)
f (x)
, (2.11)
22
em que H
E
é a entropia estatística, g(x) é a “verdadeira” distribuição e f(x) é o
nosso modelo estatístico.
Comparando-se as equações (2.9) e (2.11), nota-se que a entropia estatística é
a mesma entropia de Boltzmann, a não ser pelo sinal que foi abstraído e pela
constante k que é a constante de Boltzmann. Ou seja,
H
E
= H
B
.
Sendo o conceito de entropia conhecido, pode-se perguntar: O que significa a en-
tropia de uma fonte? Significa que, embora não se possa prever qual o símbolo que
a fonte irá produzir a seguir, em média espera-se obter I bits de informação por
símbolo, ou nI bits numa mensagem de n símbolos, se n for elevado (Fernandes
& Azevedo (2006)).
Assim, dizer que um sinal (uma seqüência) de símbolos tem uma entropia
informacional de, por exemplo, 1, 75 bits por símbolo significa que pode-se con-
verter a mensagem original em uma seqüência de 0
s e 1
s (dígitos binários), de
maneira que em média existam 1, 75 dígitos binários por cada símbolo do sinal
original. O em média aqui quer dizer que alguns símbolos vão precisar de mais
dígitos binários para serem codificados (os mais raros) e que outros símbolos vão
precisar de menos dígitos binários para serem codificados (os mais comuns).
Exemplo
Suponha que tem-se 4 símbolos (A, C, G, T ) com probabilidades de ocorrência
iguais a p
A
=
1
2
; p
C
=
1
4
; p
G
=
1
8
; p
T
=
1
8
. Estas probabilidades dão as
23
seguintes quantidades de informação para cada símbolo:
I
A
= log
2
1
2
= 1bit;
I
C
= log
2
1
4
= 2bits;
I
G
= log
2
1
8
= 3bits;
I
T
= log
2
1
8
= 3bits.
Portanto, a entropia de uma seqüência desses símbolos é:
H =
p
i
log p
i
= 1 ×
1
2
+ 2 ×
1
4
+ 3 ×
1
8
+ 3 ×
1
8
= 1, 75bit,
ou seja, 1,75 símbolos por bits. Pode-se codificar cada um dos quatro símbolos
por um número de dígitos binários igual à sua quantidade de informação. Por
exemplo:
A = 0;
C = 10;
G = 110;
T = 111.
Portanto, uma seqüência como:
AT CAGAAC,
que tem freqüências de ocorrência dos 4 símbolos iguais às definidas anterior-
mente pode ser codificada por 01111001100010, usando 14 dígitos binários para
24
codificar 8 símbolos, o que dá uma média de
14
8
= 1, 75 bits por símbolo.
Um código como o exemplificado acima é chamado de código de Shannon-
Fano (Cover & Thomas, 1991). Esse código tem a propriedade de que pode ser
decodificado sem precisar de espaços entre os símbolos.
Com o conceito de entropia pode-se definir a quantidade de informação trans-
mitida e os limites ótimos de compressão dessa informação (Mackay, 2005). Em
1948, o cabo elétrico de “banda mais larga” então existente podia transmitir 1.800
conversas telefônicas simultâneas. Vinte e cinco anos mais tarde, um cabo telefô-
nico podia transmitir 230.000 conversas simultâneas. Hoje, uma nova fibra ótica
com a espessura de um cabelo humano, pode comportar 6, 4 milhões de conversas.
No entanto, mesmo com esta largura de banda, os limites teóricos de capacidade
de canal determinados por Shannon estão muito aquém dos praticados. Os enge-
nheiros sabem que ainda há muito que melhorar.
Sejam X
n
= {x
1
, x
2
, ..., x
n
} um conjunto de n observações independentes
amostradas aleatoriamente de uma distribuição (modelo) de probabilidades desco-
nhecida g(x) (verdadeiro modelo, do qual retiramos nossos dados), e seja f (x) um
modelo arbitrário especificado. O que se quer é avaliar a qualidade do ajuste ao se
aproximar o modelo g(x) pelo modelo f(x).
A informação de Kullback-Leibler quantifica essa perda de informações (Ko-
nishi & Kitagawa, 2008):
Definição 2.7 A Informação de Kullback-Leibler é definida por:
I (g; f ) = E
g
[H
B
] = E
g
log
g (y)
f (y)

=
+
−∞
g (y) log
g (y)
f (y)
dy (2.12)
em que H
B
é a entropia de Boltzmann, g é a distribuição da qual são gerados os
dados, f é a distribuição utilizada para aproximar g e E
g
representa a esperança,
25
com respeito a distribuição de probabilidade g.
A equação (2.12) pode também, ser expressa como:
I (g; f ) = E
g
[log g (x)] E
g
[log f (x)] (2.13)
ou equivalentemente
I (g; f ) =
+
−∞
g (x) log [g (x)] dx
+
−∞
g (x) log [f (x)] dx. (2.14)
Conforme Konishi & Kitagawa (2008), a Informação de Kullback-Leibler têm
as seguintes propriedades:
(P1) Para quaisquer funções de densidade de probabilidade f e g, I (g; f ) 0;
(P2) Se f e g são funções de densidade de probabilidade e I (g; f ) = 0, então
f (x) = g (x) , x R;
(P3) Se f e g são duas funções de densidade de probabilidade e f g, então
I (g; f ) 0.
Nota-se que o primeiro termo na equação (2.13) é uma constante, que depende
somente do verdadeiro modelo g. Assim, somente o segundo termo de (2.14) é
importante na avaliação do modelo estatístico f(x), pois se houver dois modelos
candidatos f
1
e f
2
, ao compará-los obter-se-á:
I (f
1
, g) =
g (x) ln (g (x)) dx
g (x) ln (f
1
(x)) dx
e
I (f
2
, g) =
g (x) ln (g (x)) dx
g (x) ln (f
2
(x)) dx.
26
Logo
I (f
1
, g) I (f
2
, g) =
g (x) ln (g (x)) dx
g (x) ln (f
1
(x)) dx
g (x) ln (g (x)) dx
g (x) ln (f
2
(x)) dx
=
g (x) ln (f
2
(x)) dx
g (x) ln (f
1
(x)) dx. (2.15)
Assim vê-se que a primeira parte da equação (2.13) é cancelada, e a equação
só depende do segundo termo, chamado de log verossimilhança esperada (Konishi
& Kitagawa, 2008). Entretanto a segunda parte ainda depende da função desco-
nhecida g.
E
g
[ln (f (x))] =
ln (f (x)) g (x) dx =
ln (f (x)) dG (x) . (2.16)
Em que g é a verdadeira distribuição, f é o odelo que aproxima g e G é a função
de distribuição acumulada de g.
Considerar-se-á um exemplo dado por Burnham & Anderson (2002) para ilus-
trar a K-L informação:
Exemplo
Seja g um distribuição gama com parâmetros α = 4 e β = 4. Consideram-se
os modelos g
i
, i = 1, 2, 3, 4 como sendo aproximações do verdadeiro modelo, em
que g
1
é uma Weibull com parâmetros α = 2 e β = 20, g
2
é uma log-normal com
parâmetros α = 2 e σ
2
= 2, g
3
é uma inversa Gaussiana com parâmetros α = 16
e β = 64, g
4
é uma distribuição F com parâmetros α = 4 e β = 10.
27
De acordo com Johnson et al. (1994) tem-se:
g (x) =
1
4
4
Γ (4)
x
41
e
x
4
=
1
1536
x
3
e
x
4
g
1
(x) =
20
2
20
x
201
e
(
x
2
)
20
=
5
2
18
x
19
e
x
20
2
20
g
2
(x) =
1
x
2π
2
e
(ln x2)/2×2
=
1
2
πx
e
(ln x2)/4
g
3
(x) =
64
2πx
3
1/2
e
{
64
2×16
(
x
16
2+
16
x
)}
=
4
2π
π
x
3/2
e
{
2
(
x
16
2+
16
x
)}
g
4
(x) =
Γ [(4 + 10)/2]
Γ (4/2) Γ (10/2)
4
10
4/2
x
(42)/2
(1 + (4/10) x)
(4+10)/2
=
Γ (7)
Γ (2) Γ (5)
2
5
2
x (1 + (2/5) x)
14/2
=
24
5
x
1 +
2
5
x
7
Nas figuras abaixo tem-se o gráfico destas distribuições.
28
FIGURA 2: Representação gráfica das
distribuições Gama(4,4) -
linha contínua - e Wei-
bull(2,20) - linha ponti-
lhada
FIGURA 3: Representação das dis-
tribuições Gama(4,4) - li-
nha contínua - e Lognor-
mal(2,2) - linha pontilhada
FIGURA 4: Representação gráfica das
distribuições Gama(4,4) -
linha contínua - e Inversa
Gaussiana(16,64) - linha
pontilhada
FIGURA 5: Representação gráfica da
distribuição Gama(4,4) -
linha contínua - e da distri-
buição F(4,10) - linha pon-
tilhada
Em uma primeira análise, puramente visual, pode-se dizer que as distribui-
ções Weibull e Inversa Gaussiana estão muito mais “próximas” da distribuição
Gama que as distribuições Lognormal e F. Vejamos isto através da informação de
29
Kullback-Leibler, calculando a K-L informação para cada distribuição.
I (g, g
1
) =
g (x) ln
g (x)
g
1
(x)
dx =
g (x) ln (g (x)) dx
g (x) ln (g
1
(x)) dx
=
x
3
e
x
4
1536
ln
x
3
e
x
4
1536
dx
x
3
e
x
4
1536
ln
5
2
18
x
19
e
x
20
2
20
dx
=
1
1536
x
3
e
x
4
ln (1536) + 3 ln (x)
x
4
dx

(I)
1
1536
x
3
e
x
4
ln
5
2
18
+ 19 ln (x)
x
20
2
20
dx

(II)
(2.17)
Efetuando as integrações e os cálculos necessários em (2.17) tem-se (I)=3, 40970
e (II) = 3, 3635 e assim I (g, g
1
) = 3, 40970 3, 3635 = 0, 04620.
Para g
2
(x) tem-se
I (g, g
2
) =
g (x) ln
g (x)
g
2
(x)
dx =
g (x) ln (g (x)) dx
g (x) ln (g
2
(x)) dx
=
x
3
e
x
4
1536
ln
x
3
e
x
4
1536
dx
x
3
e
x
4
1536
ln
1
2
πx
e
(ln x2)/4
dx
=
1
1536
x
3
e
x
4
ln (1536) + 3 ln (x)
x
4
dx

(III)
1
1536
x
3
e
x
4
ln
2
π
ln x
4
+
1
2
dx

(IV )
. (2.18)
Novamente, efetuando as integrações e os cálculos necessários em (2.18) e no-
tando que (I) = (III) obtém-se (III) = 3, 40970 e (IV ) = 2, 73735, assim
I (g, g
2
) = 3, 40970 2, 73735 = 0, 67235.
30
Para g
3
(x) tem-se
I (g, g
3
) =
g (x) ln
g (x)
g
3
(x)
dx =
g (x) ln (g (x)) dx
g (x) ln (g
3
(x)) dx
=
x
3
e
x
4
1536
ln
x
3
e
x
4
1536
dx
x
3
e
x
4
1536
ln
4
2π
π
xe
{
2
(
x
16
2+
16
x
)}
dx
=
1
1536
x
3
e
x
4
ln (1536) + 3 ln (x)
x
4
dx

(V )
1
1536
x
3
e
x
4
ln
4
2π
π
+ ln (x)
x
8
+ 4
32
x
dx

(V I)
(2.19)
Novamente, efetuando as integrações e os cálculos necessários em (2.19) e no-
tando que (I) = (V ) obtém-se (V ) = 3, 40970 e (V I) = 3, 34962 e assim
I (g, g
3
) = 3, 40970 3, 34962 = 0, 06008.
Para g
4
(x) tem-se
I (g, g
4
) =
g (x) ln
g (x)
g
4
(x)
dx =
g (x) ln (g (x)) dx
g (x) ln (g
4
(x)) dx
=
x
3
e
x
4
1536
ln
x
3
e
x
4
1536
dx
x
3
e
x
4
1536
ln
24
5
x
1 +
2
5
x
7
dx
=
1
1536
x
3
e
x
4
ln (1536) + 3 ln (x)
x
4
dx

(V II)
1
1536
x
3
e
x
4
ln
24
5
+ ln (x) 7 ln
1 +
2
5
x

dx

(V III)
(2.20)
Novamente, efetuando as integrações e os cálculos necessários em (2.20) e no-
tando que (I) = (V II) obtém-se (V II) = 3, 40970 e (V III) = 2, 33585 e
assim I (g, g
4
) = 3, 40970 (2, 33585) = 5, 74555.
31
Resumidamente, tem-se a seguinte tabela:
Modelo K-L informação Posição
Weibull(2,20) 0,0462 1
Lognormal(2,2) 0,67235 3
Inversa Gausssiana(16,64) 0,06008 2
F(4,10) 5,74555 4
De acordo com os resultados da K-L Informação, a distribuição que melhor
“aproxima” a distribuição gama(4,4) é a distribuição Weibull, seguida pela in-
versa Gaussiana, a lognormal e a F, respectivamente. Isso condiz com a análise
gráfica feita anteriormente e também está de acordo com a propriedade (P3), pois
à medida que a distribuição torna-se mais “próxima” da gama, vê-se que I(g, g
i
)
diminui.
Conforme Akaike (1974), a K-L informação é apropriada para testar se um
dado modelo é adequado, entretanto o seu uso é limitado, pois ela depende da dis-
tribuição g, que é desconhecida. Se uma boa estimativa para a log verossimilhança
esperada puder ser obtida através dos dados, esta estimativa poderá ser utilizada
como um critério para comparar modelos.
Para analisar a estrutura de um dado fenômeno assumem-se modelos para-
métricos {f(x|θ); θ Θ R
p
} tendo p parâmetros, e em seguida maximiza-se a
função de verossimilhança (descrita na seção seguinte) para se estimar o parâmetro
θ.
2.2.3 A função de verossimilhança
O método mais importante de achar estimativas é o método de máxima veros-
similhança, introduzido por R. A. Fisher. Conforme Bolfarine & Sandoval (2000)
a função de verossimilhança é definida como:
32
Definição 2.8 Seja {X
1
, X
2
, ..., X
n
}uma amostra aleatória independente e iden-
ticamente distribuída, de tamanho n da variável aleatória X com função de den-
sidade g (x|θ), com θ Θ, em que Θ é o espaço paramétrico. A função de
verossimilhança de θ correspondente à amostra aleatória observada é dada por:
L (θ; X
1
, X
2
, ..., X
n
) =
n
i=1
g ( X
i
|θ) = g (X
1
|θ) g (X
2
|θ) ...g (X
n
|θ) . (2.21)
Se a amostra tiver sido obtida, os valores de {x
1
, x
2
, ..., x
n
} serão conhecidos.
Como θ é desconhecido, pode-se propor o seguinte: Para qual valor de θ a função
L (x
1
, x
2
, . . . , x
n
; θ) será máxima? (Meyer, 1983).
Definição 2.9 O estimador de máxima verossimilhança de θ, isto é,
θ, é aquele
valor de θ que maximiza L (θ; X
1
, X
2
, ..., X
n
).
Segundo Ferreira (2005), o método de máxima verossimilhança estima os va-
lores dos parâmetros da distribuição em estudo, maximizando a função de veros-
similhança. O estimador de máxima verossimilhança, é aquele valor de θ, que
maximiza (2.21). Para obter o estimador de máxima verossimilhança, toma-se
a derivada primeira de L (θ; x
1
, x
2
, ..., x
n
) com respeito a θ, iguala-se a zero e
resolve-se para θ, obtendo-se os pontos críticos; aquele ponto (se existir) que ma-
ximiza L (θ; x
1
, x
2
, ..., x
n
) é a estimativa de máxima verossimilhança para θ. Ha-
vendo mais de um parâmetro, para encontrar os estimadores de máxima verossimi-
lhança dos parâmetros, deve-se primeiro tomar as derivadas parciais da função de
verossimilhança com respeito a cada um deles, a seguir igualar a derivada a zero e
resolver o sistema obtido. Isto é,
L (θ; x
1
, x
2
, ..., x
n
)
θ
= 0. (2.22)
33
Como a função de verossimilhança L (θ; x
1
, x
2
, ..., x
n
) e a função log veros-
similhança logL (θ; x
1
, x
2
, ..., x
n
) assumem máximo para o mesmo valor, mui-
tas das vezes é preferível trabalhar com a função log verossimilhança, por esta
ser bem menos complicada de trabalhar e encontrar os pontos críticos. A função
S = logL (θ; x
1
, x
2
, ..., x
n
) é chamada função suporte ( Cramér, 1973).
Segundo Konishi & Kitagawa (2008), os estimadores de máxima verossimi-
lhança têm muitas propriedades da teoria das grandes amostras que torna o seu
resultado mais atrativo. São elas:
Os estimadores são assintoticamente consistentes, o que significa que quanto
maior o tamanho da amostra, mais próximos os valores das estimativas es-
tarão dos verdadeiros valores. Formalmente tem-se:
Definição 2.10 Um estimador
θ do parâmetro θ é um estimador consistente
se: lim
n→∞
P
θ θ
= 0, para qualquer > 0.
Os parâmetros estimados são assintoticamente, normalmente distribuídos.
Formalmente tem-se:
Teorema 2.1 Seja
θ um estimador de máxima verossimilhança do parâme-
tro θ, então a distribuição de
n
θ θ
p
N
0,
E
2
ln (X, θ)
θ
2

1
.
Vale a pena observar que a variância é justamente a inversa da informação
de Fisher.
Eles também são assintoticamente eficientes, e quanto maior a amostra,
maior precisão das estimativas.
34
Os estimadores de máxima verossimilhança são também estatísticas sufici-
entes, isto é, são estatísticas que condensam os de tal forma que não são
perdidas informações acerca de θ. Tal conceito pode assim ser formalizado:
Definição 2.11 Sejam X
1
, X
2
, . . . , X
n
uma amostra aleatória de densidade
f (·; θ) . Uma estatística S = s(X
1
, X
2
, . . . , X
n
) é dita ser uma estatística
suficiente se e se a distribuição condicional de X
1
, X
2
, . . . , X
n
) dado
S = s não depender de θ para qualquer valor de s S.
Ele também tem a propriedade da invariância, que pode ser formalizada
como:
Definição 2.12 Seja
Θ =
ϑ (X
1
, X
2
, . . . , X
n
) um estimador de máxima
verossimilhança de θ com função de densidade f (·; θ), sendo θ unidimensi-
onal. Se τ (·) é uma função inversível, então o estimador de máxima veros-
similhança de τ (θ) é τ
θ
.
Estas são excelentes propriedades da teoria das grandes amostras.
Uma outra propriedade, que não necessariamente estes estimadores têm, é o
não-enviesamento. Um estimador é não-viesado se sua esperança é igual ao valor
estimado. Formalmente tem-se:
Definição 2.13 Um estimador
θ do parâmetro θ é um estimador não viesado
quando a sua distribuição amostral está centrada no próprio parâmetro, isto é,
E
θ
= θ.
2.2.4 O estimador da função suporte
Depois que o vetor de parâmetros θ foi estimado, ele é substituído no modelo
f(x|θ) e passa-se a trabalhar com o modelo f(x|
θ). Assim, ao invés de (2.16)
35
tem-se
E
g
ln f
x|
θ

=
ln f
x|
θ
g (x) dx =
ln f
x|
θ
dG (x) . (2.23)
Tendo como base estimadores de máxima verossimilhança, deseja-se encon-
trar um bom estimador para (2.23). Segundo Konishi & Kitagawa (2008), uma
estimativa da função suporte esperada, pode ser obtida substituindo a distribuição
de probabilidade desconhecida G na equação (2.23) por uma função de distribui-
ção empírica
G baseada nos dados X. Isto pode ser entendido nas definições feitas
a seguir.
Definição 2.14 Sejam X = {x
1
, x
2
, ..., x
n
} os dados observados de uma dis-
tribuição G(x). A função de distribuição empírica
G é a função de densidade
acumulada que dá
1
n
de probabilidade para cada X
i
. Formalmente,
G
n
(x) =
1
n
n
i=1
I (X
i
x)
em que
I (X
i
x) =
1, se X
i
x
0, se X
i
x.
Wasserman(2005), mostra o seguinte teorema:
Teorema 2.2 Sejam X
1
, X
2
, ..., X
n
G e seja
G
n
a função densidade acumu-
lada empírica. Então:
Para qualquer valor de x fixo,
E
G
n
(x)
= G (x) (2.24)
36
V ar
G
n
(x)
=
G (x) (1 G (x))
n
sup
G
n
(x) G (x)
0
.
Definição 2.15 Um funcional estatístico T (G) é qualquer função de G, em que
G é uma distribuição e T uma função qualquer.
São exemplos de funcionais:
A média µ =
xdG (x),
A variância σ
2
=
(x µ)
2
dG (x),
A mediana m = G
1
1
2
.
Um funcional da forma
u (x) dG (x) é dito ser um funcional linear. No caso
contínuo,
u (x) dG (x) é definido como sendo
u (x) g (x) dx e no caso discreto
é definido como sendo
i
u (x
i
) g (x
i
).
Definição 2.16 O estimador para θ = T (G) é definido por
θ
n
=
G
n
.
Se um funcional pode ser escrito na forma T (G) =
u (x)dG (x), Konishi &
Kitagawa (2008) mostram que o estimador correspondente é dado por
T
G
=
u (x)d
G (x) =
n
i=1
g (x
i
) u (x
i
) =
1
n
n
i=1
u (x
i
) (2.25)
ou seja, substitui-se a função densidade de probabilidade acumulada G pela função
de distribuição acumulada empírica
G, e a função densidade g
n
=
1
n
para cada
observação X
i
.
37
Assim, se por exemplo, a função de densidade acumulada G for substituída
por
G, será obtido o seguinte estimador para a média µ:
T
G
=
xd
G (x) =
1
n
n
i=1
x
i
= x,
que é exatamente a média amostral.
De (2.25) vê-se que pode-se estimar a função suporte esperada por:
E
G
log f
x|
θ

=
log f
x|
θ
d
G (x)
=
n
i=1
g
x
i
|
θ
log f (x
i
)
=
1
n
n
i=1
log f
x
i
|
θ
. (2.26)
Nota-se que o estimador da função suporte esperada E
G
logf
x|
θ

é
n
1
L
θ
e a função suporte L
θ
é um estimador de nE
G
logf
x|
θ

.
38
3 OS CRITÉRIOS DE INFORMAÇÃO AIC E BIC
Com o intuito de comparar n modelos, g
1
(x|θ
1
) , g
2
(x|θ
2
) , ..., g
n
(x|θ
n
),
pode-se simplesmente comparar as magnitudes da função suporte maximizada,
isto é, L
θ
i
, mas tal método não uma verdadeira comparação, haja vista que,
em não conhecendo o verdadeiro modelo g (x), primeiramente utiliza-se o mé-
todo da máxima verossimilhança para estimar-se os parâmetros θ
i
de cada modelo
g
i
(x), i = 1, 2, ...n, posteriormente utilizar-se-á os mesmos dados para estimar-se
E
G
logf(x|
θ)
, isto introduz um viés em L
θ
i
, sendo que, a magnitude deste
viés varia de acordo com a dimensão do vetor de parâmetros.
De acordo com a Definição (2.13) o viés é dado por
b (G) = E
G(x
n
)
log f
X
n
|
θ (X
n
)
nE
G(Z)
log f
Z|
θ (X
n
)

, (3.1)
em que a esperança é tomada com respeito à distribuição conjunta.
Vê-se assim que os critérios de informação são construídos para avaliar e cor-
rigir o viés da função suporte. Segundo Konishi & Kitagawa (2008), um critério
de informação tem a forma que se segue:
CI
X
n
,
G
= 2 (log (verossimilhança) viés)
= 2
n
i=1
log f
X
n
|
θ (X
n
)
+ 2 (b (G)) . (3.2)
Alguns critérios comuns na literatura também podem ser utilizados para sele-
ção de modelos. Esses critérios levam em consideração a complexidade do modelo
no critério de seleção. São critérios que essencialmente, penalizam a verossimi-
lhança, utilizando o número de variáveis do modelo e, eventualmente o tamanho
da amostra. Esta penalização é feita subtraindo-se do valor da verossimilhança
39
uma determinada quantidade, que depende do quão complexo é o modelo (quanto
mais parâmetros, mais complexo).
Akaike (1974), propôs utilizar a informação de Kullback-Leibler para a sele-
ção de modelos. Ele estabeleceu uma relação entre a máxima verossimilhança e
a informação de Kullback-Leibler desenvolvendo então um critério para estimar a
informação de Kullback-Leibler, o posteriormente chamado, Critério de Informa-
ção de Akaike(AIC).
Critérios de seleção de modelos como o Critério de Informação de Akaike
(AIC) e Critério de Informação Bayesiano (BIC), são freqüentemente utilizados
para selecionar modelos em diversas áreas. Segundo esses critérios, o melhor
modelo será aquele que apresentar menor valor de AIC ou BIC.
Por serem resultados assintóticos, os resultados deste trabalho são válidos para
“grandes” amostras, sendo o conceito de “grande” amostra difícil de se definir, pois
tal conceito depende da área de estudo, da disponibilidade de recursos para uma
amostra maior, dentre outros fatores. Se houver convicção de que a amostra em
mãos não é “‘grande”, pode-se utilizar as correções destes critérios, existentes,
para pequenas amostras. Tais correções não serão alvo desse estudo, mas podem
ser encontradas em (Burnham & Anderson, 2002).
3.1 Critério de informação de Akaike
O Critério de informação de Akaike (AIC) desenvolvido por Hirotugu Akaike
sob o nome de “um critério de informação” em 1971 e proposto, em Akaike (1974),
é uma medida relativa da qualidade de ajuste de um modelo estatístico estimado.
Fundamenta-se no conceito de entropia, oferecendo uma medida relativa das infor-
mações perdidas, quando um determinado modelo é usado para descrever a reali-
dade. Akaike encontrou uma relação entre a esperança relativa da K-L informação
40
e a função suporte maximizada, permitindo uma maior interação entre a prática
e a teoria, em seleção de modelos e análises de conjuntos de dados complexos
(Burnham & Anderson, 2002).
Akaike (1974), mostrou que o viés é dado assintoticamente por:
b (G) = tr
I (θ
0
) J (θ
0
)
1
, (3.3)
sendo J (θ
0
) e I (θ
0
) dados por (6.6) e (6.10), respectivamente. A derivação desse
resultado é carregada de cálculos matemáticos e por isso encontra-se nos anexos.
O AIC é um critério que avalia a qualidade do ajuste do modelo paramétrico,
estimado pelo método da máxima verossimilhança. Ele baseia-se no fato de que o
viés (3.3) tende ao número de parâmetros a serem estimados no modelo, pois sob
a suposição de que existe um θ
0
Θ tal que g(x) = f (x|θ
0
), tem-se a igualdade
das expressões (6.6) e (6.10), isto é, I(θ
0
) = J(θ
0
) e assim obter-se-à em (3.3)
que:
b (G) = E
G(x
n
)
log f
X
n
|
θ (X
n
)
nE
G(Z)
log f
Z|
θ (X
n
)

= tr
I (θ
0
) J
θ
0
1

= tr (I
p
) = p, (3.4)
em que p é o número de parâmetros a serem estimados no modelo.
Com esse resultado, Akaike (1974) definiu seu critério de informação como:
AIC = 2 (Função suporte maximizada) + 2 (número de parâmetros) ,
AIC = 2 log L
θ
+ 2 (k) (3.5)
O AIC não é uma prova sobre o modelo, no sentido de testar hipóteses, mas
41
uma ferramenta para a seleção de modelos; não é um teste de hipóteses, não
significância e nem valor-p. Dado um conjunto de dados e vários modelos con-
correntes, pode-se classificá-los de acordo com o seu AIC, com aqueles tendo os
menores valores de AIC sendo os melhores (Burnham & Anderson, 2002). A par-
tir do valor do AIC pode-se inferir que, por exemplo, os três principais modelos
estão em um empate e os restantes são muito piores, mas não se deve atribuir um
valor cima do qual um determinado modelo é “rejeitado”.
Esse critério está implementado em grande parte dos softwares estatísticos,
tais como SAS, R, Statistica, etc. Por si só, o valor do AIC para um determinado
conjunto de dados não tem qualquer significado. O AIC torna-se útil quando são
comparados diversos modelos. O modelo com o menor AIC é o “melhor” modelo,
dentre os modelos comparados. Se apenas modelos ruins forem considerados, o
AIC selecionará o melhor dentre estes modelos.
3.2 Critério de informação bayesiano
O Critério de informação Bayesiano (BIC), também chamado de Critério de
Schwarz, foi proposto por Schwarz (1978), e é um critério de avaliação de modelos
definido em termos da probabilidade a posteriori, sendo assim chamado porque
Schwarz deu um argumento Bayesiano para prová-lo. A seguir serão descritos
alguns conceitos que levarão à construção deste critério ao final desta subseção.
O teorema de Bayes
De acordo com Bolfarine & Sandoval (2000), quando dois ou mais eventos
de um espaço amostral são levados em consideração conjuntamente, passa a haver
sentido conjecturar se a ocorrência ou não de um afeta a ocorrência ou não do ou-
tro, isto é, se são independentes ou não. Intuitivamente, somos levados à definição
de que dois eventos são independentes se, P [A B] = P [A] P [B]. Entretanto,
42
se há dependência entre os eventos, passa a haver sentido falar na probabilidade de
que um evento ocorra dado que outro ocorreu ou não. Esta dependência motiva a
definição de probabilidade condicional. Finalmente, os conceitos de independên-
cia e probabilidade condicional levarão ao teorema de Bayes.
Mood et al. (1974), definem probabilidade condicional, independência e sub-
conjuntos mutuamente exclusivos como se segue:
Definição 3.1 A probabilidade condicional de um evento A dado um evento B,
denotada por P [A|B] é definida por:
P [A|B] =
P [A B]
P [B]
se P [B] > 0 e é indefinida se P [B] = 0.
Definição 3.2 Dois eventos A e B são ditos independentes se, e se, qualquer
uma das três condições é verdadeira
P [A B] = P [A] P [B],
P [A|B] = P [A], se P [B] > 0,
P [B|A] = P [B], se P [B] > 0.
Definição 3.3 Dois conjuntos A e B, subconjuntos de , são definidos como sendo
mutuamente exclusivos (disjuntos) se A B = . Subconjuntos A
1
, A
2
, . . . são
ditos mutuamente exclusivos se A
i
A
j
= para todo i = j, i, j N.
Teorema 3.1 Se (Ω, A, P [·]) é um espaço de probabilidades e B
1
, B
2
, . . . , B
n
é
uma coleção de eventos mutuamente exclusivos em A, satisfazendo =
n
j=1
B
j
43
e P [B
j
] > 0, para j = 1, 2, . . . , n, então para todo A A, tal que P [A] > 0,
tem-se:
P [B
k
|A] =
P [A|B
k
] P [B
k
]
n
j=1
P [A|B
k
] P [B
k
]
, (3.6)
sendo o espaço amostral e A o espaço paramétrico.
Conforme Konishi & Kitagawa (2008), sejam M
1
, M
2
, . . . , M
k
, k modelos
candidatos, cada um dos modelos M
i
com uma distribuição de probabilidades
f
i
(x|θ
i
) e uma priori, π
i
(θ
i
) para o k
i
ésimo vetor θ
i
. Se são dadas n obser-
vações x
n
= {x
1
, x
2
, . . . , x
n
}, então para o iésimo modelo M
i
, a distribuição
marginal de x
n
é dada por:
p
i
(x
n
) =
f
i
(x
n
|θ
i
) π
i
(θ
i
) dθ
i
. (3.7)
Essa quantidade pode considerada como a verossimilhança para o i-ésimo mo-
delo e será referida como verossimilhança marginal dos dados.
Sendo P (M
i
) a distribuição a priori do i-ésimo modelo, por (3.6) a distribuição
a posteriori será (Burnham & Anderson, 2002):
P (M
i
|x
n
) =
p
i
(x
n
) P (M
j
)
n
j=1
p
j
(x
n
) P (M
j
)
(3.8)
Segundo Paulino et al. (2003), a probabilidade a posteriori indica a proba-
bilidade dos dados serem gerados do i-ésimo modelo quando os dados x
n
são
observados. Se um modelo está sendo selecionado de r modelos, seria natural
adotar o modelo que tem a maior probabilidade a posteriori. Esse princípio mostra
que o modelo que maximiza o numerador p
j
(x
n
) P (M
j
) deve ser selecionado,
pois todos os modelos compartilham do mesmo denominador em (3.8). Se as dis-
44
tribuições a priori P (M
i
) são iguais em todos os modelos, então o modelo que
maximiza a probabilidade marginal dos dados p
i
(x
n
), deve ser selecionado. As-
sim, se uma aproximação para o probabilidade marginal expressa em termos da
integral em (3.8) puder ser obtida, a necessidade básica de encontrar a integral
problema-por-problema desaparece, isto faz do BIC um critério satisfatório para
seleção de modelos.
De acordo com Konishi & Kitagawa (2008), o BIC é definido como:
2logp
i
(x
n
) = 2log
f
i
(x
n
|θ
i
) π
i
(θ
i
) dθ
i
2logf
i
x
n
|
θ
i
+ k
i
logn (3.9)
em que
θ
i
é o estimador de máxima verossimilhança para o k
i
-ésimo vetor para-
métrico θ
i
do modelo f
i
(x
n
|θ
i
).
Conseqüentemente, dos r modelos avaliados usando o método de máxima ve-
rossimilhança, o modelo que minimizar o valor do BIC é o melhor modelo para os
dados.
Assim, sob a suposição de que todos os modelos têm distribuição de probabi-
lidades a priori iguais, a probabilidade posteriori, obtida usando a informação do
dados, serve para contrastar os modelos e ajuda na identificação do modelo que
gerou os dados.
Sejam M
1
e M
2
dois modelos que quer-se comparar. Para cada modelo tem-se
as verossimilhanças marginais p
i
(x
n
), as prioris P (M
i
) e as posterioris P (M
i
|x
n
)
com i = {1, 2}, assim, a razão à posteriori em favor do modelo M
1
versus o mo-
45
delo M
2
é:
P (M
1
|x
n
)
P (M
1
|x
n
)
=
p
1
(x
n
)P (M
1
)
n
j=1
p
j
(x
n
)P (M
j
)
p
2
(x
n
)P (M
2
)
n
j=1
p
j
(x
n
)P (M
j
)
=
p
1
(x
n
) P (M
1
)
p
2
(x
n
) P (M
2
)
.
A razão
p
1
(x
n
)
p
2
(x
n
)
(3.10)
é chamada de Fator de Bayes.
Segundo Konishi & Kitagawa (2008), Akaike mostrou que a comparação ba-
seada no fator de Akaike é assintoticamente equivalente à comparação através do
fator de Bayes.
O problema em encontrar o valor do BIC reside no fato de ter-se que calcular
o valor da integral em (3.7). Isso é feito utilizando-se a aproximação de Laplace
para integrais.
A aproximação de Laplace para integrais
Considere a aproximação de Laplace para a integral
exp {nq (θ)}dθ, (3.11)
em que θ é um vetor de parâmetros p-dimensional e q(θ) é uma função real p-
dimensional.
A grande vantagem da aproximação de Laplace é o fato de que quando o nú-
mero n de observações é grande, o integrando concentra-se em um vizinhança
θ de
q(θ), e conseqüentemente, o valor da integral depende somente do comportamento
do integrando na vizinhança de
θ.
46
Assim,
q(θ)
θ
θ=
θ
= 0 e a expansão de q (θ) em torno de
θ é:
q (θ) = q
θ
1
2
θ
θ
T
J
q
θ
θ
θ
+ . . . , (3.12)
em que
J
q
θ
=
2
q (θ)
θθ
T
θ=
θ
(3.13)
Definição 3.4 Sejam q (θ) uma função de valores reais avaliada em torno de
θ,
sendo θ um vetor de parâmetros. Então a aproximação de Laplace para a integral
é dada por:
exp {nq (θ) dθ}
(2π)
p
/
2
(n)
p
/
2
J
q
θ
p
/
2
exp
nq
θ

(3.14)
em que J
q
θ
é definido em (3.13).
Utilizando-se a aproximação de Laplace para aproximar (3.7), que pode ser
reescrita como
p(x
n
) =
f
i
(x
n
|θ) π (θ) dθ
=
exp {log f (x
n
|θ)}π (θ) dθ
=
exp { (θ)}π (θ) dθ, (3.15)
em que (θ) é a função suporte (θ) = logf (x
n
|θ).
Assim sendo, fazendo-se a expansão em séries de Taylor de (θ) e π (θ) em
torno de
θ obter-se-á respectivamente:
(θ) =
θ
1
2
θ
θ
T
J
θ
θ
θ
+ . . . , (3.16)
47
π (θ) = π
θ
+
θ
θ
T
π (θ)
θ
θ=
θ
+ . . . , (3.17)
substituindo (3.16) e (3.17) em (3.15) obtém-se:
p(x
n
) =
exp
π
θ
+
θ
θ
T
π (θ)
θ
θ=
θ
+. . .
dθ
×
π
θ
+
θ
θ
T
π(θ)
θ
θ=
θ
+ . . .
dθ
exp
θ

π
θ
exp
n
2
θ
θ
T
J (θ)
θ
θ
dθ(3.18)
A integral em (3.18) satisfaz a equação (3.14), conseqüentemente pode ser
aproximada utilizando Laplace, e obtém-se:
exp
n
2
θ
θ
T
J (θ)
θ
θ
dθ = (2π)
p
/
2
n
p
/
2
J
θ
1
/
2
,(3.19)
em que o integrando é uma função de densidade normal p-dimensional com vetor
de médias
θ e matriz de covariância J
1
θ

n.
Para n grande,
p(x
n
) exp
θ

π
θ
(2π)
p
/
2
n
p
/
2
J
θ
1
/
2
(3.20)
Tomando o logarítmo em (3.20) e multiplicando a expressão por 2 obtém-se
2 log p (x
n
) = 2 log
f (x
n
|θ) π (θ) dθ
(3.21)
= 2
θ
+ p log n + log
J
θ
p log (2π) 2 log π
θ
Assim, o Critério de Informação Bayesiano pode ser obtido da seguinte forma
(ignorando-se os termos constantes no equação):
48
Definição 3.5 Seja F
x
n
|
θ
um modelo estatístico estimado através do método
de máxima verossimilhança. Então o Critério de Informação Bayesiano(BIC) é
dado por:
BIC = 2 log f (x
n
|θ) + p log n, (3.22)
em que f (x
n
|θ) é o modelo escolhido, p é o número de parâmetros a serem esti-
mados e n é o número de observações da amostra.
3.3 Algumas considerações acerca do AIC e do BIC
Vale a pena salientar algumas características dos critérios AIC e BIC. A maio-
ria dessas considerações são feitas por Burnahm & Anderson(2002), e também es-
tão no website desses autores, onde estão disponíveis outras considerações acerca
destes métodos.
Tanto o AIC quanto o BIC fundamentam-se na verossimilhança, impondo
entretanto diferentes penalizações;
O AIC e o BIC servem para comparar modelos encaixados, mas podem ser
aplicados também em modelos não encaixados;
Para n > 8, o valor do AIC para um determinado modelo será sempre menor
que o valor do BIC, mas os resultados não necessariamente o serão;
O AIC e o BIC servem para comparar quaisquer quantidade de modelos, e
não somente dois, como muitos pensam;
O AIC e o BIC são critérios assintóticos e já existem correções para estes;
O AIC e o BIC servem para estudar estruturas de covariâncias;
49
A seleção dos modelos é feita pelo pesquisador e, se somente modelos ruins
forem selecionados, o AIC fará a seleção do melhor dentre eles.
50
4 APLICAÇÕES DO AIC E BIC
4.1 Os dados
Para a realização desse trabalho foram avaliados dois conjuntos de dados dis-
tintos.
O primeiro conjunto de dados é disponibilizado em Triola (1999), e encontra-
se no anexo A. Foram extraídas duas amostras de confeitos M&M, pesados os
de cores vermelha e amarela. A variável resposta foi o peso em gramas de cada
elemento amostral. Utilizando o AIC e o BIC desejou-se testar se os pesos dos
confeitos amarelos e vermelhos seguem a mesma distribuição.
O segundo conjunto de dados foi obtido de Rawlings et al. (1998). Trata-se
de um estudo das características que influenciam a produção aérea de biomassa
na grama de pântano. Foram amostrados três tipos de vegetação Spartina, em três
localidades (Oak Island, Smith Island, and Snows Marsh). Em cada localidade,
cinco amostras aleatórias do substrato de terra de cada tipo de vegetação foram
coletadas, totalizando 45 amostras.
Foram analisadas 14 características físico-químicas da terra durante vários me-
ses, porém os dados usados nesse estudo envolvem só a amostragem de setembro,
em que foram analisadas as variáveis: salinidade (Sal), pH (pH), potássio (K) em
ppm, sódio (Na) em ppm , zinco (Zn) em ppm e a variável resposta foi a biomassa
aérea em gm
2
. O propósito do estudo foi utilizar regressão linear múltipla para
relacionar a produção de biomassa com as cinco variáveis estudadas.
4.2 Igualdade de médias e / ou de variâncias de distribuições normais
Uma utilidade dos critérios de Akaike e de Schwarz é testar se os dados oriun-
dos de uma distribuição normal tem mesma média e variância; ou mesma média
51
e variâncias diferentes, ou diferentes médias e mesma variância ou se provém de
uma normal com médias e variâncias diferentes.
Sejam dois conjuntos de dados {y
1
, y
2,
. . . , y
n
} e {y
n+1
, y
n+2,
. . . , y
n+m
},
sendo que y
1
, y
2,
. . . , y
n
N
µ
1
, σ
2
1
e y
n+1
, y
n+2,
. . . , y
n+m
N
µ
2
, σ
2
2
.
Deseja-se verificar se:
µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
= σ
2
ou (4.1)
µ
1
= µ
2
e σ
2
1
= σ
2
2
ou (4.2)
µ
1
= µ
2
e σ
2
1
= σ
2
2
= σ
2
ou (4.3)
µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
(4.4)
Tem-se que
f
y
1
|µ
1
, σ
2
1
=
1
2πσ
2
1
exp
1
2
y
i
µ
1
σ
1
2
, i = 1, 2, . . . , n,
e
f
y
2
|µ
2
, σ
2
2
=
1
2πσ
2
2
exp
1
2
y
i
µ
2
σ
2
2
, i = n + 1, n + 2, . . . , n + m,
E a função de densidade conjunta é dada por:
f(Y|θ) = f
y
1
, . . . , y
n
, y
n+1
, . . . , y
n+m
|µ
1
, σ
2
1
, µ
2
, σ
2
2
=
n
i=1
1
2πσ
2
1
exp
y
i
µ
1
2σ
1
2
n+m
i=n+1
1
2πσ
2
2
exp
y
i
µ
1
2σ
2
2
52
Assim, a função suporte é:
L(θ)= log
n
i=1
1
2πσ
2
1
e
1
2
y
i
µ
1
σ
1
2
n+m
i=n+1
1
2πσ
2
2
e
1
2
y
i
µ
2
σ
2
2

=
n
2
log
2πσ
2
1
n
i=1
(y
i
µ
1
)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
2σ
2
2
(4.5)
em que θ =
µ
1
, µ
2
, σ
2
1
, σ
2
2
.
Serão obtidas as situações descritas em (4.1), (4.2) (4.3), e (4.4). Será feita
agora a derivação dos critérios de Akaike e Schwarz para cada uma delas.
Caso 1: µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
= σ
2
Para o caso descrito em (4.1), ou seja, µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
= σ
2
existem
dois parâmetros µ e σ
2
desconhecidos. Esta suposição é equivalente a termos
n + m observações y
1
, y
2
, . . . , y
n+m
de uma distribuição normal , isto é,
y
1
, y
2
, . . . , y
n+m
, N
µ, σ
2
.
Sob a suposição (4.1) tem-se de (4.5) que
L (θ) =
n
2
log
2πσ
2
n
i=1
(y
i
µ)
2
2σ
2
m
2
log
2πσ
2
n+m
i=n+1
(y
i
µ)
2
2σ
2
L (θ) =
n + m
2
log
2πσ
2
1
2σ
2
n+m
i=1
(y
i
µ)
2
, (4.6)
sendo θ =
µ, σ
2
.
Maximizando (4.6) tem-se:
L
θ
=
n + m
2
log
2πσ
2
+ 1
, (4.7)
53
em que
µ =
1
n + m
n+m
i=1
y
i
(4.8)
e
σ
2
2
=
1
n + m
n+m
i=1
(y
i
µ)
2
. (4.9)
Os cálculos inerentes a esses resultados encontram-se no Anexo C.
O valor do AIC é dado por:
AIC = 2 (Função suporte maximizada) + 2 (número de parâmetros) ,
AIC = 2
log L
θ

+ 2 (k) (4.10)
em que L(
θ) é a verossimilhança maximizada e k o número de parâmetros desco-
nhecidos e estimados.
Substituindo (4.7) em (4.10), tem-se:
AIC
1
=2
n + m
2
log
2πσ
2
+ 1
+ 2(2) = (n + m)
log
2πσ
2
+ 1
+ 4
AIC
1
= (n + m)
log σ
2
+ log 2π + 1
+ 4 (4.11)
O valor do BIC é dado por:
BIC = 2 (Função suporte maximizada) + (número de parâmetros) log n,
BIC = 2
log L
θ

+ (k) log n (4.12)
em que L(
θ) é a função de verossimilhança maximizada e k o número de parâme-
tros desconhecidos e estimados.
54
Substituindo (4.7) em (4.12), tem-se:
BIC
1
= 2
n + m
2
log
2πσ
2
+ 1
+ 2 log(n)
= (n + m)
log
2πσ
2
+ 1
+ 2 log(n + m)
BIC
1
= (n + m)
log σ
2
+ log 2π + 1
+ 2 log(n + m) (4.13)
Caso 2: µ
1
= µ
2
e σ
2
1
= σ
2
2
Se todos os parâmetros são desconhecidos tem-se então θ =
µ
1
, µ
2
, σ
2
1
, σ
2
2
e assim a função em (4.5) é expressa como:
L (θ) = L
µ
1
, µ
2
, σ
2
1
, σ
2
2
=
n
2
log
2πσ
2
1
1
2σ
2
1
n
i=1
(y
i
µ
1
)
2
m
2
log
2πσ
2
2
1
2σ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
(4.14)
Logo,
L
θ
=
n
2
log
2π
σ
2
1
n
i=1
(y
i
µ
1
)
2
2
σ
2
1
m
2
log
2πσ
2
2
m
i=n+1
(y
i
µ
2
)
2
2
σ
2
2
,(4.15)
e µ
1
, µ
2
,
σ
2
1
e
σ
2
2
são dados por respectivamente por (4.16), (4.17), (4.18) e (4.19).
µ
1
=
1
n
n
i=1
y
i
(4.16)
µ
2
=
1
m
n+m
i=n+1
y
i
(4.17)
σ
2
1
=
1
n
n
i=1
(y
i
µ
1
)
2
(4.18)
σ
2
2
=
1
m
n
i=1
(y
i
µ
2
)
2
. (4.19)
55
Todos os cálculos necessários para a obtenção desses resultados encontram-se no
Anexo C.
Substituindo (4.15) em (4.10), já multiplicando pelo fator 2, tem-se:
AIC
2
=n log
2π
σ
2
1
+
n
i=1
(y
i
µ
1
)
2
σ
2
1
+m log
2π
σ
2
2
+
m
i=n+1
(y
i
µ
2
)
2
σ
2
2
+2(4)
AIC
2
= n log
2π
σ
2
1
+
n
σ
2
1
σ
2
1
+ m log
2π
σ
2
2
+
m
σ
2
2
σ
2
2
+ 8
AIC
2
= (n + m) log (2π) + n log
σ
2
1
+ m log
σ
2
2
+ (n + m) + 8
AIC
2
= (n + m) (log (2π) + 1) + n log σ
2
1
+ m log σ
2
2
+ 8 (4.20)
O valor do BIC é dado por:
BIC = 2 (log L (θ)) + (k) log n, (4.21)
Substituindo (4.15) em (4.21), tem-se:
BIC
2
= 2
n
2
log
2π
σ
2
1
n
i=1
(y
i
µ
1
)
2
2
σ
2
1
m
2
log
2πσ
2
2
m
i=n+1
(y
i
µ
2
)
2
2
σ
2
2
+ 4 log n
56
BIC
2
= n log
2π
σ
2
1
+
n
σ
2
1
σ
2
1
+ m log
2π
σ
2
2
+
m
σ
2
2
σ
2
2
+ 4 log n
BIC
2
= (n + m) log (2π) + n log
σ
2
1
+ m log
σ
2
2
+ (n + m) + 4 log n
BIC
2
= (n + m) (log (2π) + 1) + n log σ
2
1
+ m log σ
2
2
+ 4 log n (4.22)
Caso 3: µ
1
= µ
2
e σ
2
1
= σ
2
2
= σ
2
No caso em que µ
1
= µ
2
σ
2
1
= σ
2
2
= σ
2
, tem-se três parâmetros desconhe-
cidos µ
1
, µ
2
e σ
2
, que devem ser estimados a fim de obter a estimativa da função
suporte. De (4.5) tem-se:
L(θ) =
n + m
2
log
2πσ
2
1
2σ
2
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2
(4.23)
em que θ =
µ
1
, µ
2
, σ
2
.
A função suporte estimada é dada por
L
θ
=
m + n
2
log
2π
σ
2
+ 1
(4.24)
Sendo os estimadores de µ
1
, µ
2
, e σ
2
dados respectivamente por:
µ
1
=
n
i=1
y
i
n
(4.25)
µ
2
=
n+m
i=n+1
y
i
m
(4.26)
σ
2
=
1
(n + m)
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2
(4.27)
57
Substituindo (4.24) em (4.10) tem-se:
AIC
3
= 2
m + n
2
log
2π
σ
2
+ 1
+ 2 × 3
AIC
3
= (m + n)
log
2π
σ
2
+ 1
+ 6
AIC
3
= (n + m) log
σ
2
+ (n + m) (log 2π + 1) + 6 (4.28)
Sendo valor do BIC dado por
BIC = 2
log L
θ

+ (k) log n, (4.29)
substitui-se (4.24) em (4.29), e tem-se:
BIC
3
= 2
m + n
2
log
2π
σ
2
+ 1
+ 3 log n
E assim
BIC
3
= (n + m) log
σ
2
+ (n + m) (log 2π + 1) + 3 log n (4.30)
Caso 4: µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
Neste caso tem-se 3 parâmetros desconhecidos µ, σ
2
1
, e σ
2
2
, e θ =
µ, σ
2
1
, σ
2
2
.
Assim sendo, tem-se em (4.5):
L(θ)=
n
2
log
2πσ
2
1
n
i=1
(y
i
µ)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ)
2
2σ
2
2
.(4.31)
58
E assim
L
θ
=
(n + m)
2
(log 2π + 1)
n
2
log
σ
2
1
m
2
log
σ
2
2
(4.32)
Sendo que
σ
2
1
=
1
n
n
i=1
(y
i
µ)
2
(4.33)
σ
2
2
=
1
m
n+m
i=n+1
(y
i
µ)
2
(4.34)
e o estimador de µ é encontrado resolvendo-se a equação
µ
3
+ A
µ
2
+ B µ + C = 0 (4.35)
em que A, B e C, são dados respectivamente por (6.34), (6.35) e (6.36).
O passo seguinte é obter o valor de AIC. Substituindo (4.32) em (4.10) tem-se:
AIC
4
= 2
(n + m)
2
(log 2π + 1)
n
2
log
σ
2
1
m
2
log
σ
2
2
+ 2 × 3
AIC
4
= (n + m) (log 2π + 1) + n log
σ
2
1
+ m log
σ
2
2
+ 6 (4.36)
E finalmente para obter-se o BIC
BIC = 2
log L
θ

+ (k) log n, (4.37)
59
será substituído (4.32) em (4.37) e daí
BIC
4
= 2
(n + m)
2
(log 2π + 1)
n
2
log
σ
2
1
m
2
log
σ
2
2
+ 3 log n,
e o valor do BIC é dado por:
BIC
4
= (n + m) (log 2π + 1) + n log
σ
2
1
+ m log
σ
2
2
+ 3 log n (4.38)
4.3 Seleção de variáveis em modelos de regressão
Supondo que se tenha uma variável resposta Y e m variáveis explicativas
X
1
, X
2
, . . . , X
m
. O modelo de regressão linear múltipla é dado por
Y = β
0
+ β
1
X
1
+ . . . + β
m
X
m
+ ε,
em que o erro ε N (0, σ
2
).
A distribuição condicional da variável resposta Y dado as variáveis explicati-
vas é
f (Y |X
1
, . . . , X
m
) =
2πσ
2
1
2
exp
1
2σ
2
Y β
0
m
j=1
β
j
X
j
2
.
Assim, se houver um conjunto com n observações, sendo estas independentes
{(Y
i
, X
i1
, . . . , X
im
) ; i = 1, . . . , n}, a verossimilhança para o modelo será dada
por
L
β
0
, β
1
, . . . , β
m
, σ
2
=
n
i=1
p (Y
i
|X
i1
, . . . X
im
).
60
Assim, a função suporte será:
L
β, σ
2
=
n
2
log
2πσ
2
1
2σ
2
n
i=1
Y
i
β
0
m
j=1
β
j
X
ij
2
, (4.39)
em que β = (β
0
, β
1
, . . . , β
m
) , sendo que seu estimador de máxima verossimi-
lhança
β =
β
0
,
β
1
, . . . ,
β
m
, é obtido como solução do sistema de equações
lineares
X
T
Xβ = X
T
Y ,
em que
β =
β
1
β
2
.
.
.
β
m
, X =
1 X
11
. . . X
1m
1 X
21
··· X
2m
.
.
.
.
.
.
.
.
.
.
.
.
1 X
n1
. . . X
nm
, e Y =
Y
1
Y
2
.
.
.
Y
n
.
O estimador de máxima verossimilhança de σ
2
é:
σ
2
=
1
n
n
i=1
Y
i
β
0
+
β
1
X
i1
+ . . . +
β
m
X
im

2
. (4.40)
Substituindo (4.40) em (4.39) tem-se a função suporte maximizada
L
β
0
,
β
1
, . . . ,
β
m
, σ
2
=
n
2
log(2π)
n
2
log d (X
1
, . . . , X
m
)
n
2
, (4.41)
em que d (X
1
, . . . , X
m
) é a estimativa da variância residual σ
2
do modelo, dada
em (4.40).
Como o número de parâmetros a serem estimados no modelo de regressão
múltipla é m + 2, o AIC deste modelo de acordo com a equação (3.5) será dado
61
por:
AIC = n (log 2π + 1) + n log d (X
1
, . . . , X
m
) + 2 (m + 2) . (4.42)
Na regressão múltipla, nem todas as variáveis explicativas necessariamente in-
fluenciarão significativamente a variável resposta. Um modelo estimado com um
grande número de variáveis explicativas desnecessárias pode ser instável. Selecio-
nando o modelo com o menor AIC para todas as diferentes possíveis combinações
da variável explicativa, espera-se obter um modelo razoável, que equilibre a qua-
lidade do ajuste e a complexidade.
O BIC para este modelo, conforme (3.22), será dado por
BIC = n (log 2π + 1) + n log d (X
1
, . . . , X
m
) + 2 (m + 2) log n. (4.43)
4.4 Seleção de modelos para os dados M&M e produção de biomassa
Todos os cálculos foram feitos utilizando-se o software R.
4.4.1 Análise dos dados dos pesos de M&M
Para o caso em que µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
= σ
2
foi obtido:
µ = 0.9138936
σ
2
= 0.0009435844
L
θ
= 97.00677,
AIC
1
= 190.0135
BIC
1
= 186.3132,
Para o segundo caso, em que µ
1
= µ
2
e σ
2
1
= σ
2
2
tem-se:
µ
1
= 0.9172692
62
µ
2
= 0.9097143
σ
2
1
= 0.001099581
σ
2
2
= 0.0007188707
L
θ
= 97.87383
AIC
2
= 187.7477
BIC
2
= 180.3471.
Para o terceiro caso, em que µ
1
= µ
2
e σ
2
1
= σ
2
2
= σ
2
tem-se:
µ
1
= 0.9172692
µ
2
= 0.9097143
σ
2
= 0.0009294766
L
θ
= 97.36078
AIC
3
= 188.7216
BIC
3
= 183.1711.
Para o quarto caso, em que µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
tem-se:
µ = 0.9128487670
σ
2
1
= 0.001119122
σ
2
2
= 0.0007188707
L
θ
= 97.64484
AIC
4
= 189.2897
BIC
4
= 183.7392.
Comparando-se os valores do AIC , obtidos (AIC
1
, AIC
2
, AIC
3
, AIC
4
), vê-
se que deve-se selecionar o modelo 1, em que µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
= σ
2
,
ou seja, pelo critério de Akaike, é mais provável que os pesos dos M&M tenham
distribuição normal, com mesma média e mesma variância.
63
Ao se comparar os modelos utilizando o BIC, os resultados obtidos são os
mesmos que aqueles obtidos pelo AIC, ou seja, os dados seguem a distribuição
normal, com mesma média e mesma variância, haja vista que o valor do BIC
1
foi
o menor deles.
4.4.2 Análise dos dados da produção de biomassa na grama de pântano.
Na Tabela 1 abaixo, tem-se o resultado do AIC e BIC para os 32 modelos
possíveis de se obter com os dados.
A partir desta tabela, seleciona-se pelo AIC o modelo que tem pH e Na como
sendo o mais provável. O modelo final selecionado foi
Y = 475.72892 + 404.94836 × pH 0.02333 × N a.
A seleção pelo critério BIC não difere em seus resultados do critério AIC,
selecionando o mesmo modelo como sendo o mais provável.
A dificuldade aqui encontrada é ao fazer-se os cálculos para todos os mode-
los possíveis, pois se houver N variáveis, tem-se 2
N
modelos possíveis. Nesse
exemplo, o número de variáveis é relativamente pequeno, mas se houvesse, por
exemplo, dez variáveis, tería-se 2
10
= 1024 modelos possíveis.
Seria impraticável trabalhar com tantos modelos, o que se faz então é uma
pré seleção das variáveis utilizando stepwise, ou outro método, e somente depois
calcula-se o AIC e o BIC para tais modelos pré selecionados.
64
TABELA 1: Resultados do estudo da produção aérea de biomassa na grama de
pântano.
Modelo
σ
2
log(L(
θ)) AIC BIC
Y=µ+ε 426021.44 355.50 715.01 718.62
Y=SAL+ε 421487.01 355.26 716.52 721.94
Y=pH+ε 170679.44 334.92 675.84 681.26
Y=K+ε 408179.80 354.54 715.08 720.50
Y=Na+ε 394486.72 353.77 713.54 718.96
Y=Zn+ε 259921.99 344.39 694.77 700.19
Y=SAL+pH+ε 168961.07 334.69 677.39 684.62
Y=SAL+K+ε 403264.55 354.27 716.54 723.76
Y=SAL+Na+ε 392962.59 353.69 715.37 722.60
Y=SAL+Zn+ε 190594.81 337.41 682.81 690.04
Y=pH+K+ε 150140.21 332.04 672.07 679.30
Y=pH+Na+ε 145514.93 331.33 670.67 677.89
Y=pH+Zn+ε 166880.94 334.42 676.83 684.06
Y=K+Na+ε 394351.87 353.76 715.53 722.76
Y=K+Zn+ε 249136.22 343.43 694.86 702.09
Y=Na+Zn+ε 242819.41 342.85 693.71 700.93
Y=SAL+pH+K+ε 148179.33 331.74 673.48 682.52
Y=SAL+pH+Na+ε 145253.20 331.29 672.58 681.62
Y=SAL+pH+Zn+ε 154797.34 332.72 675.45 684.48
Y=SAL+K+Na+ε 392958.57 353.69 717.37 726.40
Y=SAL+K+Zn+ε 180423.99 336.17 682.34 691.38
Y=SAL+Na+Zn+ε 185562.41 336.80 683.61 692.64
Y=pH+K+Na+ε 144694.09 331.21 672.41 681.44
Y=pH+K+Zn+ε 148217.11 331.75 673.49 682.53
Y=pH+Na+Zn+ε 143803.24 331.07 672.13 681.17
Y=K+Na+Zn+ε 242818.98 342.85 695.71 704.74
Y=SAL+pH+K+Na+ε 144121.58 331.12 674.23 685.07
Y=SAL+pH+K+Zn+ε 138517.20 330.22 672.45 683.29
Y=SAL+pH+Na+Zn+ε 139832.73 330.44 672.87 683.71
Y=SAL+K+Na+Zn+ε 180079.53 336.13 684.26 695.10
Y=pH+K+Na+Zn+ε 143070.72 330.95 673.90 684.74
Y=SAL+pH+K+Na+Zn+ε 797841.82 369.62 753.24 765.89
65
5 CONCLUSÕES
Diante do problema da seleção de modelos, pode-se utilizar os critérios de
informação Bayesiano e de Akaike para se selecionar modelos satisfatoriamente.
Esses critérios baseiam-se em conceitos de fundamental importância, a verossimi-
lhança, a Informação e a Entropia.
O AIC e o BIC podem ser utilizados nas mais diversas áreas; em estatística são
amplamente utilizados principalmente em séries temporais e regressão; entretanto
a regressão, a geoestatística e outras áreas também utilizam estes critérios.
Nesse trabalho, utilizou-se satisfatoriamente, os critérios para seleção de mo-
delos normais e modelos de regressão; os resultados obtidos foram os mesmos
nas aplicações feitas, mas nem sempre isto ocorre, conforme será demonstrado em
trabalhos posteriores.
66
6 ESTUDOS FUTUROS
Avaliar via simulação via Monte Carlo os desempenhos dos critérios AIC e
BIC;
Comparar o AIC e o BIC com um terceiro e recente método, a Medida L;
Aplicação e comparação do AIC e BIC em séries temporais, onde estes são
amplamente utilizados;
Avaliar a utilização desses critérios em dados censurados, em que a verossi-
milhança não pode ser calculada (somente a verossimilhança parcial).
67
REFERÊNCIAS BIBLIOGRÁFICAS
AKAIKE, H. A new look at the statistical model identification. IEEE
Transactions on Automatic Control, Boston, v.19, n.6, p.716–723, Dec. 1974.
ASH, R.B. Information theory. Illinois: Academic, 1965. 339p.
BOLFARINE, H.; SANDOVAL, M.C. Introdução á inferência estatística. São
Paulo: Sociedade Brasileira de Matemática, 2000. 125p.
BURNHAM, K.P.; ANDERSON, D.R. Model selection and multimodel
inference: a pratical information-theoretic approach. New York: Springer, 2002.
488p.
BURNHAM, K.P.; ANDERSON, D.R. Multimodel inference: understanding aic
and bic in model selection. Sociological Methods and Research, Beverly Hills,
v.33, n.2, p.261–304, May 2004.
CHAKRABARTI, C.G.; CHAKRABARTY, I. Boltzmann entropy : probability
and information. Romanian Journal of Physics, Bucharest, v.52, n.5-6,
p.525–528, Jan. 2007.
COVER, T.M.; THOMAS, J.A. Elements of information theory. New York: J.
Wiley, 1991. 542p.
CRAMÉR, H. Elementos da teoria de probabilidade e algumas de suas
aplicações. São Paulo: Mestre Jou, 1973. 330p.
DOMINGUES, H.H. Espaços métricos e introdução à topologia. São Paulo:
Atual, 1982. 183p.
DRAPER, N.R.; SMITH, H. Applied regression analysis. 3. ed. New York: J.
Wiley, 1998. 706p.
FERNANDES, R. de M.S.; AZEVEDO, T. de S. Teoria da informação e suas
aplicações em compressão e aleatoriedade. Rio de Janeiro: PESC - COPPE,
2006. Notas de aula. Disponível em:
<http://www.ravel.ufrj.br/arquivosPublicacoes/cos702_Rafael_Tiago.pdf>.
Acesso em: 20 jul. 2008.
FERREIRA, D.F. Estatística básica. Lavras: UFLA, 2005. 664p.
GARBI, G.G. O romance das equações algébricas: a história da álgebra. São
Paulo: Makron Books, 1997. 253p.
68
GHOSH, J.K.; SAMANTA, T. Model selection - an overview. Current Science,
Bangalore, v.80, n.9, p. 1135–1144, May 2001.
HALLIDAY; RESNICK; WALKER. Fundamentos de física 2: gravitação,
ondas e termodinâmica. 4. ed. Rio de Janeiro: LTC, 1996.
HUANG, K. Statistical mechanics. 2. ed. Singapore: J. Wiley, 1987. 493p.
JOHNSON, N.L.; KOTZ, S.; BALAKRISHNAN, N. Continuous univariate
distributions. 2. ed. New York: J. Wiley, 1994. 756p.
KONISHI, S.; KITAGAWA, G. Information criteria and statistical modeling.
New York: Springer, 2008. 321p.
MACKAY, D.J. Information theory, inference, and learning algorithms. 4. ed.
London: Cambridge, 2005. 628p.
MARTINS, R.C. Sobre a atualidade de proposições de Ludwig Boltzmann.
Revista da SBHC, São Paulo, n.13, p.81–94, 1995.
MAZEROLLE, M.J. Mouvements et reproduction des amphibiens en
tourbières perturbées. 2004. 78p. Tese (Doutorado em Ciências Florestais) -
Université Laval, Québec.
MEYER, P.L. Probabilidade: aplicações à estatística. 2. ed. Rio de Janeiro:
LTC, 1983. 421p.
MIRANDA, C.G. O método lasso para o modelo de Cox e sua comparação
com propostas tradicionais de seleção de variáveis. 2006. 97p. Tese
(Doutorado em Estatística) - Universidade Federal de Minas Gerais. Belo
Horizonte.
MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction to the theory of
statistics. 3. ed. New York: J. Wiley, 1974. 564p.
NUSSENZVEIG, H.M. Curso de física básica 2: fluidos; oscilações e calor;
ondas. 3. ed. São Paulo: E. Blücher, 1981. 315p.
PAULINO, C.D.; TURKMAN, A.A.; MURTEIRA, B.J. Estatística bayesiana.
Lisboa: Fundação Calouste Gulbenkian, 2003. 280p.
RAWLINGS, J.O.; PANTULA, S.G.; DICKEY, D.A. Applied regression
analysis: a research tool. 2. ed. New York: Springer, 1998. 657p.
69
RIBEIRO, J.C. Teoria da informação - módulo I. Rio de Janeiro, 2007. Notas
de aula. Disponível em:
<http://pasta.ebah.com.br/download/apostila-teoria-da-informacao-pdf-3985>.
Acesso em: 16 jul. 2008.
SCHWARZ, G. Estimating the dimensional of a model. Annals of Statistics,
Hayward, v.6, n.2, p.461–464, Mar. 1978.
SHANNON, C.E. A mathematical theory of communication. The Bell System
Technical Journal, New York, v.27, p.623–656, Oct. 1948.
SILVA, R.T. da. Conservação da energia. Recife, 2005. (Notas de aula).
Disponível em: <http//www.fisica.ufpb.br/˜romero>. Acesso em: 18 jul. 2008.
SILVA, V. M.M. da. Teoria da informação e codificação. Coimbra:
DEEC-FCTUC, 2008. Notas de apoio. Disponível em:
<https://woc.uc.pt/deec/class/getmaterial.do?idclass=334&idyear=4>. Acesso
em: 20 nov. 2008.
STEVENSON, W.J. Estatística aplicada à administração. São Paulo: Harbra,
2001. 495p.
TRIOLA, M.F. Introdução à estatística. 7. ed. Rio de Janeiro: LTC, 1999. 410p.
VICKI, V. A história da criptologia. Disponível em:
<http://www.numaboa.com/criptografia/historia/553-Shannon>. Acesso em: 20
nov. 2007.
WASSERMAN, L. All of statistics: a concise course in statistical inference. New
York: Springer, 2005. 322p.
WIENER, N. Cibernética: ou, controle e comunicação no animal e na máquina.
São Paulo: Polígono / Universidade de São Paulo, 1970. 256p.
YOUNG, H.; FISHER, R. Física II: termodinâmica e ondas. 10. ed. São Paulo:
Pearson Education do Brasil, 2003.
70
ANEXOS
ANEXO Páginas
ANEXO A: Dados utilizados no estudo de pesos (em gramas) de uma amostra
de confeitos M&M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
ANEXO B: Dados utilizados no estudo das características que influenciam a
produção aérea de biomassa na grama de pântano. . . . . . . . . . . . 73
ANEXO C: Derivação do viés da função suporte. . . . . . . . . . . . . . . . . . . . . . . . 75
ANEXO D: Função suporte para modelos normais. . . . . . . . . . . . . . . . . . . . . . 80
71
ANEXO A
TABELA 2: Dados utilizados no estudo de pesos (em gramas) de uma amostra de
confeitos M&M.
Observação Amarelo Vermelho
1 0.906 0.870
2 0.978 0.933
3 0.926 0.952
4 0.868 0.908
5 0.876 0.911
6 0.968 0.908
7 0.921 0.913
8 0.893 0.983
9 0.939 0.920
10 0.886 0.936
11 0.924 0.891
12 0.910 0.924
13 0.877 0.874
14 0.879 0.908
15 0.941 0.924
16 0.879 0.897
17 0.940 0.912
18 0.960 0.888
19 0.989 0.872
20 0.900 0.898
21 0.917 0.882
22 0.911
23 0.892
24 0.886
25 0.949
26 0.934
72
ANEXO B
TABELA 3:Dados utilizados no estudo das características que influenciam a pro-
dução aérea de biomassa na grama de pântano.
Y SAL pH K Na Zn
676 33 5.00 1441.67 35185.5 16.4524
516 35 4.75 1299.19 28170.4 13.9852
1052 32 4.20 1154.27 26455.0 15.3276
868 30 4.40 1045.15 25072.9 17.3128
1008 33 5.55 521.62 31664.2 22.3312
436 33 5.05 1273.02 25491.7 12.2778
544 36 4.25 1346.35 20877.3 17.8225
680 30 4.45 1253.88 25621.3 14.3516
640 38 4.75 1242.65 27587.3 13.6826
492 30 4.60 1281.95 26511.7 11.7566
984 30 4.10 553.69 7886.5 9.8820
1400 37 3.45 494.74 14596.0 16.6752
1276 33 3.45 525.97 9826.8 12.3730
1736 36 4.10 571.14 11978.4 9.4058
1004 30 3.50 408.64 10368.6 14.9302
396 30 3.25 646.65 17307.4 31.2865
352 27 3.35 514.03 12822.0 30.1652
328 29 3.20 350.73 8582.6 28.5901
392 34 3.35 496.29 12369.5 19.8795
236 36 3.30 580.92 14731.9 18.5056
392 30 3.25 535.82 15060.6 22.1344
268 28 3.25 490.34 11056.3 28.6101
252 31 3.20 552.39 8118.9 23.1908
236 31 3.20 661.32 13009.5 24.6917
340 35 3.35 672.15 15003.7 22.6758
2436 29 7.10 528.65 10225.0 0.3729
2216 35 7.35 563.13 8024.2 0.2703
2096 35 7.45 497.96 10393.0 0.3205
1660 30 7.45 458.38 8711.6 0.2648
2272 30 7.40 498.25 10239.6 0.2105
824 26 4.85 936.26 20436.0 18.9875
1196 29 4.60 894.79 12519.9 20.9687
...continua...
73
Continuação da TABELA 3.
Y SAL pH K Na Zn
1960 25 5.20 941.36 18979.0 23.9841
2080 26 4.75 1038.79 22986.1 19.9727
1764 26 5.20 898.05 11704.5 21.3864
412 25 4.55 989.87 17721.0 23.7063
416 26 3.95 951.28 16485.2 30.5589
504 26 3.70 939.83 17101.3 26.8415
492 27 3.75 925.42 17849.0 27.7292
636 27 4.15 954.11 16949.6 21.5699
1756 24 5.60 720.72 11344.6 19.6531
1232 27 5.35 782.09 14752.4 20.3295
1400 26 5.50 773.30 13649.8 19.5880
1620 28 5.50 829.26 14533.0 20.1328
1560 28 5.40 856.96 16892.2 19.2420
74
ANEXO C
Derivação do viés da Função suporte
O estimador de θ é o vetor de parâmetros p-dimensional
θ que maximiza a
função (2.21). Tal estimador é obtido somo solução de (2.22). Isto é, deve-se
achar a solução de
L (θ)
θ
=
n
i=1
θ
log f (X
i
|θ) = 0
Tomando a esperança, tem-se:
E
G(X
n
)
n
i=1
θ
log f (X
i
|θ)
= nE
G(z)
θ
log f (Z|θ)
Assim, para um modelo contínuo, se θ
0
é solução de
E
G(z)
θ
log f (Z|θ)
=
g (z)
θ
log f (z|θ) dz = 0, (6.1)
pode ser mostrado que o estimador de máxima verossimilhança
θ converge em
probabilidade para θ
0
quando n .
Usando o resultado acima, pode-se avaliar o viés dado por (3.1), quando a
função suporte esperada é estimada usando a log verossimilhança do modelo.
O viés
b (G) = E
G(x
n
)
log f
X
n
|
θ (X
n
)
nE
G(Z)
log f
Z|
θ (X
n
)

, (6.2)
pode ser decomposto como
b (G) = E
G(x
n
)
log f
X
n
|
θ (X
n
)
nE
G(Z)
log f
Z|
ˆ
θ (X
n
)

= E
G(x
n
)
log f
X
n
|
θ (X
n
)
log f (X
n
|θ
0
)
+ E
G(x
n
)
log f (X
n
|θ
0
) nE
G(Z)
[log f (Z|θ
0
)]
+ E
G(x
n
)
nE
G(Z)
[log f (Z|θ
0
)] nE
G(Z)
log f
Z|
ˆ
θ (X
n
)

= D
1
+ D
2
+ D
3
. (6.3)
Esquematicamente tem-se a Figura 6 abaixo:
75
FIGURA 6: Decomposição dos termos do viés.
1 - Cálculo de D
2
. Primeiramente será feito este caso, por se tratar do mais
simples, pois não contém nenhum estimador. Assim:
D
2
= E
G(x
n
)
log f (X
n
|θ
0
) nE
G(Z)
[log f (Z|θ
0
)]
= E
G(x
n
)
[log f (X
n
|θ
0
)] nE
G(Z)
[log f (Z|θ
0
)]
= E
G(x
n
)
n
i=1
log f (X
i
|θ
0
)
nE
G(Z)
[log f (Z|θ
0
)]
= 0 (6.4)
Isto mostra que na Figura 6, embora D
2
varie aleatoriamente dependendo dos
dados, sa esperança é zero.
2 - Cálculo de D
3
. Para simplicidade das fórmulas, escreva-se primeiramente
η (θ) := E
G(Z)
log f
Z|
θ (X
n
)

.
76
Pela expansão em série de Taylor de η
θ
em torno de θ
0
, sendo este solução de
(6.1), obtém-se:
η
θ
= η (θ
0
) +
p
i=1
θ
i
θ
(0)
i
η (θ
0
)
θ
i
+
1
2
p
i=1
p
j=1
θ
i
θ
(0)
i
θ
j
θ
(0)
j
2
η (θ
0
)
θ
i
θ
j
+ . . . , (6.5)
em que
θ =
θ
1
,
θ
2
, . . .
θ
p
T
e θ
0
=
θ
(0)
1
, θ
(0)
2
. . . θ
(0)
p
T
. Como θ
0
é solução
de (6.1) tem-se
η (θ
0
)
θ
i
= E
G(Z)
θ
i
log f (Z|θ)
θ
0
= 0, i = 1, 2, . . . , p.
Assim, (6.5) pode ser aproximado por:
η
θ
= η (θ
0
)
1
2
θ θ
0
T
J (θ
0
)
θ θ
0
,
sendo J (θ
0
) uma p × p matriz dada por
J (θ
0
) = E
G(Z)
2
log f (Z|θ)
θθ
T
θ
0
=
g (z)
2
log f (Z|θ)
θθ
T
θ
0
dz, (6.6)
e o (a, b)-ésimo elemento é dado por
j
ab
= E
G(Z)
2
log f (Z|θ)
θ
a
θ
b
θ
0
=
g (z)
2
log f (Z|θ)
θ
a
θ
b
θ
0
dz
77
Como D
3
é justamente a esperança de η (θ
0
)η
θ
, com respeito a G (X
n
) ,
obtém-se a aproximação:
D
3
= E
G(X
n
)
nE
G(Z)
[log f (Z|θ
0
)] n log f
Z|
θ

=
n
2
E
G(X
n
)
θ θ
0
T
J (θ
0
)
θ θ
0
=
n
2
E
G(X
n
)
tr
J
θ
0
θ
θ
0
θ
θ
0
T

=
n
2
tr
J
θ
0
E
G(X
n
)
θ θ
0
θ θ
0
T

. (6.7)
Pelas propriedades assintóticas dos estimadores de máxima verossimilhança dadas
no Teorema 2.1, tem-se que:
E
G(X
n
)
θ θ
0
θ θ
0
T
=
1
n
J (θ
0
)
1
I (θ
0
) J (θ
0
)
1
, (6.8)
deste modo pela substituição de (6.7) em (6.8), tem-se:
D
3
=
1
2
tr
I (θ
0
) J (θ
0
)
1
, (6.9)
sendo que J (θ) é dada por (6.6) e I (θ) é a p × p matriz dada por
I (θ
0
) = E
G(Z)
log f (z|θ)
θ
log f (z|θ)
θ
T
θ
0
=
g (z)
log f (z|θ)
θ
log f (z|θ)
θ
T
θ
0
dz. (6.10)
Resta agora o cálculo de D
3
.
3 - Cálculo de D
1
. Reescrevendo L (θ) = log f (X
n
|θ), em termos da sua
expansão em séries de Taylor, na vizinhança do estimador de máxima verossimi-
lhança
θ, obtém-se:
L
θ
= L(θ)+
θ
θ
T
L
θ
θ
+
1
2
θ
θ
T
2
L
θ
θθ
T
θ
θ
+. . . . (6.11)
78
Em (6.11),
θ satisfaz a equação
L
θ
θ
= 0, pelo fato de que o estimador de
máxima verossimilhança é dado como solução de
L (θ)
θ
= 0.
Tem-se que
1
n
2
L
θ
θθ
T
=
1
n
2
log f
X
n
|
θ
θθ
T
converge em probabilidade
para J (θ
0
) quando n , isto vem do fato de que
θ converge para
θ
0
e pode
ser provado utilizando-se da lei dos grandes números.
Assim, tem-se de (6.11) que
L (θ
0
) L
θ
n
2
θ
0
θ
T
J (θ
0
)
θ
0
θ
.
A partir deste resultado, juntamente com (6.8) pode-se calcular D
1
.
D
1
= E
G(X
n
)
log f
X
n
|
θ (X
n
)
log f (X
n
|θ
0
)
=
n
2
E
G(X
n
)
θ
0
θ
T
J (θ
0
)
θ
0
θ
=
n
2
E
G(X
n
)
tr
J (θ
0
)
θ
0
θ
θ
0
θ
T

=
n
2
tr
J (θ
0
) E
G(X
n
)
θ
0
θ
θ
0
θ
T

=
1
2
tr
I (θ
0
) J (θ
0
)
1
(6.12)
Assim, de (6.4), (6.9) e (6.12) tem-se que
b (G) = D
1
+ D
2
+ D
3
=
1
2
tr
I (θ
0
) J (θ
0
)
1
+ 0 +
1
2
tr
I (θ
0
) J (θ
0
)
1
, (6.13)
sendo I (θ
0
) e J (θ
0
) dados por (6.6) e (6.10), respectivamente.
79
ANEXO D
Função suporte para modelos normais.
Tem-se de (4.5) que de forma geral
L(θ) =
n
2
log
2πσ
2
1
n
i=1
(y
i
µ
1
)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
2σ
2
2
.
Desse modo, serão feitas aqui as derivações para os estimadores de máxima veros-
similhança para os quatro casos descritos em (4.1), (4.2), (4.3), e (4.4).
Caso 1: µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
= σ
2
Para este caso, tem-se por (4.6)
L (θ) =
n + m
2
log
2πσ
2
1
2σ
2
n+m
i=1
(y
i
µ)
2
, (6.14)
sendo θ =
µ, σ
2
.
Para maximizar (4.6) faça-se
L
µ, σ
2
σ
2
= 0 e
L
µ, σ
2
θ
= 0.
Derivando (4.6) em relação a σ
2
, tem-se:
L
µ, σ
2
σ
2
=
n+m
2
log
2πσ
2
1
2σ
2
n+m
i=1
(y
i
µ)
2
σ
2
= 0
L
µ, σ
2
σ
2
=
n + m
2σ
2
+
1
2 (σ
2
)
2
n+m
i=1
(y
i
µ)
2
= 0
1
σ
2
n + m
2
+
1
2σ
2
n+m
i=1
(y
i
µ)
2
= 0 =
1
2σ
2
n+m
i=1
(y
i
µ)
2
=
n + m
2
σ
2
=
1
(n + m)
n+m
i=1
(y
i
µ)
2
. (6.15)
O estimador de σ
2
é dado por (6.15), e essa equação necessita do estimador de µ,
que será encontrado abaixo:
L
µ, σ
2
µ
=
n+m
2
log
2πσ
2
1
2σ
2
m
i=1
(y
i
µ)
2
µ
= 0
80
0
1
2σ
2
2
m
i=1
(y
i
µ) (1) = 0 =
n+m
i=1
(y
i
µ) = 0
n+m
i=1
(y
i
µ) = 0
n+m
i=1
y
i
=
n+m
i=1
µ = µ =
1
n + m
n+m
i=1
y
i
.
Desse modo o estimador de µ é dado por
µ =
1
n + m
n+m
i=1
y
i
. (6.16)
Substituindo os valores encontrados em (6.15) e (6.16) em (4.6), tem-se
L
θ
=
n + m
2
log
2πσ
2
1
2σ
2
n+m
i=1
(y
i
µ)
2
L
θ
=
n + m
2
log
2πσ
2
1
2σ
2
(n + m) σ
2
L
θ
=
n + m
2
log
2πσ
2
n + m
2
Caso 2: µ
1
= µ
2
e σ
2
1
= σ
2
2
Nesse caso, tem-se por (4.14)
L (θ) = L
µ
1
, µ
2
, σ
2
1
, σ
2
2
=
n
2
log
2πσ
2
1
1
2σ
2
1
n
i=1
(y
i
µ
1
)
2
m
2
log
2πσ
2
2
1
2σ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
(6.17)
Derivando (6.17) em relação a µ
1
e igualando a zero, tem-se:
n
2
log
2πσ
2
1
n
i=1
(y
i
µ
1
)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
2σ
2
2
µ
1
= 0,
81
Obtendo assim
2
2
σ
2
1
n
i=1
(y
i
µ
1
) (1) = 0 =
n
i=1
(y
i
µ
1
) = 0 =
n
i=1
y
i
=
n
i=1
µ
1
E finalmente encontra-se o estimador de µ
1
, dado por
µ
1
=
n
i=1
y
i
n
(6.18)
Derivando (6.32) em relação a µ
2
2
e igualando a zero, tem-se:
n
2
log
2πσ
2
1
n
i=1
(y
i
µ
1
)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
2σ
2
2
µ
2
= 0
E assim
2
2
σ
2
2
n+m
i=n+1
(y
i
µ
2
) (1) = 0 =
n+m
i=n+1
(y
i
µ
2
) = 0 =
n+m
i=n+1
y
i
=
n+m
i=n+1
µ
2
Assim, o estimador de µ
2
, é
µ
2
=
n+m
i=n+1
y
i
n
(6.19)
Derivando (6.32) em relação a σ
2
1
e igualando a zero, tem-se
L (θ)
σ
2
1
= 0
82
n
2
log
2πσ
2
1
n
i=1
(y
i
µ
1
)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
2σ
2
2
σ
2
1
= 0,
n
2
σ
2
1
+
1
2
σ
2
1
2
n
i=1
(y
i
µ
1
)
2
= 0 = n =
1
σ
2
1
n
i=1
(y
i
µ
1
)
2
Finalmente obtém-se o estimador de σ
2
1
, dado por
σ
2
1
=
1
n
n
i=1
(y
i
µ
1
)
2
(6.20)
Nota-se que o estimador de σ
2
1
depende do estimador de µ
1
, expresso por (6.18).
Derivando (6.32) em relação a σ
2
2
e igualando a zero, tem-se
n
2
log
2πσ
2
1
n
i=1
(y
i
µ
1
)
2
2σ
2
2
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
2σ
2
2
σ
2
1
= 0
m
2
σ
2
2
+
1
2
σ
2
2
2
n+m
i=n+1
(y
i
µ
2
)
2
= 0 =
m
2
=
1
2
σ
2
2
n+m
i=n+1
(y
i
µ
2
)
2
E assim, obtém-se o estimador de σ
2
2
, dado por
σ
2
2
=
1
m
n+m
i=n+1
(y
i
µ
2
)
2
. (6.21)
O estimador de σ
2
2
depende do estimador de µ
2
que é dado pela fórmula (6.19).
Substituindo (6.18), (6.19), (6.20) e (6.21) em (6.17) tem-se:
L
θ
=
n
2
log
2π
σ
2
1
n
i=1
(y
i
µ
1
)
2
2
σ
2
1
m
2
log
2πσ
2
2
m
i=n+1
(y
i
µ
2
)
2
2
σ
2
2
.(6.22)
83
Caso 3: µ
1
= µ
2
e σ
2
1
= σ
2
2
= σ
2
Sob a premissa de que µ
1
= µ
2
e σ
2
1
= σ
2
2
= σ
2
tem-se de (4.5):
L (θ) =
n
2
log
2πσ
2
n
i=1
(y
i
µ
1
)
2
2σ
2
m
2
log
2πσ
2
n+m
i=n+1
(y
i
µ
2
)
2
2σ
2
,
Daí
L(θ) =
n + m
2
log
2πσ
2
1
2σ
2
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2
(6.23)
Afim de maximizar (6.23), faça-se
L (θ)
σ
2
= 0,
L (θ)
µ
1
= 0, e
L (θ)
µ
2
= 0.
Derivando (6.23) em relação a σ
2
, tem-se
L(θ)
σ
2
=
n+m
2
log
2πσ
2
1
2σ
2
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2

σ
2
= 0,
e assim
n + m
2
σ
2
+
1
2
σ
2
2
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2
= 0
(n + m) =
1
σ
2
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2
Desse modo,o estimador de σ
2
é dada por
σ
2
=
1
(n + m)
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2
(6.24)
Vê-se assim que a estimador de σ
2
depende da estimador de µ
1
e µ
2
. Tais estima-
dores serão encontradas abaixo:
84
Derivando (6.23) em relação a µ
1
,tem-se:
L(θ)
µ
1
=
n+m
2
log
2πσ
2
1
2σ
2
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2
µ
1
= 0.
Assim
2
2
σ
2
n
i=1
(y
i
µ
1
) (1) = 0 =
n
i=1
(y
i
µ
1
) =0 =
n
i=1
y
i
=nµ
1
.
Logo, o estimador de µ
1
é dado por:
µ
1
=
n
i=1
y
i
n
(6.25)
Para encontrar o estimador de µ
2
, deve-se derivar (6.23) em relação a µ
2
e igualar
a zero, assim:
L(θ)
µ
2
=
n+m
2
log
2πσ
2
1
2σ
2
n
i=1
(y
i
µ
1
)
2
+
n+m
i=n+1
(y
i
µ
2
)
2

µ
2
=0.
Assim
2
2
σ
2
n+m
i=n+1
(y
i
µ
2
) (1) = 0 =
n+m
i=n+1
(y
i
µ
2
) =0 =
n+m
i=n+1
y
i
=nµ
2
.
Desse modo, o estimador de µ
2
é dado por:
µ
2
=
n+m
i=n+1
y
i
m
(6.26)
Conseqüentemente, tem-se em (6.23)
L
θ
=
m + n
2
log
2π
σ
2
1
2
σ
2
n
i=1
(y
i
µ
1
)
2
+
m
i=n+1
(y
i
µ
2
)
2
85
L
θ
=
m + n
2
log
2π
σ
2
1
2
σ
2
n
σ
2
+ m
σ
2
L
θ
=
m + n
2
log
2π
σ
2
+ 1
Em que
σ
2
, µ
1
, e µ
2
, são dados por (6.24), (6.25) e (6.26) respectivamente.
Caso 4: µ
1
= µ
2
= µ e σ
2
1
= σ
2
2
De (4.5) tem-se:
L(θ)=
n
2
log
2πσ
2
1
n
i=1
(y
i
µ)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ)
2
2σ
2
2
(6.27)
A verossimilhança maximizada será dada por
L
θ
=
n
2
log
2π
σ
2
1
n
i=1
(y
i
µ)
2
2
σ
2
1
m
2
log
2π
σ
2
2
n+m
i=n+1
(y
i
µ)
2
2
σ
2
2
,
daí vem que
L
θ
=
n + m
2
log 2π
n
2
log
σ
2
1
m
2
log
σ
2
2
1
2
σ
2
1
n
i=1
(y
i
µ)
2
1
2
σ
2
2
m+n
i=n+1
(y
i
µ)
2
e finalmente
L
θ
=
(n + m)
2
(log 2π + 1)
n
2
log
σ
2
1
m
2
log
σ
2
2
(6.28)
Deve-se agora encontrar o valor da função suporte maximizada; para isto, deriva-se
(6.27) em relação a cada parâmetro para se encontrar as estimativas dos parâme-
tros.
86
Derivando em relação a σ
2
1
e igualando a zero
L (θ)
σ
2
1
= 0, tem-se:
n log
2πσ
2
1
2
n
i=1
(y
i
µ)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ)
2
2σ
2
2
σ
2
1
= 0,
Desse modo
n
2
σ
2
1
+
1
2
σ
2
1
2
n
i=1
(y
i
µ)
2
= 0 =
1
2
σ
2
1
n
i=1
(y
i
µ)
2
=
n
2
Assim o estimador de σ
2
1
é dado por
σ
2
1
=
1
n
n
i=1
(y
i
µ)
2
(6.29)
Derivando (6.27) em relação a σ
2
2
e igualando-se a zero tem-se:
n
2
log
2πσ
2
1
n
i=1
(y
i
µ)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ)
2
2σ
2
2
σ
2
2
= 0
Assim
m
2
σ
2
2
+
1
2
σ
2
2
2
n+m
i=n+1
(y
i
µ)
2
= 0 =
1
2σ
2
2
n+m
i=n+1
(y
i
µ)
2
=
m
2
E assim obtém-se o estimador de σ
2
2
dado por:
σ
2
2
=
1
m
n+m
i=n+1
(y
i
µ)
2
(6.30)
87
Fazendo-se
L (θ)
µ
= 0 em (6.27) tem-se:
n
2
log
2πσ
2
1
n
i=1
(y
i
µ)
2
2σ
2
1
m
2
log
2πσ
2
2
n+m
i=n+1
(y
i
µ)
2
2σ
2
2
µ
= 0
Desse modo
1
2
σ
2
1
2
n
i=1
(y
i
µ) (1)
1
2
σ
2
2
2
n+m
i=n+1
(y
i
µ) (1) = 0
1
σ
2
1
n
i=1
(y
i
µ) =
1
σ
2
2
n+m
i=n+1
(y
i
µ) (6.31)
Substituindo os estimadores de σ
2
1
e σ
2
2
, obtidos em (6.29) e (6.30) em (6.31)
tem-se:
1
1
n
n
i=1
(y
i
µ)
2
n
i=1
(y
i
µ) =
1
1
m
n+m
i=n+1
(y
i
µ)
2
n+m
i=n+1
(y
i
µ)
n
n+m
i=n+1
(y
i
µ)
2
n
i=1
(y
i
µ) = m
n
i=1
(y
i
µ)
2
n+m
i=n+1
(y
i
µ)
n
n
i=1
(y
i
µ)
n+m
i=n+1
(y
i
µ)
2
+ m
n+m
i=n+1
(y
i
µ)
n
i=1
(y
i
µ)
2
= 0
n
n
i=1
y
i
n
i=1
µ
n+m
i=n+1
y
2
i
2µy
i
+
µ
2
+
88
+m
n+m
i=n+1
y
i
n+m
i=n+1
µ
n
i=1
y
2
i
2µy
i
+
µ
2
= 0
n
n
i=1
y
i
nµ
n+m
i=n+1
y
2
i
2µ
n+m
i=n+1
y
i
+ mµ
2

(P )
+
+ m
n+m
i=n+1
y
i
n+m
i=n+1
µ
n
i=1
y
2
i
2µ
n
i=1
y
i
+ n
µ
2

(Q)
= 0
Desenvolvendo (P) tem-se
n
n
i=1
y
i
nµ
n+m
i=n+1
y
2
i
2µ
n+m
i=n+1
y
i
+ m
µ
2
= n
n
i=1
y
i
n+m
i=n+1
y
2
i
2µn
n
i=1
y
i
n+m
i=n+1
y
i
+mn
µ
2
n
i=1
y
i
n
2
µ
n+m
i=n+1
y
2
i
+2n
2
µ
2
n+m
i=n+1
y
i
n
2
m
µ
3
Desenvolvendo (Q) tem-se
m
n+m
i=n+1
y
i
mµ
n
i=1
y
2
i
2µ
n
i=1
y
i
+ nµ
2
= m
n+m
i=n+1
y
i
n
i=1
y
2
i
2mµ
n
i=1
y
i
n+m
i=n+1
y
i
+ mn
µ
2
n+m
i=n+1
y
i
m
2
µ
n
i=1
y
2
i
+ 2m
2
µ
2
n
i=1
y
i
nm
2
µ
3
Juntando-se (P) e (Q) tem-se:
0=(P )+(Q) = n
n
i=1
y
i
n+m
i=n+1
y
2
i
2µn
n
i=1
y
i
n+m
i=n+1
y
i
+ mn
µ
2
n
i=1
y
i
n
2
µ
n+m
i=n+1
y
2
i
+ 2n
2
µ
2
n+m
i=n+1
y
i
n
2
m
µ
3
+ m
n+m
i=n+1
y
i
n
i=1
y
2
i
2mµ
n
i=1
y
i
n+m
i=n+1
y
i
+ mn
µ
2
n+m
i=n+1
y
i
m
2
µ
n
i=1
y
2
i
+ 2m
2
µ
2
n
i=1
y
i
nm
2
µ
3
89
Agrupando-se os termos de grau semelhante tem-se:
nm
2
+ n
2
m
µ
3
+
2m
2
n
i=1
y
i
+ mn
n+m
i=n+1
y
i
+ 2n
2
n+m
i=n+1
y
i
+ mn
n
i=1
y
i
µ
2
+
+µ
m
2
n
i=1
y
2
i
2m
n
i=1
y
i
n+m
i=n+1
y
i
2n
n
i=1
y
i
n+m
i=n+1
y
i
n
2
n+m
i=n+1
y
2
i
+
+ n
n
i=1
y
i
n+m
i=n+1
y
2
i
+ m
n+m
i=n+1
y
i
n
i=1
y
2
i
= 0
Dividindo-se por
nm
2
n
2
m
tem-se:
µ
3
µ
2
2m
2
n
i=1
y
i
+ mn
n+m
i=n+1
y
i
+ 2n
2
n+m
i=n+1
y
i
+ mn
n
i=1
y
i
nm (m + n)
+ µ
m
2
n
i=1
y
2
i
2m
n
i=1
y
i
n+m
i=n+1
y
i
2n
n
i=1
y
i
n+m
i=n+1
y
i
n
2
n+m
i=n+1
y
2
i
nm (m + n)
n
n
i=1
y
i
n+m
i=n+1
y
2
i
+ m
n+m
i=n+1
y
i
n
i=1
y
2
i
nm (m + n)
= 0
Daí segue que
µ
3
+
µ
2
2m
n
i=1
y
i
n (m + n)
n+m
i=n+1
y
i
(m + n)
2n
n+m
i=n+1
y
i
m (m + n)
n
i=1
y
i
(m + n)
+ µ
m
n
i=1
y
2
i
n (m + n)
+
2
n
i=1
y
i
n+m
i=n+1
y
i
n (m + n)
+
2
n
i=1
y
i
n+m
i=n+1
y
i
m (m + n)
+
n
n+m
i=n+1
y
2
i
m (m + n)
1
nm (m + n)
n
n
i=1
y
i
n+m
i=n+1
y
2
i
+ m
n+m
i=n+1
y
i
n
i=1
y
2
i
= 0 (6.32)
Sejam
90
w=
n
m + n
, v=
m
m + n
,
µ
1
=
n
i=1
y
i
n
, µ
2
=
n+m
i=n+1
y
i
m
, s
2
1
=
n
i=1
y
2
i
n
, s
2
2
=
n+m
i=n+1
y
2
i
m
. (6.33)
Substituindo (6.33) em (6.32), tem-se:
µ
3
+
µ
2
(2vµ
1
vµ
2
2wµ
2
wµ
1
) + µ
v
n
n
i=1
y
2
i
+ 2vµ
1
µ
2
+ 2wµ
1
µ
2
+
w
m
n+m
i=n+1
y
2
i
w
m
µ
1
n+m
i=n+1
y
2
i
+
v
n
µ
2
n
i=1
y
2
i
= 0
Efetuando-se as operações necessárias tem-se:
µ
3
+ µ
2
(µ
1
(2v + w) (v + 2w) µ
2
) + µ
vs
2
1
+ 2vµ
1
µ
2
+ 2
1
µ
2
+ ws
2
2
µ
1
ws
2
2
+ vµ
2
s
2
1
= 0
µ
3
+
µ
2
µ
1
m + m + n
m + n
m + n + n
m + n
µ
2
+ µ
vs
2
1
+ 2vµ
1
µ
2
+ 2wµ
1
µ
2
+ ws
2
2
µ
1
ws
2
2
+ vµ
2
s
2
1
= 0
µ
3
+
µ
2
µ
1
1 +
m
m + n
1 +
n
m + n
µ
2
+ µ
2µ
1
µ
2
m
m + n
+
n
m + n
+ vs
2
1
+ ws
2
2
µ
1
ws
2
2
+ vµ
2
s
2
1
= 0
µ
3
+
µ
2
(µ
1
(1 + v) (1 + w) µ
2
) + µ
2µ
1
µ
2
+ vs
2
1
+ ws
2
2
µ
1
ws
2
2
+ vµ
2
s
2
1
= 0
91
Fazendo
A = (µ
1
(1 + v) + (1 + w) µ
2
) (6.34)
B =
2µ
1
µ
2
+ vs
2
1
+ ws
2
2
(6.35)
C =
µ
1
ws
2
2
+ vµ
2
s
2
1
(6.36)
Tem-se
µ
3
+ A
µ
2
+ Bµ + C = 0 que é uma equação do terceiro grau cuja
solução pode ser obtida através da fórmula de Cardano (Garbi, 1997) dada a seguir.
A fórmula de Cardano
Toda equação cúbica
ax
3
+ bx
2
+ cx + d = 0
com a = 0 pode ser reduzida à forma
y
3
+ py + q = 0
em que x = y
b
3a
p =
3ac b
2
3a
2
e q =
1
27a
3
(3 a) b
3
9abc + 27a
2
d
,
sendo que suas soluções são dadas por
y =
3
q
2
+
q
2
2
+
p
3
3
+
3
q
2
q
2
2
+
p
3
3
.
92
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo