( PDF ) Fundamentos e Aplicações dos Critérios de Informação: Akaike e Bayesiano

Download PDF

ads:

FUNDAMENTOS E APLICAÇÕES DOS CRITÉRIOS

DE INFORMAÇÃO: AKAIKE E BAYESIANO

PAULO CÉSAR EMILIANO

2009

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

PAULO CÉSAR EMILIANO

FUNDAMENTOS E APLICAÇÕES DOS CRITÉRIOS DE

INFORMAÇÃO: AKAIKE E BAYESIANO

Dissertação apresentada à Universidade Federal de

Lavras como parte das exigências do Programa

de Pós-graduação em Estatística e Experimentação

Agropecuária, para obtenção do título de “Mestre”.

Orientador

Prof. Dr. Mário Javier Ferrua Vivanco

Co-orientador

Prof. Dr. Fortunato Silva de Menezes

LAVRAS

MINAS GERAIS-BRASIL

2009

ads:

Emiliano, Paulo César.

Fundamentos e aplicações dos critérios de informação: Akaike e

Bayesiano / Paulo César Emiliano. – Lavras : UFLA, 2009.

92 p. : il.

Dissertação (Mestrado) – Universidade Federal de Lavras, 2009.

Orientador: Mário Javier Ferrua Vivanco.

Bibliografia.

1. Critério de Informação de Akaike. 2. Entropia . 3. Critério de

Informação de Schwarz. 4. Informação de Kullback-Leibler 5.

Seleção de Modelos. I. Universidade Federal de Lavras. II. Título.

CDD – 536.73

Ficha Catalográfica Preparada pela Divisão de Processos Técnicos da

Biblioteca Central da UFLA

PAULO CÉSAR EMILIANO

FUNDAMENTOS E APLICAÇÕES DOS CRITÉRIOS DE

INFORMAÇÃO: AKAIKE E BAYESIANO

Dissertação apresentada à Universidade Federal de

Lavras, como parte das exigências do Programa

de Pós-graduação em Estatística e Experimentação

Agropecuária, para obtenção do título de “Mestre”.

APROVADA em 19 de fevereiro de 2009.

Prof. Dr. Fortunato Silva de Menezes UFLA

Prof. Dr. Marcelo Angelo Cirillo UFLA

Prof. Dr. Telde Natel Custódio UFSJ

Prof. Dr. Mário Javier Ferrua Vivanco

UFLA

(Orientador)

LAVRAS

MINAS GERAIS - BRASIL

Aos meus pais, Francisco e Alzira ,

que souberam conduzir com

muita sabedoria a minha

formação.

" If you have an apple and I have an apple and we exchange apples

then you and I still have one apple.

But if you have an idea and I have an idea and we exchange these ideas,

then each of us will have two ideas."

George Bernard Shaw

AGRADECIMENTOS

Primeiramente a Deus, que deu-me forças em todos os momentos de minha

vida, e a Nossa Senhora Aparecida, que sempre intercede por mim e da qual sou

devoto.

Meus sinceros agradecimentos ao professor Mário Javier Ferrua Vivanco, pela

paciência com que me orientou, disponibilidade em auxiliar-me a qualquer mo-

mento, pelas críticas e sugestões.

Aos meus pais, Francisco e Alzira, pela conﬁança, compreensão, carinho,

apoio e tudo que sou devo a eles.

Aos meus irmãos Rosemeire e Washington, pelo carinho, compreensão e tor-

cida em todos os momentos.

A todos os colegas de mestrado e doutorado em Estatística, em especial ao

Ed Carlos, Altemir, Ricardo, Augusto, Tânia, Patrícia, Denise, Ana Paula, Isabel,

Hiron, Stephânia e Richardson.

Aos meus professores Hélia, grande amiga e companheira, que ensinou-me a

entender o que aquelas letrinhas signiﬁcavam quando eu tinha seis anos, e até hoje

eu não esqueci; ao professor William por introduzir-me ao mundo maravilhoso da

matemática, de uma forma que apaixonei-me por ela; à professora Cássia, pelos

freqüentes incentivos que dava à nossa turma acreditando em nós e incentivando-

nos.

A todos da Escola Estadual Santa Tereza, professores, “tias” da cantina, ami-

gos, que foram fundamentais em minha formação.

A todos da Universidade Federal de Viçosa, que de uma forma ou de outra

contribuíram para a realização deste trabalho. Em especial aos professores Olím-

pio, Margareth e Paulo Tadeu, a quem muito admiro e que foi muito importante na

consolidação do meu conhecimento em matemática.

Aos funcionários do Departamento de Ciências Exatas: Edila, Josi, Joyce,

Maria, Selminha e Vânia, pela simpatia e boa vontade no atendimento.

Aos professores do Departamento de Ciências Exatas, pelos ensinamentos

prestados.

À Universidade Federal de Lavras e ao Departamento de Ciências Exatas, pela

oportunidade da realização deste curso.

À FAPEMIG, pela bolsa de estudos, essencial para a realização deste trabalho.

Aos demais que, direta ou indiretamente, contribuíram para a elaboração deste

trabalho.

SUMÁRIO

LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . i

LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . ii

RESUMO . . . . . . . . . . . . . . . . . . . . . . . . iii

ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . iv

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . 1

2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . 4

2.1 Modelos . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Informação . . . . . . . . . . . . . . . . . . . . . 7

2.2.1 A informação de Kullback-Leibler . . . . . . . . . . . . . 15

2.2.2 Entropia . . . . . . . . . . . . . . . . . . . . . . 18

2.2.2.1 Visão física da entropia . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.2.2 Visão estatística da entropia . . . . . . . . . . . . . . . . . . . . . 21

2.2.3 A função de verossimilhança . . . . . . . . . . . . . . . 32

2.2.4 O estimador da função suporte . . . . . . . . . . . . . . 35

3 OS CRITÉRIOS DE INFORMAÇÃO AIC E BIC . . . . . . 39

3.1 Critério de informação de Akaike . . . . . . . . . . . . . 40

3.2 Critério de informação bayesiano . . . . . . . . . . . . . 42

3.3 Algumas considerações acerca do AIC e do BIC . . . . . . . . 49

4 APLICAÇÕES DO AIC E BIC . . . . . . . . . . . . . 51

4.1 Os dados . . . . . . . . . . . . . . . . . . . . . . 51

4.2 Igualdade de médias e / ou de variâncias de distribuições normais. . 51

4.3 Seleção de variáveis em modelos de regressão. . . . . . . . . 60

4.4 Seleção de modelos para os dados M&M e produção de biomassa . 62

4.4.1 Análise dos dados dos pesos de M&M . . . . . . . . . . . 62

4.4.2 Análise dos dados da produção de biomassa na grama de pântano. . 64

5 CONCLUSÕES . . . . . . . . . . . . . . . . . . . 66

6 ESTUDOS FUTUROS. . . . . . . . . . . . . . . . . 67

REFERÊNCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . 68

ANEXOS . . . . . . . . . . . . . . . . . . . . . . . . 70

LISTA DE TABELAS

1 Resultados do estudo da produção aérea de biomassa na grama de

pântano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2 Dados utilizados no estudo de pesos (em gramas) de uma amostra

de confeitos M&M. . . . . . . . . . . . . . . . . . . . . . . . . . 72

3 Dados utilizados no estudo das características que inﬂuenciam a

produção aérea de biomassa na grama de pântano. . . . . . . . . . 73

LISTA DE FIGURAS

1 Modelo esquemático de um sistema geral de comunicação. . . . . 8

2 Representação gráﬁca das distribuições Gama(4,4) - linha contí-

nua - e Weibull(2,20) - linha pontilhada . . . . . . . . . . . . . . 29

3 Representação das distribuições Gama(4,4) - linha contínua - e

Lognormal(2,2) - linha pontilhada . . . . . . . . . . . . . . . . . 29

4 Representação gráﬁca das distribuições Gama(4,4) - linha contí-

nua - e Inversa Gaussiana(16,64) - linha pontilhada . . . . . . . . 29

5 Representação gráﬁca da distribuição Gama(4,4) - linha contínua

- e da distribuição F(4,10) - linha pontilhada . . . . . . . . . . . . 29

6 Decomposição dos termos do viés. . . . . . . . . . . . . . . . . . 76

RESUMO

Emiliano, Paulo César. Fundamentos e Aplicações dos Critérios de Informa-

ção: Akaike e Bayesiano. 2009. 92p. Dissertação (Mestrado em Estatística e

Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras.

Objetivou-se com este estudo apresentar os fundamentos do critério de informação

de Akaike (AIC) e do critério de informação Bayesiano (BIC), amplamente utiliza-

dos na seleção de modelos, e geralmente pouco entendidos. A seleção de modelos

é de vital importância em estudos cientíﬁcos, devendo portanto estar embasada em

princípios cientíﬁcos concretos, como a parcimônia. O AIC e o BIC são critérios

que penalizam a verossimilhança, para que um modelo mais parcimonioso seja

selecionado. Estes critérios baseiam-se nos conceitos de informação e entropia,

que são fundamentais para o completo entendimento dos mesmos. Procurou-se

explicar tais conceitos para que o entendimento desses critérios fosse completo.

Também foram dadas duas aplicações do AIC e BIC, em regressão e na seleção

de modelos normais. Os resultados obtidos ao utilizar-se os dois critérios foram

os mesmos para as duas aplicações feitas, e embora os mesmos modelos tenham

sido selecionados, o AIC e o BIC não necessariamente proporcionam os mesmos

resultados.

Palavras-chave: Critério de Informação de Akaike, Entropia, Critério de Informa-

ção de Schwarz, Informação de Kullback-Leibler, Seleção de Modelos.

Comitê Orientador: Mário Javier Ferrua Vivanco - UFLA (Orientador), Fortunato Silva de

Menezes (Co-orientador)

iii

ABSTRACT

Emiliano, Paulo César. Fundamentals and Applications Criteria for Infor-

mation: Akaike and Bayesian. 2009. 92p. Dissertation (Master in Statistics and

Agricultural Experimentation ) Federal University of Lavras, Lavras.

This study presented the foundations of the Akaike Information Criterion (AIC)

and the Bayesian Information Criterion. (BIC), largely used in the selection of

models, and usually little understood. The selection of models is essential in sci-

entiﬁc studies, consequently, it should be based on solid scientiﬁc foundations, as

the parsimony. The AIC and BIC are criteria that punish the likelihood, so that

a more parsimonious model is selected. These criteria are based on concepts of

information and entropy, that are fundamental for their complete understanding. It

was tried to explain such concepts in order to make the understanding of these cri-

teria complete and clear. Two applications of AIC and BIC were Also given, both

in regression and in the selection of normal models. The results obtained when

using the two methods were the same for the two done applications. But although

the same models have been selected -AIC and BIC- they do not necessarily provide

the same results.

Key-words: Akaike Information Criterion, Bayesian Information Criterion, En-

tropy, Kullback-Leibler Information, Model Selection.

Guindance Committee: Mário Javier Ferrua Vivanco - UFLA. (Adviser), Fortunato Silva de

Menezes - UFLA. (Co-Adviser)

1 INTRODUÇÃO

Muitas pessoas têm o dom da ciência, são cientistas e tentam entender os fenô-

menos que há muito intrigam os homens. Porém, a maioria da população não es-

tuda estes fenômenos, seja porque os acha complicados demais ou porque não têm

acesso à informação para entendê-los. Cabe, pois, aos cientistas levar a informação

e explicar os fenômenos a estas pessoas da forma mais simples possível.

Em geral um fenômeno em estudo pode ser explicado através de um modelo.

Os modelos são os principais instrumentos utilizados na estatística. Eles são uma

versão simpliﬁcada de algum problema ou situação da vida real e destinam-se a

ilustrar certos aspectos do problema, sem contudo, se ater a todos os detalhes.

Geralmente os fenômenos observados são muito complexos e é impraticável

descrever tudo aquilo que é observado com total exatidão. Diﬁcilmente consegue-

se traduzir em simbologias e fórmulas matemáticas aquilo que é visto com perfeita

exatidão. Se isto for possível, deve-se ao fato do fenômeno ser perfeitamente

conhecido e um modelo determinístico o explica. Um modelo determinístico é

estabelecido quando tudo relacionado ao fenômeno em estudo é conhecido, e por

isso ele é, exatamente o mecanismo de geração dos dados obtidos no estudo.

Mas em situações práticas o total conhecimento do fenômeno não acontece,

o que torna impossível descrever o mesmo através de um modelo determinístico.

Faz-se uso então dos modelos estatísticos, aqueles em que há uma parte sistemá-

tica e outra parte aleatória, como por exemplo, os modelos lineares generalizados.

Neste tipo de modelo, não se pode determinar quais dados serão obtidos antecipa-

damente, mas o conjunto do qual os resultados são obtidos é usualmente conhe-

cido. Ao se aproximar um fenômeno por um modelo probabilístico, haverá perda

de informação ao fazer-se tal modelagem, sendo que esta perda deve ser mínima

para não comprometer o entendimento do fenômeno em estudo.

Não raro, tem-se mais de um modelo para descrever o mesmo fenômeno, haja

vista que não há uma receita a ser seguida, tendo cada pesquisador a liberdade de

modelar o fenômeno seguindo a metodologia que julgar mais adequada. Desse

modo, ao se deparar com dois (ou mais modelos) é natural questionar: “Dentre

estes modelos qual deles é o mais adequado?”. O conceito de melhor modelo é

controverso, mas um bom modelo deve conseguir equilibrar a qualidade do ajuste

e a complexidade, sendo esta, em geral, medida pelo número de parâmetros pre-

sentes no modelo; quanto mais parâmetros, mais complexo o modelo, sendo pois

mais difícil interpretar o modelo. A seleção do “melhor” modelo torna-se então

evidente.

Burnham & Anderson (2004), enfatizam a importância de selecionar modelos

baseados em princípios cientíﬁcos. Diversas são as metodologias utilizadas para

selecionar modelos tais como C

de Mallows, Regressão Stepwise, Critério de

Informação de Akaike (AIC), Critério de Informação Bayesiano (BIC), Critério

de Informação Generalizado (GIC), dentre outros.

As metodologias acima citadas, baseiam-se nos conceitos de Informação e

Entropia. Estes conceitos são de fundamental importância para que se possa ter

completo entendimento dos critérios AIC e BIC, que serão objetos de estudo neste

trabalho.

Nos critérios AIC e BIC cada modelo dá um valor e o modelo que apresentar

o menor valor AIC (ou BIC) é considerado como o “melhor” modelo. Um ques-

tionamento natural que se faz é: “Por que o Critério com menor AIC (ou BIC) é

selecionado?”.

Objetivou-se com este trabalho explicar, ilustrar e comparar os critérios AIC e

BIC, amplamente utilizados para a seleção de modelos e por vezes pouco entendi-

dos. Através de algumas aplicações, espera-se que a metodologia destes critérios

seja entendida para que, ao se utilizar tais critérios, tenha-se perfeita consciência

do resultado obtido e se saiba interpretá-lo com total segurança.

2 REFERENCIAL TEÓRICO

Nesta seção, serão apresentados alguns conceitos que serão úteis para atingir

o objetivo proposto neste trabalho.

2.1 Modelos

Em estudos nas mais diversas áreas, tais como ciências sociais, epidemiologia,

zootecnia, etc, há vários aspectos que são não determinísticos. Assim sendo, mo-

delos puramente matemáticos não são adequados para modelar esse tipo de estudo.

Um caminho para a modelagem de fenômenos não determinísticos são os modelos

probabilísticos.

De acordo com Stevenson (2001), um modelo é uma versão simpliﬁcada de

algum problema ou situação da vida real destinado a ilustrar certos aspectos do

mesmo sem levar em conta todos os detalhes. Além disso, o modelo permite checar

se sua forma funcional está representando bem o fenômeno em estudo, sem porém

deixar de levar em conta o conhecimento do pesquisador acerca do assunto.

Para fenômenos complexos

, é bastante raro ter só um modelo plausível, mas

vários para escolher um dentre eles. Em tais situações, a seleção do modelo se

torna um problema fundamental. Porém Ghosh & Samanta (2001), aﬁrmam que

para muitos cientistas, modelos são sinônimos de paradigmas. Assim, o problema

de escolher um modelo só aparece quando aquela ciência estiver nas encruzilha-

das. Por exemplo, quando físicos tinham que escolher entre a gravitação na Teoria

Clássica de Newton e a gravitação na Teoria da relatividade de Einstein.

Na estatística clássica, normalmente a seleção de modelos é feita na fase de

análise exploratória dos dados. Uma análise cuidadosa de dados deve sempre con-

Aqueles em que há muitas variáveis interferindo no modelo, sendo estas muitas das vezes

desconhecidas

siderar o problema de determinação do modelo, isto é, o problema da avaliação e

escolha do modelo que melhor represente a situação em estudo (Miranda, 2006).

Todo subseqüente estatístico depende da análise do modelo selecionado.

Ocasionalmente, há estudos de sensibilidade da análise subseqüente com res-

peito ao modelo selecionado. Porém, a estatística, em geral, não enfatiza a seleção

de modelos, nem dá uma devida certeza acerca do modelo que é assumido atra-

vés de convenção ou seleção por análise exploratória. Entretanto, há certas áreas

da estatística clássica em que a seleção do modelo desempenha um papel impor-

tante, como por exemplo, regressão linear e séries temporais. Assim, o problema

torna-se de seleção de modelos ( Ghosh & Samanta, 2001).

De acordo com Mazerolle (2004), seleção de modelo é a tarefa de escolher

um modelo estatístico de um conjunto de modelos plausíveis. Em sua forma mais

básica, esta é uma das tarefas fundamentais das pesquisas cientíﬁcas. Dos tantos

modelos plausíveis que poderiam ser ajustados aos dados, como pode-se escolher

um bom modelo?. A modelagem estatística geralmente decide entre um conjunto

de possíveis modelos, conjunto este que deve ser selecionado pelo pesquisador.

Freqüentemente, modelos simples, como polinômios, são usados como ponto de

partida. Burnham & Anderson (2004) enfatizam a importância de selecionar mo-

delos com bace em princípios cientíﬁcos.

Ao se estudar um fenômeno, o conhecimento prévio que o pesquisador tem

acerca deste é de fundamental importância e deve ser levada em conta. Porém, este

deve embasar-se também em outros princípios cientíﬁcos para fazer sustentar suas

conclusões acerca do fenômeno. De acordo com Mazerolle (2004), três princípios

regulam nossa capacidade de fazer inferência nas ciências:

1- Simplicidade e parcimônia

Sugerem que a explicação mais simples é passível de ser a mais provável.

2- Trabalhando Hipóteses

A seleção de modelos traduz-se em testar para os dados em mãos uma série de

modelos plausíveis.

3- O poder da evidência

Dá uma indicação de qual modelo é o melhor entre os modelos testados, e o poder

do teste para cada modelo.

Conforme Mazerolle (2004), seria ingênuo esperar que os melhores resultados

incluam todas as variáveis no modelo. Isto viola o princípio cientíﬁco fundamen-

tado na parcimônia, que requer que dentre todos os modelos que expliquem bem

os dados, deve-se escolher o mais simples. Assim, deve-se conciliar um modelo

mais simples, mas que explique bem o fenômeno em estudo.

Segundo Konishi & Kitagawa (2008), uma vez que o conjunto de possíveis

modelos foi selecionado, a análise matemática permite determinar o melhor destes

modelos. O signiﬁcado de “melhor” é controverso. Uma boa técnica de seleção

de modelos equilibrará qualidade do ajuste e complexidade. Modelos mais com-

plexos poderão melhor adaptar sua forma para ajustar-se aos dados (por exemplo,

um polinômio de quinta-ordem pode ajustar exatamente seis pontos), mas muitos

parâmetros podem não representar nada útil ou explicável.

De acordo com Mazerolle (2004), a qualidade do ajuste é geralmente determi-

nada usando-se razão de verossimilhanças ou uma aproximação dela, conduzindo

a um teste qui-quadrado. A complexidade é geralmente medida contando o nú-

mero de parâmetros inclusos no modelo. Entretanto, antes de se construir modelos

(por exemplo, um modelo de regressão linear ou qualquer outro modelo generali-

zado) deve-se ter em mente que não existem modelos verdadeiros. Tem-se apenas

modelos aproximados da realidade. O que se faz então é minimizar a perda de

informações. George Box fez uma famosa aﬁrmativa acerca disso: “Todos os mo-

delos são errados, mas alguns são úteis”

2.2 Informação

A palavra informação vem do latim “informare”, dar forma, pôr em forma

ou aparência, criar, representar, apresentar, criar uma idéia ou noção, algo que

é colocado em forma, em ordem. Como se pode ver, informação é um termo

altamente polissêmico (que tem vários signiﬁcados) (Ribeiro, 2008).

Segundo Ribeiro (2008), a teoria da informação é um ramo do conhecimento

humano cujos objetivos envolvem a conceituação matemática do termo informação

e a construção de modelos capazes de descrever os processos de comunicação. O

artigo “A Mathematical Theory of Communications”, publicado por Claude Shan-

non em 1948, lançou as bases para a moderna teoria das comunicações Shannon

(1948), apud Ribeiro, (2008). Qualquer processo de comunicação envolve trans-

ferência de informação entre dois ou mais pontos. Segundo Fernandes & Azevedo

(2006), o problema fundamental das comunicações é o de reproduzir em um ponto,

exatamente ou aproximadamente, uma mensagem selecionada em um outro ponto.

De acordo com Shannon (1948) apud Ribeiro (2008), um sistema de comuni-

cação consiste de 5 partes:

1- Uma fonte de informação que produz uma mensagem ou seqüência de men-

sagens a serem comunicadas ao terminal receptor;

2- Um transmissor (codiﬁcador) que opera na mensagem de modo que esta

possa ser transmitida sobre o canal;

3- Um canal que é o meio pelo qual a informação será transmitida. Este meio

Tradução nossa. “All models are wrong but some are useful”(Draper & Smith, 1998)

contém ruído (em casos ideais o ruído é desconsiderado) e irá alterar de

alguma forma a mensagem original;

4- O receptor (decodiﬁcador), que apenas faz a função inversa do transmissor

de modo a obter a mensagem original;

5- O destino, para quem a mensagem é encaminhada.

Esquematicamente, tem-se a Figura 1 abaixo (Ash, 1965):

FIGURA 1: Modelo esquemático de um sistema geral de comunicação.

Segundo Shannon (1948) apud Ribeiro (2008), uma fonte de informação é

um elemento participante do processo de comunicação que produz informação,

enquanto que o destinatário é o elemento que recebe a informação produzida por

essa fonte. Em uma conversação os participantes costumeiramente se revezam

nos papéis de fonte e destinatário, e a informação circula na forma de palavras,

possivelmente selecionadas de um vocabulário conhecido por todo o grupo.

Se um português disser a um polaco “Bom dia”, provavelmente não haverá

transmissão de informação entre os dois. No entanto, se o português disser “Dzien

dobry”, provavelmente o polaco irá retribuir com um sorriso, pois entendeu a sau-

dação. Logo, para que haja transmissão de informação, o código usado na comu-

nicação tem de ser perceptível por ambas as partes.

Segundo Ash (1965), um conjunto de palavras-código capaz de representar

todas as saídas possíveis de uma fonte constitui um código para a fonte de infor-

mação. Codiﬁcadores são elementos (seres humanos, circuitos, programas, etc),

que representam as mensagens geradas pela fonte empregando um código espe-

cíﬁco. Um decodiﬁcador é responsável por desfazer o mapeamento realizado por

um codiﬁcador.

De acordo com Ash (1965), Shannon desenvolveu a teoria da informação e

transmissão de sinais digitais baseados em seqüências de zeros e uns. É aí que

deﬁne o problema fundamental da comunicação como o de “reproduzir num local,

de forma aproximada ou exata, uma mensagem selecionada noutro local”. Assim

estabeleceu-se então o esquema de transmissão de informação, hoje clássico, com

uma mensagem que parte de uma fonte, é codiﬁcada e emitida por um transmissor,

passa por um canal de comunicação, sofre perturbações designadas por ruídos, e

chega depois ao receptor, passando por um sistema de decodiﬁcação. Ao falar

de “uma mensagem selecionada”, Shannon refere-se a uma seqüência informativa

que pode ser escolhida dentre muitas outras que aparecerão com iguais ou dife-

rentes probabilidades. Deﬁne então a quantidade de informação com base na sua

incerteza ou diﬁculdade de previsão.

Supondo, por exemplo, que um emissor transmita a mensagem “bom dia”, letra

por letra, ao emitir as primeiras letras, há uma expectativa da parte do receptor, que

vê surgir as letras “b”, “o”, “m”, um espaço, e depois o “d” e o “i”. O “a” ﬁnal

é quase inútil, pois sua probabilidade de ocorrência é tão grande, para dar sentido

à seqüência anterior, que a quantidade de informação transmitida por essa letra é

muito menor que a transmitida pelas primeiras. Assim, quanto menor é a incerteza

ou diﬁculdade de previsão, menor é a quantidade de informação, e vice-versa (Ash,

1965).

Se, por exemplo, houver o evento X=“O sol nasce”, a resposta à pergunta “O

sol nascerá hoje?” não traz nenhuma informação; entretanto, se fez a pergunta “O

Cruzeiro será o campeão mundial de 2009?” Como isso é pouco provável, uma

resposta positiva a essa pergunta oferece uma quantidade de informação muito

maior que divulgar uma resposta negativa. Assim, eventos improváveis contém

mais informações do que os eventos mais prováveis (Ribeiro, 2008).

De acordo com Fernandes & Azevedo (2006), a teoria da informação de Shan-

non é apropriada para medir incerteza sobre um espaço desordenado, isto é, ela é

útil para analisar variáveis qualitativas nominais, tais como sexo, raça, etc., pois

não é possível uma ordenação dos seus resultados. Neste sentido não é possível

deﬁnir uma distância entre os elementos do espaço, tais como a distância entre o

sexo masculino e o sexo feminino.

A noção de distância, acima referida, pode ser entendida a partir da seguinte

deﬁnição (Domingues, 1982):

Deﬁnição 2.1 Dado um conjunto M = ∅ seja d : M × M −→ R

e indique-se

por d(x, y) a imagem de um par genérico (x, y) ∈ M × M, através da função d.

Diz-se que d é uma distância sobre M se as seguintes condições se veriﬁcam:

d(x, y) = 0 ⇐⇒ x = y, ∀x, y ∈ M (2.1)

d(x, y) = d(y, x), ∀x, y ∈ M (2.2)

d(x, y) ≤ d(x, z) + d(z, y), ∀x, y, z ∈ M (2.3)

Por exemplo, a informação de Shannon é usada sobre um espaço de letras do

alfabeto, já que letras não têm “distâncias” entre elas, não sendo possível quantiﬁ-

car o quanto a letra “m” se distancia da letra “e”.

De acordo com Bolfarine & Sandoval (2000), uma medida alternativa de in-

formação foi criada por Fisher, para medir incerteza sobre um espaço ordenado,

isto é, a informação de Fisher pode ser usada para variáveis qualitativas ordinais

que permitem uma ordenação dos seus resultados (tais como conceitos ﬁnais em

uma disciplina, peso de pessoas, etc.). Para informação sobre valores de parâme-

tros contínuos, como as alturas de pessoas, a informação de Fisher é usada, já que

tamanhos estimados têm uma distância bem deﬁnida.

Conforme Bolfarine & Sandoval (2000), a informação de Fisher é assim deﬁ-

nida:

Deﬁnição 2.2 A quantidade

(θ) = E





∂ log (f (X|θ))

∂θ





é denominada informação de Fisher de θ.

Se há uma amostra aleatória X

, X

, . . . X

, da variável aleatória X com fun-

ção de densidade de probabilidade f (x|θ) e informação de Fisher I

(θ), a in-

formação total de Fisher de θ correspondente à amostra observada é a soma da

informação de Fisher das n observações da amostra, isto é,





∂ log L (θ|X)

∂θ





= nI

(θ) ,

em que log L (X|θ) é a função de log verossimilhança, que será deﬁnida em 2.21.

Sabendo como a informação é gerada, como se pode medir quanta informa-

ção é produzida? Como quantiﬁcar uma determinada mensagem recebida? Com

propósito de responder estas perguntas considere-se a situação abaixo descrita em

Silva (2008):

Exemplo

Um sistema deve transmitir o estado do tempo. Suponha que se classiﬁca o tempo

da seguinte forma: limpo, nublado, chuvoso e nevoeiro. Deﬁne-se informação

como a quantidade de incerteza que o receptor tem acerca da mensagem que está

recebendo. Por exemplo, suponha que o receptor conhece as seguintes probabili-

dades para o estado do tempo:

Estado do tempo Probabilidade

Limpo 0.65

Nublado 0.20

Chuvoso 0.10

Nevoeiro 0.05

Como a probabilidade do tempo estar limpo é grande, na maioria das vezes, o

tempo está limpo, e ao se dizer que ele está limpo transmite-se pouca informação.

Por outro lado, ao se dizer que ele está com nevoeiro, trata-se de uma situação

pouco freqüente, e portanto, transmite-se muita informação.

De acordo com as probabilidades conhecidas, uma seqüencia típica de trans-

missão diária poderia ser: “limpo limpo limpo limpo limpo nublado nublado chu-

voso limpo”. Se for usado o seguinte código binário para codiﬁcar as mensagens:

Estado do tempo Código

Limpo 00

Nublado 01

Chuvoso 10

Nevoeiro 11

a mensagem acima referida é codiﬁcada da seguinte forma: “00 00 00 00 00

01 01 10 00”, ou seja, o número de “bits” necessários para transmitir é 18.

O número de “bits” necessários para codiﬁcar uma determinada informação

segue uma relação inversa à probabilidade de ocorrência do evento. Assim quanto

maior for a probabilidade de ocorrência do evento transmitido, (quanto menor

a informação transmitida), menos “bits” serão necessários para codiﬁcá-la, e

quanto menor a probabilidade de ocorrência do evento (maior informação), mais

“bits” serão necessários para codiﬁcá-la.

Nesta forma de transmissão haverá uma compressão dos dados que acarreta

perda de uma pequena parte da informação que foi originalmente transmitida.

Segundo Kawada (1987) apud Konishi & Kitagawa (2008), para quantiﬁcar a

informação perdida ao ajustarmos um modelo, existem diversas medidas propostas

na literatura. Como exemplo tem-se:

1- A Estatística de χ

, dada por:



i=1

− 1 =



i=1

− g

)

2- A distância de Hellinger, dada por:

(g; f) =







f (x) −



g (x)



dx.

3- A informação generalizada, dada por:

(g; f) =







g (x)

f (x)



− 1



g (x) dx. (2.4)

4- O critério Deviance, dado por:

D (ψ) = −2



log L (ψ; x) − log L





ψ; x



em que ψ é o espaço paramétrico e



ψ é o espaço restrito.

5- A divergência, dada por:

D (g; f) =



u (t(x))g (x) dx =





g (x)

f (x)



g (x) dx, (2.5)

sendo que t(x) =

g (x)

f (x)

6- A L

− norm, dada por:

(g; f) =



|g (x) − f (x)|dx.

7- A L

− norm, dada por:

(g; f) =



{g (x) − f (x)}

dx.

8- A Informação de Kullback-Leibler, dada por:

I (g; f) = E



log



g (X)

f (X)



+∞



−∞

g (x) log



g (x)

f (x)



dx, (2.6)

sendo f, g f

e g

são funções de distribuição quaisquer, λ ∈ R

∗

e u(x) uma

função tal que u : R → R

∗

Se em (2.6), g(x) é a “verdadeira” distribuição, ou seja, g(x) é o modelo de-

terminístico, do qual verdadeiramente são gerados os dados (raramente conhecido

devido à complexidade do fenômeno) e f(x) for o nosso modelo estatístico sele-

cionado para modelar o fenômeno, o valor da informação de Kullback - Leibler é

uma quantiﬁcação da similaridade entre nosso modelo estatístico e a “verdadeira”

distribuição.

Conforme Mazerolle (2004), Kullback e Leibler deﬁniram esta medida, pos-

teriormente chamada Informação de Kullback-Leibler (K-L) para representar a

informação perdida pela aproximação de nosso modelo da realidade.

De acordo com Konishi & Kitagawa(2008), vale a pena observar que se na

equação (2.4) se ﬁzer λ → 0 e sob certas condições de regularidade, será obtida a

informação de Kullback-Leibler; de fato:

lim

λ→0

(g; f) = lim

λ→0







g (x)

f (x)



− 1



g (x) dx



lim

λ→0







g (x)

f (x)



− 1



g (x)





g (x) lim

λ→0







g (x)

f (x)



− 1





Hospital



g (x) lim

λ→0





g (x)

f (x)





g (x)

f (x)







g (x) ln



g (x)

f (x)



dx = I (g; f) .

Além disso, se em (2.5), tomar-se u(x) = log(x) encontrar-e-á também a infor-

mação de Kullback-Leibler, isto é, ela é um caso especial da divergência. De fato:

D (g; f) =





g (x)

f (x)



g (x) dx =



log



g (x)

f (x)



g (x) dx = I (g; f) .

2.2.1 A informação de Kullback-Leibler

Seja X uma variável aleatória discreta com distribuição de probabilidades

p(X). De acordo com Ribeiro (2008), Shannon deﬁniu a quantidade de infor-

mação associada à ocorrência do evento X

como:

I(X

) = log





= −log (p

) , (2.7)

em que p

é a probabilidade de ocorrência do evento X

. A função deﬁnida em

(2.7) indica o total de conhecimento sobre o resultado de um certo evento, assim

como intuitivamente esperava-se, um evento menos provável tem mais informação

que outro mais provável. Se o logaritmo tiver base 2, o conteúdo da informação

será expresso em bits. Se a base do logaritmo é e, então o conteúdo da informa-

ção é medido em nuts e ﬁnalmente se a base for 10 o conteúdo da informação

será medido em hartley. Nesse trabalho, é utilizada a base e, pois a informação

com a qual Kullback e Leibler trabalham é deﬁnida nessa base, porém em alguns

exemplos a base 2, também será utilizada.

A utilização do log na função deﬁnida por Shannon pode ser explicada facil-

mente no caso de acontecimentos eqüiprováveis. Por exemplo, se o número de

símbolos que constituem o alfabeto é M , então o número de bits, N, necessários

para representar todos os M símbolos é: M = 2

, sendo N = log

M. No caso

de símbolos eqüiprováveis: p (s

) =

, logo são necessários N = log

p(s

)

, bits

para representar cada símbolo.

Considere-se uma fonte S cujas saídas são seqüências de elementos selecio-

nados de um conjunto A = {a

, a

, . . . , a

}. Esse conjunto é o alfabeto da

fonte e os seus elementos a

, i = 0, 1, 2, . . . , n, são denominados letras ou sím-

bolos (Ribeiro, 2008). Considerando-se que os símbolos emitidos pela fonte são

estatisticamente independentes entre si, estamos na presença de uma fonte sem

memória. Nesse caso, a fonte ﬁca completamente descrita pelo seu alfabeto A e

pelas probabilidades de ocorrência dos símbolos do alfabeto fonte:

P = {p(a

), p(a

), ..., p(a

)}, sendo que



i=1

p(a

) = 1.

A ocorrência do símbolo a

signiﬁca a geração de I(a

) = log

p(a

)

bits de

informação.

Como exemplo considere o arremesso de uma moeda em que P (cara) =

P (coroa) =

. Assim o conteúdo da informação é:

I (cara) = −log





= 2bits e I (coroa) = −log





= 0, 41bits.

Sendo X e Y dois eventos, é desejável que a função de informação tenha

algumas propriedades (Shannon, 1948):

1- Se P (X = x) = 0 ou P (X = x) = 1, então I(X) = 0;

2- Se 0 < P (X = x) < 1, então I(X) > 0;

3- Se P (X = x) < P (Y = y), então I(X) > I(Y );

4- Se X e Y são eventos independentes, então I(X, Y ) = I(X) + I(Y ).

Em seu artigo publicado em (1948), Shannon demonstrou que só existe uma

função, satisfazendo as pressuposições acima:

I(X) = −K



i=1

log p

em que K > 0 e I(X) é uma medida de incerteza contida na variável aleatória.

A função H = −



i=1

log p

(a constante K é meramente uma constante

que só depende da unidade de medida) desempenha um papel central na Teoria

da Informação, sendo uma medida de incerteza contida na variável aleatória. A

função I pode ser transformada na função entropia, deﬁnida em certas formulações

de mecânica-estatística em que p

é a probabilidade do sistema estar na fase i. A

quantidade I é, por exemplo, a constante do famoso teorema de Boltzmann (Young

& Freedman, 2003). Aqui, a quantidade H = −



i=1

log p

será chamada de

entropia do conjunto de probabilidades p

, p

, ..., p

A informação de Kullback-Leibler baseia-se na Entropia de variáveis aleató-

rias.

2.2.2 Entropia

Entropia (do grego entropé) é uma medida da quantidade de desordem de um

sistema.

2.2.2.1 Visão física da entropia

Fisicamente, o conceito de entropia está intimamente associado a conceitos da

termodinâmica. Nas linhas a seguir falar-se-á um pouco mais acerca deste assunto.

Segundo Halliday et al. (1996), a energia é um dos conceitos da física com

aplicação mais visível no dia-a-dia. Para mover um carro, por exemplo, é neces-

sário obter energia através da queima do combustível. Para os eletrodomésticos

funcionarem, depende-se da energia elétrica. O primeiro princípio da termodinâ-

mica ocupa-se do estudo da energia e da sua conservação. Contudo, nem toda a

energia gerada está disponível para ser transformada em trabalho útil. Existem

processos que só acontecem em um sentido. Segundo o Dicionário Aurélio, que

reﬂete o nosso linguajar coloquial, algo é reversível quando se pode reverter, ou

se pode retornar ao estado inicial. Silva (2005), aﬁrma que em Física, um pro-

cesso é reversível quando pode partir do estado ﬁnal e alcançar o estado inicial

usando os mesmos micro-estados que utilizou para alcançar o estado ﬁnal. Um

livro deslizando sobre uma mesa terá sua energia mecânica convertida em calor;

porém o processo inverso jamais foi visto por alguém (um livro que repousasse

sobre uma mesa começasse a se mover espontâneamente e a temperatura do livro

e da mesa diminuíssem); estes são os processos irreversíveis. O Segundo Princí-

pio da Termodinâmica trata desta questão, assim como das possíveis maneiras de

transformar calor em trabalho (Halliday et al., 1996).

O Segundo Princípio da Termodinâmica apresentado por Kelvin-Planck é o

seguinte: “É impossível construir uma máquina térmica que, operando em ciclo,

não produza nenhum efeito além da absorção de calor de um reservatório e da re-

alização de uma quantidade igual de trabalho” (Young & Freedman, 2003). Em

sua essência, diz que é impossível construir uma máquina que trabalhe com rendi-

mento de 100%. Para saber o quanto da energia pode ser considerada disponível

para consumo, é necessário conhecer um outro conceito: o de entropia.

Segundo Silva (2008a), o conceito físico de entropia surgiu na época da má-

quina a vapor, proposto pelo prussiano Rudolf Emmanuel Clausius (1822-1888),

para explicar o máximo de energia que poderia ser transformada em trabalho útil.

Tal conceito é deﬁnido como (Halliday et al., 1996):

Deﬁnição 2.3 Entropia S é uma propriedade cuja variação dS, no decurso de

uma transformação elementar, internamente reversível, de um sistema fechado, se

obtém dividindo a quantidade de calor dQ, que o sistema troca nessa transfor-

mação, pela temperatura absoluta T a que o sistema se encontra nesse momento.

Isto é:

dS =





rev

Tudo o que se disse acerca da entropia não é suﬁciente para compreender o

verdadeiro signiﬁcado físico dessa propriedade. Para tal tem-se que recorrer ao

método utilizado na termodinâmica estatística, que faz uso da natureza microscó-

pica da matéria para explicar as suas propriedades macroscópicas (Young & Fre-

edman, 2003). A entropia pode ser considerada como uma medida da desordem

molecular ou aleatoriedade molecular.

Tendo como referência um sistema de partículas, o conceito de entropia ganha

com Boltzmann uma nova conotação. A entropia passa a ser entendida como uma

medida da distribuição das partículas em termos de posição espacial e quantidade

de movimento. Aqui, máxima entropia passa a signiﬁcar distribuição homogênea

ou mínima desordem, quando a probabilidade de uma certa partícula se encontrar

em uma determinada posição, com uma certa quantidade de movimento é idên-

tica à probabilidade de qualquer outra partícula especíﬁca se encontrar na mesma

situação.

De acordo com Nussenzveig (1981), tem-se a seguinte deﬁnição de entropia

no sentido estatístico de Boltzmann:

Deﬁnição 2.4 A entropia é dada pela equação

S = k [logW ]

em que k é uma constante (unidade termodinâmica da medida da entropia - Cons-

tante de Boltzmann) e W é o número de microestados de entropia S (é o número to-

tal de estados microscópicos compatível com o estado macroscópico do sistema).

Assim, a variação da entropia de um estado i para um estado j é

= S

− S

= k log





, (2.8)

em que H

é a variação da entropia de Boltzmann, S

e S

são as entropias no

estado i e j, respectivamente e W

e W

são números de microestados compatíveis

com a ocorrência dos macroestados i e j, respectivamente.

Sendo p(x) e q(x) as funções densidades dos estados i e j respectivamente,

pode-se reescrever (2.8) como:

= k log



p(x)

q(x)



. (2.9)

Conforme Nussenzveig (1981), como fundador da Mecânica Estatística (Hu-

ang, 1987), Boltzmann propôs sucessivas “explicações” para o fenômeno do calor,

baseadas em uma abordagem probabilística.

Segundo Halliday et al. (1996), à medida que um sistema torna-se mais de-

sorganizado a nível molecular, as posições das suas moléculas tornam-se menos

previsíveis e a sua entropia aumenta . Por isso, a entropia da fase sólida é mais

baixa do que a das outras fases pois, nos sólidos, as moléculas oscilam em torno

de posições de equilíbrio, não podendo mover umas relativamente às outras e, em

qualquer momento, as suas posições são previsíveis com uma certa precisão. Na

fase gasosa as moléculas movem-se ao acaso, colidindo umas com as outras, mu-

dando de direção, o que torna extremamente difícil prever, com alguma precisão, o

estado microscópico ou conﬁguração molecular de um gás. Associado a este caos

molecular está um elevado valor da entropia.

2.2.2.2 Visão estatística da entropia

Segundo Chakrabarti & Chakrabarty (2007), um dos desdobramentos mais ri-

cos e polêmicos do conceito probabilístico de entropia desenvolvido por Boltz-

mann foi sua extensão ao campo da Teoria da Informação. Quando a informação

de ordem j é transmitida, a informação transportada é I

= −log

bits, con-

forme a expressão (2.7), mas em geral transmiti-se não somente um símbolo, e sim

um conjunto deles (mensagem). Assim, tem-se a informação média associada aos

n símbolos transportados.

Para medir a quantidade de informação, Shannon criou o conceito estatístico

de entropia, que é diferente do conceito homônimo encontrado em termodinâmica.

Porque esta denominação foi escolhida? Segundo Vicki (2007) ao que parece,

foi o matemático norte-americano de origem húngara, John Von Neumann, quem

sugeriu este termo. Teria dito, ironicamente, “deve chamá-la de entropia por

duas razões: primeiro, porque essa mesma função matemática já é utilizada em

termodinâmica, com esse nome; segundo, e mais importante, porque pouca gente

sabe realmente o que é entropia e, se usar esse termo numa discussão, sairá sempre

ganhando”.

De acordo Mackay (2005) a entropia é deﬁnida como :

Deﬁnição 2.5 A média ponderada das auto-informações por sua probabilidade

de ocorrência é o que chamamos de entropia, isto é:

H(X) =



i=1

= −



i=1

log p

(2.10)

sendo p

a probabilidade do evento X

Pode-se também ver a equação (2.10) como

H(X) = −



i=1

log p

= −E [log p

] .

Este conceito de entropia é útil para medir a quantidade de informação trans-

mitida por uma fonte.

Segundo Wiener (1970) apud Martins (1995), referindo-se a uma sugestão de

J. Von Neumann e abstraindo o sinal de negativo, N. Wiener propôs uma extensão

do conceito para distribuições contínuas, e deﬁniu:

Deﬁnição 2.6 Seja uma variável aleatória X, contínua, real e centrada (média

zero) com uma função de densidade de probabilidade g (x). A entropia é deﬁnida

por

= log



g (x)

f (x)



, (2.11)

em que H

é a entropia estatística, g(x) é a “verdadeira” distribuição e f(x) é o

nosso modelo estatístico.

Comparando-se as equações (2.9) e (2.11), nota-se que a entropia estatística é

a mesma entropia de Boltzmann, a não ser pelo sinal que foi abstraído e pela

constante k que é a constante de Boltzmann. Ou seja,

= −H

Sendo o conceito de entropia conhecido, pode-se perguntar: O que signiﬁca a en-

tropia de uma fonte? Signiﬁca que, embora não se possa prever qual o símbolo que

a fonte irá produzir a seguir, em média espera-se obter I bits de informação por

símbolo, ou nI bits numa mensagem de n símbolos, se n for elevado (Fernandes

& Azevedo (2006)).

Assim, dizer que um sinal (uma seqüência) de símbolos tem uma entropia

informacional de, por exemplo, 1, 75 bits por símbolo signiﬁca que pode-se con-

verter a mensagem original em uma seqüência de 0



s e 1



s (dígitos binários), de

maneira que em média existam 1, 75 dígitos binários por cada símbolo do sinal

original. O em média aqui quer dizer que alguns símbolos vão precisar de mais

dígitos binários para serem codiﬁcados (os mais raros) e que outros símbolos vão

precisar de menos dígitos binários para serem codiﬁcados (os mais comuns).

Exemplo

Suponha que tem-se 4 símbolos (A, C, G, T ) com probabilidades de ocorrência

iguais a p

; p

. Estas probabilidades dão as

seguintes quantidades de informação para cada símbolo:

= −log





= 1bit;

= −log





= 2bits;

= −log





= 3bits;

= −log





= 3bits.

Portanto, a entropia de uma seqüência desses símbolos é:

H = −



log p

= 1 ×

+ 2 ×

+ 3 ×

= 1, 75bit,

ou seja, 1,75 símbolos por bits. Pode-se codiﬁcar cada um dos quatro símbolos

por um número de dígitos binários igual à sua quantidade de informação. Por

exemplo:

A = 0;

C = 10;

G = 110;

T = 111.

Portanto, uma seqüência como:

AT CAGAAC,

que tem freqüências de ocorrência dos 4 símbolos iguais às deﬁnidas anterior-

mente pode ser codiﬁcada por 01111001100010, usando 14 dígitos binários para

codiﬁcar 8 símbolos, o que dá uma média de

= 1, 75 bits por símbolo.

Um código como o exempliﬁcado acima é chamado de código de Shannon-

Fano (Cover & Thomas, 1991). Esse código tem a propriedade de que pode ser

decodiﬁcado sem precisar de espaços entre os símbolos.

Com o conceito de entropia pode-se deﬁnir a quantidade de informação trans-

mitida e os limites ótimos de compressão dessa informação (Mackay, 2005). Em

1948, o cabo elétrico de “banda mais larga” então existente podia transmitir 1.800

conversas telefônicas simultâneas. Vinte e cinco anos mais tarde, um cabo telefô-

nico podia transmitir 230.000 conversas simultâneas. Hoje, uma nova ﬁbra ótica

com a espessura de um cabelo humano, pode comportar 6, 4 milhões de conversas.

No entanto, mesmo com esta largura de banda, os limites teóricos de capacidade

de canal determinados por Shannon estão muito aquém dos praticados. Os enge-

nheiros sabem que ainda há muito que melhorar.

Sejam X

= {x

, x

, ..., x

} um conjunto de n observações independentes

amostradas aleatoriamente de uma distribuição (modelo) de probabilidades desco-

nhecida g(x) (verdadeiro modelo, do qual retiramos nossos dados), e seja f (x) um

modelo arbitrário especiﬁcado. O que se quer é avaliar a qualidade do ajuste ao se

aproximar o modelo g(x) pelo modelo f(x).

A informação de Kullback-Leibler quantiﬁca essa perda de informações (Ko-

nishi & Kitagawa, 2008):

Deﬁnição 2.7 A Informação de Kullback-Leibler é deﬁnida por:

I (g; f ) = E

[−H

] = E



log



g (y)

f (y)



+∞



−∞

g (y) log



g (y)

f (y)



dy (2.12)

em que H

é a entropia de Boltzmann, g é a distribuição da qual são gerados os

dados, f é a distribuição utilizada para aproximar g e E

representa a esperança,

com respeito a distribuição de probabilidade g.

A equação (2.12) pode também, ser expressa como:

I (g; f ) = E

[log g (x)] − E

[log f (x)] (2.13)

ou equivalentemente

I (g; f ) =

+∞



−∞

g (x) log [g (x)] dx −

+∞



−∞

g (x) log [f (x)] dx. (2.14)

Conforme Konishi & Kitagawa (2008), a Informação de Kullback-Leibler têm

as seguintes propriedades:

(P1) Para quaisquer funções de densidade de probabilidade f e g, I (g; f ) ≥ 0;

(P2) Se f e g são funções de densidade de probabilidade e I (g; f ) = 0, então

f (x) = g (x) , ∀x ∈ R;

(P3) Se f e g são duas funções de densidade de probabilidade e f → g, então

I (g; f ) → 0.

Nota-se que o primeiro termo na equação (2.13) é uma constante, que depende

somente do verdadeiro modelo g. Assim, somente o segundo termo de (2.14) é

importante na avaliação do modelo estatístico f(x), pois se houver dois modelos

candidatos f

e f

, ao compará-los obter-se-á:

I (f

, g) =



g (x) ln (g (x)) dx −



g (x) ln (f

(x)) dx

I (f

, g) =



g (x) ln (g (x)) dx −



g (x) ln (f

(x)) dx.

Logo

I (f

, g) − I (f

, g) =





g (x) ln (g (x)) dx −



g (x) ln (f

(x)) dx



−





g (x) ln (g (x)) dx −



g (x) ln (f

(x)) dx





g (x) ln (f

(x)) dx −



g (x) ln (f

(x)) dx. (2.15)

Assim vê-se que a primeira parte da equação (2.13) é cancelada, e a equação

só depende do segundo termo, chamado de log verossimilhança esperada (Konishi

& Kitagawa, 2008). Entretanto a segunda parte ainda depende da função desco-

nhecida g.

[ln (f (x))] =



ln (f (x)) g (x) dx =



ln (f (x)) dG (x) . (2.16)

Em que g é a verdadeira distribuição, f é o odelo que aproxima g e G é a função

de distribuição acumulada de g.

Considerar-se-á um exemplo dado por Burnham & Anderson (2002) para ilus-

trar a K-L informação:

Exemplo

Seja g um distribuição gama com parâmetros α = 4 e β = 4. Consideram-se

os modelos g

, i = 1, 2, 3, 4 como sendo aproximações do verdadeiro modelo, em

que g

é uma Weibull com parâmetros α = 2 e β = 20, g

é uma log-normal com

parâmetros α = 2 e σ

= 2, g

é uma inversa Gaussiana com parâmetros α = 16

e β = 64, g

é uma distribuição F com parâmetros α = 4 e β = 10.

De acordo com Johnson et al. (1994) tem-se:

g (x) =

Γ (4)

4−1

−

1536

−

(x) =

20−1

−

(

)

−

(x) =

√

2π

√

−(ln x−2)/2×2

√

πx

−(ln x−2)/4

(x) =



2πx



1/2

{

−

2×16

(

−2+

)}

√

2π

−3/2

{

−2

(

−2+

)}

(x) =

Γ [(4 + 10)/2]

Γ (4/2) Γ (10/2)





4/2

(4−2)/2

(1 + (4/10) x)

−(4+10)/2

Γ (7)

Γ (2) Γ (5)





x (1 + (2/5) x)

−14/2



1 +



−7

Nas ﬁguras abaixo tem-se o gráﬁco destas distribuições.

FIGURA 2: Representação gráﬁca das

distribuições Gama(4,4) -

linha contínua - e Wei-

bull(2,20) - linha ponti-

lhada

FIGURA 3: Representação das dis-

tribuições Gama(4,4) - li-

nha contínua - e Lognor-

mal(2,2) - linha pontilhada

FIGURA 4: Representação gráﬁca das

distribuições Gama(4,4) -

linha contínua - e Inversa

Gaussiana(16,64) - linha

pontilhada

FIGURA 5: Representação gráﬁca da

distribuição Gama(4,4) -

linha contínua - e da distri-

buição F(4,10) - linha pon-

tilhada

Em uma primeira análise, puramente visual, pode-se dizer que as distribui-

ções Weibull e Inversa Gaussiana estão muito mais “próximas” da distribuição

Gama que as distribuições Lognormal e F. Vejamos isto através da informação de

Kullback-Leibler, calculando a K-L informação para cada distribuição.

I (g, g

) =



g (x) ln



g (x)

(x)



dx =



g (x) ln (g (x)) dx −



g (x) ln (g

(x)) dx



−

1536



−

1536



dx −



−

1536



−



1536



−



−ln (1536) + 3 ln (x) −



  

(I)

−

1536



−





+ 19 ln (x) −



  

(II)

(2.17)

Efetuando as integrações e os cálculos necessários em (2.17) tem-se (I)=3, 40970

e (II) = 3, 3635 e assim I (g, g

) = 3, 40970 − 3, 3635 = 0, 04620.

Para g

(x) tem-se

I (g, g

) =



g (x) ln



g (x)

(x)



dx =



g (x) ln (g (x)) dx −



g (x) ln (g

(x)) dx



−

1536



−

1536



dx −



−

1536



√

πx

−(ln x−2)/4



1536



−



−ln (1536) + 3 ln (x) −



  

(III)

−

1536



−



−ln



√



−

ln x



  

(IV )

. (2.18)

Novamente, efetuando as integrações e os cálculos necessários em (2.18) e no-

tando que (I) = (III) obtém-se (III) = 3, 40970 e (IV ) = 2, 73735, assim

I (g, g

) = 3, 40970 − 2, 73735 = 0, 67235.

Para g

(x) tem-se

I (g, g

) =



g (x) ln



g (x)

(x)



dx =



g (x) ln (g (x)) dx −



g (x) ln (g

(x)) dx



−

1536



−

1536



dx−



−

1536



√

2π

{

−2

(

−2+

)}



1536



−



−ln (1536) + 3 ln (x) −



  

(V )

−

1536



−



√

2π



+ ln (x) −

+ 4 −



  

(V I)

(2.19)

Novamente, efetuando as integrações e os cálculos necessários em (2.19) e no-

tando que (I) = (V ) obtém-se (V ) = 3, 40970 e (V I) = 3, 34962 e assim

I (g, g

) = 3, 40970 − 3, 34962 = 0, 06008.

Para g

(x) tem-se

I (g, g

) =



g (x) ln



g (x)

(x)



dx =



g (x) ln (g (x)) dx −



g (x) ln (g

(x)) dx



−

1536



−

1536



dx −



−

1536





1 +



−7



1536



−



−ln (1536) + 3 ln (x) −



  

(V II)

−

1536



−





+ ln (x) − 7 ln



1 +



  

(V III)

(2.20)

Novamente, efetuando as integrações e os cálculos necessários em (2.20) e no-

tando que (I) = (V II) obtém-se (V II) = 3, 40970 e (V III) = −2, 33585 e

assim I (g, g

) = 3, 40970 − (−2, 33585) = 5, 74555.

Resumidamente, tem-se a seguinte tabela:

Modelo K-L informação Posição

Weibull(2,20) 0,0462 1

Lognormal(2,2) 0,67235 3

Inversa Gausssiana(16,64) 0,06008 2

F(4,10) 5,74555 4

De acordo com os resultados da K-L Informação, a distribuição que melhor

“aproxima” a distribuição gama(4,4) é a distribuição Weibull, seguida pela in-

versa Gaussiana, a lognormal e a F, respectivamente. Isso condiz com a análise

gráﬁca feita anteriormente e também está de acordo com a propriedade (P3), pois

à medida que a distribuição torna-se mais “próxima” da gama, vê-se que I(g, g

)

diminui.

Conforme Akaike (1974), a K-L informação é apropriada para testar se um

dado modelo é adequado, entretanto o seu uso é limitado, pois ela depende da dis-

tribuição g, que é desconhecida. Se uma boa estimativa para a log verossimilhança

esperada puder ser obtida através dos dados, esta estimativa poderá ser utilizada

como um critério para comparar modelos.

Para analisar a estrutura de um dado fenômeno assumem-se modelos para-

métricos {f(x|θ); θ ∈ Θ ⊂ R

} tendo p parâmetros, e em seguida maximiza-se a

função de verossimilhança (descrita na seção seguinte) para se estimar o parâmetro

θ.

2.2.3 A função de verossimilhança

O método mais importante de achar estimativas é o método de máxima veros-

similhança, introduzido por R. A. Fisher. Conforme Bolfarine & Sandoval (2000)

a função de verossimilhança é deﬁnida como:

Deﬁnição 2.8 Seja {X

, X

, ..., X

}uma amostra aleatória independente e iden-

ticamente distribuída, de tamanho n da variável aleatória X com função de den-

sidade g (x|θ), com θ ∈ Θ, em que Θ é o espaço paramétrico. A função de

verossimilhança de θ correspondente à amostra aleatória observada é dada por:

L (θ; X

, X

, ..., X

) =



i=1

g ( X

|θ) = g (X

|θ) g (X

|θ) ...g (X

|θ) . (2.21)

Se a amostra tiver sido obtida, os valores de {x

, x

, ..., x

} serão conhecidos.

Como θ é desconhecido, pode-se propor o seguinte: Para qual valor de θ a função

L (x

, x

, . . . , x

; θ) será máxima? (Meyer, 1983).

Deﬁnição 2.9 O estimador de máxima verossimilhança de θ, isto é,



θ, é aquele

valor de θ que maximiza L (θ; X

, X

, ..., X

Segundo Ferreira (2005), o método de máxima verossimilhança estima os va-

lores dos parâmetros da distribuição em estudo, maximizando a função de veros-

similhança. O estimador de máxima verossimilhança, é aquele valor de θ, que

maximiza (2.21). Para obter o estimador de máxima verossimilhança, toma-se

a derivada primeira de L (θ; x

, x

, ..., x

) com respeito a θ, iguala-se a zero e

resolve-se para θ, obtendo-se os pontos críticos; aquele ponto (se existir) que ma-

ximiza L (θ; x

, x

, ..., x

) é a estimativa de máxima verossimilhança para θ. Ha-

vendo mais de um parâmetro, para encontrar os estimadores de máxima verossimi-

lhança dos parâmetros, deve-se primeiro tomar as derivadas parciais da função de

verossimilhança com respeito a cada um deles, a seguir igualar a derivada a zero e

resolver o sistema obtido. Isto é,

∂L (θ; x

, x

, ..., x

)

∂θ

= 0. (2.22)

Como a função de verossimilhança L (θ; x

, x

, ..., x

) e a função log veros-

similhança logL (θ; x

, x

, ..., x

) assumem máximo para o mesmo valor, mui-

tas das vezes é preferível trabalhar com a função log verossimilhança, por esta

ser bem menos complicada de trabalhar e encontrar os pontos críticos. A função

S = logL (θ; x

, x

, ..., x

) é chamada função suporte ( Cramér, 1973).

Segundo Konishi & Kitagawa (2008), os estimadores de máxima verossimi-

lhança têm muitas propriedades da teoria das grandes amostras que torna o seu

resultado mais atrativo. São elas:

• Os estimadores são assintoticamente consistentes, o que signiﬁca que quanto

maior o tamanho da amostra, mais próximos os valores das estimativas es-

tarão dos verdadeiros valores. Formalmente tem-se:

Deﬁnição 2.10 Um estimador



θ do parâmetro θ é um estimador consistente

se: lim

n→∞







θ − θ



≥ 



= 0, para qualquer  > 0.

• Os parâmetros estimados são assintoticamente, normalmente distribuídos.

Formalmente tem-se:

Teorema 2.1 Seja



θ um estimador de máxima verossimilhança do parâme-

tro θ, então a distribuição de

√





θ − θ



→



0, −



∂

ln (X, θ)

∂θ



−1



Vale a pena observar que a variância é justamente a inversa da informação

de Fisher.

• Eles também são assintoticamente eﬁcientes, e quanto maior a amostra,

maior precisão das estimativas.

• Os estimadores de máxima verossimilhança são também estatísticas suﬁci-

entes, isto é, são estatísticas que condensam os Ω de tal forma que não são

perdidas informações acerca de θ. Tal conceito pode assim ser formalizado:

Deﬁnição 2.11 Sejam X

, X

, . . . , X

uma amostra aleatória de densidade

f (·; θ) . Uma estatística S = s(X

, X

, . . . , X

) é dita ser uma estatística

suﬁciente se e só se a distribuição condicional de X

, X

, . . . , X

) dado

S = s não depender de θ para qualquer valor de s ∈ S.

• Ele também tem a propriedade da invariância, que pode ser formalizada

como:

Deﬁnição 2.12 Seja



Θ =



ϑ (X

, X

, . . . , X

) um estimador de máxima

verossimilhança de θ com função de densidade f (·; θ), sendo θ unidimensi-

onal. Se τ (·) é uma função inversível, então o estimador de máxima veros-

similhança de τ (θ) é τ







Estas são excelentes propriedades da teoria das grandes amostras.

Uma outra propriedade, que não necessariamente estes estimadores têm, é o

não-enviesamento. Um estimador é não-viesado se sua esperança é igual ao valor

estimado. Formalmente tem-se:

Deﬁnição 2.13 Um estimador



θ do parâmetro θ é um estimador não viesado

quando a sua distribuição amostral está centrada no próprio parâmetro, isto é,







= θ.

2.2.4 O estimador da função suporte

Depois que o vetor de parâmetros θ foi estimado, ele é substituído no modelo

f(x|θ) e passa-se a trabalhar com o modelo f(x|



θ). Assim, ao invés de (2.16)

tem-se



ln f









ln f







g (x) dx =



ln f







dG (x) . (2.23)

Tendo como base estimadores de máxima verossimilhança, deseja-se encon-

trar um bom estimador para (2.23). Segundo Konishi & Kitagawa (2008), uma

estimativa da função suporte esperada, pode ser obtida substituindo a distribuição

de probabilidade desconhecida G na equação (2.23) por uma função de distribui-

ção empírica



G baseada nos dados X. Isto pode ser entendido nas deﬁnições feitas

a seguir.

Deﬁnição 2.14 Sejam X = {x

, x

, ..., x

} os dados observados de uma dis-

tribuição G(x). A função de distribuição empírica



G é a função de densidade

acumulada que dá

de probabilidade para cada X

. Formalmente,



(x) =



i=1

I (X

≤ x)

em que

I (X

≤ x) =







1, se X

≤ x

0, se X

≥ x.

Wasserman(2005), mostra o seguinte teorema:

Teorema 2.2 Sejam X

, X

, ..., X

∼ G e seja



a função densidade acumu-

lada empírica. Então:

• Para qualquer valor de x ﬁxo,





(x)



= G (x) (2.24)

V ar





(x)



G (x) (1 − G (x))

• sup







(x) − G (x)



→ 0



Deﬁnição 2.15 Um funcional estatístico T (G) é qualquer função de G, em que

G é uma distribuição e T uma função qualquer.

São exemplos de funcionais:

• A média µ =



xdG (x),

• A variância σ



(x − µ)

dG (x),

• A mediana m = G

−1





Um funcional da forma



u (x) dG (x) é dito ser um funcional linear. No caso

contínuo,



u (x) dG (x) é deﬁnido como sendo



u (x) g (x) dx e no caso discreto

é deﬁnido como sendo



u (x

) g (x

Deﬁnição 2.16 O estimador para θ = T (G) é deﬁnido por



Se um funcional pode ser escrito na forma T (G) =



u (x)dG (x), Konishi &

Kitagawa (2008) mostram que o estimador correspondente é dado por









u (x)d



G (x) =



i=1

g (x

) u (x

) =



i=1

u (x

) (2.25)

ou seja, substitui-se a função densidade de probabilidade acumulada G pela função

de distribuição acumulada empírica



G, e a função densidade g

para cada

observação X

Assim, se por exemplo, a função de densidade acumulada G for substituída

por



G, será obtido o seguinte estimador para a média µ:











G (x) =



i=1

= x,

que é exatamente a média amostral.

De (2.25) vê-se que pode-se estimar a função suporte esperada por:





log f









log f









G (x)



i=1

g







log f (x

)



i=1

log f







. (2.26)

Nota-se que o estimador da função suporte esperada E



logf







−1







e a função suporte L







é um estimador de nE



logf







3 OS CRITÉRIOS DE INFORMAÇÃO AIC E BIC

Com o intuito de comparar n modelos, g

(x|θ

) , g

(x|θ

) , ..., g

(x|θ

pode-se simplesmente comparar as magnitudes da função suporte maximizada,

isto é, L







, mas tal método não dá uma verdadeira comparação, haja vista que,

em não conhecendo o verdadeiro modelo g (x), primeiramente utiliza-se o mé-

todo da máxima verossimilhança para estimar-se os parâmetros θ

de cada modelo

(x), i = 1, 2, ...n, posteriormente utilizar-se-á os mesmos dados para estimar-se



logf(x|



θ)



, isto introduz um viés em L







, sendo que, a magnitude deste

viés varia de acordo com a dimensão do vetor de parâmetros.

De acordo com a Deﬁnição (2.13) o viés é dado por

b (G) = E

G(x

)



log f





θ (X

)



− nE

G(Z)



log f





θ (X

)



, (3.1)

em que a esperança é tomada com respeito à distribuição conjunta.

Vê-se assim que os critérios de informação são construídos para avaliar e cor-

rigir o viés da função suporte. Segundo Konishi & Kitagawa (2008), um critério

de informação tem a forma que se segue:







= −2 (log (verossimilhança) − viés)

= −2



i=1

log f





θ (X

)



+ 2 (b (G)) . (3.2)

Alguns critérios comuns na literatura também podem ser utilizados para sele-

ção de modelos. Esses critérios levam em consideração a complexidade do modelo

no critério de seleção. São critérios que essencialmente, penalizam a verossimi-

lhança, utilizando o número de variáveis do modelo e, eventualmente o tamanho

da amostra. Esta penalização é feita subtraindo-se do valor da verossimilhança

uma determinada quantidade, que depende do quão complexo é o modelo (quanto

mais parâmetros, mais complexo).

Akaike (1974), propôs utilizar a informação de Kullback-Leibler para a sele-

ção de modelos. Ele estabeleceu uma relação entre a máxima verossimilhança e

a informação de Kullback-Leibler desenvolvendo então um critério para estimar a

informação de Kullback-Leibler, o posteriormente chamado, Critério de Informa-

ção de Akaike(AIC).

Critérios de seleção de modelos como o Critério de Informação de Akaike

(AIC) e Critério de Informação Bayesiano (BIC), são freqüentemente utilizados

para selecionar modelos em diversas áreas. Segundo esses critérios, o melhor

modelo será aquele que apresentar menor valor de AIC ou BIC.

Por serem resultados assintóticos, os resultados deste trabalho são válidos para

“grandes” amostras, sendo o conceito de “grande” amostra difícil de se deﬁnir, pois

tal conceito depende da área de estudo, da disponibilidade de recursos para uma

amostra maior, dentre outros fatores. Se houver convicção de que a amostra em

mãos não é “‘grande”, pode-se utilizar as correções destes critérios, já existentes,

para pequenas amostras. Tais correções não serão alvo desse estudo, mas podem

ser encontradas em (Burnham & Anderson, 2002).

3.1 Critério de informação de Akaike

O Critério de informação de Akaike (AIC) desenvolvido por Hirotugu Akaike

sob o nome de “um critério de informação” em 1971 e proposto, em Akaike (1974),

é uma medida relativa da qualidade de ajuste de um modelo estatístico estimado.

Fundamenta-se no conceito de entropia, oferecendo uma medida relativa das infor-

mações perdidas, quando um determinado modelo é usado para descrever a reali-

dade. Akaike encontrou uma relação entre a esperança relativa da K-L informação

e a função suporte maximizada, permitindo uma maior interação entre a prática

e a teoria, em seleção de modelos e análises de conjuntos de dados complexos

(Burnham & Anderson, 2002).

Akaike (1974), mostrou que o viés é dado assintoticamente por:

b (G) = tr



I (θ

) J (θ

)

−1



, (3.3)

sendo J (θ

) e I (θ

) dados por (6.6) e (6.10), respectivamente. A derivação desse

resultado é carregada de cálculos matemáticos e por isso encontra-se nos anexos.

O AIC é um critério que avalia a qualidade do ajuste do modelo paramétrico,

estimado pelo método da máxima verossimilhança. Ele baseia-se no fato de que o

viés (3.3) tende ao número de parâmetros a serem estimados no modelo, pois sob

a suposição de que existe um θ

∈ Θ tal que g(x) = f (x|θ

), tem-se a igualdade

das expressões (6.6) e (6.10), isto é, I(θ

) = J(θ

) e assim obter-se-à em (3.3)

que:

b (G) = E

G(x

)



log f





θ (X

)



− nE

G(Z)



log f





θ (X

)



= tr



I (θ

) J



−1



= tr (I

) = p, (3.4)

em que p é o número de parâmetros a serem estimados no modelo.

Com esse resultado, Akaike (1974) deﬁniu seu critério de informação como:

AIC = −2 (Função suporte maximizada) + 2 (número de parâmetros) ,

AIC = −2 log L







+ 2 (k) (3.5)

O AIC não é uma prova sobre o modelo, no sentido de testar hipóteses, mas

uma ferramenta para a seleção de modelos; não é um teste de hipóteses, não há

signiﬁcância e nem valor-p. Dado um conjunto de dados e vários modelos con-

correntes, pode-se classiﬁcá-los de acordo com o seu AIC, com aqueles tendo os

menores valores de AIC sendo os melhores (Burnham & Anderson, 2002). A par-

tir do valor do AIC pode-se inferir que, por exemplo, os três principais modelos

estão em um empate e os restantes são muito piores, mas não se deve atribuir um

valor cima do qual um determinado modelo é “rejeitado”.

Esse critério está implementado em grande parte dos softwares estatísticos,

tais como SAS, R, Statistica, etc. Por si só, o valor do AIC para um determinado

conjunto de dados não tem qualquer signiﬁcado. O AIC torna-se útil quando são

comparados diversos modelos. O modelo com o menor AIC é o “melhor” modelo,

dentre os modelos comparados. Se apenas modelos ruins forem considerados, o

AIC selecionará o melhor dentre estes modelos.

3.2 Critério de informação bayesiano

O Critério de informação Bayesiano (BIC), também chamado de Critério de

Schwarz, foi proposto por Schwarz (1978), e é um critério de avaliação de modelos

deﬁnido em termos da probabilidade a posteriori, sendo assim chamado porque

Schwarz deu um argumento Bayesiano para prová-lo. A seguir serão descritos

alguns conceitos que levarão à construção deste critério ao ﬁnal desta subseção.

• O teorema de Bayes

De acordo com Bolfarine & Sandoval (2000), quando dois ou mais eventos

de um espaço amostral são levados em consideração conjuntamente, passa a haver

sentido conjecturar se a ocorrência ou não de um afeta a ocorrência ou não do ou-

tro, isto é, se são independentes ou não. Intuitivamente, somos levados à deﬁnição

de que dois eventos são independentes se, P [A ∩ B] = P [A] P [B]. Entretanto,

se há dependência entre os eventos, passa a haver sentido falar na probabilidade de

que um evento ocorra dado que outro ocorreu ou não. Esta dependência motiva a

deﬁnição de probabilidade condicional. Finalmente, os conceitos de independên-

cia e probabilidade condicional levarão ao teorema de Bayes.

Mood et al. (1974), deﬁnem probabilidade condicional, independência e sub-

conjuntos mutuamente exclusivos como se segue:

Deﬁnição 3.1 A probabilidade condicional de um evento A dado um evento B,

denotada por P [A|B] é deﬁnida por:

P [A|B] =

P [A ∩ B]

P [B]

se P [B] > 0 e é indeﬁnida se P [B] = 0.

Deﬁnição 3.2 Dois eventos A e B são ditos independentes se, e só se, qualquer

uma das três condições é verdadeira

• P [A ∩ B] = P [A] P [B],

• P [A|B] = P [A], se P [B] > 0,

• P [B|A] = P [B], se P [B] > 0.

Deﬁnição 3.3 Dois conjuntos A e B, subconjuntos de Ω, são deﬁnidos como sendo

mutuamente exclusivos (disjuntos) se A ∩ B = ∅. Subconjuntos A

, A

, . . . são

ditos mutuamente exclusivos se A

∪ A

= ∅ para todo i = j, i, j ∈ N.

Teorema 3.1 Se (Ω, A, P [·]) é um espaço de probabilidades e B

, B

, . . . , B

uma coleção de eventos mutuamente exclusivos em A, satisfazendo Ω =



j=1

e P [B

] > 0, para j = 1, 2, . . . , n, então para todo A ∈ A, tal que P [A] > 0,

tem-se:

P [B

|A] =

P [A|B

] P [B

]



j=1

P [A|B

] P [B

]

, (3.6)

sendo Ω o espaço amostral e A o espaço paramétrico.

Conforme Konishi & Kitagawa (2008), sejam M

, M

, . . . , M

, k modelos

candidatos, cada um dos modelos M

com uma distribuição de probabilidades

(x|θ

) e uma priori, π

(θ

) para o k

−ésimo vetor θ

. Se são dadas n obser-

vações x

= {x

, x

, . . . , x

}, então para o i−ésimo modelo M

, a distribuição

marginal de x

é dada por:

) =



|θ

) π

(θ

) dθ

. (3.7)

Essa quantidade pode considerada como a verossimilhança para o i-ésimo mo-

delo e será referida como verossimilhança marginal dos dados.

Sendo P (M

) a distribuição a priori do i-ésimo modelo, por (3.6) a distribuição

a posteriori será (Burnham & Anderson, 2002):

P (M

) =

) P (M

)



j=1

) P (M

)

(3.8)

Segundo Paulino et al. (2003), a probabilidade a posteriori indica a proba-

bilidade dos dados serem gerados do i-ésimo modelo quando os dados x

são

observados. Se um modelo está sendo selecionado de r modelos, seria natural

adotar o modelo que tem a maior probabilidade a posteriori. Esse princípio mostra

que o modelo que maximiza o numerador p

) P (M

) deve ser selecionado,

pois todos os modelos compartilham do mesmo denominador em (3.8). Se as dis-

tribuições a priori P (M

) são iguais em todos os modelos, então o modelo que

maximiza a probabilidade marginal dos dados p

), deve ser selecionado. As-

sim, se uma aproximação para o probabilidade marginal expressa em termos da

integral em (3.8) puder ser obtida, a necessidade básica de encontrar a integral

problema-por-problema desaparece, isto faz do BIC um critério satisfatório para

seleção de modelos.

De acordo com Konishi & Kitagawa (2008), o BIC é deﬁnido como:

−2logp

) = −2log



|θ

) π

(θ

) dθ

≈ −2logf







+ k

logn (3.9)

em que



é o estimador de máxima verossimilhança para o k

-ésimo vetor para-

métrico θ

do modelo f

|θ

Conseqüentemente, dos r modelos avaliados usando o método de máxima ve-

rossimilhança, o modelo que minimizar o valor do BIC é o melhor modelo para os

dados.

Assim, sob a suposição de que todos os modelos têm distribuição de probabi-

lidades a priori iguais, a probabilidade posteriori, obtida usando a informação do

dados, serve para contrastar os modelos e ajuda na identiﬁcação do modelo que

gerou os dados.

Sejam M

e M

dois modelos que quer-se comparar. Para cada modelo tem-se

as verossimilhanças marginais p

), as prioris P (M

) e as posterioris P (M

)

com i = {1, 2}, assim, a razão à posteriori em favor do modelo M

versus o mo-

delo M

é:

P (M

)

P (M

)

)P (M

)



j=1

)P (M

)

)P (M

)



j=1

)P (M

)

) P (M

)

) P (M

)

A razão

)

(3.10)

é chamada de Fator de Bayes.

Segundo Konishi & Kitagawa (2008), Akaike mostrou que a comparação ba-

seada no fator de Akaike é assintoticamente equivalente à comparação através do

fator de Bayes.

O problema em encontrar o valor do BIC reside no fato de ter-se que calcular

o valor da integral em (3.7). Isso é feito utilizando-se a aproximação de Laplace

para integrais.

• A aproximação de Laplace para integrais

Considere a aproximação de Laplace para a integral



exp {nq (θ)}dθ, (3.11)

em que θ é um vetor de parâmetros p-dimensional e q(θ) é uma função real p-

dimensional.

A grande vantagem da aproximação de Laplace é o fato de que quando o nú-

mero n de observações é grande, o integrando concentra-se em um vizinhança



θ de

q(θ), e conseqüentemente, o valor da integral depende somente do comportamento

do integrando na vizinhança de



θ.

Assim,

∂q(θ)

∂θ



θ=



= 0 e a expansão de q (θ) em torno de



θ é:

q (θ) = q







−



θ −











θ −





+ . . . , (3.12)

em que







= −

∂

q (θ)

∂θ∂θ



θ=



(3.13)

Deﬁnição 3.4 Sejam q (θ) uma função de valores reais avaliada em torno de



θ,

sendo θ um vetor de parâmetros. Então a aproximação de Laplace para a integral

é dada por:



exp {nq (θ) dθ} ≈

(2π)

(n)











exp







(3.14)

em que J







é deﬁnido em (3.13).

Utilizando-se a aproximação de Laplace para aproximar (3.7), que pode ser

reescrita como

p(x

) =



|θ) π (θ) dθ



exp {log f (x

|θ)}π (θ) dθ



exp { (θ)}π (θ) dθ, (3.15)

em que  (θ) é a função suporte  (θ) = logf (x

|θ).

Assim sendo, fazendo-se a expansão em séries de Taylor de  (θ) e π (θ) em

torno de



θ obter-se-á respectivamente:

 (θ) = 







−



θ −











θ −





+ . . . , (3.16)

π (θ) = π









θ −





∂π (θ)

∂θ



θ=



+ . . . , (3.17)

substituindo (3.16) e (3.17) em (3.15) obtém-se:

p(x

) =



exp











θ −





∂π (θ)

∂θ



θ=



+. . .



dθ











θ −





∂π(θ)

∂θ



θ=



+ . . .



dθ

≈exp



















exp



−



θ −





J (θ)



θ −







dθ(3.18)

A integral em (3.18) satisfaz a equação (3.14), conseqüentemente pode ser

aproximada utilizando Laplace, e obtém-se:



exp



−



θ −





J (θ)



θ −







dθ = (2π)

−











−1

,(3.19)

em que o integrando é uma função de densidade normal p-dimensional com vetor

de médias



θ e matriz de covariância J

−1







Para n grande,

p(x

) ≈ exp

















(2π)

−











−1

(3.20)

Tomando o logarítmo em (3.20) e multiplicando a expressão por −2 obtém-se

−2 log p (x

) = −2 log





f (x

|θ) π (θ) dθ



(3.21)

= −2







+ p log n + log











− p log (2π) − 2 log π







Assim, o Critério de Informação Bayesiano pode ser obtido da seguinte forma

(ignorando-se os termos constantes no equação):

Deﬁnição 3.5 Seja F







um modelo estatístico estimado através do método

de máxima verossimilhança. Então o Critério de Informação Bayesiano(BIC) é

dado por:

BIC = −2 log f (x

|θ) + p log n, (3.22)

em que f (x

|θ) é o modelo escolhido, p é o número de parâmetros a serem esti-

mados e n é o número de observações da amostra.

3.3 Algumas considerações acerca do AIC e do BIC

Vale a pena salientar algumas características dos critérios AIC e BIC. A maio-

ria dessas considerações são feitas por Burnahm & Anderson(2002), e também es-

tão no website desses autores, onde estão disponíveis outras considerações acerca

destes métodos.

• Tanto o AIC quanto o BIC fundamentam-se na verossimilhança, impondo

entretanto diferentes penalizações;

• O AIC e o BIC servem para comparar modelos encaixados, mas podem ser

aplicados também em modelos não encaixados;

• Para n > 8, o valor do AIC para um determinado modelo será sempre menor

que o valor do BIC, mas os resultados não necessariamente o serão;

• O AIC e o BIC servem para comparar quaisquer quantidade de modelos, e

não somente dois, como muitos pensam;

• O AIC e o BIC são critérios assintóticos e já existem correções para estes;

• O AIC e o BIC servem para estudar estruturas de covariâncias;

• A seleção dos modelos é feita pelo pesquisador e, se somente modelos ruins

forem selecionados, o AIC fará a seleção do melhor dentre eles.

4 APLICAÇÕES DO AIC E BIC

4.1 Os dados

Para a realização desse trabalho foram avaliados dois conjuntos de dados dis-

tintos.

O primeiro conjunto de dados é disponibilizado em Triola (1999), e encontra-

se no anexo A. Foram extraídas duas amostras de confeitos M&M, pesados os

de cores vermelha e amarela. A variável resposta foi o peso em gramas de cada

elemento amostral. Utilizando o AIC e o BIC desejou-se testar se os pesos dos

confeitos amarelos e vermelhos seguem a mesma distribuição.

O segundo conjunto de dados foi obtido de Rawlings et al. (1998). Trata-se

de um estudo das características que inﬂuenciam a produção aérea de biomassa

na grama de pântano. Foram amostrados três tipos de vegetação Spartina, em três

localidades (Oak Island, Smith Island, and Snows Marsh). Em cada localidade,

cinco amostras aleatórias do substrato de terra de cada tipo de vegetação foram

coletadas, totalizando 45 amostras.

Foram analisadas 14 características físico-químicas da terra durante vários me-

ses, porém os dados usados nesse estudo envolvem só a amostragem de setembro,

em que foram analisadas as variáveis: salinidade (Sal), pH (pH), potássio (K) em

ppm, sódio (Na) em ppm , zinco (Zn) em ppm e a variável resposta foi a biomassa

aérea em gm

−2

. O propósito do estudo foi utilizar regressão linear múltipla para

relacionar a produção de biomassa com as cinco variáveis estudadas.

4.2 Igualdade de médias e / ou de variâncias de distribuições normais

Uma utilidade dos critérios de Akaike e de Schwarz é testar se os dados oriun-

dos de uma distribuição normal tem mesma média e variância; ou mesma média

e variâncias diferentes, ou diferentes médias e mesma variância ou se provém de

uma normal com médias e variâncias diferentes.

Sejam dois conjuntos de dados {y

, y

. . . , y

} e {y

n+1

, y

n+2,

. . . , y

n+m

sendo que y

, y

. . . , y

∼ N



, σ



e y

n+1

, y

n+2,

. . . , y

n+m

∼ N



, σ



Deseja-se veriﬁcar se:

= µ

= µ e σ

= σ

ou (4.1)

= µ

e σ

= σ

ou (4.2)

= µ

e σ

= σ

ou (4.3)

= µ

= µ e σ

= σ

(4.4)

Tem-se que



|µ

, σ





2πσ

exp



−



− µ





, i = 1, 2, . . . , n,



|µ

, σ





2πσ

exp



−



− µ





, i = n + 1, n + 2, . . . , n + m,

E a função de densidade conjunta é dada por:

f(Y|θ) = f



, . . . , y

, y

n+1

, . . . , y

n+m

|µ

, σ

, µ

, σ





i=1





2πσ

exp



−



− µ

√

2σ





n+m



i=n+1





2πσ

exp



−



− µ

√

2σ





Assim, a função suporte é:

L(θ)= log





i=1





2πσ

−



−µ





n+m



i=n+1





2πσ

−



−µ





= −

log



2πσ



−



i=1

− µ

)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ

)

2σ

(4.5)

em que θ =



, µ

, σ



Serão obtidas as situações descritas em (4.1), (4.2) (4.3), e (4.4). Será feita

agora a derivação dos critérios de Akaike e Schwarz para cada uma delas.

Caso 1: µ

= µ

= µ e σ

= σ

Para o caso descrito em (4.1), ou seja, µ

= µ

= µ e σ

= σ

existem

dois parâmetros µ e σ

desconhecidos. Esta suposição é equivalente a termos

n + m observações y

, y

, . . . , y

n+m

de uma distribuição normal , isto é,

, y

, . . . , y

n+m

, ∼ N



µ, σ



Sob a suposição (4.1) tem-se de (4.5) que

L (θ) = −

log



2πσ



−



i=1

− µ)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ)

2σ

L (θ) = −

n + m

log



2πσ



−

2σ

n+m



i=1

− µ)

, (4.6)

sendo θ =



µ, σ



Maximizando (4.6) tem-se:







= −

n + m



log



2πσ



+ 1



, (4.7)

em que

µ =

n + m

n+m



i=1

(4.8)

σ

n + m

n+m



i=1

− µ)

. (4.9)

Os cálculos inerentes a esses resultados encontram-se no Anexo C.

O valor do AIC é dado por:

AIC = −2 (Função suporte maximizada) + 2 (número de parâmetros) ,

AIC = −2



log L







+ 2 (k) (4.10)

em que L(



θ) é a verossimilhança maximizada e k o número de parâmetros desco-

nhecidos e estimados.

Substituindo (4.7) em (4.10), tem-se:

AIC

=−2



n + m



log



2πσ



+ 1





+ 2(2) = (n + m)



log



2πσ



+ 1



+ 4

AIC

= (n + m)



log σ

+ log 2π + 1



+ 4 (4.11)

O valor do BIC é dado por:

BIC = −2 (Função suporte maximizada) + (número de parâmetros) log n,

BIC = −2



log L







+ (k) log n (4.12)

em que L(



θ) é a função de verossimilhança maximizada e k o número de parâme-

tros desconhecidos e estimados.

Substituindo (4.7) em (4.12), tem-se:

BIC

= −2



n + m



log



2πσ



+ 1





+ 2 log(n)

= (n + m)



log



2πσ



+ 1



+ 2 log(n + m)

BIC

= (n + m)



log σ

+ log 2π + 1



+ 2 log(n + m) (4.13)

Caso 2: µ

= µ

e σ

= σ

Se todos os parâmetros são desconhecidos tem-se então θ =



, µ

, σ



e assim a função em (4.5) é expressa como:

L (θ) = L



, µ

, σ



= −

log



2πσ



−

2σ



i=1

− µ

)

−

log



2πσ



−

2σ

n+m



i=n+1

− µ

)

(4.14)

Logo,







=−

log



2π





−



i=1

− µ

)



−

log



2πσ



−



i=n+1

− µ

)



,(4.15)

e µ

, µ



são dados por respectivamente por (4.16), (4.17), (4.18) e (4.19).

µ



i=1

(4.16)

µ

n+m



i=n+1

(4.17)





i=1

− µ

)

(4.18)





i=1

− µ

)

. (4.19)

Todos os cálculos necessários para a obtenção desses resultados encontram-se no

Anexo C.

Substituindo (4.15) em (4.10), já multiplicando pelo fator −2, tem-se:

AIC

=n log



2π







i=1

− µ

)



+m log



2π







i=n+1

− µ

)



+2(4)

AIC

= n log



2π







+ m log



2π







+ 8

AIC

= (n + m) log (2π) + n log



+ m log



+ (n + m) + 8

AIC

= (n + m) (log (2π) + 1) + n log σ

+ m log σ

+ 8 (4.20)

O valor do BIC é dado por:

BIC = −2 (log L (θ)) + (k) log n, (4.21)

Substituindo (4.15) em (4.21), tem-se:

BIC

= −2







−

log



2π





−



i=1

− µ

)



−

log



2πσ



−



i=n+1

− µ

)









+ 4 log n

BIC

= n log



2π







+ m log



2π







+ 4 log n

BIC

= (n + m) log (2π) + n log



+ m log



+ (n + m) + 4 log n

BIC

= (n + m) (log (2π) + 1) + n log σ

+ m log σ

+ 4 log n (4.22)

Caso 3: µ

= µ

e σ

= σ

No caso em que µ

= µ

= σ

, tem-se três parâmetros desconhe-

cidos µ

, µ

e σ

, que devem ser estimados a ﬁm de obter a estimativa da função

suporte. De (4.5) tem-se:

L(θ) = −

n + m

log



2πσ



−

2σ





i=1

− µ

)

n+m



i=n+1

− µ

)



(4.23)

em que θ =



, µ

, σ



A função suporte estimada é dada por







= −

m + n



log



2π





+ 1



(4.24)

Sendo os estimadores de µ

, µ

, e σ

dados respectivamente por:

µ



i=1

(4.25)

µ

n+m



i=n+1

(4.26)



(n + m)





i=1

− µ

)

n+m



i=n+1

− µ

)



(4.27)

Substituindo (4.24) em (4.10) tem-se:

AIC

= −2



−

m + n



log



2π





+ 1





+ 2 × 3

AIC

= (m + n)



log



2π





+ 1



+ 6

AIC

= (n + m) log



+ (n + m) (log 2π + 1) + 6 (4.28)

Sendo valor do BIC dado por

BIC = −2



log L







+ (k) log n, (4.29)

substitui-se (4.24) em (4.29), e tem-se:

BIC

= −2



−

m + n



log



2π





+ 1





+ 3 log n

E assim

BIC

= (n + m) log



+ (n + m) (log 2π + 1) + 3 log n (4.30)

Caso 4: µ

= µ

= µ e σ

= σ

Neste caso tem-se 3 parâmetros desconhecidos µ, σ

, e σ

, e θ =



µ, σ

, σ



Assim sendo, tem-se em (4.5):

L(θ)=−

log



2πσ



−



i=1

− µ)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ)

2σ

.(4.31)

E assim







= −

(n + m)

(log 2π + 1) −

log



−

log



(4.32)

Sendo que





i=1

− µ)

(4.33)



n+m



i=n+1

− µ)

(4.34)

e o estimador de µ é encontrado resolvendo-se a equação



+ A



+ B µ + C = 0 (4.35)

em que A, B e C, são dados respectivamente por (6.34), (6.35) e (6.36).

O passo seguinte é obter o valor de AIC. Substituindo (4.32) em (4.10) tem-se:

AIC

= −2



−

(n + m)

(log 2π + 1) −

log



−

log





+ 2 × 3

AIC

= (n + m) (log 2π + 1) + n log



+ m log



+ 6 (4.36)

E ﬁnalmente para obter-se o BIC

BIC = −2



log L







+ (k) log n, (4.37)

será substituído (4.32) em (4.37) e daí

BIC

= −2



−

(n + m)

(log 2π + 1) −

log



−

log





+ 3 log n,

e o valor do BIC é dado por:

BIC

= (n + m) (log 2π + 1) + n log



+ m log



+ 3 log n (4.38)

4.3 Seleção de variáveis em modelos de regressão

Supondo que se tenha uma variável resposta Y e m variáveis explicativas

, X

, . . . , X

. O modelo de regressão linear múltipla é dado por

Y = β

+ β

+ . . . + β

+ ε,

em que o erro ε ∼ N (0, σ

A distribuição condicional da variável resposta Y dado as variáveis explicati-

vas é

f (Y |X

, . . . , X

) =



2πσ



−

exp





−

2σ





Y − β

−



j=1









Assim, se houver um conjunto com n observações, sendo estas independentes

{(Y

, X

, . . . , X

) ; i = 1, . . . , n}, a verossimilhança para o modelo será dada

por



, β

, . . . , β

, σ





i=1

p (Y

, . . . X

Assim, a função suporte será:



β, σ



= −

log



2πσ



−

2σ



i=1





− β

−



j=1





, (4.39)

em que β = (β

, β

, . . . , β

) , sendo que seu estimador de máxima verossimi-

lhança



β =





, . . . ,





, é obtido como solução do sistema de equações

lineares

Xβ = X

Y ,

em que

β =













, X =







1 X

. . . X

1 X

··· X

1 X

. . . X







, e Y =













O estimador de máxima verossimilhança de σ

é:

σ



i=1



−





+ . . . +





. (4.40)

Substituindo (4.40) em (4.39) tem-se a função suporte maximizada





, . . . ,



, σ



= −

log(2π) −

log d (X

, . . . , X

) −

, (4.41)

em que d (X

, . . . , X

) é a estimativa da variância residual σ

do modelo, dada

em (4.40).

Como o número de parâmetros a serem estimados no modelo de regressão

múltipla é m + 2, o AIC deste modelo de acordo com a equação (3.5) será dado

por:

AIC = n (log 2π + 1) + n log d (X

, . . . , X

) + 2 (m + 2) . (4.42)

Na regressão múltipla, nem todas as variáveis explicativas necessariamente in-

ﬂuenciarão signiﬁcativamente a variável resposta. Um modelo estimado com um

grande número de variáveis explicativas desnecessárias pode ser instável. Selecio-

nando o modelo com o menor AIC para todas as diferentes possíveis combinações

da variável explicativa, espera-se obter um modelo razoável, que equilibre a qua-

lidade do ajuste e a complexidade.

O BIC para este modelo, conforme (3.22), será dado por

BIC = n (log 2π + 1) + n log d (X

, . . . , X

) + 2 (m + 2) log n. (4.43)

4.4 Seleção de modelos para os dados M&M e produção de biomassa

Todos os cálculos foram feitos utilizando-se o software R.

4.4.1 Análise dos dados dos pesos de M&M

Para o caso em que µ

= µ

= µ e σ

= σ

foi obtido:

µ = 0.9138936



= 0.0009435844







= 97.00677,

AIC

= −190.0135

BIC

= −186.3132,

Para o segundo caso, em que µ

= µ

e σ

= σ

tem-se:

µ

= 0.9172692

µ

= 0.9097143



= 0.001099581



= 0.0007188707







= 97.87383

AIC

= −187.7477

BIC

= −180.3471.

Para o terceiro caso, em que µ

= µ

e σ

= σ

tem-se:

µ

= 0.9172692

µ

= 0.9097143



= 0.0009294766







= 97.36078

AIC

= −188.7216

BIC

= −183.1711.

Para o quarto caso, em que µ

= µ

= µ e σ

= σ

tem-se:

µ = 0.9128487670



= 0.001119122



= 0.0007188707







= 97.64484

AIC

= −189.2897

BIC

= −183.7392.

Comparando-se os valores do AIC , obtidos (AIC

, AIC

), vê-

se que deve-se selecionar o modelo 1, em que µ

= µ

= µ e σ

= σ

ou seja, pelo critério de Akaike, é mais provável que os pesos dos M&M tenham

distribuição normal, com mesma média e mesma variância.

Ao se comparar os modelos utilizando o BIC, os resultados obtidos são os

mesmos que aqueles obtidos pelo AIC, ou seja, os dados seguem a distribuição

normal, com mesma média e mesma variância, haja vista que o valor do BIC

foi

o menor deles.

4.4.2 Análise dos dados da produção de biomassa na grama de pântano.

Na Tabela 1 abaixo, tem-se o resultado do AIC e BIC para os 32 modelos

possíveis de se obter com os dados.

A partir desta tabela, seleciona-se pelo AIC o modelo que tem pH e Na como

sendo o mais provável. O modelo ﬁnal selecionado foi

Y = −475.72892 + 404.94836 × pH − 0.02333 × N a.

A seleção pelo critério BIC não difere em seus resultados do critério AIC,

selecionando o mesmo modelo como sendo o mais provável.

A diﬁculdade aqui encontrada é ao fazer-se os cálculos para todos os mode-

los possíveis, pois se houver N variáveis, tem-se 2

modelos possíveis. Nesse

exemplo, o número de variáveis é relativamente pequeno, mas se houvesse, por

exemplo, dez variáveis, tería-se 2

= 1024 modelos possíveis.

Seria impraticável trabalhar com tantos modelos, o que se faz então é uma

pré seleção das variáveis utilizando stepwise, ou outro método, e somente depois

calcula-se o AIC e o BIC para tais modelos pré selecionados.

TABELA 1: Resultados do estudo da produção aérea de biomassa na grama de

pântano.

Modelo





log(L(



θ)) AIC BIC

Y=µ+ε 426021.44 −355.50 715.01 718.62

Y=SAL+ε 421487.01 −355.26 716.52 721.94

Y=pH+ε 170679.44 −334.92 675.84 681.26

Y=K+ε 408179.80 −354.54 715.08 720.50

Y=Na+ε 394486.72 −353.77 713.54 718.96

Y=Zn+ε 259921.99 −344.39 694.77 700.19

Y=SAL+pH+ε 168961.07 −334.69 677.39 684.62

Y=SAL+K+ε 403264.55 −354.27 716.54 723.76

Y=SAL+Na+ε 392962.59 −353.69 715.37 722.60

Y=SAL+Zn+ε 190594.81 −337.41 682.81 690.04

Y=pH+K+ε 150140.21 −332.04 672.07 679.30

Y=pH+Na+ε 145514.93 −331.33 670.67 677.89

Y=pH+Zn+ε 166880.94 −334.42 676.83 684.06

Y=K+Na+ε 394351.87 −353.76 715.53 722.76

Y=K+Zn+ε 249136.22 −343.43 694.86 702.09

Y=Na+Zn+ε 242819.41 −342.85 693.71 700.93

Y=SAL+pH+K+ε 148179.33 −331.74 673.48 682.52

Y=SAL+pH+Na+ε 145253.20 −331.29 672.58 681.62

Y=SAL+pH+Zn+ε 154797.34 −332.72 675.45 684.48

Y=SAL+K+Na+ε 392958.57 −353.69 717.37 726.40

Y=SAL+K+Zn+ε 180423.99 −336.17 682.34 691.38

Y=SAL+Na+Zn+ε 185562.41 −336.80 683.61 692.64

Y=pH+K+Na+ε 144694.09 −331.21 672.41 681.44

Y=pH+K+Zn+ε 148217.11 −331.75 673.49 682.53

Y=pH+Na+Zn+ε 143803.24 −331.07 672.13 681.17

Y=K+Na+Zn+ε 242818.98 −342.85 695.71 704.74

Y=SAL+pH+K+Na+ε 144121.58 −331.12 674.23 685.07

Y=SAL+pH+K+Zn+ε 138517.20 −330.22 672.45 683.29

Y=SAL+pH+Na+Zn+ε 139832.73 −330.44 672.87 683.71

Y=SAL+K+Na+Zn+ε 180079.53 −336.13 684.26 695.10

Y=pH+K+Na+Zn+ε 143070.72 −330.95 673.90 684.74

Y=SAL+pH+K+Na+Zn+ε 797841.82 −369.62 753.24 765.89

5 CONCLUSÕES

Diante do problema da seleção de modelos, pode-se utilizar os critérios de

informação Bayesiano e de Akaike para se selecionar modelos satisfatoriamente.

Esses critérios baseiam-se em conceitos de fundamental importância, a verossimi-

lhança, a Informação e a Entropia.

O AIC e o BIC podem ser utilizados nas mais diversas áreas; em estatística são

amplamente utilizados principalmente em séries temporais e regressão; entretanto

a regressão, a geoestatística e outras áreas também utilizam estes critérios.

Nesse trabalho, utilizou-se satisfatoriamente, os critérios para seleção de mo-

delos normais e modelos de regressão; os resultados obtidos foram os mesmos

nas aplicações feitas, mas nem sempre isto ocorre, conforme será demonstrado em

trabalhos posteriores.

6 ESTUDOS FUTUROS

• Avaliar via simulação via Monte Carlo os desempenhos dos critérios AIC e

BIC;

• Comparar o AIC e o BIC com um terceiro e recente método, a Medida L;

• Aplicação e comparação do AIC e BIC em séries temporais, onde estes são

amplamente utilizados;

• Avaliar a utilização desses critérios em dados censurados, em que a verossi-

milhança não pode ser calculada (somente a verossimilhança parcial).

REFERÊNCIAS BIBLIOGRÁFICAS

AKAIKE, H. A new look at the statistical model identiﬁcation. IEEE

Transactions on Automatic Control, Boston, v.19, n.6, p.716–723, Dec. 1974.

ASH, R.B. Information theory. Illinois: Academic, 1965. 339p.

BOLFARINE, H.; SANDOVAL, M.C. Introdução á inferência estatística. São

Paulo: Sociedade Brasileira de Matemática, 2000. 125p.

BURNHAM, K.P.; ANDERSON, D.R. Model selection and multimodel

inference: a pratical information-theoretic approach. New York: Springer, 2002.

488p.

BURNHAM, K.P.; ANDERSON, D.R. Multimodel inference: understanding aic

and bic in model selection. Sociological Methods and Research, Beverly Hills,

v.33, n.2, p.261–304, May 2004.

CHAKRABARTI, C.G.; CHAKRABARTY, I. Boltzmann entropy : probability

and information. Romanian Journal of Physics, Bucharest, v.52, n.5-6,

p.525–528, Jan. 2007.

COVER, T.M.; THOMAS, J.A. Elements of information theory. New York: J.

Wiley, 1991. 542p.

CRAMÉR, H. Elementos da teoria de probabilidade e algumas de suas

aplicações. São Paulo: Mestre Jou, 1973. 330p.

DOMINGUES, H.H. Espaços métricos e introdução à topologia. São Paulo:

Atual, 1982. 183p.

DRAPER, N.R.; SMITH, H. Applied regression analysis. 3. ed. New York: J.

Wiley, 1998. 706p.

FERNANDES, R. de M.S.; AZEVEDO, T. de S. Teoria da informação e suas

aplicações em compressão e aleatoriedade. Rio de Janeiro: PESC - COPPE,

2006. Notas de aula. Disponível em:

<http://www.ravel.ufrj.br/arquivosPublicacoes/cos702_Rafael_Tiago.pdf>.

Acesso em: 20 jul. 2008.

FERREIRA, D.F. Estatística básica. Lavras: UFLA, 2005. 664p.

GARBI, G.G. O romance das equações algébricas: a história da álgebra. São

Paulo: Makron Books, 1997. 253p.

GHOSH, J.K.; SAMANTA, T. Model selection - an overview. Current Science,

Bangalore, v.80, n.9, p. 1135–1144, May 2001.

HALLIDAY; RESNICK; WALKER. Fundamentos de física 2: gravitação,

ondas e termodinâmica. 4. ed. Rio de Janeiro: LTC, 1996.

HUANG, K. Statistical mechanics. 2. ed. Singapore: J. Wiley, 1987. 493p.

JOHNSON, N.L.; KOTZ, S.; BALAKRISHNAN, N. Continuous univariate

distributions. 2. ed. New York: J. Wiley, 1994. 756p.

KONISHI, S.; KITAGAWA, G. Information criteria and statistical modeling.

New York: Springer, 2008. 321p.

MACKAY, D.J. Information theory, inference, and learning algorithms. 4. ed.

London: Cambridge, 2005. 628p.

MARTINS, R.C. Sobre a atualidade de proposições de Ludwig Boltzmann.

Revista da SBHC, São Paulo, n.13, p.81–94, 1995.

MAZEROLLE, M.J. Mouvements et reproduction des amphibiens en

tourbières perturbées. 2004. 78p. Tese (Doutorado em Ciências Florestais) -

Université Laval, Québec.

MEYER, P.L. Probabilidade: aplicações à estatística. 2. ed. Rio de Janeiro:

LTC, 1983. 421p.

MIRANDA, C.G. O método lasso para o modelo de Cox e sua comparação

com propostas tradicionais de seleção de variáveis. 2006. 97p. Tese

(Doutorado em Estatística) - Universidade Federal de Minas Gerais. Belo

Horizonte.

MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction to the theory of

statistics. 3. ed. New York: J. Wiley, 1974. 564p.

NUSSENZVEIG, H.M. Curso de física básica 2: ﬂuidos; oscilações e calor;

ondas. 3. ed. São Paulo: E. Blücher, 1981. 315p.

PAULINO, C.D.; TURKMAN, A.A.; MURTEIRA, B.J. Estatística bayesiana.

Lisboa: Fundação Calouste Gulbenkian, 2003. 280p.

RAWLINGS, J.O.; PANTULA, S.G.; DICKEY, D.A. Applied regression

analysis: a research tool. 2. ed. New York: Springer, 1998. 657p.

RIBEIRO, J.C. Teoria da informação - módulo I. Rio de Janeiro, 2007. Notas

de aula. Disponível em:

<http://pasta.ebah.com.br/download/apostila-teoria-da-informacao-pdf-3985>.

Acesso em: 16 jul. 2008.

SCHWARZ, G. Estimating the dimensional of a model. Annals of Statistics,

Hayward, v.6, n.2, p.461–464, Mar. 1978.

SHANNON, C.E. A mathematical theory of communication. The Bell System

Technical Journal, New York, v.27, p.623–656, Oct. 1948.

SILVA, R.T. da. Conservação da energia. Recife, 2005. (Notas de aula).

Disponível em: <http//www.ﬁsica.ufpb.br/˜romero>. Acesso em: 18 jul. 2008.

SILVA, V. M.M. da. Teoria da informação e codiﬁcação. Coimbra:

DEEC-FCTUC, 2008. Notas de apoio. Disponível em:

<https://woc.uc.pt/deec/class/getmaterial.do?idclass=334&idyear=4>. Acesso

em: 20 nov. 2008.

STEVENSON, W.J. Estatística aplicada à administração. São Paulo: Harbra,

2001. 495p.

TRIOLA, M.F. Introdução à estatística. 7. ed. Rio de Janeiro: LTC, 1999. 410p.

VICKI, V. A história da criptologia. Disponível em:

<http://www.numaboa.com/criptograﬁa/historia/553-Shannon>. Acesso em: 20

nov. 2007.

WASSERMAN, L. All of statistics: a concise course in statistical inference. New

York: Springer, 2005. 322p.

WIENER, N. Cibernética: ou, controle e comunicação no animal e na máquina.

São Paulo: Polígono / Universidade de São Paulo, 1970. 256p.

YOUNG, H.; FISHER, R. Física II: termodinâmica e ondas. 10. ed. São Paulo:

Pearson Education do Brasil, 2003.

ANEXOS

ANEXO Páginas

ANEXO A: Dados utilizados no estudo de pesos (em gramas) de uma amostra

de confeitos M&M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

ANEXO B: Dados utilizados no estudo das características que inﬂuenciam a

produção aérea de biomassa na grama de pântano. . . . . . . . . . . . 73

ANEXO C: Derivação do viés da função suporte. . . . . . . . . . . . . . . . . . . . . . . . 75

ANEXO D: Função suporte para modelos normais. . . . . . . . . . . . . . . . . . . . . . 80

ANEXO A

TABELA 2: Dados utilizados no estudo de pesos (em gramas) de uma amostra de

confeitos M&M.

Observação Amarelo Vermelho

1 0.906 0.870

2 0.978 0.933

3 0.926 0.952

4 0.868 0.908

5 0.876 0.911

6 0.968 0.908

7 0.921 0.913

8 0.893 0.983

9 0.939 0.920

10 0.886 0.936

11 0.924 0.891

12 0.910 0.924

13 0.877 0.874

14 0.879 0.908

15 0.941 0.924

16 0.879 0.897

17 0.940 0.912

18 0.960 0.888

19 0.989 0.872

20 0.900 0.898

21 0.917 0.882

22 0.911

23 0.892

24 0.886

25 0.949

26 0.934

ANEXO B

TABELA 3:Dados utilizados no estudo das características que inﬂuenciam a pro-

dução aérea de biomassa na grama de pântano.

Y SAL pH K Na Zn

676 33 5.00 1441.67 35185.5 16.4524

516 35 4.75 1299.19 28170.4 13.9852

1052 32 4.20 1154.27 26455.0 15.3276

868 30 4.40 1045.15 25072.9 17.3128

1008 33 5.55 521.62 31664.2 22.3312

436 33 5.05 1273.02 25491.7 12.2778

544 36 4.25 1346.35 20877.3 17.8225

680 30 4.45 1253.88 25621.3 14.3516

640 38 4.75 1242.65 27587.3 13.6826

492 30 4.60 1281.95 26511.7 11.7566

984 30 4.10 553.69 7886.5 9.8820

1400 37 3.45 494.74 14596.0 16.6752

1276 33 3.45 525.97 9826.8 12.3730

1736 36 4.10 571.14 11978.4 9.4058

1004 30 3.50 408.64 10368.6 14.9302

396 30 3.25 646.65 17307.4 31.2865

352 27 3.35 514.03 12822.0 30.1652

328 29 3.20 350.73 8582.6 28.5901

392 34 3.35 496.29 12369.5 19.8795

236 36 3.30 580.92 14731.9 18.5056

392 30 3.25 535.82 15060.6 22.1344

268 28 3.25 490.34 11056.3 28.6101

252 31 3.20 552.39 8118.9 23.1908

236 31 3.20 661.32 13009.5 24.6917

340 35 3.35 672.15 15003.7 22.6758

2436 29 7.10 528.65 10225.0 0.3729

2216 35 7.35 563.13 8024.2 0.2703

2096 35 7.45 497.96 10393.0 0.3205

1660 30 7.45 458.38 8711.6 0.2648

2272 30 7.40 498.25 10239.6 0.2105

824 26 4.85 936.26 20436.0 18.9875

1196 29 4.60 894.79 12519.9 20.9687

...continua...

Continuação da TABELA 3.

Y SAL pH K Na Zn

1960 25 5.20 941.36 18979.0 23.9841

2080 26 4.75 1038.79 22986.1 19.9727

1764 26 5.20 898.05 11704.5 21.3864

412 25 4.55 989.87 17721.0 23.7063

416 26 3.95 951.28 16485.2 30.5589

504 26 3.70 939.83 17101.3 26.8415

492 27 3.75 925.42 17849.0 27.7292

636 27 4.15 954.11 16949.6 21.5699

1756 24 5.60 720.72 11344.6 19.6531

1232 27 5.35 782.09 14752.4 20.3295

1400 26 5.50 773.30 13649.8 19.5880

1620 28 5.50 829.26 14533.0 20.1328

1560 28 5.40 856.96 16892.2 19.2420

ANEXO C

Derivação do viés da Função suporte

O estimador de θ é o vetor de parâmetros p-dimensional



θ que maximiza a

função (2.21). Tal estimador é obtido somo solução de (2.22). Isto é, deve-se

achar a solução de

∂L (θ)

∂θ



i=1

∂

∂θ

log f (X

|θ) = 0

Tomando a esperança, tem-se:

G(X

)





i=1

∂

∂θ

log f (X

|θ)



= nE

G(z)



∂

∂θ

log f (Z|θ)

Assim, para um modelo contínuo, se θ

é solução de

G(z)



∂

∂θ

log f (Z|θ)





g (z)

∂

∂θ

log f (z|θ) dz = 0, (6.1)

pode ser mostrado que o estimador de máxima verossimilhança



θ converge em

probabilidade para θ

quando n → ∞.

Usando o resultado acima, pode-se avaliar o viés dado por (3.1), quando a

função suporte esperada é estimada usando a log verossimilhança do modelo.

O viés

b (G) = E

G(x

)



log f





θ (X

)



− nE

G(Z)



log f





θ (X

)



, (6.2)

pode ser decomposto como

b (G) = E

G(x

)



log f





θ (X

)



− nE

G(Z)



log f



θ (X

)



= E

G(x

)



log f





θ (X

)



− log f (X

|θ

)



+ E

G(x

)



log f (X

|θ

) − nE

G(Z)

[log f (Z|θ

)]



+ E

G(x

)



G(Z)

[log f (Z|θ

)] − nE

G(Z)



log f



θ (X

)



= D

+ D

. (6.3)

Esquematicamente tem-se a Figura 6 abaixo:

FIGURA 6: Decomposição dos termos do viés.

1 - Cálculo de D

. Primeiramente será feito este caso, por se tratar do mais

simples, pois não contém nenhum estimador. Assim:

= E

G(x

)



log f (X

|θ

) − nE

G(Z)

[log f (Z|θ

)]



= E

G(x

)

[log f (X

|θ

)] − nE

G(Z)

[log f (Z|θ

)]

= E

G(x

)





i=1

log f (X

|θ

)



− nE

G(Z)

[log f (Z|θ

)]

= 0 (6.4)

Isto mostra que na Figura 6, embora D

varie aleatoriamente dependendo dos

dados, sa esperança é zero.

2 - Cálculo de D

. Para simplicidade das fórmulas, escreva-se primeiramente

η (θ) := E

G(Z)



log f





θ (X

)



Pela expansão em série de Taylor de η







em torno de θ

, sendo este solução de

(6.1), obtém-se:







= η (θ

) +



i=1



− θ

(0)



∂η (θ

)

∂θ



i=1



j=1



− θ

(0)



− θ

(0)



∂

η (θ

)

∂θ

+ . . . , (6.5)

em que



θ =





, . . .





e θ



(0)

, θ

(0)

. . . θ

(0)



. Como θ

é solução

de (6.1) tem-se

∂η (θ

)

∂θ

= E

G(Z)



∂

∂θ

log f (Z|θ)





= 0, i = 1, 2, . . . , p.

Assim, (6.5) pode ser aproximado por:







= η (θ

) −





θ − θ



J (θ

)





θ − θ



sendo J (θ

) uma p × p matriz dada por

J (θ

) = −E

G(Z)



∂

log f (Z|θ)

∂θ∂θ





= −



g (z)

∂

log f (Z|θ)

∂θ∂θ



dz, (6.6)

e o (a, b)-ésimo elemento é dado por

= −E

G(Z)



∂

log f (Z|θ)

∂θ





= −



g (z)

∂

log f (Z|θ)

∂θ



Como D

é justamente a esperança de η (θ

)−η







, com respeito a G (X

) ,

obtém-se a aproximação:

= E

G(X

)



G(Z)

[log f (Z|θ

)] − n log f







G(X

)







θ − θ



J (θ

)





θ − θ





G(X

)











θ −





θ −















G(X

)







θ − θ





θ − θ





. (6.7)

Pelas propriedades assintóticas dos estimadores de máxima verossimilhança dadas

no Teorema 2.1, tem-se que:

G(X

)







θ − θ





θ − θ





J (θ

)

−1

I (θ

) J (θ

)

−1

, (6.8)

deste modo pela substituição de (6.7) em (6.8), tem-se:



I (θ

) J (θ

)

−1



, (6.9)

sendo que J (θ) é dada por (6.6) e I (θ) é a p × p matriz dada por

I (θ

) = E

G(Z)



∂ log f (z|θ)

∂θ

∂ log f (z|θ)

∂θ







g (z)

∂ log f (z|θ)

∂θ

∂ log f (z|θ)

∂θ



dz. (6.10)

Resta agora o cálculo de D

3 - Cálculo de D

. Reescrevendo L (θ) = log f (X

|θ), em termos da sua

expansão em séries de Taylor, na vizinhança do estimador de máxima verossimi-

lhança



θ, obtém-se:







= L(θ)+



θ −





∂L







∂θ



θ −





∂







∂θ∂θ



θ −





+. . . . (6.11)

Em (6.11),



θ satisfaz a equação

∂L







∂θ

= 0, pelo fato de que o estimador de

máxima verossimilhança é dado como solução de

∂L (θ)

∂θ

= 0.

Tem-se que

∂







∂θ∂θ

∂

log f







∂θ∂θ

converge em probabilidade

para J (θ

) quando n → ∞, isto vem do fato de que



θ converge para



e pode

ser provado utilizando-se da lei dos grandes números.

Assim, tem-se de (6.11) que

L (θ

) − L







≈



−





J (θ

)



−





A partir deste resultado, juntamente com (6.8) pode-se calcular D

= E

G(X

)



log f





θ (X

)



− log f (X

|θ

)



G(X

)





−





J (θ

)



−







G(X

)





J (θ

)



−





−









J (θ

) E

G(X

)





−





−









I (θ

) J (θ

)

−1



(6.12)

Assim, de (6.4), (6.9) e (6.12) tem-se que

b (G) = D

+ D



I (θ

) J (θ

)

−1



+ 0 +



I (θ

) J (θ

)

−1



, (6.13)

sendo I (θ

) e J (θ

) dados por (6.6) e (6.10), respectivamente.

ANEXO D

Função suporte para modelos normais.

Tem-se de (4.5) que de forma geral

L(θ) = −

log



2πσ



−



i=1

− µ

)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ

)

2σ

Desse modo, serão feitas aqui as derivações para os estimadores de máxima veros-

similhança para os quatro casos descritos em (4.1), (4.2), (4.3), e (4.4).

Caso 1: µ

= µ

= µ e σ

= σ

Para este caso, tem-se por (4.6)

L (θ) = −

n + m

log



2πσ



−

2σ

n+m



i=1

− µ)

, (6.14)

sendo θ =



µ, σ



Para maximizar (4.6) faça-se

∂L



µ, σ



∂σ

= 0 e

∂L



µ, σ



∂θ

= 0.

Derivando (4.6) em relação a σ

, tem-se:

∂L



µ, σ



∂σ

∂



−

n+m

log



2πσ



−

2σ

n+m



i=1

− µ)



∂σ

= 0

∂L



µ, σ



∂σ

= −

n + m

2σ

2 (σ

)

n+m



i=1

− µ)

= 0

σ



−

n + m

2σ

n+m



i=1

− µ)



= 0 =⇒

2σ

n+m



i=1

− µ)

n + m

σ

(n + m)

n+m



i=1

− µ)

. (6.15)

O estimador de σ

é dado por (6.15), e essa equação necessita do estimador de µ,

que será encontrado abaixo:

∂L



µ, σ



∂µ

∂



−

n+m

log



2πσ



−

2σ



i=1

− µ)



∂µ

= 0

0 −

2σ



i=1

− µ) (−1) = 0 =⇒

n+m



i=1

− µ) = 0

n+m



i=1

− µ) = 0

n+m



i=1

n+m



i=1

µ =⇒ µ =

n + m

n+m



i=1

Desse modo o estimador de µ é dado por

µ =

n + m

n+m



i=1

. (6.16)

Substituindo os valores encontrados em (6.15) e (6.16) em (4.6), tem-se







= −

n + m

log



2πσ



−

2σ

n+m



i=1

− µ)







= −

n + m

log



2πσ



−

2σ

(n + m) σ







= −

n + m

log



2πσ



−

n + m

Caso 2: µ

= µ

e σ

= σ

Nesse caso, tem-se por (4.14)

L (θ) = L



, µ

, σ



= −

log



2πσ



−

2σ



i=1

− µ

)

−

log



2πσ



−

2σ

n+m



i=n+1

− µ

)

(6.17)

Derivando (6.17) em relação a µ

e igualando a zero, tem-se:

∂







−

log



2πσ



−



i=1

− µ

)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ

)

2σ







∂µ

= 0,

Obtendo assim

−





i=1

− µ

) (−1) = 0 =⇒



i=1

− µ

) = 0 =⇒



i=1



i=1

µ

E ﬁnalmente encontra-se o estimador de µ

, dado por

µ



i=1

(6.18)

Derivando (6.32) em relação a µ

e igualando a zero, tem-se:

∂







−

log



2πσ



−



i=1

− µ

)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ

)

2σ







∂µ

= 0

E assim

−



n+m



i=n+1

− µ

) (−1) = 0 =⇒

n+m



i=n+1

− µ

) = 0 =⇒

n+m



i=n+1

n+m



i=n+1

µ

Assim, o estimador de µ

, é

µ

n+m



i=n+1

(6.19)

Derivando (6.32) em relação a σ

e igualando a zero, tem-se

∂L (θ)

∂σ

= 0

∂







−

log



2πσ



−



i=1

− µ

)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ

)

2σ







∂σ

= 0,

−











i=1

− µ

)

= 0 =⇒ n =





i=1

− µ

)

Finalmente obtém-se o estimador de σ

, dado por





i=1

− µ

)

(6.20)

Nota-se que o estimador de σ

depende do estimador de µ

, expresso por (6.18).

Derivando (6.32) em relação a σ

e igualando a zero, tem-se

∂







−

log



2πσ



−



i=1

− µ

)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ

)

2σ







∂σ

= 0

−









n+m



i=n+1

− µ

)

= 0 =⇒



n+m



i=n+1

− µ

)

E assim, obtém-se o estimador de σ

, dado por



n+m



i=n+1

− µ

)

. (6.21)

O estimador de σ

depende do estimador de µ

que é dado pela fórmula (6.19).

Substituindo (6.18), (6.19), (6.20) e (6.21) em (6.17) tem-se:







=−

log



2π





−



i=1

− µ

)



−

log



2πσ



−



i=n+1

− µ

)



.(6.22)

Caso 3: µ

= µ

e σ

= σ

Sob a premissa de que µ

= µ

e σ

= σ

tem-se de (4.5):

L (θ) = −

log



2πσ



−



i=1

− µ

)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ

)

2σ

Daí

L(θ) = −

n + m

log



2πσ



−

2σ





i=1

− µ

)

n+m



i=n+1

− µ

)



(6.23)

Aﬁm de maximizar (6.23), faça-se

∂L (θ)

∂σ

= 0,

∂L (θ)

∂µ

= 0, e

∂L (θ)

∂µ

= 0.

Derivando (6.23) em relação a σ

, tem-se

∂L(θ)

∂σ

∂



−

n+m

log



2πσ



−

2σ





i=1

− µ

)

n+m



i=n+1

− µ

)



∂σ

= 0,

e assim

−

n + m













i=1

− µ

)

n+m



i=n+1

− µ

)



= 0

⇓

(n + m) =







i=1

− µ

)

n+m



i=n+1

− µ

)



Desse modo,o estimador de σ

é dada por



(n + m)





i=1

− µ

)

n+m



i=n+1

− µ

)



(6.24)

Vê-se assim que a estimador de σ

depende da estimador de µ

e µ

. Tais estima-

dores serão encontradas abaixo:

Derivando (6.23) em relação a µ

,tem-se:

∂L(θ)

∂µ

∂



−

n+m

log



2πσ



−

2σ





i=1

− µ

)

n+m



i=n+1

− µ

)



∂µ

= 0.

Assim





i=1

− µ

) (−1) = 0 =⇒



i=1

− µ

) =0 =⇒



i=1

=nµ

Logo, o estimador de µ

é dado por:

µ



i=1

(6.25)

Para encontrar o estimador de µ

, deve-se derivar (6.23) em relação a µ

e igualar

a zero, assim:

∂L(θ)

∂µ

∂



−

n+m

log



2πσ



−

2σ





i=1

− µ

)

n+m



i=n+1

− µ

)



∂µ

=0.

Assim



n+m



i=n+1

− µ

) (−1) = 0 =⇒

n+m



i=n+1

− µ

) =0 =⇒

n+m



i=n+1

=nµ

Desse modo, o estimador de µ

é dado por:

µ

n+m



i=n+1

(6.26)

Conseqüentemente, tem-se em (6.23)







= −

m + n

log



2π





−







i=1

− µ

)



i=n+1

− µ

)









= −

m + n

log



2π





−







+ m











= −

m + n



log



2π





+ 1



Em que



, µ

, e µ

, são dados por (6.24), (6.25) e (6.26) respectivamente.

Caso 4: µ

= µ

= µ e σ

= σ

De (4.5) tem-se:

L(θ)=−

log



2πσ



−



i=1

− µ)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ)

2σ

(6.27)

A verossimilhança maximizada será dada por







=−

log



2π





−



i=1

−µ)



−

log



2π





−

n+m



i=n+1

−µ)



daí vem que







= −

n + m

log 2π −

log



−

log



−





i=1

− µ)

−



m+n



i=n+1

− µ)

e ﬁnalmente







= −

(n + m)

(log 2π + 1) −

log



−

log



(6.28)

Deve-se agora encontrar o valor da função suporte maximizada; para isto, deriva-se

(6.27) em relação a cada parâmetro para se encontrar as estimativas dos parâme-

tros.

Derivando em relação a σ

e igualando a zero

∂L (θ)

∂σ

= 0, tem-se:

∂







−

n log



2πσ



−



i=1

− µ)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ)

2σ







∂σ

= 0,

Desse modo

−











i=1

− µ)

= 0 =⇒





i=1

− µ)

Assim o estimador de σ

é dado por





i=1

− µ)

(6.29)

Derivando (6.27) em relação a σ

e igualando-se a zero tem-se:

∂







−

log



2πσ



−



i=1

− µ)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ)

2σ







∂σ

= 0

Assim

−









n+m



i=n+1

− µ)

= 0 =⇒



2σ

n+m



i=n+1

− µ)

E assim obtém-se o estimador de σ

dado por:



n+m



i=n+1

− µ)

(6.30)

Fazendo-se

∂L (θ)

∂µ

= 0 em (6.27) tem-se:

∂







−

log



2πσ



−



i=1

− µ)

2σ

−

log



2πσ



−

n+m



i=n+1

− µ)

2σ







∂µ

= 0

Desse modo

−





i=1

− µ) (−1) −



n+m



i=n+1

− µ) (−1) = 0

⇓





i=1

− µ) = −



n+m



i=n+1

− µ) (6.31)

Substituindo os estimadores de σ

e σ

, obtidos em (6.29) e (6.30) em (6.31)

tem-se:



i=1

− µ)



i=1

− µ) = −

n+m



i=n+1

− µ)

n+m



i=n+1

− µ)

⇓

n+m



i=n+1

− µ)



i=1

− µ) = −m



i=1

− µ)

n+m



i=n+1

− µ)

⇓



i=1

− µ)

n+m



i=n+1

− µ)

+ m

n+m



i=n+1

− µ)



i=1

− µ)

= 0

⇓





i=1

−



i=1

µ



n+m



i=n+1



− 2µy







n+m



i=n+1

−

n+m



i=n+1

µ





i=1



− 2µy





= 0

⇓





i=1

− nµ



n+m



i=n+1

− 2µ

n+m



i=n+1

+ mµ



  

(P )

+ m



n+m



i=n+1

−

n+m



i=n+1

µ





i=1

− 2µ



i=1

+ n





  

(Q)

= 0

Desenvolvendo (P) tem-se





i=1

− nµ



n+m



i=n+1

− 2µ

n+m



i=n+1

+ m





= n





i=1



n+m



i=n+1

−

−2µn





i=1



n+m



i=n+1

+mn







i=1



−n

µ

n+m



i=n+1

+2n



n+m



i=n+1

−n



Desenvolvendo (Q) tem-se



n+m



i=n+1

− mµ





i=1

− 2µ



i=1

+ nµ



= m



n+m



i=n+1





i=1

−2mµ



i=1

n+m



i=n+1

+ mn



n+m



i=n+1

− m

µ



i=1

+ 2m





i=1

− nm



Juntando-se (P) e (Q) tem-se:

0=(P )+(Q) = n





i=1



n+m



i=n+1

− 2µn





i=1



n+m



i=n+1

+ mn







i=1



−n

µ

n+m



i=n+1

+ 2n



n+m



i=n+1

− n



+ m



n+m



i=n+1





i=1

− 2mµ



i=1

n+m



i=n+1

+ mn



n+m



i=n+1

− m

µ



i=1

+ 2m





i=1

− nm



Agrupando-se os termos de grau semelhante tem-se:

−



+ n









i=1

+ mn

n+m



i=n+1

+ 2n

n+m



i=n+1

+ mn



i=1





+µ



−m



i=1

− 2m



i=1

n+m



i=n+1

− 2n





i=1



n+m



i=n+1

− n

n+m



i=n+1



+ n





i=1



n+m



i=n+1

+ m



n+m



i=n+1





i=1

= 0

Dividindo-se por



−nm

− n



tem-se:



−







i=1

+ mn

n+m



i=n+1

+ 2n

n+m



i=n+1

+ mn



i=1



nm (m + n)

+ µ



−m



i=1

− 2m



i=1

n+m



i=n+1

− 2n





i=1



n+m



i=n+1

− n

n+m



i=n+1



nm (m + n)

−





i=1



n+m



i=n+1

+ m



n+m



i=n+1





i=1



nm (m + n)

= 0

Daí segue que









−



i=1

n (m + n)

−

n+m



i=n+1

(m + n)

−

n+m



i=n+1

m (m + n)

−



i=1

(m + n)







+ µ









i=1

n (m + n)





i=1



n+m



i=n+1

n (m + n)





i=1



n+m



i=n+1

m (m + n)

n+m



i=n+1

m (m + n)







−

nm (m + n)





i=1



n+m



i=n+1

+ m



n+m



i=n+1





i=1



= 0 (6.32)

Sejam

m + n

, v=

m + n



i=1

, µ

n+m



i=n+1

, s



i=1

, s

n+m



i=n+1

. (6.33)

Substituindo (6.33) em (6.32), tem-se:



(−2vµ

− vµ

− 2wµ

− wµ

) + µ





i=1

+ 2vµ

+ 2wµ

n+m



i=n+1



−



n+m



i=n+1



i=1



= 0

Efetuando-se as operações necessárias tem-se:

+ µ

(−µ

(2v + w) − (v + 2w) µ

) + µ



+ 2vµ

+ 2wµ

+ ws



−



+ vµ



= 0

⇓





−µ



m + m + n

m + n



−



m + n + n

m + n



+ µ



+ 2vµ

+ 2wµ

+ ws



−



+ vµ



= 0

⇓





−µ



1 +

m + n



−



1 +

m + n



+ µ



2µ



m + n



+ vs

+ ws



−



+ vµ



= 0

⇓



(−µ

(1 + v) − (1 + w) µ

) + µ



2µ

+ vs

+ ws



−



+ vµ



= 0

Fazendo

A = −(µ

(1 + v) + (1 + w) µ

) (6.34)

B =



2µ

+ vs

+ ws



(6.35)

C = −



+ vµ



(6.36)

Tem-se



+ A



+ Bµ + C = 0 que é uma equação do terceiro grau cuja

solução pode ser obtida através da fórmula de Cardano (Garbi, 1997) dada a seguir.

A fórmula de Cardano

Toda equação cúbica

+ bx

+ cx + d = 0

com a = 0 pode ser reduzida à forma

+ py + q = 0

em que x = y −

p =



3ac − b



e q =

27a



(3 − a) b

− 9abc + 27a



sendo que suas soluções são dadas por

y =



−













−











Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo