Download PDF
ads:
Ponderação de Modelos com Aplicação em Regressão
Logística Binária
Juliane Bertini Brocco
Orientador: Prof
a
. Dr
a
. Cecília Candolo
Dissertação apresentada ao Departamento de
Estatística da Universidade Federal de São Car-
los - DEs/UFSCar, como parte dos requisitos
para obtenção do título de Mestre em Estatís-
tica.
o Carlos
Abril de 2006
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Ficha catalográfica elaborada pelo DePT da
Biblioteca Comunitária da UFSCar
B863pm
Brocco, Juliane Bertini.
Ponderação de modelos com aplicação em regressão
logística binária / Juliane Bertini Brocco. -- São Carlos :
UFSCar, 2006.
78 p.
Dissertação (Mestrado) -- Universidade Federal de São
Carlos, 2006.
1. Análise de regressão. 2. Ponderação de modelos. 3.
Regressão logística. I. Título.
CDD: 519.536 (20
a
)
ads:
Agradeço,
aos meus pais e ao meu irmão pelo apoio, força e incentivo que sempre me deram na
vida e, principalmente, para a realização desta tese. Muito obrigada do fundo do meu
coração, tenho certeza que sem vocês não teria conseguido.
ao meu marido pela compreeno e paciência.
à CNPq (Conselho Nacional de Desenvolvimento Cientí…co e Tecnológico) pela as-
sistência nanceira.
à professora Dra. Cecília Candolo pela orientação e amizade.
e a todos os proferssores do departamento que contribuíram para minha formão e
realização desta tese.
Dedico,
ao meu lho João Vitor.
Resumo
Esta dissertação considera o problema de incorporação da incerteza devido à escolha
do modelo na inferência estatística, segundo a abordagem de ponderação de modelos, com
aplicação em regressão logística. Será utilizada a abordagem de Buckland et. al. (1997),
que propuseram um estimador ponderado para um parâmetro comum a todos os modelos
em estudo, sendo que, os pesos desta ponderação são obtidos a partir do uso de critérios
de informão ou do todo bootstrap. Também será aplicada a ponderação bayesiana de
modelos como apresentada por Hoeting et. al. (1999), onde a distribuão a posteriori do
parâmetro de interesse é uma média da distribuição a posteriori do parâmetro sob cada
modelo em consideração ponderado por suas respectivas probabilidades a posteriori.
O objetivo deste trabalho é estudar o comportamento do estimador ponderado, tanto
na abordagem clássica como na bayesiana, em situações que consideram o uso de regreso
logística binária, com enfoque na estimação da predição. O método de seleção de modelos
Stepwise será considerado como forma de comparação da capacidade preditiva em relação
ao todo de ponderação de modelos.
Palavras-chave:Regressão Logística, Ponderação de Modelos.
Abstract
This work consider the problem of how to incorporate model selection uncertainty
into statistical inference, through model averaging, applied to logistic regression. It will
be used the approach of Buckland et. al. (1997), that proposed an weighed estimator to a
parameter common to all models in study, where the weights are obtained by information
criteria or bootstrap method. Also will be applied bayesian model averaging as shown
by Hoeting et. al. (1999), where posterior probability is an average of the posterior
distributions under each of the models considered, weighted by their posterior model
probability.
The aim of this work is to study the behavior of the weighed estimator, both, in the
classic approach and in the bayesian, in situations that consider the use of binary logistic
regression, with foccus in prediction. The known model-choice selection method Stepwise
will be considered as form of comparison of the predictive performance in relation to
model averaging.
keywords: Logistic Regression, Model Averaging.
Sumário
1 Introdução 1
2 Ponderão de Modelos 3
2.1 Ponderação de Modelos em Regressão Linear . . . . . . . . . . . . . . . . . 6
2.2 O todo Bootstrap e seu uso em Regressão Li-near . . . . . . . . . . . . . 8
2.2.1 O todo Bootstrap em Ponderação de Modelos . . . . . . . . . . . 10
3 Ponderão Bayesiana de Modelos 12
3.1 O todo Occams Window . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 O todo MC
3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Ponderação Bayesiana de Modelos para Regressão Linear . . . . . . . . . . 16
4 Regressão Logística 20
4.1 Estimação em Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Qualidade do Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Predição em Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . 25
5 Ponderão de Modelos em Regressão Logística 29
5.1 Abordagem Clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 O todo Bootstrap e seu uso em Regressão Logística . . . . . . . . . . . . 30
5.3 Abordagem Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Aplicação 35
6.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.1.1 Estudo de Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
v
6.2.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.2.2 Estudo de Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.3 Exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7 Conclusão 61
Referências Bibliográ…cas 62
Apêndice 65
A Estimação em Modelos Lineares Generalizados 66
B Programas Desenvolvidos para as Aplicações 71
Capítulo 1
Introdução
Uma abordagem típica de análise estatística consiste em vários estágios: exploração
descritiva do conjunto de dados, de…nição da classe de modelos a ser considerada, seleção
do melhor modelo dentro desta classe de acordo com algum critério pré-estabelecido e
obtenção de inferências baseadas no modelo selecionado. Este ciclo é geralmente iterativo
e envolve, além da aplicação dos conceitos e técnicas estatísticas, considerações subjeti-
vas. A conclusão obtida no nal deste processo depende do(s) modelo(s) escolhido(s).
Quando a inferência é feita sem levar em consideração a incerteza devido à escolha do(s)
modelo(s), pode acontecer uma subestimação da variabilidade de quantidades de interesse
e/ou inferências super-otimistas ou viciadas (Buckland et. al., 1997)
Nesta dissertação será considerado o problema de incorporação da incerteza devido
à escolha do modelo na inferência estatística, segundo a abordagem de ponderação de
modelos, com aplicação em regressão logística. Será utilizada a abordagem de Buckland
et. al. (1997), que propuseram um estimador ponderado para um parâmetro comum a
todos os modelos em estudo, sendo que, os pesos desta ponderão são obtidos a par-
tir do uso de critérios de informão ou do todo bootstrap. Também será aplicada a
ponderação bayesiana de modelos como apresentada por Hoeting et. al. (1999), onde a
distribuição a posteriori do parâmetro de interesse é uma média da distribuição a pos-
teriori do pametro sob cada modelo em consideração ponderado por suas respectivas
probabilidades a p osteriori. A incorporação desta incerteza na inferência tem despertado
o interesse de alguns pesquisadores e começou a ser tratada de forma sistemática recen-
temente. Candolo (2001) e Candolo et. al. (2003) desenvolveram o estimador ponderado
2
proposto por Buckland et. al. (1997), aprofundando seu estudo para modelos de regressão
linear.
O objetivo deste trabalho é estudar o comportamento do estimador ponderado, tanto
na abordagem clássica como na bayesiana, em situações que consideram o uso de regreso
logística binária, com enfoque na estimação da predição. O método de seleção de modelos
Stepwise será considerado como forma de comparação da capacidade preditiva em relação
ao método de ponderação de modelos. O motivo da escolha do modelo de regressão
logística binária é devido à sua vasta aplicação, como por exemplo, no ramo nanceiro
para determinação de concessão de crédito e no ramo biológico. O desenvolvimento da
abordagem bayesiana foi obtido a partir do desenvolvimento de trabalhos similares na área
de análise de sobrevivência e pesquisa social, ver Volinsky et. al. (1997) e Raftery (1995).
A maior di…culdade encontrada na aplicão dessas abordagens é o esforço computacional
requerido. Conjuntos de dados com muitas covariáveis fazem com que o número total de
modelos a serem ajustados seja muito grande implicando, muitas vezes, na inviabilização
do todo apesar do ganho na capacidade preditiva.
Esta dissertação esta estruturada da seguinte maneira: no Capítulo 2 será apresentada
a ponderação de modelos, sua aplicação em regressão linear e o uso do todo bootstrap
aplicado à metodologia de ponderação de modelos; no Capítulo 3 será apresentada a pon-
deração bayesiana de modelos e sua aplicação em regressão linear; no Capítulo 4 se
apresentada toda a metodologia envolvendo regressão logística, incluindo a forma de es-
timação, qualidade do ajuste e formas de predição; no Capítulo 5 está a metodologia de
ponderação de modelos aplicada à regressão logística e no Catulo 6 serão apresentadas
aplicações da metodologia de ponderação de modelos com o objetivo de estudar suas pro-
priedades e de comparar a capacidade preditiva desta metodologia em relação ao todo
de seleção de modelos Stepwise. Essas aplicações englobam exemplos da literatura, estu-
dos de simulação e um conjunto de dados reais.
Capítulo 2
Ponderação de Modelos
No contexto frequentista, Buckland et. al. (1997) desenvolveram uma metodologia
de fácil aplicão, indicando o uso de critérios de informação e do todo bootstrap na
construção de pesos para ponderar modelos.
Esta abordagem de ponderação de modelos assume uma situação onde são considerados
K modelos, M
1
; :::M
K
; com o objetivo de estimar um parâmetro de interesse : Cada
modelo ajustado fornece um estimador deste parâmetro ;
b
k
; e um peso w
k
; construídos
de forma que
K
P
k=1
w
k
= 1:
Desta forma, o estimador para o parâmetro ; ponderado pelos pesos, será dado por
b
=
K
P
k=1
w
k
b
k
: (2.1)
Os pesos w
k
para cada um dos K modelos, são obtidos via critérios de informação que
têm uma forma geral dada por
I
k
= 2 log(L
k
) + q
k
; (2.2)
onde L
k
é a função de verossimilhança maximizada para o modelo k e q
k
é uma penalidade,
função do número de parâmetros do modelo k ou do número de observões. Podem ser
citadas duas opções para este critério, uma proposta por Akaike (1973), conhecida como
AIC, onde q = 2p, sendo p o número de pametros do modelo em estudo. A outra,
devida a Schwarz (1978), conhecida como BIC, considera q = p:log(n), onde n = número
4
de observações. Os pesos po dem ainda ser obtidos através do uso do método bootstrap,
no qual w
k
é estimado pela proporção de amostras bootstrap nas quais M
k
é identi…cado
como o melhor modelo.
Usando critério de informação, os pesos são calculados da seguinte forma
w
k
=
exp(I
k
=2)
K
P
l=1
exp(I
l
=2)
; k = 1; :::; K: (2.3)
Isso se deve ao fato de que quando dois modelos, k e l, são comparados usando critério
de informação obtêm-se
L
k
exp(q
k
=2)
L
l
exp(q
l
=2)
=
exp(I
k
=2)
exp(I
l
=2)
: (2.4)
Sendo assim, a equão (2.3) é uma escolha plausível para determinação dos pesos
w
k
; pois, desta forma, garante-se que dois modelos com os mesmos valores de critério
de informação receberão o mesmo peso, independentemente da penalidade de…nida para
cada um deles.
Para o cálculo da variância do estimador ponderado
b
, Buckland et. al. (1997) con-
sideram inicialmente um caso irreal onde os
b
k
são identicamente distribdos com dia
e os pesos w
k
são constantes conhecidas. Sob estas condições obtêm-se
V ar(
b
) =
X
k
w
2
k
var(
b
k
) +
X
k
X
l6=k
w
k
w
l
cov(
b
k
;
b
l
): (2.5)
O problema encontrado no cálculo desta variância está em estimar a covariância entre
b
k
e
b
l
. Sabe-se que a covariância será alta devido ao fato de cada modelo ser ajustado ao
mesmo conjunto de dados. Sendo assim, xa-se a covariância como sendo o maior valor
possível, isto é, a média geométrica das variâncias estimadas considerando os modelos k
e l. Desta forma, obtêm-se um limite superior para a var(
b
) dado por
var(
b
)
(
X
k
w
k
q
var(
b
k
)
)
2
: (2.6)
Porém, esta variância não incorpora o vício de especi…cação do modelo. Suponha
então que dene-se
k
= +
k
, onde
k
é o vício de especicação que surge na
5
estimativa de sob o modelo k. Suponha também que E(
k
) = 0, quando todos os
possíveis modelos estão sendo considerados. Desta forma obtêm-se
E(
b
k
=
k
) = +
k
=
k
: (2.7)
Se a dia for calculada considerando-se todos os possíveis modelos, obm-se E(
b
k
) =
: Assumindo
V ar(
b
k
=
k
) = E
h
(
b
k
k
)
2
i
(2.8)
e
V ar(
b
k
) = E
h
(
b
k
)
2
i
; (2.9)
então
V ar(
b
k
) = V ar(
b
k
=
k
) +
2
k
: (2.10)
Desta forma, obtêm-se
V ar(
b
) =
X
k
w
2
k
var(
b
k
) +
X
k
X
l6=k
w
k
w
l
cov(
b
k
;
b
l
); (2.11)
para a qual, assumindo correlação perfeita, obtêm-se
V ar(
b
) =
(
X
k
w
k
q
var(
b
k
=
k
) +
2
k
)
2
: (2.12)
Esta variância pode ser estimada substituindo-se
b
k
=
b
k
b
e
d
V ar(
b
k
=
k
): As
estimativas
b
k
e
d
V ar(
b
k
=
k
) são obtidas através de métodos inferenciais usuais, assumindo-
se que o modelo k é o modelo verdadeiro e
b
é dado pela equação (2.1).
Outra abordagem para se obter a V ar(
b
) é através do uso do método bootstrap, onde o
estimador
b
pode ser calculado em cada reamostra para estimar a varncia. Este assunto
será abordado com mais detalhes na Seção 2.2.
É importante ressaltar que a ponderação de modelos apenas faz sentido se as quan-
tidades que estão sendo ponderadas têm a mesma interpretação para todos os modelos
em consideração. Assim, ponderar valores de parâmetros ou estimativas relativas a um
modelo particular não será pertinente no contexto de ponderação de modelos.
6
2.1 Ponderão de Modelos em Regreso Linear
Considere o modelo de regreso linear
Y =
0
+
1
X
1
+ ::: +
p
X
p
+ " = X + "; (2.13)
onde Y é um vetor de dimensão n x 1 de observões da variável resposta, X é uma matriz
de dimensão n x (p + 1) de covariáveis observadas, X
1
; :::; X
p
são vetores de dimensão 1
x (p + 1) desta matriz, é o vetor de dimensão (p + 1) x 1 de parâmetros desconhecidos
e " é o vetor de erros de dimeno n x 1. Assume-se que os erros são independentes com
distribuição N(0;
2
) e e
2
são desconhecidos.
Muitas vezes o número de covariáveis presentes num modelo é muito grande e além
disso, muitas delas podem o ser estatisticamente signicantes. Uma alternativa a esta
situação é utilizar um método de seleção de modelos na busca de um modelo "ótimo". Os
todos de seleção de modelos mais conhecidos são o Stepwise, o Backward e o Forward.
Neste trabalho, será considerado o método Stepwise.
O todo de seleção de modelos consiste em identi…car as covariáveis mais signi…ca-
tivas na previsão da variável resposta. Esta escolha é feita adicionando e removendo-se
variáveis com base em um teste F, de forma a se obter um modelo timo", isto é, o
modelo que melhor prediz a variável resposta dentre todos os possíveis modelos. Mais de-
talhes sobre os todos de seleção de modelos podem ser encontrados em Neter, Kutner,
Nachtsheim & Wasserman (1996).
Considerando o modelo (2.13), com p potenciais variáveis explicativas, o número de
possíveis modelos a serem considerados, K, é K = 2
p
. Vale observar, porém, que muitos
desses modelos tem pouco suporte dos dados. Neste caso, a ponderão poderia ser feita
considerando apenas os melhores modelos como uma aproximação da ponderação sob
todos os 2
p
possíveis modelos.
Suponha uma situação onde m-se apenas duas potenciais variáveis explicativas.
7
Nesta situação, os K = (2
2
) = 4 possíveis modelos a serem considerados são
Modelo(1) : y
i
=
0
+ "
i
Modelo(2) : y
i
=
0
+
1
x
1i
+ "
i
(2.14)
Modelo(3) : y
i
=
0
+
2
x
2i
+ "
i
Modelo(4) : y
i
=
0
+
1
x
1i
+
2
x
2i
+ "
i
:
O objetivo é predizer a média =
0
+
1
x
1+
+
2
x
2+
de uma observação futura Y
+
para valores x
1+
e x
2+
. Os possíveis estimadores desta média são
Modelo(1) :
b
1
=
b
0
Modelo(2) :
b
2
=
b
0
+
b
1
x
1+
Modelo(3) :
b
3
=
b
0
+
b
2
x
2+
Modelo(4) :
b
4
=
b
0
+
b
1
x
1+
+
b
2
x
2+
:
Desta forma, o estimador para o parâmetro ; ponderado pelos pesos, será dado por
b
= w
1
b
1
+ w
2
b
2
+ w
3
b
3
+ w
4
b
4
: (2.15)
Considerando o uso do AIC, os pesos w
k
para cada um dos K modelos são calculados
da seguinte forma
w
k
=
exp(AIC
k
=2)
k
P
l=1
exp(AIC
l
=2)
; k = 1; :::; 4; (2.16)
onde AIC
k
é o critério de informão de Akaike para o modelo k: Quando a variância é
conhecida, o logaritmo da função de verossimilhança maximizada para o modelo k é
log L
k
= const
n
2
log
2
1
2
2
SQR
k
; (2.17)
onde SQR
k
é a soma de quadrados dos resíduos da regressão para o modelo k. quando
8
a variância é desconhecida, o logaritmo da função de verossimilhança maximizada para o
modelo k é
log L
k
= const
n
2
log(SQR
k
=n): (2.18)
A variância de
b
pode ser obtida como em (2.12), e no caso de regressão linear, a
d
V ar(
b
k
=
k
) é dada por
d
V ar(
b
k
=
k
) = b
2
1 + x
¯
+
(XX)
1
x
¯
0
+
;
onde x
¯
+
= (1; x
1+
; x
2+
):
2.2 O Método Bootstrap e seu uso em Regressão Li-
near
O todo bootstrap introduzido por Efron (1979), tem a vantagem de evitar desen-
volvimentos analíticos e tem sido uma das técnicas mais utilizadas e expandidas, com
aplicações nas mais diversas áreas. Referências básicas são os livros de Efron e Tibshirani
(1993) e Davison e Hinkley (1997) que abordam amplamente a metodologia bootstrap e
aplicações em diversas áreas. O texto desta Seção é baseado em Candolo (2001) visando
a abordagem do todo bootstrap de forma especí…ca para a ponderação de modelos.
O método bootstrap é de…nido como segue: Seja y
1
; :::; y
n
uma amostra aleatória de
observações identicamente distribuídas. Os valores amostrais são os resultados obtidos das
variáveis aleatórias independentes e identicamente distribdas Y
1
; :::; Y
n
com distribuição
de probabilidade desconhecida, F , que depende de um parâmetro desconhecido ; dado
por = s(F ), sendo s() a função que de…ne : O parâmetro é estimado por
b
= s(
b
F ),
onde
b
F é um estimador de F obtido a partir da amostra y
1
; :::; y
n
. Seja
b
F a distribuição
empírica de y
1
; :::; y
n
, que atribui probabilidades iguais a 1=n para cada valor da amostra,
isto é,
b
F (y) =
#fy
j
yg
n
: (2.19)
onde #fy
j
yg indica o número de vezes que y
j
y ocorre. O todo bootstrap tem como
princípio substituir a distribuição desconhecida F por
b
F para estimar , aproximando a
9
distribuição de = s(F ) pela de
b
= s(y
;
b
F ), onde y
é uma amostra alearia de
tamanho n, retirada de
b
F . A amostra y
= (y
1
; :::; y
n
) é chamada de amostra bootstrap
e sua de…nição é análoga a obter uma amostra aleatória de tamanho n retirada com
reposição da população de tamanho n; (y
1
; :::; y
n
). A partir da amostra bootstrap é calcu-
lada uma repetição bootstrap de
b
;
b
= s(y
). Repetindo este procedimento um número
su…cientemente grande de vezes, calcula-se uma distribuição empírica de
b
e, a partir
desta, obtêm-se dia, erro padrão, intervalo de con…ança, etc. Observa-se que a única
suposição feita é a de que a observações (y
1
; :::; y
n
) são independentes e identicamente
distribuídas.
Quando
b
F é de…nida como em (2.19), o método bootstrap é denominado de bootstrap
o paramétrico, e quando
b
F é denida como uma distribuição de probabilidade especí…ca,
com os parâmetros substituídos pelas estimativas obtidas na amostra (y
1
; :::; y
n
), o método
bootstrap é denominado bootstrap paramétrico.
A aplicão do todo bootstrap em modelos de regressão tem por objetivo a obtenção
de propriedades dos estimadores dos parâmetros da regressão e de predições. O principal
ponto a ser abordado neste tipo de aplicão diz respeito à forma de reamostragem em
problemas de regressão, pois se a simulação é feita de maneira consistente com o modelo
adotado, o resultado assintótico obtido pelo método bootstrap será o mesmo que aquele
obtido pelos métodos analíticos.
Seja o modelo de regreso como denido em (2.13). O plano de reamostragem para
que se obtenha o mesmo delineamento que têm os dados, isto é, x
i
x
i
, especi…ca que
y
i
tenha distribuição condicional a x
i
, e é obtida por
y
= X
b
+ "
;
onde
b
é a estimativa de . O vetor de erros "
é aleatoriamente amostrado de
b
F
e
, a
distribuição empírica dos resíduos e
i
= r
i
r, onde r
i
= y
i
by
i
e r é sua média, para
i = 1; :::; n. Davison e Hinkley (1997), Cap. 6, indicam que para melhores resultados
práticos é melhor usar os resíduos estudentizados
r
i
=
y
i
by
i
(1 h
i
)
1=2
;
10
onde h
i
é o i-ésimo elemento da diagonal da matriz X(X
T
X)
1
X
T
; pois a variância
deste resíduo concorda com a de ". A partir dos valores de y
1
; :::; y
n
obtém-se
b
=
X(X
T
X)
1
X
T
Y
e a distribuição de
p
n(
b
b
) se aproxima da distribuição de
p
n(
b
):
Uma abordagem diferente de reamostragem ocorre quando os dados são considerados
como amostras de uma distribuão bivariada de (X; Y ). Neste caso,
b
F é a distribuição
empírica dos vetores de observações (x
i
; y
i
), atribuindo probabilidade 1=n a cada um
deles, para i = 1; :::; n, obtendo-se, eno, uma amostra bootstrap de n pares. Há dife-
renças importantes entre estes dois métodos de reamostragem: o segundo método o
faz suposição quanto a homogeneidade de variância, tendo por um lado mais robustez
à heterocedasticidade, mas por outro lado pode ser ine…ciente se o modelo de variân-
cia constante é correto. Outra diferença é que as amostras são obtidas com diferentes
delineamentos, uma vez que os valores de X o obtidos aleatoriamente.
2.2.1 O Método Bootstrap em Ponderação de Modelos
O todo bootstrap, como dito anteriormente, é uma outra abordagem para se obter
a V ar(
b
); onde o estimador
b
pode ser calculado em cada reamostra. No caso de situações
de regressão, a reamostragem é, usualmente, feita a partir dos resíduos da regressão,
pois, desta forma, a análise continua condicional aos valores das covarveis. No caso de
ponderação de modelos, o uso da abordagem de reamostragem dos resíduos provoca uma
in‡uência muito grande do modelo a partir do qual os resíduos foram calculados. Pode
parecer mais adequado, neste caso, amostrar os vetores de observações, mas algumas
alternativas têm sido consideradas. Buckland et al. (1997) sugerem três alternativas,
além da reamostragem dos pares:
a. gerar todas as amostra bootstrap a partir do modelo selecionado na análise preli-
minar dos dados originais;
b. gerar as amostras a partir do modelo completo e
c. selecionar os modelos a partir dos pesos como calculados na equação (2.3) e, então,
gerar a próxima amostra a partir do modelo selecionado.
Candolo (2001) apresenta uma outra alternativa considerando a reamostragem dos
resíduos. Esta alternativa consiste em gerar K amostras a partir dos resíduos de cada um
dos K modelos, M
1
; :::; M
K
; calcular os pesos w
k
e
b
k
;como de…nido em (2.3), nas respecti-
11
vas amostras e, eno, calcular
b
: Desta forma, os K modelos estarão sendo ajustados em
amostras diferentes o que caracteriza um estimador diferente daquele de…nido em (2.1).
O algoritmo para esta abordagem pode ser encontrado em Candolo (2001, pag.32).
Abaixo estão colocados os planos de reamostragem de pares e de resíduos.
Planos de Reamostragem
O algoritmo 1 descreve os passos para a reamostragem dos vetores de observações e
o algoritmo 2 descreve os passos para a reamostragem dos resíduos, ambos aplicados a
modelos de regressão linear como apresentado na Seção 2.1.
Algoritmo 1: Reamostragem dos Pares
(i) amostrar i
1
; :::; i
n
aleatoriamente, com reposição, de f1; 2; :::; ng;
(ii) fazer (y
j
; x
j
) = (y
i
j
; x
i
j
), para j = 1; :::; n, obtendo a amostra bootstrap
(y
1
; x
1
),...,(y
n
; x
n
);
(iii) repetir os passos (i) e (ii), B vezes.
Algoritmo 2: Reamostragem dos Resíduos
(i) amostrar "
j
de r
j
r, para j = 1; :::; n, com reposição
(ii) fazer y
j
=
b
0
+
b
1
X
1j
+ ::: +
b
p
X
pj
+ "
j
; j = 1; :::; n
(iii) repetir os passos (i) e (ii), B vezes.
O modelo a ser considerado no item (ii) do algoritmo 2 depende da especi…cação do
modelo em consideração.
Capítulo 3
Ponderação Bayesiana de Modelos
A Ponderão Bayesiana de Modelos, ou BMA (do inglês Bayesian Model Averaging)
é uma técnica Bayesiana utilizada para a incorporação da incerteza devido à escolha do
modelo na infencia estatística.
Seja uma situação onde K modelos, M
1
; :::; M
K
; são considerados, tendo como objetivo
estimar uma quantidade de interesse e seja D o conjunto de dados para análise. A
distribuição a posteriori para este pametro de interesse é expressa por
P (=D) =
K
X
k=1
P (=M
k
; D)P (M
k
=D); (3.1)
que é uma dia da distribuão a posteriori sob cada um dos K modelos em consideração,
ponderada por suas probabilidades a posteriori do modelo respectivo.
A probabilidade a posteriori para o modelo M
k
é dada por
P (M
k
=D) =
P (D=M
k
)P (M
k
)
P
K
l=1
P (D=M
l
)P (M
l
)
; (3.2)
onde
P (D=M
k
) =
Z
P (D=
k
; M
k
)P (
k
=M
k
)d
k
(3.3)
é a integral da verossimilhança do modelo M
k
,
k
é o vetor de parâmetros do modelo M
k
,
P (
k
=M
k
) é a densidade a priori de
k
sob o modelo M
k
, P (D=
k
; M
k
) é a verossimilhança
e P (M
k
) é a probabilidade a priori do modelo M
k
ser o verdadeiro modelo. Todas as
probabilidades são implicitamente condicionais a M = fM
1
; :::; M
K
g, conjunto de todos
13
os modelos que estão sendo considerados.
Assim, a média e a variância a posteriori de , podem ser escritas respectivamente por
E[=D] =
K
X
k=1
E[=D; M
k
] P (M
k
=D) (3.4)
V ar[=D] =
K
X
k=1
(V ar[=D; M
k
] + E[=D; M
k
]
2
) P (M
k
=D) E[=D]
2
: (3.5)
Segundo Hoeting et. al. (1999) os problemas encontrados para a implementação da
Ponderação Bayesiana de Modelos são, basicamente:
- o mero de termos na equação (3.1) p ode ser muito grande, causando uma soma
exaustiva;
- as integrais implícitas em (3.1) po dem ser difíceis de calcular. Esse problema
pode ser resolvido utilizando o método de Monte Carlo em Cadeia de Markov (MCMC);
- a especicação de P (M
k
), a distribuição a priori sobre os modelos, é importante
e tem sido alvo de estudos.
Uma alternativa para resolver o primeiro problema é obter a dia para um subcon-
junto dos modelos mais indicados pelos dados. Madigan & Raftery (1994) propuseram
um método chamado Occam s Window, com o qual se obtém a média de um conjunto
de modelos parsimoniosos e indicados pelos dados, selecionados a partir da aplicão de
técnicas padrões da pesquisa cientí…ca. Este assunto se abordado com mais detalhes
na Seção 3.1. Outra alternativa é aproximar a soma em (3.1) usando a abordagem de
Monte Carlo via Cadeias de Markov, também conhecida como MCMC. Madigan & York
(1995) apresentam uma metodologia chamada composição de modelos via MCMC, que foi
denominada de MC
3
, a qual gera um processo estocástico que se move através do espo
de modelos. Este assunto será abordado com mais detalhes na Seção 3.2.
3.1 O todo Occam’s Window
O método occam’s window é baseado em um processo iterativo, no qual os modelos
são comparados em relação à sua capacidade preditiva. Sendo assim, modelos com menor
14
capacidade preditiva serão descartados do conjunto de modelos em considerão.
Serão excluídos da equação (3.1) os modelos que não pertencerem ao conjunto A
0
de…nido a seguir, ou seja, os modelos que têm capacidade preditiva bem inferior ao modelo
que tem a maior capacidade preditiva da classe
A
0
=
M
k
:
max
l
fP (M
l
=D)g
P (M
k
=D)
C
; (3.6)
para alguma constante C. Segundo Madigan & Raftery (1994), o valor de C a ser usado
depende do contexto. Em seus exemplos, o valor de C utilizado foi 20, em analogia ao
usual ponto de corte de 0; 05 dos p-valores. Já Je¤reys (1961, app.B) sugere que se use
um número entre 10 e 100.
Note que, a medida da capacidade preditiva de um modelo é feita através da P (M
k
=D)
ao invés da P (D=M
k
): Nesse contexto, a verossimilhança é ponderada pela probabilidade
a priori do modelo P (M
k
), de modo que esta re‡ita dados passados, resultando em uma
probabilidade preditiva composta por dados presentes e passados.
O próximo passo para seleção dos modelos, considera a razão de Occams. Seja E a
evincia e P (H=E) a probabilidade de uma hipótese especí…ca H dado a evidência E.
A razão de Occam’s estabelece que se
P (H
1
=E) = P (H
2
=E) = ::: = P (H
K
=E)
para as hipóteses H
1
; :::; H
K
, eno a hipótese a ser escolhida deverá ser a mais simples
entre H
1
; :::; H
K
. Sendo assim, também serão excluídos da equação (3.1) os modelos
pertencentes ao conjunto
B =
M
k
: 9M
l
2 A
0
; M
l
M
k
;
P (M
l
=D)
P (M
k
=D)
> 1
; (3.7)
onde M
l
é um submodelo de M
k
:
Assim, a equação (3.1) será substituída por
P (=D) =
X
M
k
2A
P (=M
k
; D)P (M
k
=D); (3.8)
15
onde A=A
0
nB:
Esse procedimento reduz consideravelmente o número de modelos na soma em (3.1)
e consequentemente simpli…ca o problema da incorporação da incerteza devido à escolha
do modelo.
O questão se reduz então em de…nir o conjunto A. A técnica proposta por Madigan
& Raftery (1994) é uma variação do algoritmo de busca de greedy. A probabilidade
a posteriori do modelo é usada como medida da busca. A estratégia trabalha dentro
do espaço de modelos, comparando os modelos através da razão das probabilidades a
posteriori em uma sequência de comparações aninhadas.
A estratégia é baseada em duas idéias principais: na primeira o algoritmo compara dois
modelos encaixados e quando o modelo mais simples é rejeitado todos seus submodelos
também serão. Na segunda, chamada occam’s window, o aspecto crucial é a interpretação
da razão das probabilidades a posteriori dos modelos P (M
0
=D)=P (M
1
=D); onde M
0
é o
modelo com uma variável preditora a menos do que o modelo M
1
. A idéia principal deste
princípio é mostrada na Figura 3-1 e pode ser interpretada como:
- se o logaritmo da razão das probabilidades a posteriori é positivo (ou seja, os dados
o mais evidência para o modelo M
0
), rejeita-se M
1
e aceita-se M
0
. Isso pode ser
generalizado assumindo que essa razão seja maior do que uma contante positiva O
R
antes
de rejeitar o modelo M
1
;
- se o logaritmo da razão das probabilidades a p osteriori é pequeno e negativo, indi-
cando que a evidência contra M
0
o é forte, considera-se os dois modelos;
- e, se o logaritmo da razão das probabilidades a posteriori é grande, em valor absoluto,
e negativo (ou seja, menor do que O
L
= log(C); onde C é de…nido pela equação (3.6)),
rejeita-se M
0
e considera-se M
1
:
O algoritmo completo pode ser encontrado em Madigan & Raftery (1994).
3.2 O todo MC
3
O método MC
3
, proposto por Madigan & York (1995), usa o todo de Monte Carlo
via Cadeia de Markov (MCMC) para fazer uma aproximão direta de (3.1) gerando um
processo estocástico que se move através do espaço de modelos.
16
Figura 3-1: Occams Window: interpretação do logaritmo da razão a posteriori.
Espe…ca-se M como sendo o espaço de estados dos modelos em consideração. Constrõe-
se uma cadeia de Markov {M(T ); t = 1; 2; ::.} com espo de estados M e distribuição
de equilíbrio P (M
i
=D). Simula-se esta cadeia obtendo-se as observações M(1); :::; M(N ).
Assim, sob certas condições de regularidade, para qualquer função g(M
i
) de…nida em M,
a média
b
G =
1
N
N
X
t=1
g(M(t)) (3.9)
é a estimativa da E(g(M)). Para calcular P (=D) desta forma faz-se g(M) = P (=M; D).
Quanto à di…culdade no cálculo das integrais em P (D=M
k
), Hoeting et al. (1999)
fornecem detalhes gerais de implementação do BMA para algumas classes de modelos, in-
cluindo, além de regreso linear, modelos lineares generalizados, análise de sobrevivência
e modelos grácos. O uso do método de Laplace pode fornecer boas aproximações para
P (D=M
k
), como pode ser visto em Tierney & Kadane (1986).
3.3 Ponderão Bayesiana de Modelos para Regreso
Linear
O desenvolvimento do BMA para regressão linear é apresentado p or Hoeting (1994)
e por Raftery et al. (1997), que fornecem o cálculo apropriado de P (D = M
k
), usando a
classe de distribuições a priori conjugadas, normais pades, e a distribuição a posteriori
preditiva, a partir do qual, são obtidas E( = M
k
; D) e Var( = M
k
; D).
Cada um dos K modelos em consideração tem a mesma forma descrita em (2.13).
Para regressão linear, utilizou-se uma distribuição a priori que abrangesse o valor do
17
parâmetro. Foi adotada uma classe de priori gamma-normal conjugada da forma
N(;
2
V );
v
2
2
v
;
onde v; ; a matriz V; (p + 1) x (p + 1); e o vetor ; (p + 1) x 1; são hiperparâmetros a
serem escolhidos.
Para variáveis não categorizadas, assume-se que os
0
s são independentes a priori,
centraliza-se em zero e escolhe-se = (
b
0
; 0; 0; :::; 0); onde
b
0
é o estimador de mínimos
quadrados de
0
: A matriz de covariância V é igual a
2
multiplicado pela matriz diagonal
com os elementos da diagonal dados por (S
2
Y
;
2
S
2
1
;
2
S
2
2
; :::;
2
S
2
p
); onde S
2
Y
denota a
variância amostral de Y; S
2
i
denota a variância amostral de X
i
para i = 1; :::; p e é um
hiperparâmetro a ser escolhido. Hoeting (1994) fornece completa argumentação para a
escolha dos valores destes hiperpametros e conclui que estes valores são: v = 2; 58; =
0; 28 e = 2; 85:
A verossimilhança marginal para Y sobre o modelo M
k
baseada nas prioris determi-
nadas acima é dada por
P (Y=
k
; V
k
; X
k
; M
k
) =
(
v+n
2
)(v)
v=2
n=2
(
v
2
)jI + X
k
V
k
X
t
k
j
1=2
x (3.10)
x [v + (Y X
k
k
)
t
(I + X
k
V
k
X
t
k
)
1
x (Y X
k
k
)]
(v+n)=2
;
onde X
k
é a matriz de delineamento,
k
o vetor de médias de e V
k
é a matriz de
covariância de correspondente ao modelo M
k
. Essa distribuão é uma t-Student não-
central de dimensão n com graus de liberdade, média X e variância [( 2)](I +
XV X
T
):
Assumindo, a priori, que todos os modelos são equiprováveis, então
P (M
k
=D) =
P (Y=
k
; V
k
; X
k
; M
k
)
K
P
l=1
P (Y=
k
; V
l
; X
l
; M
l
)
: (3.11)
18
Seja = Z + ", com " N(0;
2
I); um valor de predição, onde Z
1x(p+1)
é a matriz
dos preditores conhecidos e é o vetor de parâmetros. As distribuições a priori dos
parâmetros são
N
p+1
(
0
;
2
V
0
);
0
0
2
2
0
;
onde
0
, V’,
0
e
0
são os parâmetros a posteriori dados por
0
= (X
T
X + V
1
)
1
(X
T
Y + V
1
)
V
0
= (X
T
X + V
1
)
1
v
0
= n +
0
=
1
n +
2
4
+
T
V
1
+ Y
T
Y
X
T
Y + V
1
T
X
T
X + V
1
1
X
T
Y + V
1
3
5
:
A distribuição a posteriori preditiva é dada por
f (=Y ) =
+n+1
2
()
=2
1
2
(v + n=2)
(v + n)
(v+n)=2
j
ZVZ
T
+ 1
j
1=2
(3.12)
(
(v + n) +
( Z)
2
(ZVZ
T
+ 1)
)
(v+n+1)=2
;
que é uma distribuição t-Student com (n + v) graus de liberdade, média Ze variância
[v + n=(v + n 2)](ZVZ
T
), onde n é o número de dados observados.
Desta forma obtem-se:
E (=M
k
; D) = Z
k
: (3.13)
V ar (=M
k
; D) =
n +
n + 2
k
ZV
k
Z
T
: (3.14)
Finalmente, a média e variância a posteriori de são dadas por
E (=D) =
K
X
l=1
E (=M
l
; D) P (M
l
=D) : (3.15)
19
V ar (=D) =
K
X
l=1
V ar (=M
l
; D) P (M
l
=D) + (3.16)
K
X
l=1
E (=M
l
; D) E (=D)
2
P (M
l
=D) :
Hoeting et. al. (1999) fornecem indicão de como obter programas em S-PLUS
para o lculo das probabilidades a posteriori dos modelos e atualmente os mesmos
encontram-se implementados no software R.
Capítulo 4
Regreso Logística
Em muitas aplicações de regressão, a variável resposta é do tipo binária, onde a
resposta medida em cada unidade é um "sucesso" ou um "fracasso". Para esse tipo de
aplicação o modelo de regressão logística é geralmente o mais utilizado.
Considere que a variável resposta do tipo binária Y esteja sendo modelada como função
de uma covariável x. A variável resposta Y é representada por ensaios de Bernoulli com
probabilidades de sucesso e fracasso 1 e com E(Y ) = e V ar(Y ) = (1 ). O
modelo de regressão linear correspondente seria y =
0
+
1
x + " onde " N(0;
2
) e a
função que representa a relação entre a variável resposta y e a covariável x é dada por
E(Y ) = =
0
+
1
x (4.1)
Este modelo necessita de algumas suposições para que seja válido, entretanto no caso
de respostas binárias estas suposições o são satisfeitas. o elas:
- os erros não tem distribuição normal e variância constante;
- nada garante que o campo de variação de
0
+
1
x esteja entre 0 e 1 e
- a relaçao entre e
0
+
1
x não é linear.
No caso de regressão logística, a relação entre a variável resposta y e a covariável x,
no modelo de regressão logística, é descrita por uma curva sigmoidal, que tem uma forma
curvilínea lembrando um S. A linearização desta relação é feita através das funções de
ligação. As mais utilizadas são:
- Transformação Logística: a transformação logística para a probabilidade de
21
sucesso , denotada por logito(); é dada pela transformação logf=(1 )g; que é o
logaritmo da razão de sucesso. Assim, os valores de no intervalo (0; 1) correspondem
aos valores do logito() no intervalo (-1; 1).
- Transformação Probito: o probito de uma probabilidade é de…nido como sendo
os valores de para os quais
1
p
(2)
R
1
exp
1
2
u
2
du = :
Essa integral é a função distribuição de uma variável aleatória normal padrão, U, e
então = P (U 6 ). A função distribuição normal padrão é denotada por (); e é tal
que () = : Rearranjando, =
1
(); onde a função
1
() inversa é a transformão
probito de , denotada por probito():
- Transformão Completmento Log-Log: a transformação complemento log-log
da probabilidade é log[log(1 )], que também transforma os valores no intervalo
(0; 1) para valores no intervalo (-1; 1).
A transformação complemento log-log é limitada a situações onde a probabilidade de
sucesso é assitrica. as transformações logística e probito são bem parecidas, porém
a transformação logística é mais conveniente do ponto de vista computacional. Neste
trabalho será considerado o uso da transformão logística devido ao fato desta ser mais
utilizada e adequada nos casos aqui considerados.
A formulação do modelo de regressão logística é dada da seguinte forma: considere
uma amostra aleatória dos pares de observações (y
1
;x
¯
1
),...,(y
n
;x
¯
n
), onde cada observação
y
i
corresponde ao resultado de um ensaio de Bernoulli com probabilidade de sucesso
i
e
de fracasso 1
i
e x
¯
1
; :::; x
¯
n
correspondem aos vetores 1 x p de covariáveis. Os momentos
são E(Y ) =
i
e V ar(Y ) =
i
(1
i
):
A função distribuição de probabilidade de y
i
é dada por
f
i
(y
i
) =
y
i
i
(1
i
)
1y
i
; (4.2)
para y
i
= 0; 1 e i = 1; :::; n:
Aplicando-se a transformão logística à equação (4.2) obtêm-se
22
logit(
i
) = log(
i
=(1
i
)) =
0
+
1
x
i1
+ ::: +
p
x
ip
; (4.3)
para i = 1; :::; n. O modelo logístico é obtido pela transformação inversa e é dado por
E(Y ) =
i
=
exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)
1 + exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)
: (4.4)
A forma de estimação dos parâmetros deste modelo será apresentada na Seção seguinte.
4.1 Estimão em Regressão Logística
Os procedimentos de estimão e inferência a serem utilizados em regressão logística
são um caso particular da metodologia de modelos lineares generalizados apresentado em
detalhes no Apêndice A.
A função de verossimilhança para o modelo logístico é dada por
L(
0
;
1
; :::;
p
) =
n
Q
i=1
y
i
i
(1
i
)
1y
i
: (4.5)
Como a verossimilhança depende da probabilidade de sucesso desconhecida
i
, que
por sua vez depende dos s; a função de verossimilhança pode ser vista como função de :
O problema agora é obter os valores de
b
0
;
b
1
; :::; e
b
p
que maximizam L(
0
;
1
; :::;
p
);
ou equivalemtemente os valores que maximizam o log(L(
0
;
1
; :::;
p
)).
O logarítmo da função de verossimilhança é dado por
log(L(
0
;
1
; :::;
p
)) =
P
i
fy
i
log
i
+ (1 y
i
) log(1
i
)g (4.6)
=
P
i
y
i
log
i
1
i
+ log(1
i
)
(4.7)
=
P
i
yi(
0
+
1
x
i1
+ ::: +
p
x
ip
) log[1 + exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)]:(4.8)
As derivadas do logaritmo da função de verossimilhança com relação aos parâmetros
23
desconhecidos são
U
1
=
@log(L(
0
;
1
; :::;
p
))
@
0
=
P
i
yi
exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)
1 + exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)

=
P
i
(yi
i
)
U
2
=
@log(L(
0
;
1
; :::;
p
))
@
1
=
P
i
yix
i
exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)
1 + exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)

=
=
P
i
x
i
(yi
i
)
.
.
.
U
p
=
@log(L(
0
;
1
; :::;
p
))
@
p
=
P
i
yix
i
exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)
1 + exp(
0
+
1
x
i1
+ ::: +
p
x
ip
)

=
=
P
i
x
i
(yi
i
)
Para a solução do sistema de equões acima, utiliza-se o método Score, descrito no
Apêndice A, e chamado de método iterativo de mínimos quadrados ponderados.
4.2 Qualidade do Ajuste
Depois de se ajustar um modelo a um conjunto de dados, é natural questionar qual
a diferença entre os valores ajustados da variável resposta sob o modelo e os valores
observados. Se a diferença entre as observações e os correspondentes valores ajustados
é pequena, então o modelo é aceito. Caso contrário, a forma corrente do modelo não
será aceita e este precisa ser revisado. Esse aspecto de adequabilidade do modelo será
referenciado como qualidade do ajuste. Este texto foi escrito baseado em Collett (1991).
Uma maneira de se medir a discrencia entre a probabilidade de sucesso observada,
i
; e as probabilidade ajustadas, b
i
, pelo modelo assumido é através da função de verossi-
milhaa, pois esta resume a informação que os dados dão sobre um parâmetro desco-
nhecido em um dado modelo. A estatística mais utilizada para veri…car esta discrepância,
considerando a função de verossimilhança, é a deviance, de…nida como
D = 2 log(
b
L
c
=
b
L
s
) = 2[log
b
L
c
log
b
L
s
]; (4.9)
onde
b
L
c
é o ximo da verossimilhança sob o modelo corrente e
b
L
s
o ximo da verossimi-
lhaa do modelo saturado (neste modelo, os valores ajustados coincidem com as obser-
vações, ou seja, o modelo ajusta os dados perfeitamente).
24
Grandes valores de D são encontrados quando
b
L
c
é relativamente menor que
b
L
s
; in-
dicando que o modelo atual é ruim. Por outro lado, pequenos valores de D são obtidos
quando
b
L
c
é próximo de
b
L
s
; indicando que o modelo atual é bom.
A estatística deviance tem distribuição assintoticamente
2
com (n p) graus de
liberdade, onde n representa o número de observações e p o número de parâmetros do
modelo corrente.
No caso especial de dados binários onde n
i
= 1; i = 1; :::; n; a deviance depende
apenas das probabilidades de sucesso ajustadas
i
; e então é não informativa sobre a
qualidade do ajuste do modelo.
A verossimilhança para n observões binárias, como função dos pametros , é
L() =
n
Q
i=1
y
i
i
(1
i
)
1y
i
; (4.10)
onde
i
=
exp(
0
+
1
x
i1
+:::+
p
x
ip
)
1+exp(
0
+
1
x
i1
+:::+
p
x
ip
)
:
Assim, o logaritmo da função de verossimilhança maximizado considerando o modelo
corrente é dado por
log
b
L
c
=
P
i
fy
i
log b
i
+ (1 y
i
) log(1 b
i
)g: (4.11)
Para o modelo completo, b
i
= y
i
; e como [y
i
log y
i
] e [(1 y
i
) log(1 y
i
)] valem zero
para os únicos dois possíveis valores de y
i
; 0 e 1; log
b
L
S
= 0: Assim a deviance para dados
binários ca
D = 2
P
fy
i
log b
i
+ (1 y
i
) log(1 b
i
)g (4.12)
= 2
P
fy
i
log(b
i
=(1 b
i
)) + log(1 b
i
)g:
Podendo ser reescrita como
D = 2
P
fb
i
logit(b
i
) + logit(1 b
i
)g: (4.13)
Assim, a deviance depende das observações binárias y
i
apenas através das probabili-
dades ajustadas b
i
; e, portanto, não informando a respeito da discrepância entre as proba-
25
bilidades observadas e suas correpondentes probabilidades ajustadas. Consequentemente,
a deviance para modelos ajustados para respostas binárias não deve ser usada como uma
medida de qualidade de ajuste do modelo. Então, no caso de respostas binárias, usa-se
apenas a diferea de deviances para comparar modelos. Esta diferença, é utilizada, por
exemplo, pelo método de seleção de modelos na escolha do melhor modelo.
4.3 Predição em Regreso Lostica
Um objetivo na modelagem logística é predizer o valor de uma variável resposta
binária. A probabilidade da resposta predita pode consequentemente formar a base para
se classicar um indivíduo de acordo com um dos dois grupos (0 ou 1). Para se fazer esta
classicação, o conjunto de dados deve ser dividido em dois subconjuntos: um conjunto
de construção (D
C
) e um conjunto de teste (D
T
). O primeiro conjunto (D
C
) é usado para
o ajuste dos modelos e o segundo conjunto (D
T
) é usado para se predizer a probabilidade
da resposta para um novo indivíduo, a qual será depois comparada com o valor observado.
Para se classi…car um indivíduo em dois grupos, com base na probabilidade da resposta
predita, um valor limiar
c
tem que ser identi…cado. Este valor é tal que o indivíduo se
classicado no grupo 1 se
0
<
c
e no grupo 2 se
0
>
c
, onde
0
é um valor de predição
obtido pelo ajuste do modelo. Geralmente
c
= 0; 5 é um valor razoável, entretanto, se os
dois grupos não podem ser classi…cados como simétricos, um valor diferente de 0,5 deve
ser considerado. Uma maneira de se determinar este valor limiar
c
, também conhecido
como ponto de corte, é atras da curva ROC (Receiver Operating Characteristics), a qual
permite avaliar a capacidade preditiva de um modelo usando o ponto de corte escolhido.
Este texto foi escrito baseado em Abreu (2004).
Duas medidas bastante utilizadas para se avaliar a capacidade preditiva de um modelo
após a classi…cação das observações em um dos dois grupos, 0 ou 1, são a sensibilidade
e a especi…cidade. A sensibilidade é de…nida como a probabilidade de um indivíduo ser
classicado como zero, dado que realmente é zero e a especicidade é a probabilidade de
um indivíduo ser classi…cado como um, dado que realmente é um.
A curva ROC (Zweig & Campbell, 1993) é construída variando os pontos de corte ao
longo das probabilidades preditas pelos modelos, a m de se obter as diferentes classi…-
26
cações dos indivíduos e obtendo consequentemente os respectivos valores para as medidas
de sensibilidade e especicidade para cada ponto de corte estabelecido. Assim, a curva
ROC é obtida tendo no seu eixo horizontal os valores de 1-Especi…cidade, ou seja, a
proporção de uns que são classi…cados como zero pelo modelo, e, no eixo vertical a sen-
sibilidade, que é a proporção de zeros que são realmente classicados como zeros. Uma
curva ROC obtida ao longo da diagonal principal corresponde a uma classicação obtida
sem a utilizão de qualquer ferramenta preditiva, ou seja, sem a presença de modelos.
Consequentemente, a curva ROC deve ser interpretada de forma que quanto mais a curva
estiver distante da diagonal principal melhor o desempenho do modelo associado a ela.
Esse fato sugere que quanto maior for a área entre a curva ROC produzida e a diagonal
principal, melhor o desempenho global do modelo.
A curva ROC apresenta sempre um contrabalanço entre a sensibilidade e a especi…-
cidade ao se variar os pontos de corte ao longo das probabilidade preditas, e, pode ser
usada para auxiliar na decio de onde se localiza no melhor ponto de corte. Em geral, o
melhor ponto de corte produz valores para sensibilidade e especi…cidade que se localiza no
ombroda curva, ou próximo dele, ou seja, no p onto mais à esquerda e superior possível.
Quando se tem interesse em avaliar o modelo em um único ponto de corte, constrõe-se
uma tabela 2 x 2 para o ponto de corte escolhido, denominada de matriz de confuo,
representada na Figura 4-1. A partir deste matriz a sensibilidade e especi…cidade são
obtidas. Neste trabalho, estas medidas são utilizadas com uma nomenclatura diferente, a
sensibilidade será denominada de capacidade de acerto dos zeros e a especi…cidade como
capacidade de acerto dos uns. Estas medidas são de…nidas como:
Capacidade de acerto total (CAT ) =
b
1
+m
0
n
Capacidade de acerto dos zeros (CAZ) =
m
0
A
(Sensibilidade)
Capacidade de acerto dos uns (CAU) =
b
1
B
(Especi…cidade)
onde
n = número total de observações na amostra;
b
1
= número de uns que foram classi…cados como um (acerto);
m
0
= número de zeros que foram classicados como zero (acerto);
m
1
= número de uns que foram classi…cados como zero (erro);
b
0
= número de zeros que foram classicados como um (erro);
27
Figura 4-1: Matriz de Confusão
A = número de zeros na amostra
B = número de uns na amostra
a = número total de observações classicadas como zero na amostra
b = mero total de observações classicadas como um na amostra.
Como geralmente, nas amostras de validação, onde os modelos são avaliados, se co-
nhece a verdadeira resposta, torna-se possível comparar essa classicação obtida com
a verdadeira resposta. A forma mais utilizada para estabelecer a matriz de confuo
é determinar um p onto de corte na probabilidade preditiva e classi…car os indivíduos
com base nesse ponto. Essa matriz descreve portanto uma tabulação cruzada entre a
classicação predita através de um único ponto de corte e a condição real e conhecida de
cada indivíduo, onde a diagonal principal representa as classi…cações corretas e valores
fora dessa diagonal correspondem a erros de classicação.
Uma outra medida que p ode ser utilizada para avaliar a capacidade preditiva de um
modelo é o logaritmo do score preditivo proposto por Good (1952). Esta medida vem
mostrando ser um índice robusto e sensível. Para obtê-la o conjunto de dados deve ser
dividido em dois subconjuntos: um conjunto de construção (D
C
) e um conjunto de teste
(D
T
). O primeiro conjunto (D
C
) é usado para o ajuste dos modelos e o segundo conjunto
(D
T
) é usado para se predizer a probabilidade da resposta para um novo indivíduo.
Desta forma, o logaritmo do score preditivo para um dado modelo M
k
considerando a
abordagem clássica é dado por
X
d2D
T
log(
b
d
k
w
k
) (4.14)
28
onde d corresponde as observações individuais do D
T
e
b
d
k
é o valor da predição obtido
pelo modelo k para a observação d do conjunto de teste.
Para a abordagem bayesiana.
X
d2D
T
log
P (=M
k
; D
C
)P (M
k
=D
C
)
(4.15)
De forma similar o logaritmo do score preditivo para a ponderação de modelos con-
siderando a abordagem clássica é dada por
X
d2D
T
log
(
K
X
k=1
(
b
d
k
w
k
)
)
; (4.16)
e por
X
d2D
T
log
(
K
X
k=1
P (=M
k
; D
C
)P (M
k
=D
C
)
)
(4.17)
para a abordagem bayesiana.
Quanto maior o valor do logaritmo do score preditivo melhor a capacidade preditiva
do modelo, permitindo então, medir o desempenho preditivo da metodologia em estudo.
Capítulo 5
Ponderação de Modelos em
Regreso Logística
5.1 Abordagem Clássica
A abordagem clássica da ponderão de modelos em regressão logística segue a mesma
metodologia da ponderão de modelos em regreso linear apresentada na seção 2.1.
Cada um dos K modelos em consideração tem a mesma forma de (4.3).
Suponha uma situação onde m-se apenas duas potenciais variáveis explicativas.
Nesta situação existem 4 (2
2
) possíveis modelos a serem considerados
Modelo(1) : logit(
i
) =
0
Modelo(2) : logit(
i
) =
0
+
1
x
1
Modelo(3) : logit(
i
) =
0
+
2
x
2
Modelo(4) : logit(
i
) =
0
+
1
x
1
+
2
x
2
:
O objetivo é predizer a média = =
exp(
0
+
1
x
1+
+
2
x
2+
)
1+exp(
0
+
1
x
1+
+
2
x
2+
)
de uma variável futura
Y
+
para valores x
1+
e x
2+
:
30
Os possíveis estimadores desta média são
Modelo(1) :
b
1
= b
1
= [1 + exp(
b
0
)]
1
Modelo(2) :
b
2
= b
2
= [1 + exp(
b
0
b
1
x
1+
)]
1
Modelo(3) :
b
3
= b
3
= [1 + exp(
b
0
b
2
x
2+
)]
1
Modelo(4) :
b
4
= b
4
= [1 + exp(
b
0
b
1
x
1+
b
2
x
2+
)]
1
:
Desta forma, o estimador para o parâmetro ponderado pelos pesos será dado por
b
= w
1
b
1
+ w
2
b
2
+ w
3
b
3
+ w
4
b
4
: (5.1)
Considerando o uso do AIC, os pesos w
k
para cada um dos K modelos são calculados
da seguinte forma
w
k
=
exp(AIC
k
=2)
k
P
l=1
exp(AIC
l
=2)
; k = 1; :::; 4; (5.2)
onde AIC
k
é o critério de informação de Akaike para o modelo k: O logaritmo da função
de verossimilhança maximizada para o modelo k no caso Bernouilli é
log L
k
=
n
P
i=1
y
i
(
0
+
1
x
j
+
2
x
j
)
n
P
i=1
log[1 + exp(
0
+
1
x
j
+
2
x
j
)]: (5.3)
A variância de
b
pode ser obtida como em (2.12), e, no caso de regressão logística a
d
V ar(
b
k
=
k
) é dada por
d
V ar(
b
k
=
k
) =
p
P
j=1
x
2
j+
V ar(
b
j
) + 2
p
P
j=1
j
P
h=1
x
h+
x
j+
Cov(
b
h
;
b
j
). Outra
abordagem para se obter a variância de
b
, como visto no caso de regreso linear, é através
do uso do método bootstrap discutido na Seção seguinte.
5.2 O Método Bootstrap e seu uso em Regreso Logís-
tica
Davison & Hinkley (1997) consideram quatro planos de reamostragem para modelos
lineares generalizados: reamostragem dos resíduos de Pearson padronizados, dos resíduos
31
padronizados na escala do preditor linear, dos resíduos deviance e reamostragem dos
vetores de observações. Visto que, o modelo de regreso logística é um caso particular
de modelos lineares generalizados, estes planos p odem ser utilizados. Davison & Hinkley
(1997) desenvolveram um estudo de simulação para comparar essas quatro abordagens
e chegaram a conclusão que os resultados obtidos em cada uma delas são bastante si-
milares. Sendo assim, neste trabalho, serão considerados apenas dois destes planos: o de
reamostragem dos resíduos de Pearson padronizados e o de reamostragem dos vetores de
observações.
Para a aplicação do plano de reamostragem dos resíduos de Pearson padronizados, os
resíduos serão de…nidos como
r
P i
=
y
i
b
i
fc
i
b
kV (b
i
)(1 h
i
)g
1=2
; i = 1; :::; n; (5.4)
onde h
i
é o i-ésimo elemento da diagonal da matriz X(X
T
X)
1
X
T
, c
i
são os pesos co-
nhecidos e k é desconhecido. No caso de dados binários, k = 1 e c
i
= 1. A partir dos
valores de y
1
; :::; y
n
obtém-se
b
= X(X
T
X)
1
X
T
Y
: Em grandes amostras espera-se que
r
P j
tenha média próximo de zero e variância próxima de um, assim como em modelos de
regressão linear.
Os todos de reamostragem aqui considerados, seguem basicamente os mesmos pro-
cedimentos utilizados em modelos de regreso linear, como apresentado na Seção 2.2.1.
Abaixo seguem os algoritmos a serem utilizados em cada uma das abordagens con-
sideradas. O algoritmo 3 descreve os passos para a reamostragem dos pares dos vetores
de observões estrati…cada e o algoritmo 4 descreve os passos para a reamostragem dos
resíduos de Pearson padronizados.
Algoritmo 3: Reamostragem dos Pares Estrati…cada
(i) separar a amostra em zeros e uns formando dois estratos, um de tamanho n
0
e
outro de tamanho n
1
; respectivamente;
(i) amostrar i
1
; :::; i
n0
e i
1
; :::; i
n1
aleatoriamente, com reposição, dentro do seu respec-
tivo estratos, de f1; 2; :::; n
0
g e de f1; 2; :::; n
1
g;
(ii) fazer (y
j
; x
j
) = (y
i
j
; x
i
j
), para j = 1; :::; n, obtendo a amostra bootstrap
(y
1
; x
1
),...,(y
n
; x
n
), tal que n = n
0
+ n
1
;
32
(iii) repetir os passos (i) e (ii), B vezes.
Algoritmo 4: Reamostragem dos Resíduos
(i) amostrar "
1
; :::; "
n
aleatoriamente, com reposição, de "
1
; :::; "
n
; onde "
i
= r
P i
r
P
,
para i = 1; :::; n e r
P
é a média dos r
P i
;
(ii) fazer y
j
= b
j
+ [c
i
V (b
i
)]
1=2
"
j
; para j = 1; :::; n; obtendo a amostra bootstrap
y
1
; :::; y
n
;
(iii) repetir os passos (i) e (ii), B vezes.
O modelo a ser considerado no item (ii) do algoritmo 4 depende da especi…cação do
modelo em consideração.
5.3 Abordagem Bayesiana
A abordagem bayesiana de ponderão de modelos em regressão logística segue a
formulação geral de ponderação bayesiana de modelos apresentada no Capítulo 3. O
desenvolvimento do BMA para modelos lineares generalizados é apresentado brevemente
por Hoeting et. al. (1999), mas não uma apresentação mais detalhada para o modelo de
regressão logística, como pode ser encontrado, por exemplo, para análise de sobrevivência
(Volinsky et. al., 1997). O desenvolvimento aqui apresentado foi baseado em Volinsky et.
al. (1997) e Raftery (1995).
Um ponto importante a ser considerado na implementação do BMA é a especicação
da probabilidade a priori dos modelos, P (M
k
). Quando se tem pouca informação a priori
sobre a plausibilidade dos modelos que estão sendo considerados, uma escolha razvel é
assumir que todos os modelos o equiprováveis a priori. Raftery et. al. (1997), Madigan
& Raftery (1994), e Madigan et. al. (1996) veri…caram que quando o espaço de modelos
é muito grande (mais de 10
12
modelos) não efeito perceptível em se atribuir uma
distribuição uniforme a priori para os modelos. Já quando se tem informação a priori
sobre a importância de uma variável, a probabilidade a priori do modelo M
k
pode ser
especicada como
P (M
k
) =
p
Q
j=1
ij
j
(1
j
)
1
ij
; (5.5)
onde
j
2 [0; 1] é a probabilidade a priori de que
j
6= 0; j = 1; :::; p; e
kj
é uma variável
indicadora de quando a variável j é ou não incluída no modelo M
k
: Atribuir
j
= 0; 5;
33
para todo j; é correspondente a atribuir uma priori uniforme no espaço de modelos. Fazer
j
< 0; 5; para todo j; impõe uma penalidade para modelos com muitas covariáveis e
usar
j
= 1 faz com que a variável j seja incluída em todos os modelos. Usando essa
metodologia, a de…nição da probabilidade a priori para os modelos é simples e dispensa a
necessidade da de…nição das prioris para um grande número de modelos.
Segundo Raftery (1995), quando todos os modelos são considerados iguais a priori, ou
seja, usando
j
= 0; 5, a probabilidade a posteriori para o modelo M
k
pode ser aproximada
por
P (M
k
=D) exp(
1
2
BIC
k
)=
K
P
l=1
exp(
1
2
BIC
l
): (5.6)
O critério de informação bayesiana (BIC), desenvolvido por Schwarz (1978), pode
ser obtido aproximando-se a integral presente na equação (3.3) via método de Laplace.
Raftery (1996) apresenta todo o desenvolvimento para se obter o BIC e mosta que este
pode ser calculado como
BIC
k
= L
2
k
df
k
log n; (5.7)
onde L
2
k
é a deviance do modelo k considerando-se a distribuição de Bernouilli, df
k
são os
graus de liberdade correspondente e n o número de observações.
Na equação (3.1), a distribuição preditiva de ; dado um modelo particular M
k
; é
encontrada integrando-se em relão ao pametro do modelo,
k
:
P (=M
k
; D) =
R
P (=
k
; M
k
; D)P (
k
=M
k
; D)d
k
: (5.8)
Como esta integral não tem uma forma fechada, utiliza-se a aproximação
P (=M
k
; D) P (=M
k
;
b
k
; D); (5.9)
onde
b
k
é o estimador de máxima verossimilhança de
k
obtido via (A.28):
No contexto de incorporação da incerteza devido a escolha do modelo, esta apro-
ximação foi utilizada por Taplin (1993) que encontrou uma excelente aproximação para
problema de regressão de séries temporais e posteriormente utilizada por Taplin e Raftery
(1994) e Draper (1995).
34
A dia e a variância a posteriori são dadas por
E[=D] =
K
X
k=0
E[
b
=D; M
k
] P (M
k
=D) (5.10)
V ar[=D] =
K
X
k=0
(V ar[
b
=D; M
k
] + E[
b
=D; M
k
]
2
) P (M
k
=D) E[
b
=D]
2
: (5.11)
É importante ressaltar que a priori utilizada para a obtenção destes resultados con-
sidera
j
= 0; 5, ou seja, todos os modelos são igualmente prováveis a priori.
Capítulo 6
Aplicação
No capítulo 5 foram apresentadas as metodologias utilizadas para as abordagens de
ponderação de modelos em regressão logística.
Neste capítulo serão apresentados exemplos com a aplicão da metodologia de pon-
deração de modelos e do método de seleção de modelos Stepwise, como forma de comparar
o desempenho preditivo do método de ponderação. Na Seção 6.1 será apresentado um e-
xemplo de regressão logística com apenas duas covariáveis. Neste exemplo serão aplicadas
a ponderação clássica (incluindo o uso do método bootstrap), a ab ordagem bayesiana e
o todo Stepwise e veri…cado o resultado. Com base neste exemplo será feito um es-
tudo de simulação com o objetivo de avaliar as propriedades das ab ordagens clássica e
bayesiana (através do vício e variância do estimador) e avaliar também o desempenho do
uso bootstrap para a obtenção da variância do estimador ponderado. Na Seção 6.2 será
apresentado uma aplicão em uma situação de regressão logística com 13 covariáveis e
alto grau de incerteza na escolha do modelo, com o objetivo de comparar a capacidade
preditiva da p onderação com a do Stepwise. Um estudo de simulação será realizado para
tentar obter um resultado mais conclusivo. E na Seção 6.3 a metodologia de ponderação
de modelos será aplicada a um conjunto de dados reais.
Em todos os exemplos será fornecida a fonte dos dados. Os dados do exemplo 3 foram
gentilmente cedidos por um pesquisador e não estão disponíveis para utilização sem prévia
autorização.
Os cálculos e gcos foram feitos usando-se o software R e os programas estão no
Apêndice B. Os cálculos envolvendo o BMA foram baseados na função BIC_GLM, de-
36
senvolvido por Chris Volinsky usando-se o software S-PLUS e obtida como indicado em
Hoeting et. al. (1999) e atualmente essas funções encontram-se diponíveis no software R.
6.1 Exemplo 1
Este exemplo foi obtido de Neter, Kutner, Nachtsheim & Wasserman (1996), página
619. Uma clínica de saúde enviou avisos à seus clientes para encorajá-los, principalmente
os mais idosos que tem maiores riscos de complicações, a tomarem injeção contra a gripe,
visando proteção em uma esperada epidemia. Em um estudo piloto, 50 clientes foram
selecionados aleatoriamente e questionados se eles tinham ou não recebido uma injeção
contra a gripe. Foram coletados também a idade deste pacientes (X
1
) e seu conhecimento
sobre a do ença. Estes dados foram combinados em um índice de conhecimento sobre a
doença (X
2
), para os quais, valores altos indicam grande conhecimento. O cliente que
recebeu a injeção contra gripe foi codi…cado como Y = 1, e o cliente que não recebeu a
injeção contra gripe como Y = 0:
Como o exemplo considera duas covariáveis, os 2
2
possíveis modelos a serem ajustados
são:
Modelo(1) : logit(
i
) =
0
Modelo(2) : logit(
i
) =
0
+
1
x
1
Modelo(3) : logit(
i
) =
0
+
2
x
2
Modelo(4) : logit(
i
) =
0
+
1
x
1
+
2
x
2
:
Os resultados dos ajustes obtidos foram
Modelo(1) : logit(b
i
) = 0; 3228
Modelo(2) : logit(b
i
) = 6; 5763 + 0; 1331x
1
Modelo(3) : logit(b
i
) = 7
;
3902 + 0; 1349x
2
Modelo(4) : logit(b
i
) = 21; 5846 + 0; 2218x
1
+ 0; 2035x
2
:
Considerando o método de seleção de modelos, Stepwise, o modelo selecionado foi o
37
modelo completo, ou seja,
Modelo(4) : logit(b
i
) = 21; 5846 + 0; 2218x
1
+ 0; 2035x
2
:
Na Tabela 6-1 estão apresentados, para os 4 possíveis modelos, os pesos e as proba-
bilidades a posteriori.
Tabela 6-1: Pesos dos 4 possíveis modelos
Modelo W PostProb
1 < 0; 0001 < 0; 0001
2 < 0; 0001 < 0; 0001
3 0; 0006 0; 0015
4 0; 9994 0; 9984
Pela análise da Tabela 6-1, nota-se que não incerteza devido a escolha do modelo,
sendo o modelo 4 claramente o favorito.
O estimador ponderado
b
foi obtido para a predição em todas as 50 observações do
conjunto de dados. As variâncias destas estimativas para cada uma das abordagens consid-
eradas estão representadas na Figura 6-1. Observa-se, pelo grá…co, que uma completa
concordância entre as variâncias das ab ordagens clássica, bayesiana e do todo Stepwise,
o que era esperado devido a não haver incerteza quanto à escolha do modelo. A variân-
cia da abordagem bootstrap - reamostragem dos resíduos acompanha o comportamento
das anteriores embora sejam maiores nos pontos mais extremos e a variância bootstrap -
reamostragem dos pares estrati…cado tem uma variância maior, em média para todos os
pontos do que a apresentada pelos outros métodos, além de um comportamento diferente.
Para aplicão do método bootstrap, tanto no caso de reamostragem dos resíduos como
para a reamostragem dos pares estrati…cada, foram realizadas B = 10000 reamostras.
Na Figura 6-2 estão apresentados os grácos de convergência dos métodos bootstrap
para um exemplo de um valor de predição. Pode-se notar que para o método bootstrap -
reamostragem dos resíduos a variância se estabilizou num valor próximo de B = 4000 e
para o todo bootstrap - reamostragem dos pares estrati…cados a variância se estabilizou
num valor próximo de B = 7000. Estes valores de B foram utilizados no estudo de
38
do exemplo.pdf
Figura 6-1: Varncia do estimador ponderado
b
nas abordagens clássica, bayesiana, no
todo Stepwise e nas abordagens bootstrap - reamostragem dos resíduos e reamostragem
dos pares estraticada. As linhas correspondentes as variâncias das abordagens clássica,
bayesiana e Stepwise estão sobrepostas.
39
simulação apresentado na Seção seguinte.
Figura 6-2: Estudo da estabilização da variância de
b
no método bootstrap -
reamostragem dos resíduos e reamostragem dos pares estrati…cada.
40
A classi…cação do estimador ponderado
b
, para cada uma das abordagens consideradas,
em um dos dois grupos, 0 ou 1, será feita, considerando o uso da curva ROC, apresentada
na Seção 4.3. O valor do ponto de corte, para cada um dos métodos, foi determinado
como sendo o ponto máximo da soma da sensibilidade e da especi…cidade. Os grácos das
curvas ROC correspondentes a cada uma das abordagens estão apresentados na Figura
6-3, 6-4 e 6-5, respectivamente. Na Tabela 6-2 estão apresentados os pontos de corte, as
medidas de capacidade de acerto (CAT, CAZ, CAU) e a área sob a curva ROC (AUC)
para cada abordagem.
Figura 6-3: Curva Roc do todo de seleção de modelos Stepwise.
41
Figura 6-4: Curva ROC do método de ponderão de modelos abordagem clássica.
Figura 6-5: Curva ROC do método de ponderação de modelos abordagem bayesiana.
42
Tabela 6-2: Pontos de corte, medidas de capacidade de acerto e
área sob a curva ROC.
Ponto de Corte CAT CAU CAZ AUC
Stepwise 0,651 86% 96,6% 71,4% 0,923
Clássico 0,651 86% 96,6% 71,4% 0,923
Bayesiano 0,651 86% 96,6% 71,4% 0,923
Pela Tabela 6-2, nota-se que o ponto de corte, as medidas de capacidade preditiva e
as áreas sob as curvas ROC para as ab ordagens clássica, bayesiana e o método stepwise
são as mesmas. o havendo, desta forma, para este exemplo, uma abordagem que se
destacasse como sendo a melhor. Este resultado deve-se, provavelmente, ao fato de não
haver a presea de incerteza na escolha do modelo.
6.1.1 Estudo de Simulão
O estudo de simulação aqui apresentado foi realizado com base no exemplo da Seção
anterior. Este estudo tem por objetivo veri…car as propriedades dos dois todos de pon-
deração, clássico e bayesiano, através do cio e variância correspondentes e o desempenho
das estimativas das variâncias bootstrap. Para a realização do estudo foram considerados
dois tamanhos de amostra n = 20, retirado aleatoriamente do conjunto de dados original,
e n = 50.
Foram considerados dois conjuntos de valores dos pametros do modelo,
0
;
1
;
2
com
o objetivo de intensi…car a incerteza. Estes dois conjuntos considerados foram: conjunto
1 - valores dos parâmetros estimados pelo ajuste dos modelos completos considerando
os dois tamanhos de amostra em estudo (n = 20 e n = 50): Conjunto 2 - os valores
anteriores foram modi…cados de forma a aumentar a incerteza na escolha do modelo.
Os dois conjuntos de valores de s utilizados para fazer o estudo de simulação estão
apresentados na Tabela 6-3.
43
Tabela 6-3: Conjunto de valores de s utilizados para fazer o estudo de simulação.
n
0
1
2
Conjunto 1 50 -21,5846 0,2218 0,2035
20 -23,5284 0,1925 0,2885
Conjunto 2 50 -21,5846 0,1757 0,1578
20 -23,5284 0,1500 0,2000
O procedimento de simulação constituiu em gerar R = 10000 novos vetores de re-
spostas y a partir de uma distribuição binomial com probabilidade de sucesso
b
i
=
exp(
0
+
1
x
1
+
2
x
2
)
1 + exp(
0
+
1
x
1
+
2
x
2
)
: (6.1)
Os vetores x
1
e x
2
foram mantidos iguais ao do exemplo da Seção 6.1. Para cada novo
conjunto de dados, formado pelo novo vetor da variável resposta y e pelas covariáveis x
1
e x
2
; as metodologias apresentadas foram aplicadas obtêndo-se o estimador ponderado
b
;
a variância Buckland (2:12) e a variância BMA (5:10). O vício foi calculado como sendo
a diferença entre o valor verdadeiro, obtido com os
0
;
1
;
2
especicados acima, e as
dias das estimativas obtidas na simulação. As variâncias das estimativas simuladas
serão chamadas de variâncias simuladas.
Para o método bootstrap foram feitas R = 100 replicações e B = 4000 e B = 7000
reamostras para a reamostragem dos resíduos e para a reamostragem dos pares, respecti-
vamente. O valor de R, neste caso foi reduzido devido ao fato do algoritmo computacional
requerer muito tempo de execução.
Para avaliar as propriedades do estimador
b
; foram comparados os valores dos cios
nas abordagens clássica e bayesiana, e das variâncias simuladas nas abordagens clássica e
bayesiana, a média das variâncias obtidas por Buckland (2.12), as médias das variâncias
segundo a abordagem bayesiana (5.10) e as médias das variâncias nas duas abordagens
bootstrap.
44
n = 20 - conjunto 1 n = 20 conjunto 2
n = 50 - conjunto 1 n = 50 conjunto 2
Figura 6-6: Histograma da média dos pesos e das probabilidades a posteriori
dos modelos dos 10000 valores simulados.
45
n = 20 - conjunto 1 n = 20 conjunto 2
n = 50 - conjunto 1 n = 50 conjunto 2
Figura 6-7: Vício do estimador ponderado
b
nas abordagens clássica e bayesiana.
46
n = 20 - conjunto 1 n = 20 conjunto 2
n = 50 - conjunto 1 n = 50 conjunto 2
Figura 6-8: Variância do estimador ponderado
b
nas abordagens clássica,bayesiana e
nos dois todos de reamostragem bootstrap.
47
A Figura 6-6 mostra os histogramas da média dos pesos e das probabilidades a poste-
riori dos modelos dos 10000 valores simulados. Observa-se que no conjunto 1 os pesos e
as probabilidades a posteriori dos modelos estão mais concentrados em apenas um modelo
e no conjunto 2, estes valores encontram-se mais dispersos entre os possíveis modelos
mostrando o aumento da incerteza devido à escolha do modelo.
A Figura 6-7 mostra os vícios de estimão nas abordagens clássica e bayesiana.
praticamente uma concordância entre os vícios destas abordagens em todas as situações
consideradas. Vale observar que aumentando o tamanho da amostra um diminuição
nos valores dos vícios.
A Figura 6-8, mostra as variâncias estimadas nas abordagens clássica, bayesiana e
nas duas abordagens bootstrap consideradas. Observa-se que as estimativas obtidas pela
proposta de Buckland et. al. (1997) e do estimador BMA acompanham o comportamento
das variâncias obtidas por simulação, e, por serem médias dos valores obtidos em cada
simulação, apresentam um comportamento suavizado nos picos. O método bootstrap -
reamostragem dos resíduos apresenta um comportamento próximo aos anteriores.
as estimativas obtidas para o todo boostrap - reamostragem dos pares estrati…cado
apresentam um comportamento diferente das outras abordagens. Apenas no conjunto
2, para n = 50; o comportamento obtido é o mesmo das outras abordagens consideradas.
Pode-se concluir de forma geral, para as con…gurações consideradas nesta simulação,
que com o aumento do tamanho da amostra observa-se maior concordância entre as va-
riâncias, ou seja, as abordagens produzem resultados mais próximos entre si.
6.2 Exemplo 2
Nesta seção será apresentado um exemplo de aplicão do todo de ponderão
de modelos em um exemplo de regreso logística com 13 covariáveis e alto grau de
incerteza na escolha do modelo. Será realizado um estudo de simulação com o objetivo de
veri…car se , em média, um aumento das medidas de capacidade preditiva do métodos
de ponderação em relação ao todo de seleção de modelos Stepwise.
48
6.2.1 Exemplo
A porcentagem de gordura corporal é comumente utilizada como indicador de saúde.
Esta medida pode ser obtida por vários métodos, como medidas feitas em baixo d água e
medidas feita por impulsos elétricos. O problema é que esses todos requerem equipa-
mentos e prossionais especializados. Uma alternativa para resolver esse problema, é
obter medidas simples de características corporais, como peso e altura, na tentativa de se
predizer se uma pessoa está ou não acima da faixa do percentual de gordura ideal.
O conjunto de dados aqui utilizado foi obtido em Johnson (1996). Este conjunto é
formado de 252 observões feitas em pessoas do sexo masculino. Para cada indivíduo, a
porcentagem de gordura corporal, o peso, a idade, a altura e 10 medidas circunferênciais
foram obtidas. A descrição desta medidas esta apresentada na Tabela 6-4.
Tabela 6-4: Descrão do conjunto de dados.
Variável Descrição
X1 Idade (anos)
X2 Peso (libras)
X3 Altura (polegada)
X4 Circunfencia do pescoço (cm)
X5 Circunfencia toráxica (cm)
X6 Circunfencia abdominal (cm)
X7 Circunfencia do quadril (cm)
X8 Circunfencia da coxa (cm)
X9 Circunfencia do joelho (cm)
X10 Circunferência do tornozelo (cm)
X11 Circunferência do extensor do bíceps (cm)
X12 Circunferência do antebraço (cm)
X13 Circunferência do punho (cm)
A observação 42 foi omitida devido ao fato da existência de uma medida aparentemente
errônea. Cada indivíduo pertencente ao conjunto de dados foi classi…cado de acordo com
a faixa do p ercentual de gordura ideal de acordo com os índices determinados na Tabela 6-
49
5, obtidos no site http://www.saudeemmovimento.com.br/saude/tabelas. Desta forma, o
indivíduo foi classi…cado como 1 quando seu percentual de gordura corporal se encontrava
abaixo do índice determinado na Tabela 6-5 e como 0 caso contrário.
Tabela 6-5: Faixa de Percentual de Gordura Ideal de acordo com Sexo e Idade
Faixa Etária Homens Mulheres
de 18 a 29 anos 14% 19%
de 30 a 39 anos 16% 21%
de 40 a 49 anos 17% 22%
de 50 a 59 anos 18% 23%
acima de 60 anos 21% 26%
Como o exemplo considera 13 covariáveis, existem então 2
13
= 8192 modelos a serem
ajustados.
Para o método de seleção de modelos Stepwise, o modelo selecionado foi:
y =
0
+
1
x1 +
2
x2 +
4
x4 +
6
x6 +
7
x7 +
8
x8 +
12
x12 +
13
x13
Para a aplicão, tanto da metodologia de ponderação de modelos como do método
de seleção de modelos Stepwise, o conjunto de dados foi dividido, de forma aleatória, em
dois subconjuntos: um conjunto de construção (D
C
) composto por 142 observações e um
conjunto de teste (D
T
) formado pelas 109 observações restantes. Utilizando os dados de
construção (D
C
), os 8192 possíveis modelos foram ajustados e destes foram selecionados os
modelos cujos pesos ou probabilidades a posteriori somavam 90% de incerteza, resultando
em 881 modelos selecionados pela abordagem clássica e 733 modelos selecionados pela
abordagem bayesiana. Na Tabela 6-6 estão apresentados, em ordem decrescente, os AIC’s
e pesos dos 10 modelos com maiores pesos e na Tabela 6-7 os BIC’s e probabilidades a
posteriori dos 10 modelos com maiores probabilidades a posteriori.
50
Tabela 6-6: Os 10 modelos com maiores pesos
Modelo AIC W
2219 170,2938 0,0181
3921 170,9800 0,0128
3011 171,3707 0,0106
931 171,3761 0,0105
1426 171,4178 0,0103
3976 171,8140 0,0085
3986 171,9792 0,0078
5064 172,0616 0,0075
3990 172,2129 0,0069
3725 172,2556 0,0068
Tabela 6-7: Os 10 modelos com maiores probabilidades a posteriori
Modelo BIC PostProb
2219 -470,2534 0,0291
931 -469,8102 0,0233
1426 -469,195 0,0166
3921 -468,9281 0,0150
3011 -468,5374 0,0123
2198 -468,1456 0,0102
932 -468,1115 0,0100
3976 -468,0941 0,0099
2148 -467,9340 0,0091
3986 -467,9290 0,0091
O que pode ser observado pela análise das Tab elas 6-6 e 6-7 é que, tanto na p onderação
clássica como na bayesiana, uma considerável incerteza devido à escolha do modelo,
pois o modelo com maior peso (0; 0181) representa apenas 1; 81% do peso total e o modelo
com maior probabilidade a posteriori (0; 0291) representa apenas 2; 91% da probabilidade
a posteriori total, o que indica que não nenhum modelo que poderia ser selecionado e
51
tido como o melhor modelo para se fazer a predição que se deseja.
Utilizando agora os dados de teste (D
T
) e apenas os modelos selecionados, as predições
para cada uma das abordagens consideradas foram obtidas. As Figuras 6-9, 6-10 e 6-11
mostram as curvas ROC para cada uma das abordagens consideradas. Na Tabela 6-8,
estão apresentados os pontos de corte, as medidas de capacidade preditiva, a área sob a
curva ROC e o logaritmo do score preditivo, descritos na Seção 4.3, obtidos para cada
uma das abordagens consideradas.
Figura 6-9: Curva ROC do método de seleção de modelos Stepwise.
52
Figura 6-10: Curva ROC do método de ponderação de modelos abordagem clássica.
Figura 6-11: Curva ROC do método de ponderação de modelos abordagem bayesiana.
53
Tabela 6-8: Medidas de Capacidade Preditiva
Pto de Corte CAT CAU CAZ AUC Log Score
Stepwise 0,451 87,2% 86,9% 87,5% 0,926 -295,7205
Clássico 0,552 87,2% 88,5% 85,4% 0,917 -281,2239
Bayesiano 0,594 87,5% 88,5% 85,4% 0,915 -275,4816
Pela análise da capacidade preditiva total (CAT), nota-se que não houve di…rença entre
as abordagens. Nas outras medidas obteve-se um pouco de variação, no caso da capacidade
preditiva dos uns (CAU) esta é maior para o todo de ponderão de modelos do que
para o método de seleção de modelos Stepwise. no caso da capacidade preditivados zeros
(CAZ) essas medidas se inverteram. pela análise da do logaritmo do score preditivo
observa-se que o método de ponderão de modelos é melhor do que o todo de seleção
de modelos Stepwise. A melhora no score preditivo do todo de ponderação de modelos
em relação ao método de seleção de modelos Stepwise foi de
1
= 20; 239 na abordagem
bayesiana e de
2
= 14; 4966 na abordagem clássica. O conjunto de teste era composto
de n
teste
= 109 observações, então, o resultado signi…ca que, em média, a probablidade
preditiva do método de ponderão de modelos, tanto na abordagem clássica como na
bayesiana, foi maior do que o todo de seleção de modelos Stepwise por um fator de
exp(
1
=n
teste
) = 1; 204, ou seja, 20; 40% na abordagem bayesiana e exp(
2
=n
teste
) = 1; 142,
ou seja, 14; 20% na abordagem clássica. Em outras palavras, o todo de p onderação
de modelos prediz se um indivíduo está abaixo da faixa de percentual de gordura ideal
20; 40% melhor na abordagem bayesiana e 14; 2% na abordagem clássica de ponderação
de modelos do que o método de seleção de modelos Stepwise. A análise obtida pelas
medidas de capacidade preditiva aqui utilizadas (CAT, CAU, CAZ, AUC) não estão em
concordância com a análise obtida via logaritmo do score preditivo. o é possível chegar
a um resultado conclusivo com base em apenas um exemplo. Para veri…car se ocorre, em
dia, alguma diferença entre a capacidade preditiva para estas ab ordagens foi realizado
um estudo de simulação que está descrito a seguir.
54
6.2.2 Estudo de Simulão
O estudo desenvolvido tem por objetivo vericar se há, em média, um aumento na
capacidade preditiva. Esta veri…cação será feita considerando-se as dias das medidas
de capacidade preditiva, as médias das áreas sob a curva ROC e as médias do logaritmo
do score preditivo, como descrito na Seção 4.3.
O procedimento de simulação constituiu em gerar R = 1000 novos vetores da variável
resposta y; a partir de uma distribuão binomial com probabilidade de sucesso
b
i
=
exp(
0
+
1
x
1
+
2
x
2
+ ::: +
12
x
12
+
13
x
13
)
1 + exp(
0
+
1
x
1
+
2
x
2
+ ::: +
12
x
12
+
13
x
13
)
;
onde os valores de
0
; :::;
13
foram os estimados no exemplo anterior. Os vetores das
covariáveis foram mantidos igual ao do exemplo anterior. Neste estudo o número de
replicações foi xado em apenas 1.000 devido ao grande mero de modelos em estudo, o
que tornou o procedimento lento. Para cada novo conjunto de dados, formado pelo novo
vetor da variável resposta y e pelas 13 covariáveis, o mesmo procedimento realizado no
exemplo anterior foi aplicado, apenas para os modelos que somavam 90% da incerteza.
Em cada replicação foram obtidas as medidas de capacidade preditiva, área sob a curva
ROC e o logaritmo do score preditivo, além das estimativas dos estimadores ponderados.
Na Tabela 6-9 estão descritos os valores médios obtidos para cada uma das medidas de
capacidade preditiva.
Tabela 6-9: Medidas de Capacidade Preditiva
CAT CAU CAZ AUC Log Score
Stepwise 85,3 83,9 87,5 0,918 -338,3515
Clássico 85,9 84,4 88,0 0,925 -308,7339
Bayesiano 85,9 84,5 88,1 0,953 -300,7323
Pela análise da Tabela 6-9 verica-se que, em média, o método de ponderação de
modelos é melhor do que o método de seleção de modelos Stepwise. Todas as medidas de
capacidade, CAT, CAU, CAZ e AUC apresentaram-se maior no todo de ponderação de
modelos do que no método de seleção de modelos Stepwise. A melhora no score preditivo
para a ponderação de modelos - abordagem bayesiana - em relação ao método de seleção de
55
modelos Stepwise foi de
1
= 37; 6192 enquanto que a melhora do método de ponderação
de modelos - abordagem clássica - em relação ao método de seleção de modelos Stepwise
foi de
2
= 29; 6176. O conjunto de teste era composto de n
teste
= 109 observações, então,
o resultado signi…ca que, em média, a probablidade preditiva do método de ponderação de
modelos, tanto na abordagem clássica como na bayesiana, foi maior do que o todo de
seleção de modelos Stepwise por um fator de exp(
1
=n
teste
) = 1; 412174, ou seja, 41; 22% na
abordagem bayesiana e exp(
2
=n
teste
) = 1; 312221, ou seja, 31; 22% na abordagem clássica.
Em outras palavras, o método de ponderação de modelos prediz se um indivíduo está
abaixo da faixa de percentual de gordura ideal 41; 22% melhor na abordagem bayesiana
e 31; 22% na abordagem clássica de ponderão de modelos do que o método de seleção
de modelos Stepwise.
Assim, pode ser veri…cado um aumento na capacidade preditiva em relação as medidas
obtidas no exemplo da Seção 6-3-1.
6.3 Exemplo 3
O conjunto de dados aqui utilizado é advindo de uma instituição nanceira de grande
porte e foi gentilmente cedido pelo Prof. Dr. Francisco Louzada Neto.
rias são as aplicões de regressão logística a dados nanceiros e são geralmente,
vinculadas a classi…cação de clientes, como por exemplo Credit Score. A técnica é uti-
lizada para determinar risco de crédito. Levando em consideração um modelo de regressão
logística ajustado, a probabilidade de perda, isto é, a probabilidade de um cliente não
pagar o empréstimo tomado, é calculada considerando-se fatores de riscos, tais como,
idade, condição sócio-econômica, histórico de inadimplência, setor de atividades, etc.
e/ou fatores de riscos característicos da operação, valor total do empréstimo, prazo de
pagamento, tipos de garantia (Abreu, 2004 ). O desenvolvimento do modelo de Credit
Score consiste de uma forma geral, em buscar características dos clientes que estão rela-
cionadas signi…cativamente como seu risco de crédito. Normalmente esses modelos são
desenvolvidos a partir de bases hisricas de desempenho de crédito dos clientes e também
de informações pertinentes ao produto.
O conjunto de dados é constituído de 7321 clientes, sendo 2227 clientes inadimplentes.
56
As variáveis consideradas foram: tipo de cliente, tempo de emprego, sexo, idade, estado
civil, limite de crédito, tempo de residência, região e prossão.
O procedimento foi o mesmo que o realizado anteriormente. O conjunto de dados
foi dividido, de forma aleatória, em dois subconjuntos: um conjunto de constrão (D
C
)
representando 70% dos dados originais e um conjunto de teste (D
T
) constituído pelos 30%
restantes dos dados. Como estão sendo consideradas 10 covariáveis, existem 2
10
= 1024
possíveis modelos a serem ajustados.
Para o método de seleção de modelos Stepwise, o modelo selecionado foi:
y =
0
+
1
x1 +
2
x2 +
3
x3 +
4
x4 +
5
x5 +
7
x7 +
8
x8
Utilizando os dados de construção (D
C
), os 1024 possíveis modelos foram ajustados e
destes foram selecionados os modelos cujos pesos, ou probabilidades a posteriori, somavam
90% de incerteza, resultando em 909 modelos selecionados considerando abordagem clás-
sica e 17 modelos considerando a abordagem bayesiana. Nas Tabelas 6-10 e 6-11 estão
apresentados, em ordem decrescente, os AIC s e pesos dos 10 modelos com maiores pe-
sos os BICs e probabilidades a posteriori dos 10 modelos com maiores probabilidades a
posteriori.
Tabela 6-10: Os 10 modelos com maiores pesos
Modelo AIC W
1010 8,5429 0,0011
961 8,5440 0,0011
1023 8,5444 0,0011
1020 8,5449 0,0011
1007 8,5455 0,0011
1004 8,5460 0,0011
966 8,5461 0,0011
1024 8,5464 0,0011
967 8,5466 0,0011
1019 8,5475 0,0011
57
Tabela 6-11: Os 10 modelos com maiores probabilidades a posteriori
Modelo BIC PostProb
1010 -8992,209 0,2212
961 -8991,507 0,1557
1023 -8990,307 0,0855
1020 -8989,854 0,0681
1007 -8989,610 0,0603
966 -8989,474 0,0564
1004 -8989,162 0,0482
967 -8988,960 0,0436
846 -8988,150 0,0291
1024 -8987,948 0,0263
Observando-se as Tabelas 6-10 e 6-11 verica-se que, tanto na ponderação clássica
como na bayesiana, uma considerável incerteza devido à escolha do modelo, pois o
modelo com maior peso (0; 0011) representa apenas 0; 11% do peso total e o modelo com
maior probabilidade a posteriori (0; 2212) representa 22; 12% da probabilidade a posteriori
total, o que indica que não nenhum modelo que poderia ser selecionado e tido como o
melhor modelo para se fazer a predição que se deseja.
Utilizando apenas os modelos selecionados e o conjunto de teste (D
T
) as predições
foram obtidas para as duas abordagens de ponderão de modelos e para o método de
seleção de modelos Stepwise.
As Figuras 6-12, 6-13 e 6-14 mostram as curvas ROC para cada uma das abordagens
consideradas. Na Tabela 6-12 estão apresentados os pontos de corte, as medidas de
capacidade preditiva, a área sob a curva e o logaritmo do score preditivo, descritos na
Seção 4.3, obtidos para cada uma das abordagens consideradas.
58
Figura 6-12: Curva ROC do método de seleção de modelos Stepwise.
Figura 6-13: Curva ROC do método de ponderação de modelos abordagem clássica.
59
Figura 6-14: Curva ROC do método de ponderação de modelos abordagem bayesiana.
Tabela 6-18: Medidas de Capacidade Preditiva
Pto de Corte CAT CAU CAZ AUC Log Score
Stepwise 0.306 62.1 63.1 60.1 0.647 -2841.38
Clássico 0.318 63.4 67.2 55.2 0.649 -2743.37
Bayesiano 0.302 61.6 61.9 60.9 0.648 -2836.96
Pela análise das medidas de capacidade CAT, CAU, CAZ e AUC apenas para o método
de ponderação de modelos abordagem clássica houve um aumento em relação ao método
de seleção de modelos Stepwise. para o todo de ponderão de modelos abordagem
bayesiana veri…ca-se que estas medidas são praticamente iguais as do método de seleção
de modelos Stepwise.
Pela análise do logaritmo do score preditivo observa-se que o método de ponderação de
modelos - abordagem clássica - tem maior capacidade preditiva do que o todo de seleção
de modelos Stepwise. A melhora no score preditivo do todo de ponderação de modelos
60
em relação ao método de seleção de modelos Stepwise foi de
1
= 4; 42 na bayesiana e de
2
= 98; 01 na clássica. O conjunto de teste era composto de n
teste
= 2196 observações,
então, o resultado signi…ca que, em média, a probablidade preditiva do método de pon-
deração de modelos, tanto na abordagem clássica como na bayesiana, foi maior do que
o todo de seleção de modelos Stepwise por um fator de exp(
1
=n
teste
) = 1; 002015, ou
seja, 0; 202% na abordagem bayesiana e exp(
2
=n
teste
) = 1; 045642, ou seja, 4; 56% na
abordagem clássica. Em outras palavras, o todo de ponderão de modelos prediz se
um indivíduo se inadimplente 0; 202% melhor na abordagem bayesiana e 4; 56% na
abordagem clássica de ponderão de modelos do que o método de seleção de modelos
Stepwise.
Capítulo 7
Concluo
Com o estudo de simulação apresentado na Seção 6.1.1 pode-se concluir que as abor-
dagens de ponderação apresentadas produzem propriedades similares. Esta similaridade
era esperada uma vez que as prioris e aproximações utilizadas na ab ordagem bayesiana a
formulação nal da distribuição a posteriori preditiva ca muito próxima da versão clás-
sica. Os vícios das abordagens clássica e bayesiana são muito próximos e diminuem com
o aumento do tamanho da amostra. Com relão a comparação das variâncias (Figura
6-8) verica-se que as estimativas obtidas pela proposta de Buckland et. al. (1997) e do
estimador BMA acompanham o comportamento das variâncias obtidas por simulação, e,
por serem médias dos valores obtidos em cada simulação apresentam um comportamento
suavizado nos picos. O todo bootstrap - reamostragem dos resíduos apresenta um com-
portamento próximo aos anteriores. as estimativas obtidas para o método boostrap -
reamostragem dos pares estrati…cado apresentam um comportamento diferente das outras
abordagens. Apenas no conjunto 2, para n = 50; o comportamento obtido é o mesmo das
outras abordagens consideradas. Pode-se concluir de forma geral, para as con…gurações
consideradas nesta simulação, que, com o aumento do tamanho da amostra observa-se
maior concorncia entre as variâncias, ou seja, as abordagens produzem resultados mais
próximos.
A aplicação feita na Seção 6.2 mostrou, através do logaritmo do score preditivo, que o
todo de ponderação de modelos aumentou em mais de 14% a capacidade preditiva em
relão ao todo de seleção de modelos. O desempenho observado nas outras medidas de
capacidade preditiva não foi conclusivo. Os resultados do estudo de simulação mostraram
62
que, em média, há um aumento da capacidade preditiva do método de ponderão em
relão ao todo de seleção de modelos Stepwise. Este aumento é medido de forma mais
signi…cativa ao utilizar o logaritmo do score preditivo e foi de 31% para a abordagem
clássica e de 41% para a abordagem bayesiana.
A aplicão da metodologia de ponderação de modelos em um conjunto de dados real,
apresentou aumento na capacidade preditiva, através do logaritmo do score preditivo, ape-
nas na abordagem clássica (4; 56%). A abordagem bayesiana teve o mesmo desempenho
obtido pelo método de seleção de modelos Stepwise. As outras medidas de capacidade
preditiva, novamente, foram inconclusivas.
Nos exemplos de aplicão, os resultados não foram conclusivos havendo discorncia
entre o logaritmo do score preditivo e as medidas de capacidade preditiva CAT, CAU,
CAZ e AUC. Foi interessante o resultado do estudo de simulação do exemplo da Seção
6.3 que apresentou , em média, melhoria da capacidade preditiva quando se usa o método
de ponderação de modelos tanto na abordagem clássica como na bayesiana.
Um ponto observado neste trabalho foi a di…culdade de se captar o ganho na capaci-
dade preditiva devido ao fato da necessidade de classi…cação da variável resposta nas
categorias 0 e 1. Se for considerado o caso de regreso linear, a medida de capacidade
preditiva compara a estimativa diretamente com o valor observado. Assim, toda pequena
diferea fornecida pelo estimador pode ser um ganho. No caso logístico, categorizar o
valor predito para 0 ou 1, faz com que se perca estes pequenos ganhos.
Apesar de não se poder generalizar os resultados aqui obtidos, pode-se dizer que
esse aumento na capacidade preditiva obtida pelo método de ponderação de modelos,
embora pequeno, em geral, é de grande interesse pois, sempre quando se deseja predizer
um evento espera-se que a predição obtida seja a mais precisa possível. Desta forma,
considerando o fato da facilidade da aplicação da técnica, salvo a conjuntos de dados com
muitas covariáveis, e consequentemente muitos modelos, que tornam o procedimento lento
e muitas vezes inviável, esta deve ser utilizada para se garantir uma melhora na capacidade
preditiva, sempre que houver incerteza quanto à escolha de um melhor modelo.
Referências Bibliográ…cas
[1] ABREU, H.J. Aplicão de Análise de Sobrevicência em um problema de Credit Score
e comparão com a Regressão Logística. São Carlos, 2004. 116p. Tese de Mestrado
- UFSCar.
[2] AKAIKE, H. Information theory and an extension of the maximum likelihood prini-
ple. In Breakthroughs in Statistics, V.1, eds. S. Kotz & N. L. Johnson, p.610-624.
New York:Springer. 1973.
[3] BUCKLAND, S.T., BURNHAN, K.P. and AUGUSTIN, N.H. Model selection: An
integral part of inference. Biometrics, V.53, p.603-618, 1997
[4] COLLETT, D. Modelling Binary Data, London:Chapman & Hall, 1991, 289p.
[5] CANDOLO, C. A incorporação da incerteza devido a escolha de modelos na inferência
estatística com aplicão em modelos de regressão linear. Piracicaba, 2001. 80p. Tese
(Doutorado) - ESALQ-USP.
[6] CANDOLO, C., SILVEIRA, R.M., Um Estudo da Incorporação da Incerteza na
Selão de Modelos em Regressão Logística. Iniciação cientí…ca, FAPESP, 2003.
[7] DAVISON, A. C., HINKLEY, D.V. Bootstrap Methods and their Application.
Cambridge University Press, 1997. 582p.
[8] DEMÉTRIO, C.G.B. Modelos Lineares Generalizados na Experimentação
Agronômica, V SEAGRO e XXXVIII RBRAS. Porto Alegre: DE/UFRGS,
1993, 125p.
[9] DOBSON, A.J. An Introduction to Generalized Linear Models, London:
Chapman & Hall, 1990, 174p.
64
[10] DRAPER, D. Assessment and propagation of model uncertainty (with Discussion).
Journal of Royal Statistical Society, Série B, V.57, p.45-97, 1995.
[11] EFRON, B. Bootstrap methods: another look at the jacknife. Annals of statistics,
V.7, p.1-26, 1979.
[12] EFRON, B. & TIBSHIRANI, R. J. An Introduction to the Bootstrap. New
York:Chapman & Hall, 1993, 436p.
[13] GOOD, I.J. Rational decisions. Journal of Royal Statistical Society, rie B,
V.14, n.1, p.107-114, 1952.
[14] HOETING, J.A. Accounting for Model Uncertainty in Linear Regression. Seattle,
1994. 167p. Thesis (Ph.D.) - University of Washington, 1994.
[15] HOETING, J.A., MADIGAN, D., RAFTERY, A,E, & VOLINSKY, C.T. Bayesian
model averaging: a tutorial (with Dicussion). Statistical Science, V.14, p.382-417,
1999.
[16] JEFFREYS, H. Theory of probability (3
rd
ed.), Oxford, U.K, Oxford University
Press, 1961.
[17] JOHNSON, R.W. Fitting percentage of body fat to simple body measurements.
Journal od Statistics Education V.4, 1996.
[18] MADIGAN, D., ANDERSSON, S.A., PERLMAN, M. AND VOLINSKY, C.T.
Bayesian model averaging and model selection for markov equivalence classes of
acyclic digraphs. Communs Statistics Theory Methodology, 25, 2493-2520,
1996.
[19] MADIGAN, D. & RAFTERY, A.E. Model selection and accounting for model un-
certainty in graphical models using Occams window. Journal of the American
Statistical Association, V.89, p.1535-1546, 1994.
[20] MADIGAN, D. & YORK, J. Baeysian graphical models for discrete data. Interna-
tional Statistical Review, V. 63, p.215-232, 1995.
65
[21] NETER, J., KUTNER, M.H., NACHTSHEIN, C.J. e WASSERMAN, W. Applied
Linear Statistical Models. 3ed. Chicago:Irwin, 1996, 1408p.
[22] RAFTERY, A.E. Bayesian model selection in so cial research (with Discussion). In
Sociological Methodology, p.111-196, 1995.
[23] RAFTERY, A.E. Approximated Bayes factor and accounting for model uncertainty
in generalised linear models. Biometrika, V.83, p.251-266, 1996.
[24] RAFTERY, A.E., MADIGAN, D. & HOETING, J.A. Bayesian model averaging
for linear regression models. Journal of the American Statistical Association,
V.92, p.179-191, 1997.
[25] SCHWARZ, G. Estimating the dimensions of a model. Annals os Statistics, V.6,
p.461-463, 1978.
[26] TAPLIN, R.H. Robust likehood calculation for time series. Journal of Royal Sta-
tistical Society, rie B, V.55, p.829-836, 1993.
[27] TAPLIN, R.H. & RAFTERY, A.E. Analisys of agricultural eld trials in the presence
of outliers an fertility jumps. Biometrics, V.50, p.764-781, 1994.
[28] TIERNEY, L. & KADANE, J.B. Accurate approximations for posterior moments
and marginal densities. Journal of the American Statistical Association, V.81,
p.82-86, 1986.
[29] VOLINSKY, C.T., MADIGAN, D., RAFTERY, A.E. and KRONMAL, R.A.
Bayesian model averaging in proportional hazard models: assessing the risk os a
stroke. Applied Statistics, V.46, n.4, p.433-448. 1997.
[30] ZWEIG, M. H., Receiver-operating characteristic (ROC) plots. Campbell, G., Clin.
Chem., 29, 561-577, 1993.
Apêndice A
Estimão em Modelos Lineares
Generalizados
Para a construção deste texto, que apresentará a metodologia de modelos lineares
generalizados, podem ser citados como referências Dobson(1990) e Demétrio (1993).
Sejam as variáveis aleatórias independentes Y
1
; :::Y
n
com médias
1
; :::;
n
, isto é,
E(Y
i
) =
i
; i = 1; 2; :::; n;
tais que Y
i
tem distribuição pertencente a família exponencial com as seguintes pro-
priedades:
1. A distribuição de cada Y
i
pertence à família exponencial na forma canônica e
dependem de um único parâmetro
i
; isto é,
f(y
i
;
i
) = exp[y
i
b
i
(
i
) + c
i
(
i
) + d
i
(y
i
)]; (A.1)
onde b(:) e c(:) são funções conhecidas e o parâmetro
i
é chamado de parâmetro natural
da família exponencial.
2. A distribuição de todos os Y
i
s são da mesma forma.
Assim, a função densidade de probabilidade conjunta dos Y
i
s pode ser expressa p or
f(y
1
; :::; y
n
;
1
; :::;
n
) = exp[
n
P
i=1
y
i
b
i
(
i
) +
n
P
i=1
c
i
(
i
) +
n
P
i=1
d
i
(y
i
)]: (A.2)
67
Para a especi…cação do modelo, os parâmetros
i
o são de interesse direto (desde que
um para cada observação) e sim um conjunto menor de parâmetros
1
; :::;
p
(p < n)
de tal forma que a combinação linear dos s seja igual a alguma função do valor esperado
de Y
i
, isto é,
g(
i
) = x
T
i
; (A.3)
onde g é uma função monótona e diferenciável chamada de função de ligação, x
i
é o vetor
de variáveis explicativas de dimensão px1 e = [
1
; :::;
p
] o vetor de parâmetros de
dimensão px1:
Assim, o modelo linear generalizado é de…nido por três componentes:
1. um componente aleatório representado pelas variáveis respostas Y
i
; i = 1; 2; :::; n;
vindas de uma mesma distribuição que faz parte da família exponencial;
2. um componente sistemático que especi…ca as variáveis explicativas usadas como
preditoras no modelo, ou seja, um conjunto de parâmetros e as variáveis explicativas
X =
2
6
6
6
4
x
T
1
.
.
.
x
T
n
3
7
7
7
5
;
3. uma função de ligação, g(:);que descreve a relação funcional entre o componente
sistemático e o valor esperado (média) do componente aleatório, ou seja,
g(
i
) = x
T
i
; (A.4)
onde
i
= E(Y
i
): (A.5)
Além disso, a variância é uma função explicita da dia ;
V ar(Y
i
) = V (); (A.6)
onde V () é uma função de variância conhecida e o parâmetro de dispersão, que geral-
mente é desconhecido.
A partir da de…nição de um modelo linear generalizado, obtêm-se o estimador de
68
xima verossimilhaa dos parâmetros no ajuste do modelo. O logaritmo da função
de verossimilhança (A.2) é dado por
l (; y) =
n
P
i=1
y
i
b
i
(
i
) +
n
P
i=1
c
i
(
i
) +
n
P
i=1
d
i
(y
i
); (A.7)
e, a média e a variância dos Y
i
s são dadas, respectivamente, por
E(Y
i
) =
i
= c(
i
)=b(
i
); (A.8)
e
V ar(Y
i
) = [b(
i
)c(
i
) c(
i
)b(
i
)]=[b(
i
)]
3
: (A.9)
A função de ligação pode ser reescrita como
g(
i
) = x
T
i
=
i
: (A.10)
Uma propriedade da família exponencial é que ela satisfaz as condões de regularidade
para se encontrar um máximo global do logaritmo da função de verossimilhança, e que é
obtido unicamente pela solução do sistema de equões
@l
@
= 0:
Dobson (1990) mostra que
U
j
=
@l(; y)
@
j
=
n
P
i=1
@l
i
@
j
; (A.11)
onde
l
i
= y
i
b
i
(
i
) + c
i
(
i
) + d
i
(y
i
): (A.12)
Para obter U
j
utilizamos a relão
@l
i
@
j
=
@l
i
@
i
@
i
@
i
@
i
@
j
(A.13)
Diferenciando (A.12) e substituindo em (A.8) obtemos
@l
i
@
i
= y
i
b(
i
) + c(
i
) = b(
i
)(y
i
i
): (A.14)
Diferenciando (A.8) e substituindo em (A.9) tem-se
69
@
i
@
i
=
c(
i
)
b(
i
)
+
c(
i
)b(
i
)
[b(
i
)]
2
= b(
i
)var(Y
i
); (A.15)
e diferenciando (A.10)
@
i
@
j
=
@
i
@
i
@
i
@
j
= x
ij
@
i
@
i
: (A.16)
Então,
@l
i
@
j
=
@l
i
@
i
@
i
@
j
=
@
i
@
i
=
(y
i
i
)x
ij
var(Y
i
)
@
i
@
i
: (A.17)
Assim,
@l
@
j
= U
j
=
N
P
i=1
(y
i
i
)x
ij
var(Y
i
)
@
i
@
i
: (A.18)
As equações U
j
= 0 são não lineares e devem ser resolvidas p or iterão numérica.
Utilizando o todo de Newton-Raphson a m-ésima aproximão é dada por
b
(m)
= b
(m1)
@
2
l (; y)
@
j
@
k
1
=b
(m1)
U
(m1)
; (A.19)
onde
h
@
2
l(;y)
@
j
@
k
i
=b
(m1)
é a matriz da segunda derivada de l; calculada em = b
(m1)
e
U
(m1)
é o vetor das primeiras derivadas U
j
=
@l(;y)
@
j
; calculada em = b
(m1)
:
Um procedimento alternativo ao todo de Newton-Raphson é o método Score. Este
consiste em substituir a matriz das segundas derivadas pela matriz dos valores esperados
E
@
2
l (; y)
@
j
@
k
; (A.20)
que é igual à matriz negativa de variância-covariância dos U
j
s: A matriz de informação
= = E[UU
T
] é formada pelos elementos
=
jk
= E[U
j
U
k
] = E
@l
@
j
@l
@
k
= E
@
2
l (; y)
@
j
@
k
: (A.21)
Assim, a equação (A.19) pode ser substituída por
b
(m)
= b
(m1)
+ [=
(m1)
]
1
U
(m1)
; (A.22)
onde =
(m1)
é a matriz de informação calculada em b
(m1)
. Multiplicando-se ambos os
70
lados da equação (A.22) por =
(m1)
obtêm-se
=
(m1)
b
(m)
= =
(m1)
b
(m1)
+ U
(m1)
: (A.23)
Dado que os elementos da matriz de informão são de…nidos por =
jk
= E[U
j
U
k
];
então;
E
@l
i
@
j
@l
i
@
k
= E
"
(y
i
i
)
2
x
ij
fvar(Y
i
)g
2
@
i
@
i
2
#
=
x
ij
x
ik
var(Y
i
)
@
i
@
i
2
: (A.24)
Portanto o (j; k)ésimo elemento de = é
=
jk
=
N
P
i=1
x
ij
x
ik
var(Y
i
)
@
i
@
i
2
: (A.25)
Sendo assim, = pode ser escrito como = = X
T
W X;onde W é uma matriz diagonal
nxn formada p elos elementos
w
ii
=
1
var(Y
i
)
@
i
@
i
2
: (A.26)
O lado direito da expreso (A.23) é um vetor com elementos
P
k
P
i
x
ij
x
ik
var(Y
i
)
@
i
@
i
2
b
(m1)
k
+
P
i
(y
i
i
)x
ij
var(Y
i
)
@
i
@
i
(A.27)
calculados em b
(m1)
. Então, o lado direito da expressão (A.23) pode ser reescrito como
X
T
W z;onde z tem os elementos z
i
=
P
k
x
ij
b
(m1)
k
+ (y
i
i
)
@
i
@
i
;com
i
e
@
i
@
i
avaliados
em b
(m1)
.
Por m, a equação iterativa para o todo Score, (A.23), pode ser escrita como
X
T
W Xb
(m)
= X
T
W z: (A.28)
A equão iterativa para o método de Score tem a mesma forma das equações normais
para modelos lineares obtidos por mínimos quadrados ponderados. Então, para modelos
lineares generalizados os estimadores de máxima verossimilhança são obtidos por um pro-
cedimento iterativo de mínimos quadrados ponderados, chamado de mínimos quadrados
ponderados iterativamente.
Apêndice B
Programas Desenvolvidos para as
Aplicações
1. Função que faz os cálculos da ponderação clássica de modelos
# Seleção dos melhores modelos
#matriz com os resultados dos 8192 ajustes: indice do modelo, aic
resultclas<-matrix(0,ncol=2,nrow=8192)
dimnames(resultclas)<-list(NULL,c("MODEL","AIC"))
## ajuste do modelo so com bo
ajuste1<-glm(y~1, data=dados, family=binomial(link=logit))
resultclas[1,1]<-1
resultclas[1,2]<-ajuste1$aic
#ajuste do 8191 modelos restantes
for (i in 2:8192){
xsel<-x[,XM[i,]]
yx<-data.frame(y=y,xsel)
ajuste1<-glm(y~.,data=yx,family=binomial(link=logit))
resultclas[i,1]<-i
resultclas[i,2]<-ajuste1$aic
}
#Calculo dos W
w<-exp(-resultclas[,2]/2)/sum(exp(-resultclas[,2]/2))
72
resultclas<-cbind(resultclas,w)
dimnames(resultclas)<-list(NULL,c("MODEL","AIC","W"))
resultclas[1:5,]
#ordenao pelo W
resultclasordenado<-resultclas[order(resultclas[,3],resultclas[,1]),1:3]
round(resultclasordenado[8192:8172,],digits=4)
XM[resultclasordenado[8192:8172,1],]
#calculo de w acumulados
aux<-cumsum(resultclasordenado[,3])
#escolha dos modelos que acumulam os maiores 90% dos w’s
numclas<-length(aux[aux>0.1])
resultclasordenado2<-cbind(resultclasordenado,aux)
dimnames(resultclasordenado2)<-list(NULL,c("MODEL","AIC","W","WCUM"))
index<-resultclasordenado2[resultclasordenado2[,4]>0.1,1]
#matrix de modelos com ostop models
XMtopclas<-XM[index,]
# lculo das predões usando os modelos selecionados
#matriz com os resultados dos top model
resultclas2<-matrix(0,ncol=(length(yteste)+2),nrow=numclas)
for(i in 1:numclas){
x<-xconst[,XMtopclas[i,]]
yx<-data.frame(y=yconst,x)
x<-xteste[,XMtopclas[i,]]
x…nal<-data.frame(x)
ajuste1<-glm(y~.,data=yx,family=binomial(link=logit))
pred<-predict.glm(ajuste1, newdata=x…nal,se.…t=T,type="response")
resultclas2[i,1]<-i
resultclas2[i,2]<-ajuste1$aic
resultclas2[i,3:(length(yteste)+2)]<-pred$t
}
#Calculo dos W
73
w2<-exp(-resultclas2[,2]/2)/sum(exp(-resultclas2[,2]/2))
#Calculo do Thetachapeu
thetachapeuclas<-t(as.matrix(w2))%*%resultclas2[,3:(length(yteste)+2)]
2. Função que faz o cálculo da ponderação de mo-
delos abordagem bayesiana
# Seleção dos melhores modelos
prior.weight.denom<-0.5^13
#matriz com os resultados dos 8192 ajustes: indice do modelo, aic
resultbayes<-matrix(0,ncol=4,nrow=8192)
dimnames(resultbayes)<-list(NULL,c("MODEL","DEVIANCE","DF","BIC"))
## ajuste do modelo so com bo
ajuste1<-glm(y~1, data=dados, family=binomial(link=logit))
resultbayes[1,1]<-1
resultbayes[1,2]<-ajuste1$deviance
resultbayes[1,3]<-ajuste1$df.residual
resultbayes[1,4]<-resultbayes[1,2]-resultbayes[1,3]*log(length(dados))-
2*log(prior.weight.denom)
#ajuste do 8191 modelos restantes
for (i in 2:8192){
xsel<-x[,XM[i,]]
yx<-data.frame(y=y,xsel)
ajuste1<-glm(y~.,data=yx, family=binomial(link=logit))
resultbayes[i,1]<-i
resultbayes[i,2]<-ajuste1$deviance
resultbayes[i,3]<-ajuste1$df.residual
resultbayes[i,4]<-resultbayes[i,2]-resultbayes[i,3]*log(length(dados))-
2*log(prior.weight.denom)
}
#Calculo das probabilidades a posteriori
postprob<-exp(-0.5*(resultbayes[,4]-min(resultbayes[,4]))) /
sum(exp(-0.5*(resultbayes[,4]-min(resultbayes[,4]))))
74
resultbayes<-cbind(resultbayes,postprob)
dimnames(resultbayes)<-list(NULL,c("MODEL","DEVIANCE","DF",
"BIC","POSTPROB"))
resultbayes[1:5,]
#ordenao pela postprob
resultbayesordenado<-resultbayes[order(resultbayes[,5],resultbayes[,1]),1:5]
round(resultbayesordenado[8192:8172,],digits=4)
XM[resultbayesordenado[8192:8172,1],]
#calculo das postprob acumulados
aux<-cumsum(resultbayesordenado[,5])
#escolha dos modelos que acumulam os maiores 90% das post prob
numbayes<-length(aux[aux>0.1])
numbayes
resultbayesordenado2<-cbind(resultbayesordenado,aux)
dimnames(resultbayesordenado2)<-list(NULL,c("MODEL","DEVIANCE","DF",
"BIC","PPOST","PPOSTCUM"))
index<-resultbayesordenado2[resultbayesordenado2[,6]>0.1,1]
#matrix de modelos com top models
XMtopbayes<-XM[index,]
# lculo das predões usando os modelos selecionados
#matriz com os resultados dos top model
resultbayes2<-matrix(0,ncol=(length(yteste)+4),nrow=numbayes)
for(i in 1:numbayes){
x<-xconst[,XMtopbayes[i,]]
yx<-data.frame(y=yconst,x)
x<-xteste[,XMtopbayes[i,]]
x…nal<-data.frame(x)
ajuste1<-glm(y~.,data=yx,family=binomial(link=logit))
pred<-predict.glm(ajuste1, newdata=x…nal,se.…t=T,type="response")
resultbayes2[i,1]<-i
resultbayes2[i,2]<-ajuste1$deviance
75
resultbayes2[i,3]<-ajuste1$df.residual
resultbayes2[i,4]<-resultbayes2[i,2]-resultbayes2[i,3]*log(length(dadosconst))-
2*log(prior.weight.denom)
resultbayes2[i,5:(length(yteste)+4)]<-pred$t
}
#Calculo das probabilidades a posteriori
postprob2<-exp(-0.5*(resultbayes2[,4]-min(resultbayes2[,4]))) /
sum(exp(-0.5*(resultbayes2[,4]-min(resultbayes2[,4]))))
#Calculo do Thetachapeu
thetachapeubayes<-t(as.matrix(postprob2))
%*%resultbayes2[,5:(length(yteste)+4)]
3. Cálculo da predão utilizando o método de se-
leção de modelos Stepwise
ajuste<-glm(y~.,data=dados, family=binomial(link=logit))
step(ajuste)
ajustestep<-glm(y~x4 + x6 + x11 + x12 + x13 ,data=dadosconst,
family=binomial(link=logit))
pred<-predict.glm(ajustestep, newdata=dadosteste,se.…t=T,type="response")
thetachapeustep<-pred$…t
4. Função bootstrap utilizada para o estudo de si-
mulação
# função a ser utilizada no bootstrap
calculos<-function(nomedf){
#intercepto
ajuste1<-glm(y~1, data=nomedf, family=binomial(link=logit))
aic1<-ajuste1$aic
p1<-predict.glm(ajuste1,type="response")
#x1
ajuste2<-glm(y~x1, data=nomedf, family=binomial(link=logit))
aic2<-ajuste2$aic
76
p2<-predict.glm(ajuste2,type="response")
#x2
ajuste3<-glm(y~x2, data=nomedf, family=binomial(link=logit))
aic3<-ajuste3$aic
p3<-predict.glm(ajuste3,type="response")
#x1 e x2
comp<-glm(y~.,data=nomedf, family=binomial(link=logit))
aic4<-comp$aic
p4<-predict.glm(comp,type="response")
w1<-exp(-aic1/2)/(exp(-aic1/2)+exp(-aic2/2)+exp(-aic3/2)+exp(-aic4/2))
w2<-exp(-aic2/2)/(exp(-aic1/2)+exp(-aic2/2)+exp(-aic3/2)+exp(-aic4/2))
w3<-exp(-aic3/2)/(exp(-aic1/2)+exp(-aic2/2)+exp(-aic3/2)+exp(-aic4/2))
w4<-exp(-aic4/2)/(exp(-aic1/2)+exp(-aic2/2)+exp(-aic3/2)+exp(-aic4/2))
th<-w1*p1 + w2*p2 + w3*p3 + w4*p4
th
}
#funcao do bootstrap residuos (mod completo)
bootfun1e2<-function(data,i) {
y<-data$t + sqrt(data$…t*(1-data$t))*data$pearson[i]
y[y < 0]<-0
y[y > 1]<-1
y[y > 0.5]<-1
y[y < 0.5]<-0
data$y<-y
calculos(data) }
#funcao bo otstrap pares
bootfun4<-function(data,i) {
calculos(data[i,]) }
5. Grácos das Curvas ROC
m4<-list(thetachapeustep,yteste)
names(m4)<-list("Preditos","Original")
77
pred1 <- prediction(m4$Preditos, m4$Original)
perf1<- performance(pred1,"tpr","fpr")
ROC(thetachapeustep,yteste,plot="ROC",PV=TRUE,AUC=TRUE,MX=TRUE,
main="Curva ROC Clássico")
m4<-list(thetachapeuclas,yteste)
names(m4)<-list("Preditos","Original")
pred2 <- prediction(m4$Preditos, m4$Original)
perf2<- performance(pred2,"tpr","fpr")
ROC(thetachapeuclas,yteste,plot="ROC",PV=TRUE,AUC=TRUE,MX=TRUE,
main="Curva ROC Stepwise")
names(m4)<-list("Preditos","Original")
pred3 <- prediction(m4$Preditos, m4$Original)
perf3<- performance(pred3,"tpr","fpr")
ROC(thetachapeubayes,yteste,plot="ROC",PV=TRUE,AUC=TRUE,MX=TRUE,
main="Curva ROC Bayesiano")
6. Classicação das predões e cálculos das medidas
de capacidade preditiva
vetor<-rep(0,length(yteste))
vetor[thetachapeustep<0.451]<-0
vetor[thetachapeustep>0.451]<-1
tabstep<-table(vetor,yteste)
tabstep
A<-sum(tabstep[,1])
B<-sum(tabstep[,2])
a<-sum(tabstep[1,])
b<-sum(tabstep[2,])
n<-sum(tabstep)
cat<-(tabstep[2,2]+tabstep[1,1])/n
round(cat,digits=3)
caz<-tabstep[1,1]/A
round(caz,digits=3)
78
cau<-tabstep[2,2]/B
round(cau,digits=3)
logclas<-sum(log(thetachapeuclas))
logstep<-sum(log(thetachapeustep))
logbayes<-sum(log(thetachapeubayes))
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo