Download PDF
ads:
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
TEORIA E MÉTODOS DE MEDIDA
EM CIÊNCIAS DO COMPORTAMENTO
ads:
SECRETARIA DE AVALIAÇÃO E INFORMAÇÃO EDUCACIONAL
Secretária
Maria Helena Guimarães de Castro
INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS
Diretor-Geral
Og Roberto Dória
Coordenadora-Geral de Divulgação de Informações Educacionais
Christina Helena Micheli Velho
Coordenadora de Difusão e Promoção
Sueli Macedo Silveira
Pasquali, Luiz.
Teoria e métodos de medida em ciências do comportamento /
organizado por Luiz Pasquali. — Brasília: Laboratório de Pesquisa em
Avaliação e Medida / Instituto de Psicologia / UnB: INEP, 1996.
432p.
1. Psicometria 2. Psicofisica. 3. Psicologia do comportamento. 4.
Testes psicológicos. I. Título
CDU : 159.9.019.43
TEORIA E MÉTODOS DE MEDIDA
EM CIÊNCIAS DO COMPORTAMENTO
LUIZ PASQUALI
(Organizador)
TEORIA E MÉTODOS DE MEDIDA EM CIÊNCIAS DO COMPORTAMENTO
Edição financiada pelo Instituto Nacional de Estudos e Pesquisas Educacionais
Editoração eletrônica
Antonio Bezerra Filho
Francisco Edilson de Carvalho Silva
Revisão de texto
Antonio Bezerra Filho José
Adelmo Guimarães
Capa
Acácio Valerio da Silva Reis
Nenhum capítulo deste livro poderá ser reproduzido, por qualquer processo,
sem autorização expressa do autor respectivo.
©1996 by Luiz Pasquali
INEP — Coordenadoria-Geral de Divulgação de Informações Educacionais
Coordenadoria de Difusão e Promoção
SGAS 607 — Lote 50 — Asa Sul
70200-670 —Brasília-DF
Fone: (061) 244-2612; 244-0001 — Ramais: 396/308
Fax:(061)244-4712
Impresso no Brasil
AGRADECIMENTOS
Muitas pessoas são responsáveis pelo final exitoso deste trabalho.
Contudo, devo especiais agradecimentos à colaboração substancial dada
pela equipe do Laboratório de Pesquisa em Avaliação e Medida do
Instituto de Psicologia da Universidade de Brasília, sem cujo apoio este
trabalho teria sido várias vezes mais dificultado. Notadamente, devo
agradecer a Alexandre Damanico da Cunha, Cláudia Cristina Fukuda,
Edilson Marcolino dos Santos, Heila Magali da Silva Veiga, Inaê de
Figueiredo Cerqueira, Ivânia Ghesti e, em especial, a Maria Mazzarello
Azevedo, vice-coordenadora do LÀBPAM.
O Organizador
SUMÁRIO
PREFÁCIO .................................................................................... 11
APRESENTAÇÃO ........................................................................ 13
OS AUTORES: PERFIL ACADÊMICO PROFISSIONAL ................ 15
I
a
PARTE — FUNDAMENTOS DA MEDIDA
EM CIÊNCIAS DO COMPORTAMENTO
Cap. 1 — Teoria da Medida............................................................. 21
Ciência e Matemática ................................................. 21
A natureza da medida ................................................. 22
A base axiomática da medida ..................................... 23
Formas e unidades de medida.................................... 27
A medida em ciências sociais e do comportamento .. 30
Níveis da medida (escalas de medida) ...................... 34
O problema do erro...................................................... 36
Importância da medida ............................................... 39
Conclusão.................................................................... 40
Referências bibliográficas............................................ 40
Cap. 2 — Teoria e Métodos em Psicofisica..................................... 43
Questões centrais em psicofisica................................ 44
Psicofisica clássica...................................................... 50
Psicofisica moderna .................................................. 53
Detecção de sinal ..................................................... 56
Psicofisica animal ...................................................... 60
Psicofisica da criança.................................................. 63
Conclusões.................................................................. 70
Referências bibliográficas............................................ 71
Cap. 3 — Medida Psicométrica ....................................................... 73
Teoria da medida psicométrica ................................... 74
Parâmetros psicométricos da medida ......................... 81
Conclusão geral........................................................... 111
Referências bibliográficas............................................ 112
Cap. 4 — Medidas Escalares.......................................................... 117
Escalas psicofísicas ................................................. 118
O enfoque de Thurstone.............................................. 119
O enfoque de Likert..................................................... 123
O enfoque de Guttman ............................................... 124
O enfoque do diferencial semántico............................ 126
O enfoque de Fishbein e Ajzen ................................ 129
Escala multidimensional ............................................. 129
Princípios de elaboração de escalas........................... 132
Conclusão.................................................................... 136
Referências bibliográficas............................................ 137
Cap. 5 — Escalagem Psicológica Unidimensional .......................... 141
O modelo dos julgamentos comparativos.................... 142
O modelo dos julgamentos categóricos....................... 147
O modelo de Luce ....................................................... 151
O modelo de Bradley-Terry ........................................ 153
Algumas considerações adicionais ........................... 157
Referências bibliográficas............................................ 158
Cap. 6 — Em torno do Ensino de Estatística nos Cursos de Base
Psicossocial .................................................................... 159
O ensino da psicometria e da estatística .................... 163
O que se deve ensinar .............................................. 167
Cap. 7 — Teoria da Resposta ao Item — IRT: uma Introdução ... 173
Características da IRT................................................. 175
Modelos da IRT ........................................................... 177
Determinação dos parâmetros de ¡tens e aptidões .. 179
Ajuste do modelo (model-data goodness-of-fif) ....... 183
Invariância dos parâmetros ......................................... 185
Funções de informação e eficiência............................ 188
Transformações do 0................................................... 190
Aplicações da IRT ....................................................... 192
Conclusão.................................................................... 194
Referências bibliográficas............................................ 194
2
a
PARTE — MÉTODOS E TÉCNICAS DE MEDIDA
EM CIÊNCIAS DO COMPORTAMENTO
Cap. 8 — Considerações em torno da Medida da Inteligência ___ 199
Por que falar ainda em medida da inteligência?.......... 200
Formas de avaliação da inteligência .......................... 203
Especificidades dos testes coletivos ........................... 205
Especificidades dos testes individuais......................... 206
Controvérsias em torno da avaliação da inteligência . 209
Alterações previsíveis na avaliação da inteligência .. 215
Conclusão.................................................................... 217
Referências bibliográficas............................................ 220
Cap. 9 — La Medición de la Organización Lógica del Pensamiento 225
Relaciones entre lógica, pensamiento e Psicologia . . 226
El problema de la lógica del pensamiento desde el
punto de vista de la Psicologia Cognitiva ........................... 232
Método................................................................................. 238
Conclusiones ...................................................................... 254
Referencias bibliográficas.................................................... 258
Cap. 10 — Observação do Comportamento.............................................. 263
Estudos observacionais no Brasil — anos 70...................... 263
Estudos observacionais no Brasil — anos 80 e 90 ... 279
Referências bibliográficas.................................................... 296
Cap. 11 — A Medida da Criatividade ...................................................... 305
As diferentes modalidades de medidas de criatividade 306
Questões relativas à fidedignidade, validade e con
dições de aplicação dos instrumentos de medida de
criatividade........................................................................... 311
Referências bibliográficas .................................................... 317
Cap. 12 — Estratégias e Medidas em Análise de Conteúdo .................... 319
Concepções e métodos em A.C .......................................... 322
Diferentes etapas de A.C ..................................................... 328
Conclusões e perspectivas .................................................. 337
Referências bibliográficas .................................................... 338
Cap. 13 — Medida Projetiva ................................................................... 341
Conceito de projeção e técnicas projetivas.......................... 342
Forças e fraquezas das técnicas projetivas ...................... 354
Referências bibliográficas.................................................... 360
Cap. 14 — A Medida na Teoria da Ação Racional..................................... 367
Afirmações básicas da Teoria da Ação Racional .... 370
A medida na Teoria da Ação Racional .............................. 373
Conclusão ............................................................................ 384
Referências bibliográficas.................................................... 385
Cap. 15 — Desenvolvimento de Instrumento para Levantamento de
Dados (Survey) .................................................................... 387
Considerações gerais sobre um instrumento ..................... 389
Desenvolvimento de itens.................................................... 393
Referências bibliográficas.................................................... 402
Cap. 16 — Evaluación Conductual: una Experiencia de Integración 405
¿Que es la evaluación conductual?..................................... 405
Perspectivas de la evaluación conductual ........................... 414
Referencias bibliográficas.................................................... 416
ÍNDICE ONOMÁSTICO ............................................................................ 419
ÍNDICE DE ASSUNTOS ......................................................................... 427
PREFÁCIO
A importância da avaliação na área educacional é um consenso
contemporâneo. O tema, até pouco tempo restrito à aprendizagem e de-
sempenho dos alunos, vem ganhando a necessária amplitude. Estende-
se objetivamente a projetos, programas, professores, currículos, instituições
e sistemas, numa abordagem que destaca a interdependência de todos
esses fatores.
Esta visão ampla e integrada é fundamental para responder à com-
plexidade e totalidade do ato educativo e traduz o processo de consolida-
ção da democracia brasileira. Ela expressa, sobretudo, a pressão social
de cidadãos mais conscientes e mais exigentes quanto ao padrão dos
serviços públicos que lhes são devidos.
Desde o início dos anos 90, o INEP tem sido um dos principais atores
da implementação do Sistema de Avaliação de Ensino Básico (SAEB).
Responsável pela avaliação do desempenho do sistema educacional, o
SAEB atua em três eixos: rendimento do aluno, perfil e prática docente e
gestão do ensino. A disseminação dos resultados obtidos com os três ciclos
de aplicação do SAEB indica que o sistema vem se constituindo um marco
importante na construção de uma cultura de avaliação já presente nas
redes de ensino estaduais e municipais. Indica também que o SAEB vem
cumprindo seu papel enquanto instrumento de suporte a formulação de
estratégias e políticas educacionais que buscam elevar a qualidade e
eqüidade da educação brasileira.
Um olhar crítico nessas experiências confirma a avaliação como um
pressuposto ético e uma política pública necessária. Esse mesmo olhar
crítico mostra, porém, que, para explorar todo o seu potencial e alcançar
suas finalidades, ainda há muito a ser construído nas dimensões política,
social e técnica da avaliação.
Este livro, que o INEP apresenta aos educadores — atuais e em
formação — e à sociedade em geral, traz a contribuição de importantes
especialistas em trabalhos que abordam os fundamentos, métodos e técni-
cas de medidas em ciências do comportamento. As questões aqui tratadas
certamente agregarão novos elementos aos debates e práticas de avalia-
ção que crescem em todo o País, sinalizando o compromisso com os alu-
nos, com a escola, com a educação transformadora e com a construção de
um país justo e igualitário.
Maria Helena Guimarães de Castro
APRESENTAÇÃO
A área da medida e da avaliação em ciências humanas e sociais, no
Brasil, está quase totalmente carente de publicações nacionais. Os poucos
textos existentes no mercado representam, em sua maioria, traduções de
obras estrangeiras de anos há muito tempo idos. Como esta área vem
mostrando um grande desenvolvimento nos últimos anos, essas traduções
se ressentem de atualidade, deixando o pesquisador e profissional
nacionais numa situação extremamente difícil de se aprofundar e atualizar
nos fundamentos e técnicas da medida nas áreas de estudo do comporta-
mento. O presente livro pretende ser o primeiro de uma série de obras
nesta área, visando superar a lacuna mencionada. Este primeiro trabalho
teve como intenção fundamental apresentar o status e os avanços da
tecnologia da medida nos vários ramos da Psicologia, bem como cobrir a
mais variada gama de enfoques que neles existem. O intento, creio, foi
conseguido em sua grande parte. Apesar de especialistas em algumas
áreas desta temática, após contatados, terem declinado de participar desta
aventura, grande parte da temática da medida em Psicologia foi abordada.
As áreas não abordadas neste livro dizem respeito, sobretudo, à medida
piagetiana, à avaliação dita qualitativa e à análise experimental do
comportamento. Evidentemente, outras muitas temáticas poderiam ser
consideradas para entrar num livro deste teor, sobretudo no contexto da
2
9
Parte, onde se trata mais de técnicas diferenciadas de avaliação do que
dos fundamentos da medida, situação que poderá ser sanada em futuras
edições, se for o caso.
O livro se divide em duas partes. A 1ª Parte — Fundamentos da
Medida em Ciências do Comportamento — trata, obviamente, de aspectos
epistemológicos e da fundamentação do enfoque quantitativista em
ciências do comportamento, mais especificamente em Psicologia. Ques-
tões epistemológicas e estatísticas são, conseqüentemente, o tema desta
parte. A teoria da medida é discutida no capítulo 1. Em seguida são
tratados tipos diferentes de enfoques epistemológicos da medida em
Psicologia, a saber, a medida psicofisica e a medida psicométrica. A
medida psicofisica é tratada no capítulo 2, enquanto os capítulos 3, 4, 5 e
7 tratam da medida psicométrica clássica e moderna e das escalas de
atitude. O capítulo 6, enfim, anota problemas com o uso da Estatística em
ciências do comportamento.
A 2
a
Parte — Métodos e Técnicas de Medida em Ciências do
Comportamento — trata do problema e das técnicas de mensuração ou de
avaliação em áreas específicas da Psicologia. Assim, a medida na área da
inteligência é tratada nos capítulos 8, 9 e 11 ; a observação do comporta-
mento, no capítulo 10; a análise de conteúdo, no capítulo 12; as técnicas
projetivas, no capítulo 13; a medida das atitudes, no capítulo 14; o capítulo
15 trata da técnica de survey, e o capítulo 16, da avaliação cognitivo-
comportamental.
Além de visar instrumentar pesquisadores e profissionais das
ciências do comportamento, este livro tem por objetivo iniciar uma
discussão mais técnica, menos emocional, sobre a medida nestas ciências
no País.
Brasília, setembro de 1996
Luiz Pasquali
OS AUTORES: PERFIL ACADÊMICO-PROFISSIONAL
Alfredo Oscar López Alonso
Licenciado em Psicologia e doutor em Filosofia e Letras, com orien-
tação psicológica, pela Universidade de Buenos Aires. Professor titular, em
nível de graduação e pós-graduacão, da Universidade de Buenos Aires,
da Universidade de Belgrano, da Universidade de Salvador e da Universi-
dade Nacional do Prata, na República Argentina. Sua especialização
principal, tanto em docência como na pesquisa, tem sido em temas de
medição em Psicologia, Psicometria, Metodologia da Pesquisa Psicològica
e em Psicologia Cognitiva, inteligência humana, processos inferenciais e
organização lógica do pensamento. É pesquisador principal do Conselho
Nacional de Investigações Científicas e Técnicas da República Argentina
(CONICET) e diretor do Instituto de Investigaciones Psicológicas da
Universidad del Salvador, em Buenos Aires, Argentina, onde leva a termo
seus trabalhos de pesquisa, como o que aqui se publica. É autor de mais
de 60 trabalhos e publicações nas temáticas acima evocadas.
Cecília Guarnieri Batista
Psicóloga pela Pontifícia Universidade Católica de Campinas (PUC-
CAMP) em 1972, concluiu o mestrado (1978) e o doutorado (1989) em
Psicologia pelo Departamento de Psicologia Experimental do Instituto de
Psicologia da Universidade de Sao Paulo (USP). Lecionou na UNIP (São
Paulo) e na PUC-CAMP, notadamente Psicologia do Desenvolvimento.
Participou na elaboração de projetos relacionados à prevenção de defi-
ciências e à implantação do Programa de Integração e Desenvolvimento
da Criança e do Adolescente (Prodecad), atualmente subordinado à Pró-
Reitoria de Extensão e Assuntos Comunitários da UNICAMP. Atuou como
psicóloga escolar do Prodecad, especialmente com os filhos de funcioná-
rios de baixa renda de universidade que cursavam da 1ª à 4
a
série do
primeiro grau (Programa de Apoio à Escolaridade). Presentemente, como
docente de Educação Especial e Reabilitação no Centro de Estudos e
Pesquisas Prof. Dr. Gabriel Porto (CEPRE), da Faculdade de Ciências
Médicas da UNICAMP, trabalha na área de deficiência visual, auditiva e
múltipla. Seu trabalho de pesquisa tem envolvido o emprego e a reflexão
teòrica sobre a Metodologia Observacional, o estudo da interação mãe-
filho e o desenvolvimento cognitivo e moral infantil.
Edson A. de Souza Filho
Doutor em Psicologia Social pela École des Hautes Études en
Sciences Sociales, em Paris, foi professor adjunto do Instituto de Psicolo-
gia da Universidade de Brasília (UnB) até bem pouco tempo. Tem
ensinado e pesquisado em representações sociais, análise de conteúdo e
do discurso, grupos e influência social. Atualmente é professor da
Universidade Estadual do Norte Fluminense, em Campos, RJ.
Eleonora Vivas
Mestre e doutora (M.Phil. e Ph.D.) em Psicologia pela Universidade
de Londres. Professora de pós-graduacão em Psicologia da Universidad
Simon Bolívar, em Caracas, Venezuela. Trabalha nas áreas de avaliação
comportamental, teoria e fundamentos do enfoque cognitivo-comporta-
mental. Pesquisadora na área da motivação e prevenção de problemas de
linguagem e leitura — psicologia da saúde.
Eunice Maria Lima Sorlano de Alencar
Licenciada em Psicologia pela Universidade Federal de Minas
Gerais (UFMG), com mestrado e doutorado em Psicologia pela Purdue
University e post-doctoral scholar no Gifted Education Resource Institute
(Lafayette, Indiana, EUA). É professora titular da Universidade de Brasília
(UnB), onde se dedica principalmente ao estudo da Criatividade, e,
também, membro do Conselho Regional de Psicologia e do Conselho
Técnico da Associação Brasileira para o Superdotado, tendo já presidido
essa Associação. Além de autora de diversos livros, é, ainda, redatora da
revista Psicologia: Teoria e Pesquisa, editada pelo Instituto de Psicologia
da UnB.
Hartmut Günther
Nascido na Alemanha, estudou na Universitãt Hamburg e na
Universitát Marburg. Graduou-se em Psicologia pelo Albion College, em
Michigan, EUA. Tendo realizado o mestrado em Psicologia Experimental
na Western Michigan University e o doutorado em Psicologia Social na
University of California at Davis, é atualmente pesquisador e professor
titular da Universidade de Brasília (UnB). Tem vários artigos publicados,
tanto no Brasil como no exterior.
Jorge de Souza
Bacharel em Ciências Estatísticas pela Escola Nacional de Ciências
Estatísticas, mestre em Ciências da Engenharia de Produção e doutor em
Estatística pela Universidade Federal do Rio de Janeiro (UFRJ). É
professor titular da Universidade de Brasília (UnB), com vários trabalhos
publicados na área de Estatística, estando atualmente, como professor
visitante, no Departamento de Economia da Universidade Federal de
Pernambuco (UFPE). [Fax (081) 271-8360]
Jurema Alcides Cunha
Livre-docente em Psicologia Clínica e doutora em Filosofia, com
experiência de ensino e pesquisa no Brasil e nos Estados Unidos. É
professora dos cursos de Pós-Graduação em Psicologia da Pontifícia
Universidade Católica do Rio Grande do Sui (PUC-RS) e já é conhecida
por suas publicações, em especial pelo livro Psicodiagnóstico-R, adotado
em muitas universidades brasileiras, e pelo Teste das Fábulas Forma
Verbal e Pictórica.
Leandro da Silva Almeida
Nascido em Portugal, é licenciado em Psicologia (1975-1980) e
doutor em Psicologia (1987), na especialidade de Psicologia da Educação,
pela Faculdade de Psicologia e de Ciências da Educação da Universidade
do Porto. Atualmente é professor da Universidade de Braga e, ainda,
membro da Comissão Científica da Unidade de Ciências da Educação, do
Conselho Científico do CEFOPE, do Projeto de Investigação PIDACS
(Universidade de Aveiro), do National Council on Measurement in
Education (NCME), da International School Psychology Association (ISPA),
entre outras. São de sua autoria os livros Teoria da Inteligência e O
Raciocínio Diferencial dos Jovens: Avaliação, Desenvolvimento e
Diferenciação, além de vários artigos sobre testes e educação.
Luiz Pasquali
Licenciado em Filosofia, Teologia, Pedagogia e Psicologia. Mestre
e doutor em Psicologia pela Université Catholique de Louvain, Bélgica
(1970). É professor titular da Universidade de Brasília (UnB), onde é
responsável pelas disciplinas de Psicometria (Uso dos Testes), Métodos
e Medidas em Psicologia e Análise Fatorial em Psicologia (Pós-Gradua-
ção), coordenando também o Curso de Especialização em Avaliação e
Medida da UnB. É coordenador do Laboratório de Pesquisa em Avaliação
e Medida do Instituto de Psicologia da Universidade de Brasília. Tem cerca
de 40 trabalhos sobre instrumental psicológico.
Maria Alice Magalhães D'Amorim
Licenciada em Filosofia e em Psicologia pela Pontifícia Universidade
Católica do Rio de Janeiro (PUC-RJ), tendo completado sua formação em
Psicologia Aplicada na Universidade de Louvain, Bélgica. Mestre pela State
University of lowa, EUA, fez o doutorado em Psicologia na Universidade de
Louvain, pós-doutorado em Administração de Programas de Saúde Mental
na University of North Carolina, EUA, e na Unidade de Psicologia do
Trabalho e das Organizações da Universidade de Louvain — Louvain-la-
Neuve, Bélgica. Lecionou na Pontifícia Universidade Católica do Rio de
Janeiro (PUC-RJ), na Universidade de Québec em Trois Rivières, Canadá,
na Universidade Federal da Paraíba (UFPB), na Universidade de Brasília
(UnB) e na Universidade Federal do Rio Grande so Sul (UFRGS);
encontra-se atualmente na Universidade Gama Filho, na cidade do Rio de
Janeiro.
Maria Ângela Guimarães Feitosa
Formou-se em Psicologia pela Pontifícia Universidade Católica de
São Paulo (PUC-SP), em 1971. Fez o mestrado em 1977 e o doutorado em
Psicobiologia em 1983 na University of Michigan, USA. Foi diretora do
Instituto de Psicologia da Universidade de Brasília (UnB) de 1987 a 1989 e
é atualmente editora da revista Psicologia: Teoria e Pesquisa. Orientou três
teses de mestrado em Psicobiologia e possui seis publicações na área nos
últimos cinco anos. Ensina e pesquisa na área de Psicobiologia, especiali-
zando-se em processos sensoriais, particularmente audição.
Maria Lúcia Tiellet Nunes
Doutora pela Universidade Livre de Berlim, onde realizou também
formação terapêutica. É professora nos cursos de graduação e pós-
graduacão em Psicologia da Pontifícia Universidade Católica do Rio
Grande do Sul (PUC-RS) e no curso de graduação em Psicologia da
Universidade Federal do Rio Grande so Sul (UFRGS). Colaborou no livro
Psicodiagnóstico-R e é co-autora de Tesfe das Fábulas Forma Verbal
e Pictórica.
1
a
PARTE
FUNDAMENTOS DA MEDIDA EM CIENCIAS DO COMPORTAMENTO
Cap. 1 — Teoria da Medida 21
Luiz Pasquali
Cap. 2 — Teoria e Métodos em Psicofisica 43
María Ângela Guimarães Feitosa
Cap. 3 — Medida Psicométrica 73
Luiz Pasquali
Cap. 4 Medidas Escalares 117
Luiz Pasquali
Cap. 5 — Escalagem Psicológica Unidimensional 141
Jorge de Souza
Cap. 6 — Em torno do Ensino de Estatística nos Cursos
de Base Psicossocial 159
Jorge de Souza
Cap. 7 Teoria da Resposta ao ItemIRT: uma Introdução 173
Luiz Pasquali
CAPÍTULO 1
A TEORIA DA MEDIDA
Luiz Pasquali
Instituto de Psicologia
Universidade de Brasilia
medida em ciências do comportamento, notadamente na Psicolo-
gia, deveria ser chamada puramente de psicometria, similarmente
ao que ocorre em ciências afins a ela, onde se fala de sociometria,
econometria, politicometria, etc. Psicometria, contudo, tem sido abusiva-
mente utilizada dentro de um contexto muito restrito, referindo-se atestes
psicológicos e escalas psicométricas. De qualquer forma, a psicometria
ou medida em Psicologia se insere dentro da teoria da medida em geral
que, por sua vez, desenvolve uma discussão epistemológica em torno da
utilização do símbolo matemático (o número) no estudo científico dos
fenômenos naturais. Trata-se, portanto, de uma sobreposição, ou melhor,
de uma interface entre sistemas teóricos de saber diferentes, tendo a
teoria da medida a função de justificar e explicar o sentido que tal
interface possui.
CIÊNCIA E MATEMÁTICA
A Matemática e a Ciência empírica são sistemas teóricos (ou de
conhecimento) muito distintos e, em termos estruturais, não são comen-
suráveis. Na verdade, os dois sistemas têm objetos e metodologias
próprios, distintos e irreversíveis entre si. Pode-se discernir esta distinção
atentando para a Tabela 1-1. Observa-se que em nenhum momento ou
sob nenhum critério os dois sistemas se assemelham estruturalmente. A
Ciência tem como referente ou objeto os fenômenos da realidade, ao
passo que a Matemática estuda como seu objeto o símbolo numérico
(que é um conceito e não uma realidade empírica e nem uma proprieda-
de desta realidade - Frege, 1884); a metodologia da Ciência é a obser-
vação sistemática e a da Matemática é a dedução; o critério de verdade
para a Ciência é o teste empírico, ao passo que para a Matemática é a
consistência interna do argumento.
Assim, a primeira afirmação, no contexto da teoria da medida, con-
siste em dizer que o sistema científico do conhecimento não tem nada a
A
ver com a Matemática e vice-versa, falando-se em termos das estruturas
epistemológicas dos dois saberes. O mesmo tipo de argumentação pode
ser feito da Ciencia com relação aos outros sistemas de saber (Filosofia,
Teologia, etc.).
Tabela 1-1 — Enfoque epistemológico de Ciência e Matemática
SISTEMA TEÓRICO OBJETO ATITUDE METODOLOGIA VERDADE CERTEZA CRITÉRIO DE VERDADE
Ciência
(empírica)
Fenômeno
s naturais
Empírica Observação e
Controle
Fato Relativa Teste Empírico
Matemática
Símbolo
numérico
Transcen
dental
Dedução Teorema Absoluta
Consistência interna
do argumento
A NATUREZA DA MEDIDA
Apesar dessa distância epistemológica entre Ciência e Matemática,
a Ciência empírica se apercebeu das vantagens consideráveis que ela
pode obter ao se utilizar da linguagem da Matemática para descrever o seu
objeto próprio de estudo. Na verdade, se o modelo matemático não dita e
nem fundamenta o conhecimento científico, parece que é o uso deste
modelo que vem possibilitando distinguir níveis de progresso no conheci-
mento científico. Esta afirmação, pelo menos, aparece claramente
demonstrada na ciência da Física que, com o uso do modelo matemático,
pôde passar de um estágio pré-histórico à Física moderna. Além disso,
"Os instrumentos e técnicas de medida propiciam a ponte mais útil entre
os mundos do dia-a-dia do leigo e dos especialistas em ciência" (Klein,
1974, p.24).
O uso do número na descrição dos fenômenos naturais constitui o
objeto da teoria da medida. Esta teoria está razoavelmente axiomatizada
somente nas ciências físicas, aparecendo ainda lacunar nas ciências
sociais e do comportamento, onde, aliás, ainda se discute a viabilidade
epistemológica da própria medida.
A natureza da medida implica alguns problemas básicos, dentre os
quais três devem ser mencionados (Luce, Suppes, 1986; Suppes, Zinnes,
1963; Campbell, 1928, 1938): a representação, a unicidade e o erro.
O problema da representação ou o isomorfismo
O problema central da medida consiste em justificar a legitimidade
de se passar de procedimentos e operações empíricos (a observação)
para uma representação numérica destes procedimentos. É justificável
designar ou expressar objetos ou fenômenos naturais através de
números? Sim, se nesta designação se salvarem tanto as propriedades
estruturais do número quanto as características próprias dos atributos dos
fenômenos empíricos. Trata-se do teorema da representação.
O problema da unicidade da representação
Este problema diz respeito ao fato de que uma representação 'x'
de um atributo natural seria a única viável e possível ou que a tal
representação é a mais adequada que se possa imaginar para descrever
o atributo em questão. Assim, por exemplo, a massa das coisas não pode
ser descrita melhor ou pode ser descrita somente em termos de peso,
este expresso em termos de quilogramas: não haveria outra maneira
possível de se descrever massa. O teorema da unicidade define o nível
de escala de medida; em outras palavras, ele define se a escala obtida
será ordinal, intervalar, etc.
O problema do erro
A observação dos fenômenos empíricos é sempre sujeita a erros
devidos tanto ao instrumental de observação (os sentidos e suas
extensões através de instrumentos tecnológicos) quanto a diferenças
individuais do observador, além de erros aleatórios, sem causas
identificáveis. Assim, tipicamente toda e qualquer medida vem acompa-
nhada de erros e, por conseqüência, o número que descreve um
fenômeno empírico deve vir acompanhado de algum indicador do erro
provável, o qual será analisado dentro de teorias estatísticas para
determinar se o valor encontrado e que descreve o atributo empírico está
dentro dos limites de aceitabilidade de medida.
A BASE AXIOMÁTICA DA MEDIDA
Há legitimidade no uso do número na descrição dos fenômenos
naturais se e somente se as propriedades estruturais do mesmo forem
salvaguardadas neste procedimento. Isto é, deverá haver isomorfismo
estrito (relação de 1 para 1) entre propriedades do número e aspectos
dos atributos da realidade empírica.
São propriedades básicas do sistema numérico a identidade, a
ordem e a aditividade. A medida deve salvar, pelo menos, as duas
primeiras destas propriedades — de preferência, as três.
Para melhor enquadrar a psicometria ou a medida em geral em
ciências do comportamento neste contexto, a base axiomática da medida
será melhor feita dentro das ciências físicas, fazendo em seguida as
ressalvas e correções necessárias para o caso da medida em ciências
sociais e do comportamento e, em especial, da Psicologia.
Axiomas do sistema numérico
Stevens (1951) sumariza o sistema numérico na Figura 1-1:
Estes vários tipos de números surgiram em épocas históricas di-
ferentes, segundo as necessidades dos estudiosos e as necessidades da
vida prática. Inicialmente só havia os números inteiros, que eram
suficientes para contar objetos discretos, razão pela qual eles também são
chamados de números naturais. Com eles se podia fazer as operações de
adição e de multiplicação. Eles não davam sempre certo, porém, quando
da subtração, especialmente quando se queria subtrair um número maior
de um número menor. Esta limitação do sistema de inteiros fez com que
o sistema fosse estendido para incluir números negativos e o zero. Com a
divisão, o sistema de inteiros se mostrava ainda mais limitado, o que forçou
a adoção de números fracionários. Este conjunto de números (inteiros
positivos, negativos, zero e frações) constitui o sistema de números
racionais, dado que qualquer número deste sistema pode ser expresso em
termos de razão entre dois números inteiros. Excetuada a divisão por zero,
todas as operações são possíveis dentro deste sistema numérico.
Contudo, certas operações matemáticas não eram viáveis dentro do
sistema, como, por exemplo, a raiz quadrada de 2. Inventaram-se, então,
os números irracionais, e assim se fechou o círculo dos números reais,
suficientes para permitir qualquer sorte de medida da realidade, até o
presente.
A Matemática é um saber baseado em puras convenções; assim,
tanto o seu objeto (o número) quanto suas regras sao convencionadas. As
regras do jogo dos números se caracterizam por três grandes proprieda-
des: identidade, ordem e aditividade.
Identidade (=)
Esta propriedade define o conceito de igualdade, isto é, que um
número é idêntico a si mesmo e somente a si mesmo. Ela apresenta três
axiomas (postulados aceitos e nao provados) que expressam a relação de
IGUALAW:
— reflexividade: a = a ou a b. Números são idênticos ou são dife-
rentes;
— simetria: se a = b, então b = a;
transitividade: se a = b e b = c, então a = c. Duas coisas iguais a uma
terceira são iguais entre si.
Ordem (>)
Esta propriedade se baseia na desigualdade dos números. Todo
número é diferente de outro. Assim, excetuado o caso de igualdade, os
números podem ser colocados numa seqüência invariável ao longo de
uma escala linear: seqüência monotônica crescente. Também tem três
axiomas, que expressam NAO IGUAL A (>):
— assimetria: se a > b, então b > a. A ordem dos termos não pode ser
invertida;
— transitividade: se a > b e b > c, então a > c;
— conectividade: ou a > b ou b > a;
Um quarto axioma seria o de ordem-denso: números racionais são
tais que entre dois números inteiros quaisquer há sempre um número
racional; o intervalo entre dois inteiros não é vazio.
Aditividade (+)
Os números podem ser somados. Isto é, as quatro operações —
adição, subtração, multiplicação e divisão (as três últimas sao redutíveis à
primeira) — podem ser aplicadas aos números. Dois axiomas:
— comutatividade: a + b = b + a. A ordem dos termos não altera o re-
sultado da adição;
— associatividade: (a + b) + c = a + (b + c). A ordem de associação ou
de combinação dos termos não afeta o resultado.
Axiomas da medida
Como a medida consiste na atribuição de números às propriedades
das coisas segundo certas regras, ela deve garantir que as operações
empíricas salvem os axiomas dos números. A medida que salva todos
esses axiomas é a mais sofisticada possível e, por isso, rara (escala de
razão). A maioria das medidas, ao menos em ciências do comportamento,
se dão por satisfeitas se puderem salvar, pelo menos, os axiomas de
ordem. Se somente os axiomas de identidade forem salvos (escala
nominal), a operação propriamente não chega a ser medida, mas trata-se
apenas de classificação, pois a única característica do número salva é a
sua identidade; isto é, o número utilizado para uma operação empírica
deve ser diferente do de uma outra operação. Para tanto, aliás, o número
é utilizado tão-sòmente como numeral, a saber, um rabisco diferente de
outro, que poderia ser substituído por qualquer outro sinal ou rabisco
(desde que diferentes entre si) sem a menor conseqüência para a medida.
O número, neste caso, serve apenas de etiqueta de uma classe de coisas.
A medida realmente acontece quando se salvam, pelo menos, os axiomas
de ordem dos números. Então, fica a pergunta: É possível se demonstrar
a existência de ordem de magnitude nos atributos das coisas? Isto é, as
coisas têm dimensões, entendidas estas como atributos mensuráveis,
propriedades empíricas possuidoras de magnitude? Como resposta a esta
questão poder-se-ia simplesmente assumir que sim: os atributos
empíricos têm magnitude, como o senso comum nos parece dizer quoti-
dianamente quando fala de 'mais do que', 'maior que' e expressões
similares. Contudo, esta não parece ser uma base muito segura para
fundamentar uma teoria da medida. É preciso, então, demonstrar empi-
ricamente que tal ocorrência existe na realidade das coisas. Nas ciências
físicas esta questão parece resolvida, mas nas ciências sociais e do com-
portamento ela ainda suscita acirradas controvérsias. Segue uma tentativa
de demonstração experimental de axiomas da medida.
Demonstração empírica dos axiomas de ordem (Guilford, 1954)
Estes afirmam que, na medida, a ordem dada pelos números
atribuídos aos objetos (transitividade e conectividade) deve ser a mesma
obtida pela ordenação empírica destes mesmos objetos. Existe ordem
('maior que') nas propriedades das coisas. Exemplos: 1) de um metal que
arranha um outro e não pode ser arranhado por este, diz-se que é mais
duro — assim, uma ordem empírica de dureza pode ser estabelecida a
partir da operação empírica de arranhar; 2) igualmente, o alinhamento de
linhas mostra que uma é maior que outra, donde uma ordenação de
objetos em termos de comprimento poder ser montada; 3) se um tom é dito
mais alto que outro por uma amostra de sujeitos, diz-se que ele é mais
agudo — assim, uma ordem de altura de tons (pitch) pode ser estabeleci-
da; 4) se um sujeito resolve corretamente maior número de uma série de
problemas do que outro, diz-se que ele é mais inteligente — assim, pode-
se estabelecer uma escala de inteligência. As inversões que ocorrem são
consideradas 'erros de medida' ou de observação, que devem ser tratados
dentro da teoria da consistência, a qual visa mostrar que, apesar desses
erros, há consistência na medida.
Demonstração empírica dos axiomas de aditividade
Esta demonstração parece ser possível somente no caso dos
atributos extensivos, como massa, comprimento e duração temporal, bem
como no caso da probabilidade. A aditividade se baseia na idéia de
concatenação: a combinação (concatenação) de dois objetos ou eventos
produz um terceiro objeto ou evento com as mesmas propriedades dos
dois, mas em grau maior. Assim, tomando-se um objeto de comprimento
'x' (medido por uma unidade de comprimento qualquer, o metro, por
exemplo), encontra-se um outro objeto com o mesmo comprimento 'x'
que, junto (concatenado) ao primeiro, resulta num objeto maior 'z' com
comprimento duas vezes o comprimento dos objetos individuais. O con-
ceito de concatenação implica que A con B (A concatenando B) = A + B.
FORMAS E UNIDADES DE MEDIDA
Se cada atributo da realidade empírica apresentasse uma unidade-
base natural específica de magnitude, a medida dele seria uma tarefa
relativamente fácil. Seria suficiente verificar quantas unidades-base ele
possui, e o número de unidades seria a medida do atributo em questão.
Acontece, porém, que nem no mundo da Física todos os atributos
permitem uma definição de unidade-base natural específica, como, por
exemplo, no caso da velocidade. Disto resulta que deve haver mais de uma
forma de se proceder à medida dos atributos da realidade que não seja a
simples enumeração do número de unidades que o objeto apresenta.
Formas de medida
Hã diferentes maneiras (formas) de se atribuir números às proprie-
dades dos objetos. Uma das taxonomías mais úteis consiste em distinguir
três formas diferentes de mensuração: medida fundamental, medida
derivada e medida por teoria (esta chamada de medida by fiat por
Campbell, 1928, 1938). Pode-se igualmente falar em medida direta e
medida indireta; e há outras ainda. A primeira, contudo, parece mais
esclarecedora.
Medida fundamental
É a medida de atributos para os quais, além de se poder estabelecer
uma unidade-base natural específica, existe uma representação extensiva.
São dimensões (atributos mensuráveis) que permitem a concatenação, isto
é, dois objetos podem ser associados, concatenados, formando um terceiro
objeto de mesma natureza. Tal situação ocorre com os atributos de massa,
comprimento e duração temporal. Estes atributos permitem uma medida
direta e fundamental, dado que o instrumento utilizado para medi-los
possui a mesma qualidade que se quer medir neles. Assim, ao se medir o
comprimento de um objeto, utiliza-se um instrumento composto de
unidades de comprimento. A medida dele será dada pela coincidência de pontos
entre o comprimento do objeto e a unidade de comprimento marcada no
instrumento, por exemplo o metro.
Mesmo podendo ser possível conceitualmente se proceder a uma
medida fundamental nos casos mencionados, nem sempre isto é empiricamente
factível. Por exemplo, como se faria uma medida fundamental de distâncias
astronômicas ou subatômicas? Ou como se poderia medir fundamentalmente a
massa de uma galáxia? Nestes casos e semelhantes é preciso recorrer a outras
estratégias de medida, como a medida derivada.
Medida derivada
Muitos atributos da realidade nao permitem urna medida extensiva e,
portanto, nenhuma medida fundamental é deles possível. Eles podem, contudo,
ser medidos indiretamente através do estabelecimento de uma relação com
medidas extensivas. Este procedimento depende da prova empírica de que
estes atributos são afetados independentemente por dois ou mais componentes.
Se estes componentes permitem medida fundamental, então pode-se obter uma
medida derivada para aqueles atributos o-extensivos através de uma função
de potência entre os componentes da qual o atributo em questão é afetado. De
qualquer forma, uma tal medida é derivada se finalmente ela pode ser expressa
em termos de medidas fundamentais. Por exemplo, sabe-se que a massa varia
em função de volume e de densidade: massa = volume x densidade. Como a
massa permite medida fundamental (peso, expresso em quilos) e o volume
também (o cubo do comprimento = m
3
), então a densidade, que não possui
medida fundamental, pode ser medida indiretamente em função de massa e
volume (quilos dividido por metros cúbicos = kg/m
3
).
Deve-se notar que o fundamento da função existente entre os
componentes constitui uma lei, isto é, deve ser um dado empiricamente
demonstrado e não somente baseado em alguma teoria. Assim, a massa sendo
determinada pelo volume e pela densidade é uma descoberta científica, uma lei,
não uma hipótese. Entende-se, portanto, por medida derivada de um atributo
aquela cujos componentes do atributo, estabelecidos por uma lei empírica,
tenham finalmente dimensões extensivas.
Esta é uma parte da história. Fala-se também de medida derivada
quando, embora os componentes da função não forem redutíveis, em última
análise, a medidas fundamentais, eles apresentam, contudo, uma unidade-base
natural e específica. Assim, pode-se medir de modo derivado um atributo não-
extensivo se ele for passível de ser expresso em termos de outros atributos que
possuem uma unidade-base, ainda que estes não tenham propriedade
extensiva. Exemplo: luminância pode ser medida através da unidade-base de
intensidade luminosa (a candela) e
pela distância (medida em metros); de fato, ela é lum = cd/m
2
. O mesmo
vale para resistência elétrica, força do campo elétrico e do campo
magnético.
Medida por teoria
Há outros atributos da realidade — e é o caso de quase todos em
ciências sociais e do comportamento — que, além de não se apresentarem
como dimensões extensivas, portanto incapazes de medida fundamental,
também não podem ser expressos em termos de componentes extensivos
e não possuem uma unidade-base natural, não permitindo, portanto,
medida derivada. Estes são mensurareis somente com base em leis e
teorias científicas.
1) Medida por lei: quando uma lei for estabelecida empiricamente
entre duas ou mais variáveis, a(s) constante(s) típica(s) do sistema
pode(m) ser medida(s) indiretamente através da relação estabelecida entre
estas variáveis, como é o caso da viscosidade em Física e a lei do reforço
em Psicologia.
2) Medida por teoria: quando nem leis existem relacionando
variáveis, pode-se recorrer a teorias que hipotetizam relações entre os
atributos da realidade, permitindo assim a medida indireta de um atributo
através de fenômenos a ele relacionados via teoria. O importante neste
caso é garantir que haja instrumentos calibrados para medir (fundamental
mente ou de outra forma válida) os fenômenos com os quais o atributo em
questão esteja relacionado pela teoria. Mesmo em Física isto ocorre, como
é o caso da medição das distâncias galácticas. Assim, medindo o
movimento das linhas espectrais para o vermelho estar-se-ia medindo as
distâncias astronômicas, dada a teoria de que existe uma relação siste
mática entre a distância de uma galáxia e a velocidade do seu afastamen
to. O mesmo vale para o efeito Doppler, que afirma (teoria) que uma luz
que se afasta tende a espalhar as ondas, reduzindo sua freqüência.
Unidades de medida
Normalmente existe interdependência entre os fenômenos, de sorte
que, ao se variar um deles, o outro covaria com ele. Esta covariancia pode
ser expressa por alguma constante. Estas constantes podem ser univer-
sais, como o caso da gravitação universal que covaria com as gravitações
locais de um sistema menor, por exemplo, a da massa, chamada inclusive
de constante universal de gravitação. Outras constantes pertencem a
algum sistema específico (constantes do sistema ou locais), como a
constante entre massa e volume em Física ou as constantes da lei do
reforço em Psicologia. Evidentemente, a descrição de tais constantes pode
constituir uma medida indireta.
Além de constantes que relacionam dois ou mais atributos, os
próprios atributos variam por conta própria, assumindo diferentes
magnitudes, isto é, eles são dimensões, entendendo por isso que eles
podem variar de magnitude e, portanto, podem ser mensuráveis. Neste
caso, seria extremamente útil se houvesse, para cada atributo diferente,
uma unidade básica com a qual se pudesse determinar a magnitude do
mesmo. De fato, qualquer unidade que se queira definir serve aos pro-
pósitos da medida, bastando haver consenso sobre a mesma. Mas é fácil
ver as vantagens de se estabelecerem unidades-base aceitáveis para
todos. Nas ciências físicas, este esforço tem sido constante. O critério que
tem guiado os físicos na procura destas unidades-base foi a busca de um
fenômeno natural de estabilidade máxima que pudesse servir como padrão
físico da unidade-base para o sistema. A história da procura destas uni-
dades tem lances de Babel, pois cada região do mundo tinha seus sis-
temas de medida, incomensuráveis com os de outras regiões. Há cerca de
200 anos, contudo, uma procura mais sistemática e mais entrosada em
nível mundial tem sido desenvolvida até que culminasse no Système
International des Unités (abreviado SI), definido na 11th General Conferen-
ce on Weights and Measures (Paris, 1960), onde foram estabelecidas seis
unidades-base ou primárias para os fenômenos físicos, sendo todas as
restantes medidas derivadas destas seis primárias (Klein, 1974; Luce,
Suppes, 1986). A Tabela 1-2, na página seguinte, sintetiza estas unidades-
base consensuais, inclusive o mol, unidade posteriormente acrescida.
A grande maioria das outras unidades em Física são unidades
derivadas destas seis unidades-base. Por exemplo, densidade é igual a
peso por volume (kg/m
3
), velocidade a metros por segundos (m/s), lumi-
nância a intensidade da luz por área que é expressa em termos de
distância (cd/m
2
), volt é watts por ampère (V=W/A), watt é joule por
segundo (W=J/s), joule é newton vezes comprimento (J = N.m), newton é
peso vezes distância por tempo (N=kg'm/s
2
), etc.
A procura de unidades similares em ciências sociais e do comporta-
mento é algo ainda precário, exceto onde medidas fundamentais forem
possíveis, como talvez em psicofisica (medida dos estímulos) e na análise
experimental do comportamento (medidas de estímulos e freqüência de
respostas).
A MEDIDA EM CIÊNCIAS SOCIAIS E DO COMPORTAMENTO
Medidas fundamentais nestas ciências parece difícil de serem
concebidas. Mesmo em Economia, que se apresenta como a mais
desenvolvida nesta área, parece ter caído em descrédito a concepção de
que a escolha dos sujeitos se reduziria à avaliação da quantidade e preço
dos bens. De fato, há ali fatores subjetivos que co-determinam a escolha
dos sujeitos, fatores agrupados sob o construto de utilidade. Também não
parece aceitável que a utilidade de um conjunto de bens possa ser
reduzida à soma das utilidades individuais destes bens. Deste problema
Tabela 1-2 — Unidades-base da Física
ATRIBUTO UNIDADE SIGLA PADRÃO FÍSICO (Definição do SI)
Comprimento metro m
"O metro e o comprimento igual a 1.650.763.63
comprimentos de onda no vácuo da radiação
correspondente à transição entre os níveis 2 p10 e
5 d5 do átomo do Criptônio-86."
Massa quilograma kg
"O quilograma (unidade de massa) é a massa de
um cilindro especial feito de liga de platina e de
iridio, que é considerado como o protòtipo
internacional do quilograma. e é conservado sob os
cuidados do Bureau International des Poids et
Mesures num cofre forte em Sèvres, França."
Tempo segundo s
"O segundo é a duração de 9.192.631.770 períodos
(ou ciclos) da radiação correspondente à transição
entre dois níveis hiperfinos do átomo de Césio-
133."
Corrente
elétrica
ampère A
"O ampère, unidade de corrente elétrica, é a
corrente constante que, se mantida em dois
condutores paralelos de comprimento infinito. de
uma grossura negligível, e colocados a 1 metro de
distância num vácuo, produzirá, entre estes
condutores, uma força igual a 2 X 10
7
N por metro
de comprimento (cerca de 0,1kg)."
Temperatura kelvin K
"O kelvin, a unidade de temperatura ter-
modinâmica. ó atração 1/273,16 da temperatura
termodinâmica do triplo ponto da água (no qual
gelo. água e vapor estão em equilíbrio — igual a-
273,16°C)."
Intensidade
da luz
candela cd
"Luminosidade de 1/600.000 de um metro qua-
drado de pura platina fundida no ponto de se
solidificar. Isto corresponde a uma temperatura de
2.045ºK."
Massa atômica mole mol
Montante de substância que corresponde á
somados pesos atômicos de todos os átomos que
compõem uma molécula.
surgiu a teoria moderna da utilidade baseada na teoria dos jogos. Em
psicofisica também se tenta enquadrar a medida como sendo fundamental.
Entretanto, para tanto dever-se-ia modificar a definição de medida
fundamental como sendo a medida de atributos extensivos. Em psicofisica
o atributo de interesse é a resposta do sujeito a estímulos físicos. Estes
certamente podem permitir medida fundamental, mas não são eles o
interesse específico direto da medida psicofisica, mas sim a resposta a
eles. E desta nao há como visualizar uma medida fundamental, dado que
não é um atributo extensivo. A medida da resposta se faz em função da
sua relação com o estímulo, relação estabelecida por uma lei empirica-
mente demonstrada. A medida, portanto, se baseia numa função entre
"componentes". Componentes está entre aspas porque o estímulo
realmente não é componente da resposta no sentido dado nas medidas
derivadas, nas quais os componentes relacionados são propriedades
constituintes do atributo medido derivadamente, como massa em função
de volume e densidade.
Se medida fundamental não é defensável em ciências sociais e do
comportamento, nem a derivada o é. Resta, então, a possibilidade de se
medir nestas ciências por uma terceira forma, que vimos apresentando sob
a égide de medida por teoria, que congrega aquelas formas de medida não
redutíveis finalmente a medidas fundamentais. Duas formas de medida são
aqui destacáveis: medida por lei e medida por teoria propriamente. As duas
podem ser enquadradas sob medida por teoria, dado que a lei constitui
uma hipótese derivável de alguma teoria e empiricamente demonstrável.
Medida por lei
A medida por lei é comum nas ciências sociais e do comportamento.
Em Psicologia, em particular, ela é a história na psicofisica e na análise
experimental do comportamento. Em psicofisica, a história que vai de
Weber a Stevens é a medida por lei: lei da constante (Weber), lei
logaritmica (Fechner) e lei da potência (Stevens). Na análise experimental
do comportamento temos as várias leis do reforço, por exemplo.
Em que consiste uma medida por lei? Mede-se por lei quando se
quer demonstrar empiricamente que dois ou mais atributos estruturalmente
diferentes mantêm entre si relações sistemáticas. Duas condições são
expressas nesta concepção: 1) os atributos sao de natureza diferente, um
não é redutível ao outro — por exemplo, a cor e a distância são dois
atributos distintos dos fenômenos físicos no caso do desvio para o
vermelho das linhas espectrais dos objetos na medida de distâncias, do
mesmo modo que a resposta e o estímulo são dois atributos diferentes no
caso da medida psicofisica e da análise experimental do comportamento;
2) uma relação sistemática foi demonstrada cientificamente (empiricamen-
te) existir entre estes atributos. Assim, as manipulações efetuadas num
atributo repercutem sistematicamente no outro, donde é possível estabele-
cer uma função de covariancia entre os dois, uma lei.
Medida por teoria
Uma teoria não é uma lei, dado que ela é composta de axiomas ou
postulados e nao de fatos empíricos. Ademais, ela é científica se de seus
axiomas é possível deduzir hipóteses empiricamente testáveis. O caso da
medida por teoria ocorre também em Física, como ficou dito acima. No
caso das ciências sociais e do comportamento, ela é mais facilmente dis-
cernível quando se trabalha com variáveis hipotéticas, isto é, nas teorias
da estrutura latente ou da modelagem latente (latent modeling).
Nesta concepção, a teoria versa sobre processos mentais (estrutu-
ras psicológicas hipotéticas), conceitualizando sua estrutura e sua dinâ-
mica, e define o conjunto de comportamentos que os expressa. Assim,
uma teoria da inteligência trata dos processos cognitivos, sua estrutura,
sua gênese, seu desenvolvimento, seus processos operativos, etc, bem
como dos comportamentos típicos em que ela se expressa, tais como
resolver problemas numéricos, problemas espaciais, problemas com
palavras, etc. E é no nível dos comportamentos que se faz a medida. De
sorte que, ao se medir por teoria neste caso, consiste em dizer que ao se
proceder a medida de um atributo empírico (o comportamento) está-se de
fato medindo a estrutura psicológica latente, isto é, um outro atributo e de
outra natureza (um atributo hipotético). A função da teoria é fundamental-
mente garantir a legitimidade de tal operação; trata-se, portanto, de um
problema de representação: a operação empírica de medir o comporta-
mento representa a medida da estrutura latente. Legitimar tal represen-
tação é a função da teoria psicométrica (a questão da validade psicométri-
ca da medida).
Na verdade, pode-se ver três grandes linhas da teoria da medida
por teoria: a teoria da detecção do sinal em psicofisica, a teoria dos jogos
em Psicologia Social e a teoria das escalas e testes (a psicometria, num
sentido mais restrito). O fato de trabalharem com construios hipotéticos
(processos cognitivos, preferências, utilidade, etc.) seria o elo entre estes
tipos de teorias, bem como a procura de formas de medida desses mes-
mos construios.
A teoria da detecção do sinal trabalha com dois parâmetros: relação
sinal-ruído ('d') e a disposição do sujeito ('beta'). O primeiro parâmetro
define o grau de detectabilidade do sinal contra um fundo de ruído, e o
'beta' define o nível de vontade ou disposição que o sujeito tem de ver o
sinal quando ele está presente.
A teoria dos jogos trabalha com o conceito de utilidade, introduzido
pela ciência econômica. Esta variável representa a preferência do sujeito
na escolha de uma alternativa de ação dentre duas ou várias. A teoria dos
jogos determina as probabilidades de ganhos e perdas associadas com a
escolha de cada alternativa, bem corno permite verificar o nível de prefe-
rência do sujeito com relação a cada alternativa, possibilitando, assim, uma
ordenação destas alternativas em termos de preferência.
A psicometria, em sentido estrito, trata da medida de construtos
psicológicos ou de traços latentes, através de comportamentos verbais ou
motores que seriam a representação daqueles traços. Os parâmetros com
que lida a psicometria são a legitimidade de tal representação (validade)
e a análise dos itens comportamentais em termos de dificuldade e discri-
minação (Item Characteristic Curve — ICC, Lord, 1980).
NÍVEIS DA MEDIDA (ESCALAS DE MEDIDA)
Dependendo da quantidade de axiomas do número que a medida
salva, resultam vários níveis de medida, as chamadas escalas de medida.
Como vimos, são três os axiomas básicos do número: identidade, ordem
e aditividade. O último apresenta dois aspectos úteis para o presente
problema: origem e intervalo ou distância. Quanto mais axiomas do
número a medida salvaguardar, maior será o seu nível, isto é, mais ela se
aproxima da escala numérica ou métrica e maior será o isomorfismo entre
o número e as operações empíricas. Assim, podemos considerar cinco
elementos numéricos para definir o nível da medida: identidade, ordem,
intervalo, origem e unidade de medida. Destes cinco elementos, os mais
discriminativos dos níveis são a origem e o intervalo, dado que a ordem é
uma condição necessária para que realmente haja medida. Se a medida
somente salva a identidade do número, na verdade não se trata de
medida, mas sim de classificação e contagem. Neste caso (escala
nominal), os números não são atribuídos a atributos dos objetos, mas o
próprio objeto é identificado por rótulo numérico. Este rótulo nem precisaria
ser numérico, dado que não importa que símbolo ou rabisco pode ser
utilizado com a mesma função de distinguir objetos um do outro ou classe
de objetos de outra classe. A única condição necessária é que se
salvaguarde a identidade do símbolo, isto é, um mesmo símbolo não pode
ser duplicado para identificar objetos diferentes, como também diferentes
símbolos não podem ser usados para identificar objetos idênticos. Embora
não estejamos neste caso medindo, a escala numérica que resulta desta
rotulação adquire direito ao nome escala, dado que ela corresponde em
parte à definição de medida que reza "medir é atribuir números às coisas
empíricas".
O esquema a seguir ilustra como se originam as várias escalas de
medida, enquanto que a Tabela 1-3, por outro lado, sintetiza as caracterís-
ticas de cada escala.
ORIGEM
NAO-NATURAL
NATURAL
NAO-IGUAL ORDINAL ORDINAL
IGUAL INTERVALAR RAZÃO
Uma escala numérica pode ser transformada numa outra equivalen-
te, se forem respeitados os elementos da invariância nesta transformação.
Uma escala de maior nível pode utilizar as operações estatísticas de uma
escala inferior, mas perde informação dado que as estatísticas próprias de
uma escala inferior são menos eficientes, isto é, são menos robustas. Não
é permitido (é erro) utilizar estatísticas de uma escala de nível superior
numa inferior, dado que esta não satisfaz os requisitos necessários para
se utilizar de procedimentos estatísticos superiores. São chamados de
paramétricos os procedimentos estatísticos da escala intervalar, porque
nela os números possuem caráter métrico, isto é, são adicionáveis,
enquanto os não-paramétricos não são métricos, visto que representam
somente postos e não quantidades somáveis.
Tabela 1-3 — Características das escalas numéricas de medida.
ESCALA
AXIOMAS
SALVOS
INVARI-
ÂNCIAS
LIBER-
DADES
TRANSFORMAÇÕES
PERMITIDAS
ESTATÍSTICAS
APROPRIADAS
Nominal identidade
ordem
intervalo
origem
unidade
Permutação
(troca 1 por 1)
Freqüências:
f,%,p,Mo,X
2
,C
Ordinal
identidade
ordem
ordem
intervalo
origem
unidade
Monotônica
crescente
(isotonia)
Não-paramétri-
cas: Md, r
s
U, etc.
Intervalar
identidade
ordem
actividade
ordem
intervalo
origem
unidade
Linear de tipo y
= a + bx
Paramétricas:
M,DP,r,t,f,etc.
Razão
identidade
ordem
aditividade
ordem
intervalo
origem
unidade
Linear de tipo
y= bx
(similaridade)
Média geométrica,
Coef. variação,
Logaritmos
O PROBLEMA DO ERRO
Conceito de erro
A medida é um procedimento empírico, e não existe procedimento
empírico isento de erro. Esta não é uma afirmação lógica, mas pode ser
considerada um postulado e empiricamente verificada através de
operações de mensuração. Mesmo na medida fundamental, é impossível
evitar-se o erro. Argumentando com Popper (1972), podemos dizer que
medir consiste na determinação da coincidência de pontos: um sinal no
objeto a ser medido e um sinal no instrumento de medida (metro, por
exemplo). Agora, não existe tal coincidência no sentido de que os dois
pontos se fundem num ponto único; há apenas uma justaposição dos dois
pontos. A precisão perfeita da justaposição só seria finalmente efetuada se
pudesse ser verificada num aumento ao infinito desses dois pontos, pois
que, com o aumento deles, se verifica que os pontos realmente (de fato)
não estão perfeitamente alinhados, mas apenas aparecem mais ou menos
próximos. Assim, a coincidência se faz dentro de um intervalo: o ponto do
corpo medido cai dentro de um intervalo de pontos no instrumento
(extremos de condensação). Quanto menor este intervalo, maior a precisão
da medida. Por esta razão, é costumeiro entre os cientistas apresentar,
além do valor da medida, o seu equivalente erro provável, o qual define
precisamente estes extremos de condensação.
Tipos de erro
Os erros podem ser debitados ou à própria observação ou à
amostragem de objetos ou eventos na qual a medida foi realizada.
Erros de observação
Há quatro fontes principais de erros de observação: erros instru-
mentais, devidos a inadequações do instrumento de observação; erros
pessoais, devidos às diferentes maneiras de cada pessoa reagir; erros
sistemáticos, devidos a algum fator sistemático não controlado, como, por
exemplo, medir a temperatura a um nível diferente do nível do mar; e erros
aleatórios, sem causa conhecida ou conhecível. Há, inclusive, curiosos
acontecimentos neste particular, como a demissão do seu assistente pelo
astrônomo real Nevil Maskelyne (Inglaterra) porter observado a passagem
de estrelas e planetas meio segundo depois do que tinha ele mesmo
observado. O problema não é tanto a existência desses erros, que são
inevitáveis, mas sim identificar as suas fontes e propor meios de reduzi-
los. A Tabela 1-4 dá uma síntese desta problemática.
Tabela 1-4 — Erros de medida: fontes e controle
TIPO CAUSA CONTROLE
instrumental instrumento calibração
pessoal (observador) diferenças individuais atenção, treinamento
sistemático fator es
p
ecífico ex
p
erimental ou esta
t
í
stico
aleatório não conhecida teorias do erro
(
probabilidade
)
amostragem coleta da amostra
representatividade da amostra
(teoria estatística)
Erros de amostragem
Como a pesquisa empírica normalmente não pode ser feita sobre
todos os membros de uma população de eventos ou objetos, tipicamente
se seleciona uma amostra destes eventos ou objetos. Esta escolha de
indivíduos no meio de uma população é sujeita a desvios, vieses, isto é,
erros. O problema não são os erros em si, se o interesse fosse tirar con-
clusões sobre a amostra selecionada. Acontece, porém, que o interesse do
pesquisador é tirar conclusões ou fazer inferências sobre toda a população
da qual a amostra foi retirada. Neste caso, o erro de amostragem é desas-
troso, uma vez que poderia ocasionar inferências errôneas, dada a
presença de vieses da amostra com respeito a esta população (falta de
representatividade). Para solucionaros problemas advindos da seleção da
amostra, foi desenvolvida a teoria estatística da amostragem.
A teoria do erro
Dado que o erro está sempre presente em qualquer medida e que
sua presença constitui uma ameaça séria à tomada de decisões científicas,
é de capital importância que haja meios de neutralizar ou diminuir os seus
efeitos ou, pelo menos, de conhecer sua grandeza, o mais aproximado
possível, para saber o tamanho do risco em que se está incorrendo ao
tomar decisões baseadas na medida. Todos os esforços para controlar o
erro através de procedimentos experimentais são necessários, mas nem por
isso o erro vai desaparecer, visto que a sua ocorrência é imprevisível, isto
é, não é nunca possível se determinar as causas de todos os erros pos-
síveis numa medida. Para enfrentar esta situação foi desenvolvida a teoria
do erro, baseada na teoria da probabilidade e dos eventos casualóides.
Um evento casualóide ou aleatório é definido por Popper (1974,
p. 190): "Uma seqüência-evento ou seqüência-propriedade, especialmente
uma alternativa, se diz 'casualóide' ou 'aleatória' se e somente se os
limites das freqüências de suas propriedades primárias forem 'absoluta-
mente livres', isto é, indiferentes a qualquer seleção que se apoie nas
propriedades de qualquer ênupla de predecessores". Em palavras mais
simples, um evento empírico é aleatório se sua ocorrência não pode ser
predita a partir dos eventos que ocorreram antes dele, isto é, ele é
totalmente independente (livre) com relação ao que aconteceu antes.
Imagine o jogo de lançar uma moeda para obter cara ou coroa ou o de um
dado: qualquer que tenha sido o resultado nos lançamentos anteriores do
dado, o resultado (um entre os seis possíveis) do próximo lançamento é
totalmente imprevisível — isto é liberdade absoluta.
O erro na medida é considerado um evento aleatório, pela teoria do
erro. Feita esta suposição, então é possível tratar o erro dentro da teoria
da probabilidade, do teorema de Bernoulli, que baseia a lei dos grandes
números e da curva normal, que determina a probabilidade de ocorrência
dos vários elementos da série, no nosso caso, da série aleatória composta
dos vários tamanhos de erros cometidos na medida.
A curva normal define que uma seqüência aleatória de eventos
empíricos se distribui normalmente em tomo de um ponto modal (média)
igual a 0 e uma variância igual a 1. Este valor modal, no caso de uma
distribuição de erros, significa que estes se cancelam no final, dado que
este valor (0) é o que possui a maior probabilidade na distribuição.
Contudo, isto é absolutamente verdadeiro somente na distribuição de uma
série aleatória de um número infinito de eventos, segundo o teorema de
Bernoulli. Este teorema, na verdade, afirma que um segmento 'x' de
elementos de uma série aleatória infinita 'A' (isto é, com liberdade
absoluta) que se aproxima da série total (x->A) possui os mesmos
parâmetros desta série. Isto significa que, quanto maior o segmento, mais
próximo está dos parâmetros da série ou, em outras palavras, quanto
maior o segmento, menor o desvio dos parâmetros dele dos da série. Diz
Popper (1974, p.198): "Assim, o teorema de Bernoulli assevera que os
segmentos mais curtos de seqüências casualóides mostram, muitas vezes,
grandes flutuações, enquanto que os segmentos longos sempre se
comportam de modo que sugerem constância ou convergência; diz o
teorema, em suma, que encontramos desordem e aleatoriedade no
pequeno, ordem e constância no grande. É a este comportamento que se
refere a expressão 'lei dos grandes números".
Na prática da pesquisa, contudo, o erro da medida é expresso pelo
erro padrão da medida, que é o valor médio da variância, isto é,
A informação dada pelo erro padrão da medida esclarece que a
medida verdadeira de um atributo se situa entre o valor médio das medidas
efetuadas e um erro padrão em torno dele (isto é, mais um erro padrão e
menos um erro padrão).
IMPORTÂNCIA DA MEDIDA
Poder-se-ia perguntar, diante de tantas dificuldades que a medida
apresenta, se há vantagem em se utilizar métodos de medições em lugar
de métodos puramente qualitativos ou descritivos. Parece que a resposta
deva ser positiva, porque aqueles métodos se apresentam superiores a
estes em, pelo menos, duas áreas: precisão e simulação.
Precisão
Apesar de a medida nunca ser destituída de erro, ela é capaz de
definir limites dentro dos quais os reais valores dos atributos medidos se
encontram. O conceito de pontos de condensação ou de extremos
imprecisos (Popper, 1974) nos indica a solução da questão da precisão da
medida. Fazer pontos coincidirem (ponto extremo do atributo do objeto a
ser medido e ponto de referência do instrumento de medida) significa
determinar que o ponto do atributo cai dentro de um intervalo de pontos
extremos do instrumento. A questão, então, se reduziria a determinar estes
pontos extremos do intervalo, que, por sua vez, também caem dentro de
um intervalo cujos pontos extremos precisariam ser determinados, e assim
indefinidamente; isto é, nunca daria para decidir nenhum intervalo de
pontos de condensação. Entretanto, os pontos extremos do intervalo de
condensação seriam definidos por intervalos cada vez menores, de sorte
que se pode finalmente definir um intervalo, o menor possível, com pontos
extremos imprecisos, dentro do qual o valor real do atributo se encontra.
Assim, fica definido um intervalo mínimo mais provável dentro de seus
pontos extremos e, igualmente, a margem de erro tolerada ou provável, de
sorte que não se contentaria em simplesmente afirmar que o atributo é
mais ou menos de tal magnitude, mas que ele tem uma magnitude definida
dentro de limites (intervalo) assim definidos. A redução ao mínimo do
intervalo dos pontos de condensação, evidentemente, depende de avanços
tecnológicos no instrumental de medição.
Sendo isso possível, ficam mais precisas tanto a descrição do
fenômeno natural quanto a comunicação sobre o mesmo. Fica também
mais exata a definição das operações e procedimentos utilizados na
observação dos mesmos fenômenos. A medição não torna a observação
possível, mas a torna mais unívoca, isto é, menos ambígua, mais precisa.
Esta vantagem da medição se torna ainda mais crucial na observação do
muito grande (macroscópico) e do muito pequeno (microscópico).
A simulação
A manipulação da realidade é geralmente complexa, difícil e cus-
tosa. Além disso, às vezes ela é impossível ou eticamente condenável. Por
exemplo, não parece aceitável querer estudar os efeitos da bomba atômica
sobre uma cidade explodindo uma. Mas, conhecendo com precisão as
relações entre os componentes em jogo e suas magnitudes, pode-se
utilizar modelos matemáticos para simular os efeitos que queremos estudar
e que, de outro modo, seria impossível ou impraticável pesquisar.
CONCLUSÃO
A medida em ciências empíricas não pode ser considerada uma
panacéia para decidir todos os problemas do conhecimento da realidade,
inclusive porque não é ela que define o objeto e nem o método da Ciência.
Mas, diante das vantagens apresentadas, seria quiçá até irracional não se
aproveitar da medida como instrumental de trabalho no estudo da
realidade. A história da Ciência parece demonstrar, inclusive, que o avanço
do conhecimento científico está ligado ao maior ou menor uso da medida,
sobretudo quando ela está baseada numa teoria axiomatizada, isto é,
quando há a explicitação clara do maior número possível dos axiomas
necessários. Infelizmente, na medida em ciências sociais e do comporta-
mento, esta axiomatização está longe de ser uma realidade. Mesmo assim,
a discussão sobre a viabilidade da medida nestas ciências parece uma
disputa mais inócua que produtiva; uma discussão de como se proceder
à medida parece mais substantiva, produtiva e útil para o desenvolvimento
destas ciências.
REFERÊNCIAS BIBLIOGRÁFICAS
CAMPBELL, N.R. An account of the principles of measurement and calculations. London:
Longmans Green, 1928.
--------------. Symposium: Measurement and its importance for philosophy.Proceedings Aristot.
Society Suppl., London, v.17, p.121-142, 1938.
FREGE, J.G. Os fundamentos da aritmética: uma investigação lógico-matemática sobre o
conceito de número. In: OS PENSADORES: Peirce e Frege. Sao Paulo: Victor Civita,
1984. p. 195-276.
GUILFORD, J.P. Psychometric methods. New York: McGraw-Hill, 1954.
KLEIN, H.A. The world of measurements, masterpieces, mysteries and muddles of metrology.
New York: Simon and Schuster, 1974.
LORD, F.M. Applications of item response theory to practical testing problems. Hillsdale (NJ):
Erlbaum, 1980.
LUCE, R.D., SUPPES, P. Measurement theory.ln: THE NEW ENCYCLOPAEDIA BRITANNICA.
London: Britannica, 1986. v.23, p.792-798.
POPPER, K.R. A lógica da pesquisa científica. Sao Paulo: Cultrix, 1972.
--------------. Conjeturas e refutações. Brasília: Ed. UnB, 1974.
STEVENS, S.S. Mathematics, measurement and psychophysics. In: STEVENS, S.S. (Ed.).
Handbook of experimental psychology. New York: Wiley, 1951. p.1-49.
SUPPES, P., ZINNES, J.L. Basic measurement theory. In: LUCE, R.D., BUSH, R.R.,GALANTER,
E.G. (Eds.). Handbook of mathematical psychology. New York: Wiley, 1963. v.l, p.1-76.
CAPÍTULO 2
TEORIA E MÉTODOS EM PSICOFÍSICA*
Maria Angela Guimarães Feitosa
Instituto de Psicologia
Universidade de Brasilia
nformalmente, a psicofisica nasceu em aproximadamente 130 A.C., na
Astronomia, nas mãos de Hiparco, com o desenvolvimento de uma
escala para quantificação de magnitude estelar; formalmente, com a
publicação do Elemente der Psychophysik, por Gustav Theodor Fechner,
em 1860, como uma proposta metodológica para o estudo experimental
da alma. Este evento foi precedido por alguns outros eventos relevantes
que merecem menção. Daniel Bernoulli propôs, em 1738, que as pessoas
não agem com base no valor real do dinheiro, mas em uma transformação
psicológica do seu valor real. Bernoulli propôs que a utilidade do dinheiro
aumenta como uma função logarítmica da quantidade do dinheiro. Em
1824, o matemático Herbart propôs o conceito de limiar, ao afirmar que
eventos mentais precisam ter uma certa força para serem conscientemente
experimentados. Herbart propôs ainda o uso de pressupostos e conceitos
matemáticos para lidar com conceitos psicológicos. Weber (1834-1846),
pesquisando sobre somatossentidos, observou que pesos grandes levan-
tados precisam diferir mais do que pesos pequenos para serem percebidos
como diferentes, levando à formulação de que a diferença apenas per-
ceptível (DAP) é uma razão do peso levantado, criando as condições para
que Fechner enunciasse a lei que mais tarde veio a ter o nome de Weber.
Em torno de 1850, os astrônomos J. Herschel, W.R. Dawes e N.R. Pogson
formularam, independentemente de Fechner, a lei psicofisica básica de
Fechner, no contexto de desenvolver a escala de magnitude estelar
originalmente concebida por Hiparco. Na década de 1850, o físico J.A.F.
Plateau inventou o método de bissecção, no qual o observador, dados dois
valores de estímulo, tinha que produzir um terceiro que parecesse ocupar
a metade do intervalo entre os estímulos padrão. Especificamente, Plateau
* A preparação deste capitulo foi parcialmente financiada pelo CNPq, através do Auxílio
Integrado 50.0493/91-0. A autora agradece a Luiz Pasquali, Miosotis Lúcio e Rosana Maria
Tristão Taveira, pela leitura crítica de versão preliminar e pelas várias sugestões
oferecidas. Miosotis Lúcio também colaborou no levantamento da bibliografia.
I
solicitou a artistas que, a partir de tintas branca e preta, produzissem um
cinza que parecesse estar equidistante do branco e do preto.
A publicação do Elemente der Psychophysik teve impacto na
comunidade científica européia e foi decisiva para o estabelecimento da
própria Psicologia como disciplina científica. O estabelecimento e o pro-
gresso da psicofisica não foi, entretanto, ausente de percalços. A Univer-
sidade de Cambridge, na Inglaterra, recusou permissão para o estabe-
lecimento de um laboratório de psicofisica porque isto "seria insultar a
religião por colocar a alma humana em um par de escalas", uma reação
que lembra a que sofreu Charles Darwin com o enunciado da teoria da
evolução das espécies. Nos Estados Unidos, William James deixou publi-
camente claro seu desprezo pelo trabalho de Fechner, o que contribuiu
para a pouca participação dos laboratórios americanos de Psicologia
Experimental na consolidação da psicofisica (Adler, 1980; Boring, 1957).
A psicofisica criada por Fechner e os desdobramentos sob sua
influência teórica e metodológica são referidos na literatura como psico-
fisica fechneriana ou clássica. Fechner tinha um interesse especial pela
questão mente-corpo, e sua proposta psicofisica básica, R=f(S), tem
embutidos o pressuposto de identidade psicofisica e o de que as pessoas
não têm acesso direto às sensações, as quais deveriam ser medidas indi-
retamente através de sucessivos limiares diferenciais. Mais especifica-
mente, ele pressupunha que a diferença apenas perceptível (DAP) é a
unidade de sensação, que diferentes DAPs correspondem a uma mesma
sensação e que as DAPs podem se somar para constituir uma escala. O
investimento de Fechner no estudo das sensações não deve ser interpre-
tado como refletindo sua posição sobre o objeto principal do desenvolvi-
mento da psicofisica, mas como refletindo o fato de que Fechner viveu em
uma época em que eram influentes filósofos associacionistas empiricistas
que defendiam que todo o conhecimento e as idéias se devem, em última
instância, a experiências sensoriais com o mundo externo. Não surpreende,
portanto, que tendo Fechner um profundo interesse pela Filosofia, esco-
lhesse as sensações como o ponto de partida de seu extenso "programa"
psicofisico, o qual incluía o estudo da memória e do pensamento.
QUESTÕES CENTRAIS EM PSICOFÌSICA
Embora o objetivo principal deste livro seja metodologia de pes-
quisa em Psicologia, é impossível discorrer sobre métodos psicofísicos
sem fazer uma incursão, ainda que breve, na teoria pertinente. Caso
contrário, corre-se o risco de propiciar uso indevido do texto e de se
passar ao leitor pouco mais do que um cookbook, porque métodos não
costumam ser desenvolvidos dissociados de um referencial teórico ou de
um problema cuja solução exija o desenvolvimento de uma estratégia
apropriada. Além disso, os métodos psicofísicos têm sido utilizados em
campos tão distintos que a análise crítica da aplicabilidade do método
específico não pode ser feita fora do contexto de pesquisa em que o
método é usado. A organização das partes subseqüentes deste capítulo
bem como os diversos exemplos escolhidos procuram destacar algumas
destas questões. Associada à descrição de cada método, também será
feita uma descrição básica do tratamento de dados proposto e consistente
com os pressupostos teóricos subjacentes ao método. Tratamento sofisti-
cado das teorias, dos métodos psicofísicos e da análise quantitativa dos
dados pode ser encontrado em Falmagne (1985) e em Luce e Krumhansl
(1987).
O objeto de estudo da psicofisica
Independentemente dos pressupostos e objetivos originais de
Fechner, contemporaneamente a psicofisica se propõe a descrever as
relações entre propriedades do mundo físico e a forma como as pessoas
respondem a elas. O objeto central da psicofisica são as sensações,
entendendo-se que sensação é um construto acerca dessas relações
primitivas dos organismos com o meio. Esta leitura contemporânea da
psicofisica pode ser melhor apreendida a partir de algumas colocações
explícitas de S.S. Stevens. Stevens (1975, p.51-52) propôs que a sensação
com a qual a ciência lida é o tipo de reação que se presta ao escrutínio
público; que as reações que interessam são aquelas produzidas por
organismos em circunstâncias que fazem com que respondam a estímulos;
e que a adesão a este princípio nos permite extrair a ordem quantitativa de
nossos sistemas sensoriais quando eles respondem a configurações de
estímulo do ambiente. Vale a pena ressaltar a acepção proposta por
Stevens acerca da noção de subjetividade em psicofisica. Eie afirma que
a diferença principal entre os construtos da Física e os da psicofisica é que
os construtos psicofísicos dizem respeito a pessoas, chamados observa-
dores ou sujeitos, e são portanto ditos subjetivos. Se lembrarmos que
"subjetivo" pertence a "sujeito", em particular à resposta de observadores
humanos, podemos evitar as questões metafísicas que costumam surgir
quando o discurso é centrado na, assim chamada, experiência subjetiva.
Embora as afirmações imediatamente anteriores privilegiem o ser humano
como objeto de interesse, não há nada nelas que impeça sua ampliação
para incluir outros organismos animais.
As principais perguntas psicofísicas
As principais perguntas que a psicofisica procura responder podem
ser agrupadas em quatro tipos (Coren, Porac e Ward, 1979). Uma pergunta
é: qual a energia mínima que um estímulo deve ter para provocar uma
sensação? Por exemplo, podemos querer saber qual o nível de pressão
que um som de 500Hz precisa ter para ser minimamente audível quando
apresentado através de fones de ouvido. Dizemos que esta é uma questão
de detecção, para cuja resposta procuramos definir o limiar absoluto.
Uma segunda pergunta é: em quanto dois estímulos precisam diferir para
provocarem sensações diferentes? Por exemplo, que distância mínima
duas pontas cegas apresentadas à pele do dedo indicador precisam ter
para serem percebidas como duas, ao invés de uma? Dizemos que esta é
uma questão de discriminação, para cuja resposta procuramos definir o
limiar diferencial. Uma terceira pergunta é: o que é o estímulo?. Um
exemplo é a correta leitura de letras da carteia de Snellen, solicitada pelo
oftalmologista na avaliação clínica de acuidade visual. Dizemos que esta
é uma questão de reconhecimento, para cuja resposta procuramos definir
o limiar de reconhecimento ou a função de identificação. Uma quarta
pergunta é: como cresce a magnitude da sensação com a magnitude do
estímulo? Por exemplo, como cresce a sensação de frio ou desconforto
com a queda na temperatura irradiada em uma determinada área da pele?
Dizemos que esta é uma questão de escalonamento, para cuja resposta
procuramos definir uma função de magnitude psicofisica. Uma das
proposições da psicofisica é encontrar os princípios ou leis gerais
subjacentes ao comportamento dos organismos nos tipos de situações
acima descritos e, obviamente, as formas metodologicamente apropriadas
de se chegar a estes enunciados. O presente capítulo não faz jus à
complexidade teórica e metodológica da psicofisica. O tratamento mais
aprofundado de vários aspectos da psicofisica pode ser encontrado nas
obras relacionadas no final do capítulo.
Leis psicofísicas básicas
Lei de Weber
Voltemos ao experimento precursor sobre discriminação de pesos
levantados. Weber observou que pesos pequenos precisam diferir em
pouco para serem percebidos como diferentes e que pesos grandes
precisam diferir em muito para serem percebidos como diferentes. Dito de
outra forma, isto quer dizer que o valor do limiar diferencial para um
determinado estímulo varia em função do valor do estímulo padrão com o
qual está sendo comparado. Assim sendo, o limiar diferencial não é uma
forma econômica de expressar a capacidade discriminativa de um
observador em uma dada tarefa sensorial. É conveniente recorrer à
expressão da proporcionalidade entre o valor do estímulo padrão e o limiar
diferencial. Esta proporcionalidade pode ser matematicamente expressa
da forma abaixo, como a lei de Weber:
onde c é a fração ou constante de Weber, S, é o estímulo padrão e S
2
é
um estímulo a ser discriminado de S
1.
46
A lei de Weber tem sido testada para vários tipos de estímulos,
mostrando-se aplicável em um conjunto grande de situações. Com seu
uso podemos fazer afirmações gerais importantes, como, por exemplo,
acerca da comparação entre espécies quanto à discriminabilidade de
estímulos em uma dada modalidade sensorial, discriminabilidade relativa
dos vários sistemas sensoriais para um mesmo tipo de estímulo em uma
dada espécie. A lei tem uma limitação igualmente bem documentada, que
é a sua não aplicabilidade para estímulos de magnitude muito pequena. Os
dados tipicamente mostram que quando os estímulos têm magnitude muito
pequena, c é relativamente grande e tende a diminuir com o aumento na
magnitude do estímulo até atingir um valor a partir do qual passa-se a
verificar a constância expressa na lei. Em algumas condições específicas,
a constância também não se verifica para valores muito elevados de
estímulo.
Lei de Fechner
Baseado nos pressupostos de que a diferença apenas perceptível
(DAP) é a unidade de sensação e que diferentes DAPs correspondem a
um mesmo incremento psicológico em magnitude sensorial, Fechner
propôs constituir uma escala de magnitude sensorial somando DAPs a
partir do limiar absoluto. Fechner pressupôs também a validade da lei de
Weber e, a partir dela, derivou a fórmula que ficou conhecida como a lei de
Fechner, abaixo representada:
onde P é a magnitude da sensação, k é uma constante de multiplicação
cujo valor depende da modalidade e da dimensão sensorial e S é a
magnitude (intensidade) do estímulo acima do limiar. Como mencionado
anteriormente, os dados empíricos de discriminação mostram limitações
nas condições em que se verifica a lei de Weber. Assim sendo, a lei de
Fechner é válida apenas nas condições em que se sustentam os pressu-
postos nos quais está ancorada, um deles sendo a própria lei de Weber.
Lei de Ekman
Um problema de interpretação de dados sobre magnitude de
sensação é que as escalas produzidas por escalonamento de razão e as
produzidas por escalonamento de discriminação diferem sistematicamente
em expoente. Gosta Ekman, trabalhando na Universidade de Estocolmo,
procurou uma explicação para esta diferença e propôs, no final da década
de 50, que o tamanho psicológico do DAP é uma função linear de magni-
tude sensorial. A lei de Ekman afirma que:
onde DY é uma mudança em magnitude apenas detectável, Y é o valor de
início da magnitude de sensação e k
Y
e a são constantes. Em essência, a
lei de Ekman é uma afirmação de que a variabilidade em magnitude
sensorial é proporcional ao valor médio de magnitude sensorial. Um
aspecto relevante da lei de Ekman é que ela permite unificar dados de
experimentos usando métodos de detecção de sinal, discriminação,
estimativa de magnitude e julgamento de comparação de pares, cujas
características de variabilidade são compatíveis com as descritas na lei.
Como digressão, é interessante notar a observação de Gescheider de que,
já em 1874, Brentano havia proposto que a relatividade da variabilidade
aplica-se não só ao domínio físico como psicológico, mas essa idéia só foi
retomada e avançada 80 anos depois. Este é um exemplo específico de
um fato corriqueiro na construção da Ciência — de que a evolução do
pensamento científico e a acumulação do conhecimento às vezes seguem
caminhos bastante tortuosos.
Lei de Stevens
Stevens, em contraposição direta a Fechner, propôs na década de
50 que a razões iguais de estímulo correspondem razões iguais de sen-
sações. Descrita matematicamente, esta relação pode ser reproduzida por:
onde P é a magnitude da sensação, k é uma constante de proporciona-
lidade, S é a magnitude do estímulo e n é a variável potência.
O parâmetro mais importante e que tem sido o foco de muitos
experimentos psicofísicos é o expoente n. Quando n = 1, a representação
gráfica da função é uma reta. Isto corresponde a uma situação psicofisica
em que a magnitude da sensação cresce de forma proporcionalmente
equivalente, linearmente, com a magnitude do estímulo (vide Figura 2-1).
Este fenômeno ocorre, por exemplo, com julgamento de comprimento de
linha. Quando n < 1, a representação gráfica da função é uma curva com
crescimento em aceleração negativa, cuja assíntota tende a uma paralela
ao eixo da abcissa. Isto corresponde a uma situação psicofisica em que a
magnitude da sensação cresce de forma gradativamente menor conforme
aumenta a magnitude do estímulo. Este comportamento da função é o
mais freqüentemente encontrado. Dois bons exemplos são o crescimento
de brilho em função de intensidade de flashes rápidos e o crescimento de
sonoridade em função de pressão acústica. Quando n > 1, a representação
da função é uma curva de aceleração positiva, com assíntota tendendo a
uma paralela ao eixo da ordenada. Isto corresponde a uma situação
psicofisica em que a magnitude da sensação cresce de forma gradativa-
mente maior com o aumento na magnitude do estímulo. Este fenômeno
ocorre, por exemplo, com choque elétrico em função de corrente aplicada
aos dedos.
Magnitude de estímulo (unidades arbitrarias)
Fig. 2-1 — Representação estilizada dos dados típicos de experimentos
relacionando magnitude aparente a magnitude de estímulo para três
condições diferentes de estímulo. A magnitude aparente está expressa em
unidades arbitrárias como função de magnitude de estímulo, em unidades
arbitrárias para choque elétrico, comprimento de linha e brilho. (Adaptado
de Stevens, 1975, p.16)
Independentemente da propriedade teórica desta função e de sua
eventual superioridade em relação à lei de Fechner, a equação anterior-
mente descrita apresenta a conveniência de, ao ser logaritmicamente
tratada, se transformar na equação da reta:
onde log k é o intercepto no eixo log P e n é a inclinação da reta (vide
Figura 2-2).
Nesta forma, a função psicofisica sempre pode ser descrita por uma
reta, quando se piota log P em função de log S. Quando n = 1 obter-se-á
uma reta de inclinação 1; quando n > 1 obter-se-á uma reta com inclina-
ção superior a 1; e quando n < 1, obter-se-á uma reta com inclinação
inferior a 1. Os valores de n e de k podem ser obtidos através do método
dos quadrados mínimos.
Rumo a uma lei psicofisica unificada
A comparação entre as leis de Fechner e de Stevens tem ocupado
os teóricos mesmo décadas depois do início da controvérsia originalmente
1 2 3 10 20 3'0 90 100 200 380 1000
Magnitude de estímulo (unidades arbitrárias)
Fig. 2-2 — Representação estilizada dos mesmos dados da Fig. 2-1, loga-
ritmicamente transformados. Observe-se que as três funções são retas,
que a curva de aceleração positiva se transformou em uma reta de inclina-
ção maior que 1 e que a curva de aceleração negativa se transformou em
uma reta de inclinação menor que 1. (Adaptado de Stevens, 1975, p.17)
colocada por Stevens. O leitor interessado numa visão panorâmica e
contemporânea da controvérsia, bem como de uma possível saída para a
controvérsia, pode consultar uma publicação no volume 12 do Behavioral
and Brain Sciences (Krueger, 1989), que reúne um artigo central de Lester
E. Krueger com comentários de 36 outros autores. Neste trabalho, Krueger
propõe que a descrição de uma lei psicofisica geral exigiria que os
fechnerianos abandonassem os pressupostos da validade da lei de Weber
e de que o DAP tem a mesma magnitude subjetiva independentemente de
modalidade sensorial; e que os stevensonianos abandonassem o pressu-
posto de que a escala não ajustada de magnitude é uma medida direta de
magnitude sensorial. É ainda cedo para avaliar o impacto desta proposta
sobre a consolidação da teoria psicofisica.
PSICOFISICA CLASSICA
Fechner criou três métodos psicofísicos, os chamados métodos
psicofísicos clássicos, que, com pequenas modificações, continuam sendo
considerados métodos centrais na psicofisica.
Método dos estímulos constantes
Neste método, apresenta-se ão observador um conjunto de estí-
mulos cujos valores são adequadamente espaçados, para se obter uma
função psicofisica em que a probabilidade de resposta ao longo do
contínuo de valores de estímulo varie de 0 a 1. Para a dimensão de
estímulo escolhida, cada valor de estímulo é apresentado um mesmo
número de vezes, mas em ordem aleatória. Na versão mais simples de sua
utilização, o observador é solicitado a julgar se um estímulo está presente
ou não; os resultados são plotados em termos de p(SIM) como função de
intensidade de estímulo. A função resultante aproxima-se de uma
sigmòide e descreve como cresce a sensação acerca do estímulo em
função de sua magnitude. Desta função é possível obter-se, como limiar
absoluto para a dimensão de estímulo em estudo, aquele valor de estímulo
que corresponde à probabilidade 0,5 de respostas SIM. Este valor de
probabilidade é visto como aquele em que existe incerteza máxima acerca
da ocorrência ou não do estímulo em estudo. É costumeira uma variação
de regra de apresentação de estímulo em que a seqüência de estímulos
é pseudo-aleatòria, para impedir a ocorrência de séries longas de
apresentações de um mesmo valor de estímulo.
Quando o método dos estímulos constantes é usado para a obten-
ção de limiares diferenciais, o julgamento solicitado ao observador passa
a ser, na versão mais simples do método, se um estímulo S
1
é maior ou
menor que um segundo estímulo S
2
É variado o tamanho da diferença
entre S
1
e S
2
, e os valores do par de estímulo ao qual se associa a pro-
babilidade 0,75 de respostas MAIOR QUE ou MENOR QUE são então
usados para calcular o limiar diferencial para incremento ou decremento,
respectivamente, a partir do valor padrão de S. O estudo de limiares
diferenciais exige que o método contenha provisão para lidar com a
comparação entre dois estímulos. Assim, por exemplo, em audição, a
apresentação simultânea de dois tons produz efeitos de interação que não
são triviais; em visão e tato, a apresentação simultânea de dois estímulos
pode resultar em estimulação de áreas receptoras da retina ou da pele
funcionalmente não comparáveis. A apresentação sucessiva de estímulos
sensoriais também tende a produzir efeitos de ordem — outras variáveis
permanecendo constantes, o estímulo apresentado em segundo lugar é
percebido como de maior magnitude. O conhecimento detalhado do
sistema sensorial específico com o qual se está trabalhando é necessário
para que sejam incorporados os controles apropriados.
Método dos limites
Neste método o pesquisador predefine urna amplitude de variação
de estímulos a serem investigados, bem como os valores específicos de
estímulo a serem apresentados ao observador, da mesma forma como o
faria no método dos estímulos constantes. Os estímulos são apresen-
tados em séries nas quais os valores de estímulo são de magnitude
crescente, tentativa a tentativa (série ascendente), ou de magnitude
decrescente, tentativa a tentativa (série descendente). Em cada série, o
valor de estímulo com o qual a série se inicia é claramente subliminar
(série ascendente) ou supraliminar (série descendente). A série é
encerrada quando o observador muda a sua resposta ao estímulo, por
exemplo: de NÃO (a tentativa não contém estímulo) para SIM (a tentativa
contém estímulo) em uma série ascendente; ou de SIM para NAO em uma
série descendente. No jargão psicofisico, estes pontos de mudança são
chamados transições. Tipicamente o procedimento contém controles para
assegurar que séries de um mesmo tipo não sejam iniciadas com o mesmo
valor inicial e que uma mesma sessão de coleta de dados contenha tanto
séries ascendentes como descendentes, para impedir ou contrabalançar
estratégias de resposta que estejam sob o controle de variáveis outras que
magnitude de estímulo. Limiares locais são definidos a partir dos pontos de
transição de resposta nas séries individuais, e um limiar médio é calculado
a partir da média dos limiares locais.
O método também se aplica ao estudo de limiares diferenciais,
circunstância em que se entende como série ascendente aquela em que
a diferença entre os estímulos é crescente e série descendente como
aquela em que a diferença entre os estímulos tende a zero. As preocu-
pações anteriormente colocadas com as conseqüências da opção por
apresentação simultânea ou sucessiva de estímulos também se aplicam
a este método. O método dos limites deu origem a três variações: o
método da escada, o método do rastreamento (do original inglês tracking)
e o método de escolha forçada. Apenas o primeiro será aqui descrito; o
segundo será omitido porque partilha algumas características com o
método dos ajustes, o qual está descrito nesta mesma seção; o terceiro,
pelo seu amplo uso associado à teoria de detecção de sinal, será descrito
na próxima seção.
Método da escada
Este método avança em relação ao método dos limites a caracte-
rística de economia no número de tentativas para a obtenção de medidas
de limiar. Difere do método dos limites no seguinte aspecto: encerrada a
primeira série de estímulos, o valor de estímulo com que se iniciará a série
complementar seguinte será o valor com que se encerrou a série anterior.
A conseqüência disto é que os valores de estímulo efetivamente apresen-
tados estão sempre muito próximos do limiar. Obtém-se um grande
número de estimativas de limiar em curto período de tempo. Da mesma
forma como no método dos limites, limiares locais são definidos a partir
dos valores de estímulo correspondentes a transições de resposta, e um
limiar médio é obtido a partir da média dos limiares locais. Procura-se
obter um número de transições que seja um compromisso entre o neces-
sário para o uso confortável de estatística descritiva e a possibilidade de
várias aferições de limiar para a construção de uma função. Este método,
da mesma forma que o método dos limites, é encontrado numa série de
variações no que diz respeito a quatro características: (a) os critérios
usados para determinar mudanças no nível do estímulo; (b) o valor, ou o
tamanho do intervalo de valor, em que o estímulo é aumentado ou dimi-
nuído de tentativa a tentativa; (c) o critério usado para encerrar a escada;
e (d) o algoritmo usado para calcular o limiar a partir dos dados.
Método dos ajustes
Este é o terceiro método psicofisico concebido por Fechner. Foi
originalmente concebido para a mensuração de limiares diferenciais, mas
pode ser usado também para o estabelecimento de limiares absolutos. Na
versão para limiares absolutos, o estímulo é inicialmente apresentado em
um valor bem acima do limiar e pede-se ao sujeito para ajustar o nível do
estímulo até que ele desapareça. Em seguida, o estímulo pode ser apre-
sentado bem abaixo do limiar e pede-se ao sujeito para ajustar o nível do
estímulo até ele ser apenas perceptível. Tipicamente, o estímulo varia
continuamente. Uma série de tentativas em que o estímulo cresce ou
decresce é apresentada. O limiar é calculado como a média dos diversos
valores de ajuste.
A versão para limiares diferenciais tem também o nome de método
do erro médio. Nele, apresenta-se ao observador um estímulo padrão e
um segundo estímulo, o qual ele é instruído a ajustar para que pareça igual
ao padrão. Como o uso típico do método é poder descrever a discrepância
entre o valor de estímulo padrão e o valor de ajuste, o tratamento de dados
é voltado para este aspecto. A média da distribuição dos ajustes é consi-
derada o valor de igualdade subjetiva; o erro constante é a diferença
entre os valores do estímulo padrão e os da igualdade subjetiva; o desvio
padrão (ou outra medida de dispersão) é o limiar diferencial.
Uma limitação do método dos ajustes é que a variação contínua do
estímulo torna o resultado pouco preciso no caso de aferição de limiar.
Uma outra limitação é que tempo de exposição e taxa de mudança por si
sós podem ser variáveis relevantes na sensação que um estímulo produz,
e o experimentador perde controle sobre estas variáveis se o procedimento
permite que o observador manipule estes aspectos do estímulo.
PSICOFÌSICA MODERNA
Stevens, em um trabalho volumoso que se iniciou na década de 30,
questionou a formulação básica da lei de Fechner, de que a razões iguais
de estímulo correspondem diferenças iguais de sensações, e contestou
diretamente o pressuposto fechneriano de que as sensações não podem
ser medidas diretamente. Propôs uma nova lei de acordo com a qual a
razões iguais de estímulos correspondem iguais razões de sensação, a lei
da potência, posteriormente também chamada de lei de Stevens, e
demonstrou que é possível obter escalas confiáveis relacionando atri-
butos físicos a atributos psicológicos, perguntando-se diretamente ao
observador acerca de propriedades dos estímulos. Criou os chamados
métodos de escalonamento direto, dos quais destacaremos quatro neste
capítulo.
Os métodos de escalonamento e as estatísticas a eles associadas
para produzir diferentes escalas sensoriais têm por trás a caracterização
do grau de correspondência entre o sistema de números e as propriedades
dos objetos ou eventos em estudo. De acordo com estas propriedades, as
escalas de medida são agrupadas em quatro tipos: escalas nominais,
ordinais, de intervalo e de razão. Os métodos de escalonamento podem
ser agrupados em duas grandes categorias, situando-se na primeira os
métodos para construção de escalas de intervalos. Esta primeira categoria
se subdivide em duas famílias de métodos — para a construção de escalas
de confusão e de escalas de partição. Na segunda categoria estão os
métodos para construção de escalas de razão, sendo apenas estas aqui
descritas, dada a preponderância de seu uso na psicofisica contemporâ-
nea. O leitor pode consultar Stevens ( 1975) ou Gescheider (1976) para uma
boa descrição de outras escalas.
Iniciativas precursoras de uso de escalas de razão remontam a
Merkel em 1888 e a Fullerton e Cattell em 1892, mas foi só na década de
30, quando os engenheiros acústicos começaram a se preocupar com uma
descrição numérica de sonoridade (loudness), que os psicólogos passaram
a investir esforços neste tipo de escala. Os quatro principais métodos para
produção de escalas de razão serão descritos a seguir.
Método de produção de razão
Neste método, também chamado de fracionamento, solicita-se ao
observador que observe um estímulo padrão e ajuste um segundo estí-
mulo, variável, até que este pareça um certo valor de razão do primeiro.
Por exemplo, fornece-se um tom puro de uma certa freqüência a uma
certa intensidade e solicita-se ao sujeito que ajuste a intensidade de um
segundo tom de mesma freqüência, até que este pareça ter a metade da
sonoridade do primeiro tom. A tarefa é repetida para vários valores de
intensidade de estímulo. A tarefa pode também ser de razões que se
expressem por múltiplos, como, por exemplo, achar o valor que reflita o
dobro, o triplo de sonoridade. Recomenda-se que a descrição de uma
função de magnitude seja baseada num experimento que inclua os dois
tipos de tarefa. A forma como os estímulos são apresentados costuma ser
especificada de acordo com um dos métodos da psicofisica clássica
anteriormente descritos. Uma variação do método é fazer com que o
estímulo variável assuma valores discretos, espaçados a pequenos inter-
valos de intensidade, em vez da variação contínua, cuja desvantagem de
quantificação já foi anteriormente exposta. O método de produção de razão
já foi utilizado para a obtenção de funções de magnitude para várias
modalidades e dimensões de estímulo.
Método de estimativa de razão
Neste método, pede-se ao sujeito para, dados dois estímulos que
se diferenciam em intensidade por um valor definido pelo experimentador,
estimar a razão entre eles. Aplicam-se as mesmas considerações feitas
na descrição imediatamente acima para a obtenção de uma função de
magnitude. Os métodos de produção e de estimativa de razão podem ser
usados para validação recíproca. Gescheider (1976) alerta para o fato de
que estes dois métodos não são muito poderosos, porque são muito
influenciáveis por variáveis de contexto, como, por exemplo, a própria
amplitude dos valores de estímulo usados no experimento.
Método de estimativa de magnitude
A genialidade deste método está na sua surpreendente simplicidade.
Pede-se ao observador para atribuir números a variações quantitativas em
um atributo de um estímulo. Em uma das variantes do método, dá-se ao
observador um estímulo padrão ao qual se atribui um valor de medida, do
tipo: se o peso deste cilindro tem o valor de 100, em quanto você estima o
peso de uma série de cilindros que lhe serão apresentados? Stevens reco-
menda que o estímulo padrão corresponda a um valor intermediário, dentre
aqueles que serão julgados. Em outra variante, o sujeito é livre para atribuir
valores, e a instrução se limita a orientar o sujeito no sentido de que os
valores atribuídos reflitam seu julgamento da magnitude relativa dos estí-
mulos. Nesta segunda variante, a comparação de dados entre diferentes
observadores exige que se trabalhe com média geométrica ou que se use
um procedimento preliminar de normatização dos valores de resposta para
os diferentes observadores. Como a tarefa é tipicamente considerada
muito fácil pelo observador, a coleta de dados é muito eficiente, oque torna
o método recomendado em experimentos que exigem a obtenção de mui-
tos dados. O leitor pode consultar Gescheider (1988) para uma análise de
modelos explicativos das características dos dados obtidos por estimativa
de magnitude.
Método de produção de magnitude
Este método é a recíproca do anterior. Dá-se ao observador um
estímulo padrão num dado valor especificado pelo experimentador e pede-
se ao observador para ajustar um segundo estímulo até que o valor deste
seja um determinado múltiplo ou fração do padrão. Novamente, a validade
da escala de magnitude é julgada pela boa aproximação entre as escalas
obtidas por produção e por estimativa de magnitude.
Comparando-se os resultados obtidos com os métodos de estima-
tiva e de produção de magnitude, observa-se um viés típico na inclinação
de uma função em relação a outra, descrito como efeito de regressão à
média, com a seguinte característica: na tarefa de estimativa, o observador
evita fazer estimativas muito baixas ou muito altas, resultando em uma
inclinação menor da função; já na tarefa de produção, o observador evita
ajustar o estímulo em valores muito baixos ou muito altos, resultando em
uma maior inclinação da função. O balanceamento destes dois vieses
complementares pode ser feito através do método de balanceamento
numérico de magnitude, que consiste na extração da média geométrica
das duas funções.
Método de equiparação intermodal
Diferentemente dos métodos psicofísicos acima apresentados, nos
quais se busca descrever algum tipo de função R = f (S), este método é
voltado para a obtenção de funções do tipo S = f (S). Rigorosamente
falando, não é um dos métodos básicos, mas suas peculiaridades mere-
cem uma atenção especial. Neste método, o observador é solicitado a
fazer comparações diretas entre dois contínuos sensoriais. Uma tarefa
típica seria solicitar ao observador apertar um dinamòmetro com força
equiparável à intensidade aparente de um som. Este método foi desenvol-
vido com uma preocupação teórica acerca da lei potência. Stevens
argumenta que, se a estimativa numérica que um observador faz quando
é solicitado a julgar a magnitude de sua sensação reflete uma propriedade
fundamental do sistema sensorial, então esta mesma propriedade deveria
nortear seu comportamento quando ele equipara uma sensação a outra.
Assim, conhecendo-se a função potência para cada sensação, a equipa-
ração deveria ser uma outra função potência cujo expoente é a razão dos
dois expoentes originais. A aproximação entre o expoente predito e o
empiricamente obtido na tarefa de equiparação pode, então, ser usada
como indicador de validade da escala psicofisica. As implicações teóricas
da equiparação intermodal continuam sendo objeto de pesquisa. O leitor
pode recorrer a Luce (1990) para um tratamento avançado contemporâneo
do assunto.
DETECÇÃO DE SINAL
Tanner e Swets propuseram em 1954 que a teoria de decisão
estatística e certos conceitos sobre dispositivos eletrônicos de detecção de
sinal poderiam ser usados para construir um modelo que se aproximasse
de como as pessoas se comportam em situações de detecção nas quais
existem expectativas e conseqüências. O modelo ficou conhecido como a
teoria de detecção de sinal e está descrito no livro A Signal Detection
Theory and Psychophysics, de D.M. Green e J.A. Swets, publicado em
1966 e considerado a referência básica principal para a teoria. A descrição
que se segue é baseada em Gescheider (1976).
A teoria de detecção de sinal se contrapõe à psicofisica clássica ao
rejeitar a relevância do conceito de limiar e ao propor que o observador
não recebe passivamente o estímulo, mas, muito ao contrário, está ati-
vamente engajado no processo de decidir acerca da presença de um
estímulo na situação de observação. Assim, a teoria e o método estão
voltados para a análise do comportamento de tomada de decisão do
observador. A teoria contém algumas proposições centrais: a) existe ati-
vidade sensorial, mesmo na ausência de estímulo específico; b) um sinal
sempre ocorre na presença de ruído; c) o nível de ruído varia de momento
a momento; d) o observador define (conscientemente ou não) acerca de
um critério ou ponto de corte para um nível de sensação acima do qual
responde SIM (existe um estímulo, ou sinal, como preferem os usuários da
teoria) e abaixo do qual, NÃO; e) sensibilidade (detectabilidade ou
discriminabilidade, dependendo de detalhes da tarefa psicofisica específi-
ca) é a quantidade média de sensação gerada por um sinal quando
comparado com a quantidade média de sensação gerada por ruído
apenas. Duas medidas centrais inerentes à teoria são, portanto, critério de
resposta (P) e sensibilidade ao estímulo (d'). Além disto, a legitimidade da
utilização da teoria pressupõe a verificação dos pressupostos estatísticos
de que as distribuições de ruído e de sinal-ruído sejam normais e que as
variâncias das respectivas distribuições sejam iguais.
Dentro do arcabouço acima descrito, um experimento psicofisico
simples pode ser representado por uma matriz estímulo x resposta 2x2, na
qual, para duas possibilidades de sinal (presente ou ausente) contempla-
se duas possibilidades de resposta (sim ou não). Uma matriz assim
delineada permite verificarem-se quatro possibilidades de resultado de
tentativas individuais, sendo dois tipos de acerto e dois tipos de erro. Mais
especificamente, se um sinal está presente e a resposta é sim, obtém-se
uma detecção correta; se um sinal está presente e a resposta é não, uma
omissão; se um sinal está ausente e a resposta é sim, um alarme falso;
e se o sinal está ausente e a resposta é não, uma rejeição correta do
sinal. Como, necessariamente, são complementares as proporções de
resposta sim e não para cada uma das possibilidades de sinal, por
convenção selecionam-se para estudo as categorias detecção correta e
alarme falso, cujas probabilidades são independentes; este delineamento
básico é repetido para probabilidades diferentes de apresentação de sinal.
Todo o conjunto pode ainda ser repetido para valores diferentes de sinal
(vide Figura 2-3).
Os dados de um experimento assim planejado e executado podem
ser graficamente apresentados como curvas de isossensibilidade quando
Fig. 2-3 — Representação estilizada de uma curva de isossensibilidade a
partir de um experimento de detecção de sinal, em que cada ponto repre-
senta os dados sob uma condição de probabilidade de ocorrência do sinal.
A probabilidade de correta detecção está expressa na ordenada e a pro-
babilidade associada de alarme falso está expressa na abcissa. (Adaptado
de Stevens, 1976, p.74)
a proporção de detecções corretas é plotada na ordenada, a proporção de
alarmes falsos é plotada na abcissa e cada curva representa o comporta-
mento de detecção para um único valor de estímulo associado a várias
probabilidades de apresentação de sinal. Curvas diferentes descrevem a
sensibilidade do observador a valores diferentes de estímulo. Com este
tipo de apresentação de dados, a curvatura da função, ou o grau de seu
afastamento de uma reta de inclinação 1, indica a sensibilidade do
observador ao estímulo. Para testar os pressupostos de normalidade de
distribuições e de igualdade de variância, a curva de isossensibilidade
deve ser transformada em uma reta, o que se faz transformando as
proporções em escores Z. Feita esta transformação, se a distribuição for
normal, a função será uma reta; se as variâncias forem iguais, a inclinação
será 1 — e os valores de d' serão os valores de intercepto. A reta é costu-
meiramente descrita a partir do método dos quadrados mínimos.
A solução gráfica não é, porém, necessária para descrever os resul-
tados do experimento. O valor de d' pode ser diretamente calculado a partir
da proporção de detecções corretas e de alarmes falsos através da
fórmula:
O procedimento típico comporta a manipulação explícita de variáveis
motivacionais, pois é possível substituir a manipulação de freqüência
relativa do sinal por manipulação de tipo e magnitude de conseqüência
para cada uma das quatro possibilidades de resposta. Desta forma pode-
se verificar a influência de variáveis não estritamente sensoriais sobre o
padrão de respostas do observador.
Como anteriormente mencionado, a teoria tem um referencial esta-
tístico. Embutidos em um método geral acima descrito, pode-se descrever
três procedimentos associados à teoria de detecção de sinal: o procedi-
mento sim-não, o procedimento de escolha forçada e o procedimento de
julgamento (rating) de confiança. É importante apreciar que estes
procedimentos são delineados para permitir a obtenção de dados que
possam, por sua vez, ser convertidos nos construtos teóricos de sensibili-
dade, de critério, de distribuição de variância e de forma de distribuição, e
permitir o teste da teoria comparando-se os valores dos construtos predi-
tos na teoria com aqueles derivados dos dados empíricos de proporção de
respostas.
Procedimento sim-não
O experimento é organizado em tentativas de dois tipos. Em algu-
mas tentativas o sinal é apresentado (mais rigorosamente, tentativas
contendo sinal e ruído) e em outras tentativas o sinal não é apresentado
(mais rigorosamente, tentativas contendo apenas ruído). O observador é
informado da matriz de pagamento (ou, em linguagem coloquial, do que tem
a ganhar e perder com acertos e erros, respectivamente). Sua tarefa é sim-
plesmente julgar, através de uma resposta simples do tipo sim/não, se um
sinal está ou não presente na tentativa Em cada sessão experimental vigora
uma condição de matriz de pagamento e de probabilidade sinal/ruído.
Poder traçar uma curva de isossensibilidade exige que o experimento
inclua várias condições de probabilidade sinal/ruído, o que muitas vezes
não é feito, pois isto exige várias sessões experimentais e um número
muito grande de tentativas. Nestas circunstâncias não existem condições
de se testar os pressupostos de distribuição normal e variâncias iguais,
tendo-se que usar um tratamento estatístico que dispense a verificação
destes pressupostos.
Procedimento de escolha forçada
Neste procedimento, o observador é exposto a tentativas que con-
têm dois ou mais intervalos de observação e deve indicar qual deles
contém o sinal. Pressupõe-se que, na ausência de viés de resposta em
relação a um ou outro intervalo de observação, o observador escolha o
intervalo que contém o estímulo de maior magnitude. Na prática, o planeja-
mento das tentativas deve incluir controles para impedir o desenvolvimento
de vieses de resposta, como, por exemplo, viés de posição ou de ordem.
A própria proporção de respostas corretas é considerada medida direta de
sensibilidade.
Procedimento de julgamento de confiança
Em cada tentativa o observador deve indicar quão seguro está da
presença do sinal, em uma escala de grau de confiança apresentada pelo
experimentador. Pressupõe-se que o dado de estimativa é medida de
critério, o que representa uma economia em coleta de dados. Para fins de
análise de dados, as respostas são desdobradas por valor de grau de
confiança, e com os dados de uma sessão experimental consegue-se
obter uma função de isossensibilidade. Este procedimento é considerado
vantajoso em relação aos dois anteriormente descritos, não só pela rapidez
como pela conveniência para testes de normalidade de distribuição e
igualdade de variância.
PSICOFÌSICA ANIMAL
Estudos precursores em psicofisica animal apareceram em 1935,
quando a equipe de Culler e Brodgen desenvolveu um método cuidadoso
e sensível para obtenção de limiares auditivos no cachorro, usando
esquiva. Ao se apontar um marco para o surgimento formal da psicofisica
animal, seria justo destacar um outro trabalho, pelo seu impacto na
comunidade científica — uma publicação de Donald Blough, em 1958, na
qual ele propõe um procedimento para a obtenção de uma função
psicofisica de adaptação visual no pombo. Na década de sessenta, vários
laboratórios se dedicaram ao desenvolvimento de metodologias de
pesquisa apropriadas ao estudo das sensações em várias modalidades e
em várias espécies animais. Estas múltiplas iniciativas foram consolidadas
no livro Animal Psychophysics, organizado por William C. Stebbins e
publicado em 1970. Outro trabalho importante de consolidação dos méto-
dos da psicofisica animal é um texto de autoria do casal Donald e Patrícia
Blough, publicado em 1977.
Não se pode dizer que a psicofisica animal tenha um referencial
teórico próprio, embora ela possa causar um certo desconforto aos puristas
teóricos, que vêem a psicofisica como um empreendimento para destrin-
char questões referentes à relação mente-corpo. Porém ela, clara e expli-
citamente, faz uso do conhecimento científico sobre o comportamento
animal desenvolvido tanto na perspectiva etologica quanto de análise
experimental do comportamento. A psicofisica animal se propõe a desen-
volver procedimentos específicos que permitam a utilização de metodolo-
gias básicas independentemente desenvolvidas, como as já descritas
neste capítulo, quer para assegurar o estudo de determinadas espécies,
quer para permitir estudos comparativos entre espécies. As questões que
lhe interessam são as mesmas leis e princípios gerais anteriormente
descritos, as teorias, leis e princípios próprios dos diversos sistemas
sensoriais e a verificação do seu grau de generalidade no reino animal. A
seguir serão descritos, por categoria de problema, os procedimentos
recomendados para adaptar os mais variados métodos psicofísicos ao
sujeito animal.
Aspectos motivacionais
A impossibilidade de usar instruções verbais, muito ao gosto dos
estudiosos da psicofisica humana, leva ao uso de regras de contingência.
O estabelecimento destas regras não é trivial. Tomemos, por exemplo, o
caso de especificação de limiar absoluto. Se é razoável que uma resposta
de detecção na ausência de estímulo seja considerada uma resposta
errada e, portanto, deva não ser reforçada ou até mesmo punida, não é
razoável planejar que a ausência de resposta na presença de um estímulo
fraco seja considerada erro, pois é uma incógnita a magnitude de estímulo
necessária para que ele seja estímulo efetivo. O uso de reforçamento
positivo, ao mesmo tempo que é eficaz em manter o animal engajado na
tarefa, impõe limites ao número de tentativas contidas em uma sessão
experimental, em virtude de saciação do reforçador, o que leva ao cuidado
de que o procedimento otimize a razão tentativas úteis/tentativas totais.
Resposta de observação
A baixa variância dos dados psicofísicos depende de que o animal
esteja atento ao estímulo sensorial e adequadamente posicionado, de
modo que o estímulo entre em contato com o órgão receptor de forma
especificável e constante. Tipicamente uma tentativa é iniciada com a
apresentação de um estímulo que sinaliza a ocasião para a emissão de
uma resposta de observação. Isto significa, por exemplo, no caso de
estímulos visuais, que o procedimento seja tal que o estímulo sensorial só
será apresentado se o animal estiver com a cabeça posicionada de uma
maneira determinada, para assegurar que os olhos estejam a uma
distância e orientação especificadas em relação ao estímulo. Em um
procedimento típico, a emissão de uma resposta de orientação é condição
para que se inicie o intervalo que pode ou não conter o estímulo sensorial.
A correta emissão da resposta de observação é reforçada com um
estímulo arbitrário que também exerce a função de sinalizar o início de um
intervalo de apresentação de estímulo. A topografia desta resposta
depende de variáveis próprias do experimento, como a espécie animal, a
modalidade e a dimensão de estímulo em estudo.
Controle de estímulo da resposta de detecção
O procedimento precisa incluir salvaguardas para que não existam
outras variáveis, além do próprio estímulo sensorial em estudo, exercendo
o papel de sinalizadores para a ocorrência da resposta de detecção. A
própria existência de uma sinalização para a ocorrência do estímulo sen-
sorial pode propiciar a ocorrência de respostas indevidas de detecção. Um
animal pode estimar o intervalo de tempo entre eventos relevantes e con-
venientemente espaçar suas respostas de forma a maximizar a obtenção
de reforços. Embora esta afirmação costume soar como um exagero para
aqueles não familiarizados com o estudo de aprendizagem animal, ela es
fartamente documentada na literatura especializada. Salvaguardas típicas
para impedir esta possível estratégia de resposta são: tornar variáveis o
tempo entre a emissão da resposta de observação e a apresentação do
estímulo sensorial e o tempo entre a resposta de detecção e o início da
tentativa seguinte; punir respostas de observação e respostas de detecção
na ausência de seus respectivos estímulos sinalizadores com um timeout,
punir respostas de detecção com tempo de reação inferior ao mínimo
necessário, considerando o que se conhece sobre tempo mínimo de
resposta.
Os controles acima são necessários, mas ainda não suficientes. Por
exemplo, um switch que aciona um tom pode conter transientes audíveis,
fazendo com que a ocorrência do estímulo seja detectável independente-
mente de sua intensidade e, em conseqüência, o animal seja reforçado
pela detecção desses transientes, o que pode levar o pesquisador a
concluir pela sua supersensibilidade. Uma forma de controlar isto é
introduzir pseudotentativas nas quais tudo ocorre como em uma tentativa
regular, exceto que o estímulo é apresentado em uma magnitude aberran-
temente distanciada da faixa de sensibilidade conhecida para a espécie.
O uso de pseudotentativas propicia uma forma de monitorar a qualidade
do desempenho do animal. A porcentagem de respostas a estas tentativas
pode ser usada para decidir sobre a confiabilidade dos dados. As res-
postas a pseudotentativas, dentro de um referencial de teoria de detecção
de sinal, podem ser um indicador de critério de resposta. Assim, um animal
conservador terá uma baixa proporção de respostas a estas tentativas e
um limiar mais alto; um animal menos conservador terá uma proporção
mais alta de respostas a estas tentativas e um limiar mais baixo. Um
controle sobre este critério de resposta pode ser tentado via manipulação
da especificação do timeout.
Tempo de reação e escalas psicofísicas
Embora na maioria das tarefas psicofísicas de detecção se solicite
ao observador uma resposta simples e arbitrária que é registrada como
ocorrendo ou não dentro de um intervalo de tempo no qual a resposta
pode ser dada, é possível medir-se o intervalo entre o início da apresen-
tação do estímulo e a ocorrência da resposta de detecção do estímulo.
Este tempo de reação guarda uma relação inversa natural e ordenada com
magnitude de estímulo para todas as modalidades testadas, de forma tal
que pode ser usado para escalonar estímulos. Se o manipulandum e a
topografia da resposta reforçada são cuidadosamente adaptados às
características da espécie em estudo, é possível obterem-se dados de
excelente qualidade. Tempo de reação é um método que nasceu fora da
psicofisica; sua invenção é creditada a Franciscus Donders, em torno de
1865, interessado em calcular a velocidade de operações mentais. O
método foi incorporado ao laboratório de Wundt e posteriormente aplicado
à psicofisica, não com os objetivos originais, mas em função desta sua
propriedade de relação natural com magnitude de estímulo. A proposição
deste uso para tempo de reação remonta a Cattell, em 1902, mas só a
partir da década de 60 tempo de reação começou a ser usado de forma
sistemática na psicofisica animal. Vide, por exemplo, a demonstração de
seu uso para pesquisar tanto audição quanto visão em macacos, feita por
Stebbins e Miller (1964). Este método vem sendo usado para descrever a
sensação de brilho e de sonoridade em várias espécies, e os dados se
comportam de forma equivalente aos obtidos para observadores humanos,
não só em tarefas semelhantes de tempo de reação, mas comparando
dados humanos obtidos usando tempo de reação e estimativa de magni-
tude (Marshall, Brandt, 1980; Pfingst, Hienz, Kimm e Miller, 1975; Reason,
1968). O método tem uma série de variações que não nos é possível deta-
lhar neste capítulo. É possivelmente o método mais usado em psicofisica
animal para a pesquisa sobre escalas de sensação.
É importante a apreciação de que as várias adaptações anterior-
mente descritas, além de permitirem a transposição da barreira da
linguagem, asseguram a efetiva observância das regras esperadas de
comportamento do observador humano explicitadas através de instrução
verbal. Com freqüência, os procedimentos de psicofisica animal podem,
com pequenas adaptações, ser usados com seres humanos, permitindo a
validação do uso do comportamento animal como modelo do comporta-
mento humano. A combinação da psicofisica animal com eletrofisiologia
sensorial, belamente representada pelos trabalhos pioneiros de DeValois
e DeValois em visão, permitiram um avanço significativo na psicobiologia
dos sistemas sensoriais. Fica aqui apenas o registro, pois este é um outro
assunto que mereceria espaço próprio para apresentação.
PSICOFÌSICA DA CRIANÇA
Sea década de 60 foi decisiva para o desenvolvimento de condições
para uma psicofisica animal, a década de 80 poderia ser apontada como
aquela em que se concentraram esforços para o desenvolvimento de uma
psicofisica da criança. Esta psicofisica tem que dar conta de algumas
características básicas do comportamento do organismo em desenvolvi-
mento, como as limitações no repertório com portam ental disponível e
alterações neste repertório em função de maturação. Como exemplo da
primeira categoria temos a impossibilidade de utilização de instruções e de
respostas verbais no infante, um problema que, na sua essência, não é
diferente daquele encontrado na psicofisica animal. Como exemplo da
segunda categoria temos o fato de que respostas que se mostram
adequadas numa faixa de idade deixam de ser utilizáveis numa faixa
posterior, criando obstáculos à realização de estudos longitudinais. Não se
dispõe ainda de uma sólida metodologia psicofisica da criança, mas há
progressos importantes que justificam uma sistematização.
A ordem em que os principais métodos disponíveis serão apresenta-
dos segue aproximadamente a ordem de idade aos quais têm se mostrado
mais adequados. Como ficará claro, eles são, antes de mais nada, proce-
dimentos que viabilizam a utilização de algum dos métodos psicofísicos
propriamente ditos, apresentados mais no início deste capítulo, em conjun-
ção com algum sistema de resposta que se identifique como apropriado
para a idade e para o sistema sensorial específico em estudo. Observe-se
o recurso sistemático a um sistema de resposta que pode ser caracteriza-
do genericamente como resposta de observação ou de atenção. Nas
idades mais tenras predomina o uso de respostas gerais indiferenciadas,
e nas idades mais elevadas, o uso de respostas específicas.
Psicofisica do feto
A pesquisa sobre a ontogenèse das sensações tem, obviamente, um
interesse especial na descrição de quando se inicia o responder a estí-
mulos nas diferentes modalidades sensoriais. Há várias evidências bem
estabelecidas de que as crianças já nascem com competência para detec-
tar uma série de estímulos ambientais. Vide, por exemplo, revisão de
Cowart (1981), na área de sentidos químicos, e de Reisman (1987), na área
de somatossentidos. Assim sendo, o surgimento dessa competência
precisa ser buscado no feto, um empreendimento problemático pela
inacessibilidade relativa do observador psicofisico.
Observação extra-uterina do feto
Uma abordagem encontrada na literatura mais antiga é o estudo de
fetos não-viáveis e com poucas horas de vida após o aborto. Estes
estudos, necessariamente muito primitivos, se concentraram na obser-
vação da presença ou não de reflexos (vide revisão de Reisman, 1987) e
mostraram respostas bastante precoces a estímulos táteis aplicados à
face. Dadas as circunstâncias de coleta de dados, a disponibilidade e
interpretação de dados são muito problemáticas.
Observação intra-uterina do feto
Birnholtz e Bernacerraf (1983) mostraram que a ultra-sonografiafetal
permite a observação de atividade muscular fetal em resposta a sons
apresentados extra-uterinamente. Esta técnica contém uma série de
limitações relacionadas a especificação de estímulo sensorial e a repertório
comportamental disponível. No presente momento permite informações
apenas de natureza qualitativa, embora o caráter não-invasivo e a disso-
ciação de condições patológicas imprimam, em princípio, maior garantia de
validade dos dados obtidos. A técnica é promissora especialmente para o
estudo da modalidade auditiva, mas ainda não se transformou em uma
rotina de pesquisa. Na área dos sentidos químicos, uma possibilidade
sugerida em Cowart (1981) é a observação de movimentos de deglutição
em resposta a alteração na composição do líquido amniotico, produzida
pela introdução de substâncias químicas na cavidade intra-uterina, através
de sonda.
Psicofisica do Infante
Procedimentos baseados em atividade geral fisiológica e comportamental
Alterações em medidas como padrão do ciclo de sono, taxa de bati-
mento cardíaco, padrão de respiração, nível de várias substâncias na cor-
rente sangüínea têm sido usados para o estudo das sensações, embora
sejam mais encontrados em estudos mais antigos. Schneider, Trehub e
Bull (1979) fizeram uma análise comparando os resultados de experimen-
tos sobre limiar auditivo em recém-nascidos usando uma variedade de
respostas e encontraram grandes discrepâncias nos dados, argumentando
pela sua baixa confiabilidade. Reisman (1987), fazendo uma revisão de
pesquisas sobre dor em bebês circuncidados, também encontrou dificul-
dades na interpretação dos dados com essa categoria de medida. Estudos
sensoriais baseados em atividade fisiológica e comportamental gerais,
rigorosamente falando, nem se classificam como estudos psicofísicos; sua
inclusão aqui é, muito mais, uma chamada de atenção para a precariedade
metodológica no estudo da ontogenèse das sensações.
Procedimentos baseados em respostas específicas de orientação
A criança recém-nascida e até aproximadamente de quatro meses
de idade tem sido pesquisada com procedimentos principalmente basea-
dos em seu repertório de reflexos incondicionados. A observação da
ocorrência de respostas incondicionadas à apresentação de estímulos
específicos permite afirmar que a criança detecta o estímulo, mas não tem
permitido fazer afirmações confiáveis a respeito de valores mínimos de
estímulo necessários para que ocorra uma sensação. Estes reflexos
também estão sujeitos a habituação, ou seja, sua apresentação repetida
leva ao enfraquecimento e eventual desaparecimento da resposta, fazendo
com que um experimento tenha que se limitar a um pequeno número de
observações. Esta limitação não é facilmente contornada pela repetição do
experimento a intervalos consideráveis na mesma criança, não só porque
o repertório de respostas vai se alterando como porque os próprios
sistemas sensoriais estão em desenvolvimento. O experimentador costuma
então recorrer à análise de dados de grupo, o que é contrário à tradição
psicofisica de privilegiar delineamentos intra-sujeito e análise de dados
individuais. Algumas destas respostas específicas vêm sendo estudadas
sistematicamente, razão pela qual são identificadas a seguir.
Método do olhar preferencial
Este método, creditado a Fantz e Berlyne, que o desenvolveram
simultânea e independentemente, é baseado na tendência observada em
crianças pequenas de fixar o olhar em um estímulo visual com padrão e de
não fixar o olhar em um estímulo liso, em uma situação de escolha. Tipica-
mente, são registrados dados referentes à direção da primeira fixação,
número de fixações e tempo de fixação em cada estímulo. Interpreta-se
que a criança detecta um padrão visual se a ele corresponder maior
freqüência e duração de fixação do olhar. Do método do olhar preferencial
surgiu uma variante, o método do olhar preferencial de escolha forçada,
atribuído a Teller. Neste segundo método, um observador adulto é colo-
cado em uma posição na qual pode observar os olhos da criança, mas não
os estímulos sendo apresentados. A tarefa do observador é julgar a loca-
lização do padrão com base na observação do olhar da criança, sendo-lhe
permitido escolher o(s) aspecto(s) do olhar da criança que julgar mais
¡nformativo(s). Se o julgamento de localização do observador for estatisti-
camente diferente de desempenho aleatório, interpreta-se que a criança
detecta o padrão (Banks, Dannemiller, 1987).
Habituação
Habituação é mais do que um método; é um paradigma a partir do
qual uma série de métodos específicos emergiram, adaptados para moda-
lidades diferentes de estímulo. Baseia-se no fato de que, quando um
estímulo novo é apresentado, o organismo emite uma resposta de orien-
tação. Com a manutenção do estímulo ou sua apresentação repetida a
curtos intervalos de tempo há um decréscimo e eventual desaparecimento
da resposta. Sendo o estímulo alterado (novo estímulo apresentado), a
resposta de orientação reaparece. Assim, por exemplo, estímulos visuais
novos geram uma exploração visual que tende a desaparecer com a
manutenção do estímulo, mas reaparece com a troca do estímulo por um
novo; estímulos auditivos geram uma resposta de virada de cabeça em
direção ao som, a qual tende a desaparecer com manutenção do estímulo.
Este paradigma inclui também fenômenos em que a resposta de orienta-
ção envolve a inibição de uma atividade em andamento. Por exemplo, a
resposta de sucção é interrompida com a apresentação de um som; a ini-
bicão da sucção habitua-se reinstalando-se a sucção com a manutenção
do estímulo auditivo, mas a apresentação de estímulo auditivo diferente
reinstala a inibição. A interpretação costumeira dos dados é que se ocorrer
desabituação, então os estímulos envolvidos são discrimináveis. O leitor
pode consultar Dodwell, Humphrey e Muir (1987) para exemplos detalha-
dos do uso do paradigma ao estudo da percepção visual de padrões.
Varredura visual
O método é baseado no fato de que, quando as pessoas exploram
visualmente imagens, a varredura da imagem segue padrões característi-
cos (Dodwell, Humphrey e Muir, 1987), e a análise destes padrões de
varredura deveriam informar sobre aspectos do estímulo visual aos quais
a pessoa responde. Dodwell e colaboradores alertam que a implementação
deste método em crianças é bastante complexa, do ponto de vista técnico.
Bergamasco (1992) observa que, devido à imaturidade de fotorreceptores
em uma faixa precoce de idade, a melhor imagem visual pode não corres-
ponder à visão foveal, o que dificulta a interpretação do dado tipicamente
analisado com o uso deste método. Feitas estas ressalvas, o método é útil
para o estudo de percepção de forma e de padrão.
Expressões faciais
Uma abordagem adicional tem sido a de caracterizar a relação entre
tipos de estímulo e tipos de topografia de resposta. Nesta abordagem,
quando aplicada ao estudo da gustação, o experimentador pretende carac-
terizar a relação entre topografias específicas de movimentos da face,
incluindo lábios e língua, a concentrações e qualidades de substâncias
químicas aplicadas à boca. Uma análise num nível ainda mais molecular
na área de gustação envolve dissecar as características do comportamento
de ingestão de líquidos, identificando separadamente aspectos como
número de jorros de ingestão, duração dos jorros de ingestão, pausas
entre jorros, volume ingerido, etc. Uma preocupação central nestas
microanálises é a viabilidade de dissociar aspectos estritamente sensoriais
de aspectos hedônicos da resposta ao estímulo químico (Crook, 1987).
Sugar de alta amplitude
Diferencia-se o uso de um procedimento baseado na resposta de
sugar, originalmente proposto para o estudo da visão e posteriormente
adaptado por Eimas e colaboradores (1971) para o estudo da audição. O
que se segue é uma descrição baseada em Patricia Kuhl (1987) represen-
tativa do uso contemporâneo deste procedimento, chamado de sugar de
alta amplitude. Dá-se à criança uma chupeta que contém, internamente,
um transdutor de pressão. Desta forma monitora-se a ocorrência e a
magnitude da resposta de sugar. Respostas de sugar de magnitude acima
de um critério são reforçadas com a apresentação de um som. O som é
mantido até que ocorra habituação da resposta, de acordo com um certo
critério de redução. Ocorrida a habituação, o som é mudado. A mudança
no som gera desabituação da resposta. A desabituação é interpretada
como indicador da discriminabilidade dos dois sons.
Kuhl aponta algumas limitações deste método: a) não separa
convincentemente variáveis sensoriais de variáveis de atenção e moti-
vação pelo estímulo; b) exige tratamento grupai de dados; c) crianças
acima de 4 meses não demonstram interesse pela tarefa, o que limita seu
uso para estudos longitudinais. Não obstante, parece ser o método
disponível mais confiável e com resultados mais consistentes para o
estudo da audição de crianças até os 4 meses.
Psicofisica da criança de 4 a 18 meses
Virar a cabeça reforçado
Este método, atribuído a Moore, Thompson e Thompson (1975),
diferenciou-se a partir do comportamento reflexo de orientação da cabeça
em direção à fonte de um som. A resposta de orientação é visualmente
reforçada. Resumidamente, se a criança mantiver sua cabeça virada para
afrente, algum tempo depois é apresentado um som; se a criança respon-
der com uma virada de cabeça na direção do som, dentro de um critério de
ângulo mínimo, ela é visualmente reforçada com a apresentação de
imagens visuais projetadas (por exemplo, trechos de desenhos animados)
ou a iluminação de um objeto interessante colocado nas imediações da
fonte sonora. Este procedimento básico vem sofrendo refinamentos e
adaptações para a investigação de aspectos específicos da audição da
criança (vide, por exemplo, Kuhl, 1987; Sinnot, Aslin, 1985). Os aspectos
interessantes deste método, segundo seus usuários, resumem-se no fato
de que os dados são consistentes e por ser ele melhor que o método de
sugar de alta amplitude, por permitir análise de dados individuais. Oferece
também limitações: Kuhl relata dificuldade em manter crianças engajadas
na tarefa a partir de 12 meses de idade.
Psicofisica da criança acima de dois anos
Procedimentos de condicionamento operante
Os procedimentos desenvolvidos para a psicofisica animal têm
inspirado alguns autores no desenvolvimento de procedimentos que se
prestem a crianças na faixa de 2 a 5 anos, idade a partir da qual procedi-
mentos planejados para adultos começam a ser utilizáveis. Dobson (1990)
examinou alguns procedimentos desenvolvidos dentro desta perspectiva
para o estudo da visão. Os principais problemas específicos com os quais
o pesquisador tem que lidar são a escolha de uma resposta e de um
reforçador adequados à idade da criança e a escolha de um método
psicofisico que atenda simultaneamente a critérios mais estritamente
psicofísicos de adequação ao problema em investigação e de estabilidade
no desempenho da criança, o que às vezes pode significar uma densidade
relativamente alta de reforço.
Equiparação intermodal
Este método foi originalmente desenvolvido para adultos, porém
Stevens se preocupou em verificar a viabilidade de sua utilização com
crianças e demonstrou que crianças de 5 anos, executando uma tarefa de
equiparação entre intensidade luminosa e intensidade acústica, têm desem-
penho comparável ao de adultos na mesma tarefa. Esta demonstração é
importante porque o procedimento é adequado para escalonamento, e os
procedimentos para tal com adultos têm se valido do repertório de
numerosidade para julgamento de magnitude sensorial, repertório este
ainda não bem estabelecido nesta faixa de idade.
Avaliação da confiabilidade dos dados
A descrição acima deixa claro que há problemas na interpretação de
dados psicofísicos obtidos da criança e, sobretudo, do infante. Banks e
Dannemiller (1987) propõem quatro estratégias, as quais eles chamam de
técnicas de verificação, para que se possa aumentar o grau de confiança
de que estimativas de limiares reflitam o comportamento de mecanismos
sensoriais e não de fatores não-sensoriais. Embora elas sejam apresen-
tadas pelos autores no contexto específico de desenvolvimento visual,
claramente podem ser adaptadas para o estudo de outros tipos de sen-
sação e até mesmo para a pesquisa psicológica em outras áreas.
O uso de limiares como informação relativa
Banks e Dannemiller consideram a separação de variáveis senso-
riais de não-sensoriais uma questão que tem que ser enfrentada se o
problema em investigação envolver uma comparação absoluta entre
crianças e adultos. A separação destas categorias de variável torna-se
irrelevante se o problema em investigação envolver uma comparação em
termos relativos entre crianças e adultos, como, por exemplo, a sensibili-
dade intra-idade para diferentes valores ao longo de alguma dimensão de
estímulo. Neste segundo tipo de questão, variáveis não-sensoriais podem
estar presentes — mas elas são uma constante — e pode-se obter fun-
ções com forma surpreendentemente equivalente para diferentes idades,
a despeito de grandes diferenças nos valores absolutos.
Convergência de estímulo
Banks e Dannemiller definem convergência de estímulo como a habi-
lidade de um modelo de mecanismo sensorial em predizer limiares obtidos
para um tipo de estímulo a partir de limiares obtidos para outros tipos de
estímulos, quando a mesma medida de resposta é usada com os dois tipos
de estímulo. Se as predições do modelo sensorial são acuradas, aumenta
a confiança de que os dados reflitam variáveis sensoriais. Os autores
consideram mais difícil interpretar a ausência de convergência de estímulo,
já que ela pode ocorrer tanto em virtude da participação diferenciada de
fatores não-sensoriais na interação com um dos estímulos como em
virtude da escolha não apropriada de um modelo de mecanismo sensorial.
Convergência de resposta
Banks e Dannemiller definem convergência de resposta como a
habilidade de se obter estimativas semelhantes de limiar usando medidas
diferentes de resposta, quando os mesmos tipos de estímulo são usados
para medidas diferentes de resposta. A observação de convergência de
resposta permite afirmar que ela reflete os mesmos mecanismos sensoriais
e, portanto, aumenta a confiabilidade dos dados de limiar. Esta estratégia
é amplamente usada na comparação entre medidas comportamentais e
eletrofisiológicas de limiar para as várias modalidades sensoriais.
Bom desempenho em relação a algum desempenho ideal conhecido
Banks e Dannemiller propõem que se compare o desempenho em-
pírico da criança com o desempenho ideal teórico derivado a partir do
conhecimento sobre o papel desempenhado por variáveis sensorialmente
relevantes. Usando o exemplo dos próprios autores, seria possível com-
parar o desempenho empírico em uma tarefa de limiar para grades com o
esperado a partir do que se sabe sobre as qualidades ópticas e a
densidade de fotorreceptores. Embora os autores não explicitem, fica claro
que a potência desta estratégia depende da disponibilidade de um bom
modelo, para se poder interpretar adequadamente eventuais resultados
negativos.
CONCLUSÕES
A psicofisica tem mantido os cientistas ocupados, embora as preo-
cupações contemporâneas não sejam as de seu fundador. Ela ocupa um
status científico diferenciado na Psicologia, por ser uma das poucas áreas
nas quais há condições estabelecidas para quantificação. Do ponto de
vista conceptual, é importante destacar a preocupação em relação a uma
lei psicofisica geral e com poder preditivo. Do ponto de vista metodoló-
gico, observa-se um crescimento quanto às alternativas de tipos de obser-
vadores, humanos e não-humanos, a respeito dos quais pode-se obter
dados fidedignos, graças ao contínuo desenvolvimento de estratégias de
pesquisa. Fenômenos de sensação, percepção e cognição têm sido os
principais objetos específicos de estudo da psicofisica. Nessas áreas
observa-se uma trajetória no sentido de se estudar um número cada vez
maior de categorias de fenômenos e fenômenos cada vez mais complexos.
REFERÊNCIAS BIBLIOGRÁFICAS
ADLER, H.E. Vicissitudes of Fechnerian psychophysics in America. In: RIEBER, R.W.,
SALZINGER, K. (Eds.). Psychology, theoretical-historical perspectives. New York: Aca-
demic Press, 1980. p.11-23.
BANKS, M.S., DANNEMILLER.J.L Infant visual psychophysics. In: SALAPATEK, P., COHEN,
L (Eds.). Handbook of infant perception. From sensation to perception. Orlando (FL):
Academic Press, 1987. v.1, p.115-184.
BERGAMASCO, N.H.P. Desenvolvimento de funções visuais básicas desde o nascimento.
In: REUNIÃO ANUAL DA SOCIEDADE BRASILEIRA DE PSICOLOGIA. 22. Resumos de
comunicações científicas. Ribeirão Preto: Sociedade Brasileira de Psicologia, 1992. p.397.
BIRNHOLTZ, J.C., BERNACERRAF, B.R. The development of human fetal hearing. Science,
Washington. D.C., v.222, n.4623, p.516-518,1983.
BLOUGH, D.S. A method for obtaining psychophysical thresholds from the pigeon. Journal of
the Experimental Analysis of Behavior, Bloomington (IN), v.1, p.31-43, 1958.
BLOUGH. D.S.. BLOUGH, P. Animal psychophysics. In: HONIG, W.K., STADDON, J.E. (Eds.).
Handbook of operant behavior. Englewood Cliffs (NJ): Prentice-Hall, 1977. p.514-539.
BORING, E.G. A history of experimental psychology. 2.ed. Englewood Cliffs (NJ): Prentice-
Hall. 1957.
COREN. S., PORAC. C, WARD. LM. Sensation and perception. New York: Academic Press, 1979.
COWART, B.J. Development of taste perception in humans: sensitivity and preference throughout
the life span. Psychological Bulletin, Washington, DC. v.90. n.1. p.43-73, 1981.
CROOK, C. Taste and olfaction. In: SALAPATEK, P., COHEN. L. (Eds.). Handbook of infant
perception. Orlando (FL): Academic Press, 1987. v.1: From sensation to perception, p.237-
264.
DOBSON, V. Behavioral assessment of visual acuity in human infants. In: BERKLEY, M.A.,
STEBBINS. W.C. (Eds.). Comparative perception. New York: Wiley. 1990. v.1: Basic
mechanisms, p.487-521.
DODWELL. P.C.. HUMPHREY, GK. MUIR, D.W. Shape and pattern perception. In: SALAPATEK,
P., COHEN, L (Eds.). Handbook of infant perception. Orlando (FL): Academic Press, 1987. v.2:
From perception to cognition, p. 1-77.
EIMAS, P.D.. SIQUELAND, E.R., JUSCZYK. P., VIGORITO, J. Speech perception in infants.
Science, Washington, D.C., v.171, p.303-306,1971.
FALMAGNE, J. C. Elements of psychophysical theory. New York: Oxford University Press, 1985.
GESCHEIDER, G.A. Psychophysics: method and theory. New York: Wiley, 1976.
------------- . Psychophysical scaling. Annual Review of Psychology, v.39, p.169-200, 1988.
GREEN, D.M., SWETS, J.A. Signal detection theory and psychophysics. New York: Wiley,
1966.
KRUEGER. L.E. Reconciling Fechner and Stevens: towards a unified psychophysical law.
Behavioral and Brain Sciences, Cambridge, v.12. p.251-320. 1989.
KUHL, P.K. Perception of speech and sound in early infancy. In: SALAPATEK, P., COHEN,
L. (Eds.). Handbook of infant perception. Orlando (FL): Academic Press, 1987. v.2: From
perception to cognition, p.275-382.
LUCE, R.D. "On the possible psychophysical laws" revisited: remarks on cross-modal
matching. Psychological Review, Washington, D.C., v.97, p.66-77, 1990.
LUCE, R.D., KRUMHANSL.C.L Measurement scaling, and psychophysics. In: ATKINSON,
R., HERRNSTEIN, R., LINDZEY, G., LUCE, R.D. (Eds.). Stevens'handbook of experimen-
tal psychology. 2.ed. New York: Wiley, 1987. v.1: Perception and motivation, p.3-74.
MARSHALL, L, BRANDT, J.F. The relation between loudness and reaction time in normal
hearing listeners. Acta Oto-Laryngologica, Stockholm, v.90, p.244-249, 1980.
MOORE, J.M., THOMPSON, G., THOMPSON, M. Auditory localization of infants as a function
of reinforcement conditions. Journal of Speech and Hearing Disorders, Rockville (MD).
v.40, p.29-34, 1975.
PFINGST, B.E., HIENZ, R., KIMM, J., MILLER, J. Reaction time procedure for measurement
of hearing: suprathreshold functions. Journal of the Acoustical Society of America, v.57,
p.421-431, 1975.
REASON, J.T. Individual differences in auditory reaction time and loudness estimation. Per-
ceptual and Motor Skills, Missoula (MT), v.26, p. 1089-1090. 1968.
REISMAN, J.E. Touch, motion, and proprioception. In: SALAPATEK, P., COHEN, L (Eds.).
Handbook of infant perception. Orlando (FL): Academic Press, 1987. v. 1 : From sensation
to perception, p.265-303.
SCHNEIDER, B.A., TREHUB, S.E., BULL, D. The development of basic auditory processes
in infants. Canadian Journal of Psychology, Ottawa, v.33, p.306-319, 1979.
SINNOT, J.M., ASLIN, R.N. Frequency and intensity discrimination in human infants and
adults. Journal of the Acoustical Society of America, v.78, n.6, p.1986-1992,1985.
STEBBINS, W.C. (Ed.). Animal psychophysics. The design and conduct of sensory experi-
ments. New York: Appleton-Century-Crofts, 1970.
STEBBINS, W.C. Perception in animal behavior. In: BERKLEY. M.A., STEBBINS, W.C. (Eds.).
Comparative perception. New York: Wiley, 1990. v.1 : Basic mechanisms.
STEBBINS, W.C, MILLER, J. Reaction time as a function of stimulus intensity for the monkey.
Journal of the Experimental Analysis of Behavior, Bloomington (IN), v.7, p.309-312,1964.
STEVENS, S.S. Psychophysics: introduction to its perceptual, neural and social prospects.
New York: Wiley, 1975.
THOMPSON, R.F., ROBINSON, D.N. Physiological psychology. In: HEARST, E. (Ed.). The first
century of experimental psychology. Hillsdale (NJ): Lawrence Erlbaum, 1979. p.407-454.
CAPÍTULO 3
MEDIDA PSICOMETRIA
Luiz Pasquali
Instituto de Psicologia
Universidade de Brasília
á cerca de 20 anos, Guttman (1971) ainda se interrogava o que
exatamente significava "medida" em ciências sociais e do com-
portamento. Embora, nestas ciências, aparecessem correntes os
termos sociometría, antropometria, biometria, psicometria, econometria e
outras 'metrias', continuavam dúvidas sobre sua significação no campo
da epistemologia e da metodologia. Os vários prefixos das "...metrias"
evidentemente revelavam a área de conteúdo em que a medida era
aplicada. Assim, psicometria seria o uso da medida em Psicologia.
Esta situação levantada por Guttman não está de todo resolvida
ainda hoje. De fato, a teoria da medida em ciências não constitui campo
pacífico entre os pesquisadores, sobretudo em ciências do comporta-
mento. Outro complicador, neste contexto, é a tendência de alguns em
reduzir, por exemplo, psicometria, cuja preocupação central é a cons-
trução e verificação de hipóteses científicas, à psicoestatística, cuja
preocupação é a inferência a partir de amostras. Aliás, este tipo de
divergência foi o que provocou, em análise fatorial, a divisão do grupo de
Thurstone dos anos 30 em várias correntes, cada qual seguindo seus
interesses pessoais de psicometristas, de estatísticos ou de matemáticos,
inclusive com a criação de revistas especializadas divergentes da
Psychometrika.
Este capítulo pretende caracterizar a psicometria dentro de uma
orientação epistemológica quantitativista, mas como ramo das ciências
empíricas e não das matemáticas. Estas duas não são conflituosas, mas
são epistemológicamente independentes. A distinção precisa ser
defendida — e que seja também cobrado o ônus da prova para a justi-
ficativa da viabilidade da associação das duas, isto é, Ciência, de um
lado, e Matemática, do outro (vide cap. 1). Este capítulo se divide em
duas partes: a teoria psicométrica e os parâmetros psicométricos da
medida.
H
TEORIA DA MEDIDA PSICOMETRIA
Em seu sentido etimològico, psicometria seria, conforme insinuou
Guttman (1971), toda a classe de medida em Psicologia, similarmente a
sociometría ser na Sociologia, econometria na Economia, etc. Em seu
sentido mais restrito — e é neste que ela é normalmente entendida —,
psicometria constitui uma das várias formas de medição em Psicologia. Ela
é uma das formas de medida por teoria (vide cap. 1), onde se situam
igualmente a teoria dos jogos e da detecção do sinal.
A teoria que fundamenta a psicometria neste sentido estrito, além de
assumir os postulados da teoria da medida em geral, trabalha com o
modelo da estrutura latente (traços psicológicos, latent modeling). Neste
contexto, alguns conceitos-chave precisam ser explicitados: traço latente,
sistema, propriedade, magnitude, bem como a representação comporta-
mental da estrutura latente.
Traço latente
O conceito de traço latente não é isento de ambigüidades e
controvérsias entre os autores que trabalham com tal construto. A
variedade de expressões utilizadas para representá-lo já indica tal
dificuldade. Traço latente vem referido sob denominações como: variável
hipotética, variável fonte, fator, construto, conceito, estrutura psíquica, traço
cognitivo, processo cognitivo, processo mental, estrutura mental, habilida-
de, aptidão, traço de personalidade, processo elementar de informação,
componente cognitivo, tendência e outros. A própria natureza ontológica
de traço latente deixa dúvidas se ele é concebido como um rótulo,
representando uma síntese hipotética de um conjunto de comportamentos
reais, ou como uma realidade mental. Para este autor, o conceito faz mais
sentido quando entendido como realidade na concepção popperiana de
que é real aquilo que age sobre coisas consideradas reais, como as coisas
físicas materiais: "Deve-se então admitir que as entidades reais podem ser
concretas ou abstratas em vários graus. Em Física, aceitamos forças e
campos de força como reais, pois agem sobre coisas materiais. Mas essas
entidades são mais abstratas e, talvez, também mais conjeturáis ou
hipotéticas do que são as coisas materiais comuns. Forças e campos de
força são ligados a coisas materiais, a átomos e a partículas. Têm um
caráter dispositivo: são tendências para interagir. Podem assim ser
descritas como entidades teóricas altamente abstratas, nós as aceitamos
como reais, quer elas ajam de forma direta ou indireta sobre as coisas
materiais." (Popper, Eccles, 1977, p.27-28).
Além desta controvérsia, existem diferentes maneiras de conceber
traço latente quando se trata de definir sua estrutura elementar. Na
verdade, há aqui duas tendências distintas e em vários níveis: concepção
elementarista (reducionista) e concepção estrutural, conforme detalhado
na Figura 3-1.
Fig. 3-1 — Visões elementarista e estrutural de traço latente.
Há os que entendem traço latente como uma estrutura global, seja
constituindo toda a psique do ser humano ou conjuntos dela. No caso das
aptidões humanas, por exemplo, Spearman (1904) defende a teoria do fator
intelectual único (fator G); Piaget (1952) fala do desenvolvimento das
estruturas cognitivas. Na área da emoção e da motivação aparecem as
tipologias de tipo Jung (1921), Kretschmer (1925) e Sheldon (1940, 1942).
Estas concepções apresentam uma tendência de considerar os traços
latentes como grandes estruturas que variam de sujeito para sujeito.
Dentro ainda de uma concepção estrutural, outros autores concebem os
traços latentes de uma forma mais diferenciada, quando falam de fatores.
É a tradição na orientação da análise fatorial em psicometria, onde os
fatores são concebidos como variáveis-fonte responsáveis pela qualidade
da execução das tarefas comportamentais. Embora pareçam já elementa-
res, os fatores apresentam ainda um caráter globalizante, dado que não
expressam processos cognitivos elementares, mas sim um possível
conjunto destes que são necessários para a execução de uma tarefa
concreta. Pelo menos, esta é a crítica que Sternberg (1977) faz desta
concepção fatorista do traço latente. Sternberg, na verdade, concebe traço
latente como algo elementar, isto é, o último elemento cognitivo a que se
pode reduzir uma atividade cognitiva, os processos cognitivos (o autor
trabalha na área das aptidões). A teoria do processamento da informação
(Newell, Simon, 1972) leva ainda mais longe este elementarismo, defen-
dendo o conceito de elementary information process (eip) como sendo o
processo mais elementar possível no processamento da informação, o qual
não pode ser analisado em elementos menores.
Para ilustrar, talvez de forma grosseira, estas várias concepções, no
caso dos processos cognitivos ou das habilidades e aptidões, podemos
considerar a Tabela 3-1, na página seguinte.
Assim, as concepções de traço latente dependem do nível de
especificidade que se quer dar a este construto ou parâmetro. Os fatoristas
estão mais interessados em chamar de traço latente aquele conjunto de
processos cognitivos necessários para a execução de uma tarefa (de fato,
Tabela 3-1 — Enfoques conceituais de processo cognitivo
ENFOQUE
TRAÇO LATENTE ILUSTRATIVA
REFERÊNCIA
Processamento da
informação
elementary information
process — eip
elemento atômico da Newel & Simon, 1972
Física Nuclear
Psicologia Cognitiva componente cognitivo
elemento da tabela
periódica de Química
Sternberg. 1977
Psicometria fator
elemento natural
(Geologia. Geografia.
Fatoristas (Thurstone
Cattell. Guilford ...)
um barramento correlacionado de processos), falando de habilidades primárias,
que seriam combinações de processos cognitivos elementares, isto é, de
representações mentais de objetos e símbolos. O fator seria um sistema de
processos cognitivos ou de componentes cognitivos. Ao contrário, Sternberg
chama de processo cognitivo estas mesmas representações mentais individuais,
que serão os componentes cognitivos. Agora, para representar mentalmente
objetos e símbolos, uma série de processos mais elementares ainda são
necessários e, então, estes sim, seriam finalmente os processos elementares
básicos do processamento da informação para Newell e Simon, elementos que
se combinam num sistema de processos da informação para a explicação de
uma tarefa comportamental. Onde parar nesta tendência reducionista?
Sternberg (1977, p.65-66) afirma: "o componente não é necessariamente, e
normalmente não o é, a unidade mais elementar de comportamento que se
possa estudar. Operações que são consideradas sem importância dentro da
teoria são especificadas no modelo do processamento da informação do
desempenho de uma tarefa, mas não serão identificadas como componentes
separados. A razão para esta seletividade é que tarefas complexas podem
requerer centenas ou até milhares de operações, a maioria das quais se
apresentam desinteressantes do ponto de vista da teoria".
Além da diferença no nível de reducionismo, outra vertente importante de
diferenças entre estes vários sistemas de conceber o traço latente consiste na
visão mais estruturalista das concepções holísticas, que tendem a considerar os
traços latentes como entidades; as concepções mais elementaristas tendem a
considerar traço latente como processos. Assim, Newell e Simon consideram
como "eips" a discriminação, a testagem e a comparação, a criação de
símbolos, a criação de estruturas de símbolos, produção de respostas externas
em função de estruturas simbólicas internas, designação de estruturas
simbólicas e memorização de estruturas simbólicas. Por sua vez, Sternberg fala
de processos de codificar, inferir, mapear, aplicar, justificar e responder. As
diferenças
individuais que ocorrem nestes processos seriam devidas à dificuldade e
duração que diferentes sujeitos encontram ou necessitam para eliciar estes
processos, enquanto para os fatoristas, por exemplo, as diferenças
surgiriam principalmente em função da magnitude (tamanho, dimensão,
quantidade) do traço latente possuído por diferentes sujeitos. A psicometria
trabalha com o conceito fatorista de traço latente.
Sistema
O sistema representa o objeto de interesse, chamado também de
objeto psicológico. A psicometria enfoca como seu objeto específico as
estruturas latentes, os traços psicológicos; ela teoriza a partir destas
estruturas hipotéticas. Deste enfoque, evidentemente, surgem dificuldades,
dado que a ciência empírica, dentro da qual a Psicologia se define, tem
como objeto de conhecimento os fenômenos naturais abordados através
da observação, que, no caso da Psicologia, é o comportamento. Este
problema será abordado na seção da representação comportamental da
estrutura latente. Aqui é relevante salientar que a psicometria trabalha com
a teoria dos traços latentes, sendo, portanto, as estruturas psicológicas
latentes o seu objeto ou sistema direto de interesse. O sistema pode ser
considerado de vários níveis, dependendo do interesse do pesquisador.
Poder-se-ia falar de um sistema universal e de sistemas locais. O
universal sendo a estrutura psicológica total do ser humano, e os sistemas
locais, os vários subsistemas de interesse. Assim, a inteligência pode ser
considerada um subsistema dos processos cognitivos, e estes, da estrutura
latente geral; ou mesmo, a inteligência, digamos, verbal, pode ser conside-
rada um sistema quando ela for o interesse imediato e na qual vários
aspectos podem ser considerados, como a compreensão verbal e a
fluencia verbal. Sistema, portanto, constitui-se como tal quando representa
o objeto imediato de interesse dentro de um delineamento de estudo e não
é uma entidade ontológica, monolítica e unívoca.
Propriedade
Um sistema apresenta atributos que são os vários aspectos ou as
propriedades que o caracterizam. Por exemplo, o sistema físico se
apresenta com os atributos de massa, comprimento, etc. Similarmente, a
psicometria concebe os seus sistemas como possuidores de proprieda-
des/atributos que definem os mesmos, sendo estes atributos o foco
imediato de observação/medida. Assim, a estrutura psicológica apresenta
atributos do tipo processos cognitivos, processos emotivos, processos
motores, etc. A inteligência, como subsistema, pode apresentar atributos
de tipo raciocínio verbal, raciocínio numérico, etc. O sistema se constitui
como objeto hipotético que é abordado (conhecido) através da pesquisa
de seus atributos.
Magnitude
A psicometria assume, ainda, que estes atributos psicológicos
apresentam magnitude: os atributos são dimensões, isto é, são mensurá-
veis. Trata-se do conceito de quantidade: os atributos ocorrem com quan-
tidades definidas e diferentes de indivíduo para indivíduo. Quantidade é um
conceito matemático que se define em função dos axiomas de ordem e de
aditividade dos números: os números não somente são diferentes, mas
uns são maiores que outros, de sorte que eles podem ser ordenados numa
série monotônica crescente de magnitude. Ao se falar de magnitude dos
atributos empíricos, quer se referir, pelo menos, a esta propriedade numé-
rica de ordem crescente. Digo pelo menos, porque nem sempre é possível
salvar na medida o axioma da aditividade que implica a possibilidade de
concatenação, resultando em medida de nível intervalar ou de razão. Aliás,
é esta suposição de magnitude das propriedades psicológicas que torna
interessante a utilização do modelo matemático no estudo dos fenômenos
de que trata a Psicologia.
O problema da representação comportamental
Mesmo se admitindo que as estruturas latentes tenham atributos e
que estes possuam magnitude, fica o problema fundamental de que estes
atributos são impervios à observação empírica, que é o método da Ciência.
Então, como fica a utilidade de todo este teorizar? Estamos aqui nos
defrontando com o problema da representação: qual é a maneira ade-
quada de se representar estes atributos latentes para que possam ser
cientificamente abordados? Embora o problema pareça, e é na verdade,
grave, ele não é específico da psicometria; eie ocorre na própria Física,
com a teoria quàntica, por exemplo.
Como o comportamento (verbal, motor) é o único nível em que se
pode trabalhar cientificamente (empiricamente) em Psicologia, é neste
nível que se deve procurar a solução para o problema da representação
e, portanto, do conhecimento dos processos latentes. Está ali também o
problema básico da psicometria — a legitimidade de suas operações
depende da legitimidade desta representação. A teoria que fundamenta o
isomorfismo comportamento-processos latentes é o fulcro epistemológico
da psicometria, juntamente com a concepção de processos latentes como
dimensões, isto é, atributos mensuráveis. Postula-se que, ao se operar
sobre o sistema comportamento, está-se operando sobre os traços
latentes (isomorficamente). Assim, a medida que se faz em nível compor-
tamental é a medida dos traços latentes.
Como o comportamento representa estes traços latentes? É o
problema das definições operacionais. A psicometria responde a esta
questão pela análise de uma série de parâmetros que os comportamentos
(tipicamente chamados de itens) devem apresentar. Tais parâmetros são
mencionados a seguir:
Modalidade
Em termos de seu conteúdo, os comportamentos (itens) podem ser
de tipo verbal ou motor. Dentro destes, podem-se distinguir outros. No
caso do verbal, por exemplo, o item pode ser verbal propriamente, nu-
mérico, espacial, abstrato, etc, dependendo do conteúdo semântico sobre
o qual o comportamento opera ser de palavras, números, dimensões
espaciais, etc. Pode ser também mais ou menos abstrato, dependendo do
nível de universalidade dos conceitos envolvidos: conceitos singulares,
universais de menor abstração, universais de maior abstração. Neste
particular, a psicometria deveria interagir com a psicolinguistica, já que
apresenta interface com a questão do significado.
Saturação
O comportamento humano tipicamente se apresenta como multimo-
tivado, dado que fatores múltiplos entram na sua aparição, sendo, portanto,
difícil, senão impossível, determinar causas ou fatores únicos para
qualquer comportamento, ao menos de adultos. Isto implica que seria
impossível definir comportamentos (itens) críticos para qualquer traço
latente, no sentido de um comportamento 'x' ser específico e único de tal
traço e não tendo interface com qualquer outro traço. Podemos dizer,
então, que somente parte do comportamento 'x' representa o traço, ele
covaria com o traço; mas esta covariação não constitui toda a variância do
'x'. É, por isso, importante descobrir o nível desta covariancia 'x' e traço
latente em questão. Tipicamente tal covariancia se expressa estatistica-
mente através da sua carga ou saturação fatorial, que pode variar de zero
a um (positivo ou negativo), sendo que, no caso de ser zero, o comporta-
mento seria uma representação equivocada, inadequada, do traço. Este
parâmetro se relaciona à questão da unidimensionalidade das escalas de
medida.
Dificuldade (complexidade)
Um comportamento é mais dificil ou mais complexo à medida que
ele exige maior nível de magnitude do traço em questão para ser eficaz ou
corretamente executado. A expressão 'dificuldade' se originou dentro da
medida das aptidões e é mantida, por exemplo, no parâmetro 'b' da Item
Response Theory (IRT), mesmo quando se trata da medida de atitudes ou
traços de personalidade em geral. Talvez a denominação 'complexidade'
fosse mais adequada para representar este parâmetro, de uma vez que ela
especifica que um comportamento é mais complexo e, portanto, mais
difícil, porque a sua correta execução (no caso de se tratar de aptidão
cognitiva) ou a adesão a seu conteúdo semântico (no caso de traços de
personalidade e atitudes) depende de um maior nível de magnitude no
traço latente. O que exatamente torna um item mais complexo é ainda
tema de pesquisa, do qual a Psicologia Cognitiva vem se interessando
bastante como forma de estudar os processos cognitivos. A psicometria
avalia este parâmetro através de técnicas puramente estatísticas, mas
seria de enorme valor a descoberta dos elementos que constituem maior
complexidade no item, sobretudo para fins de construção do próprio elenco
de itens da medida dos traços latentes. Este parâmetro afeta a questão da
amplitude de uma escala de medida: o elenco de itens cobre adequada-
mente toda a extensão de magnitudes possíveis de um dado traço ou
somente um segmento delas e qual segmento?
Discriminação
O poder discriminativo de um item (comportamento) se define
como a capacidade que ele apresenta de separar (discriminar) sujeitos
com magnitudes próximas do mesmo traço. Quanto mais extremas
devam ser as magnitudes do atributo para que o item possa discriminá-
las, menos discriminativo ele é e vice-versa. A IRT define como 'a' este
parâmetro. Que característica do item determinaria seu poder
discriminativo? Novamente a Psicologia Cognitiva poderia lançar luzes
nesta questão, definindo os elementos cognitivos que a reação a um
item utiliza. Seria a univocidade semântica do item, isto é, um sentido
bem definido com nível reduzido de ruído, a saber, conceitos despoja-
dos de conotações? Uma informação desta natureza auxiliaria grande-
mente a construção de itens comportamentais mais típicos e adequados
para a medida dos traços.
Viés de resposta
Mesmo apresentando bons índices nos parâmetros acima descritos,
há toda uma série de dificuldades que aparecem afetando a qualidade da
resposta do sujeito aos itens, dificuldades estas que provêm de fatores
subjetivos do respondente e que poderiam ser agrupadas dentro do
conceito de tendências. Tendência seria uma atitude, consciente ou não,
de o sujeito responder de maneiras sistemáticas alheias ao conteúdo
semântico dos itens — erros de resposta ao responder ao acaso,
respostas estereotipadas (sempre nos extremos de uma escala ou no
ponto neutro), respostas em função de supostas expectativas dos outros
(desejabilidade social) ou em função de uma idéia preconcebida sobre o
objeto de avaliação (efeito de halo), etc. Vários destes problemas podem
ser parcialmente evitados, se se puder desvendar os fatores sistemáticos
responsáveis pelas respostas estereotipadas. Assim, a IRT é capaz de
contornar o problema das respostas dadas ao acaso (parâmetro 'c'); o
formato das escalas de resposta pode reduzir a ocorrência de erros do tipo
respostas extremadas ou neutras, etc.
PARÂMETROS PSICOMÉTRICAS DA MEDIDA
O parâmetro fundamental da medida psicométrica (escalas, testes...)
é a demonstração da conformidade da representação, isto é, a demons-
tração do isomorfismo entre a ordenação nos procedimentos empíricos e
a ordenação nos procedimentos teóricos do traço latente. Significa de-
monstrar que a operacionalização do atributo latente em comportamentos
(¡tens) de fato corresponde a este atributo. Esta demonstração é tipica-
mente tentada através de análises estatísticas dos ¡tens individualmente
e da escala em seu todo. Infelizmente a literatura, neste particular, não
mostra muita preocupação com a formulação de uma teoria clara, muito
menos axiomatizada, sobre o atributo que permitisse uma elaboração mais
bem delineada e planejada de uma escala de comportamentos pertinentes
ao atributo. Possivelmente esta situação se deve 1) à predominância de
um enfoque positivista baseado quase exclusivamente na análise de um
elenco de ¡tens, coletado mais ou menos ao acaso ou intuitivamente, em
vez de uma pesquisa dos elementos cognitivos envolvidos nos processos
do atributo psicológico e, também, 2) ao fato de que o desenvolvimento da
psicometria tem sido preponderantemente viabilizado por pesquisadores
cuja formação e preocupações eram mais de estatísticos do que de
psicólogos. O desenvolvimento da pesquisa da Psicologia Cognitiva,
particularmente do tipo Sternberg (1977, 1979,1980) e das pesquisas feitas
no centro de Pittsburgh (Mulholland, Pellegrino, Glaser, 1980; Pellegrino,
Mumaw, Shute, 1985; Carpenter, Just, Shell, 1990), deverá auxiliar
substancialmente para remediar ou resolver este problema. Os trabalhos
de Guilford (1959) também devem ser mencionados neste particular. No
momento, em psicometria, se insiste ainda de maneira exclusiva numa
solução estatística. Por outro lado, as contribuições que a Psicologia
Cognitiva tem, no momento, a dar nesta área da instrumentação psicomé-
trica são ainda muito precárias para servir de base na elaboração e análise
dos instrumentos psicológicos.
De qualquer forma, a comunidade científica desenvolveu uma série
de parâmetros mínimos que a medida psicométrica deve apresentar para
se constituir instrumento legítimo e válido. Os parâmetros mais básicos se
referem à análise dos itens (dificuldade e discriminação) e à validade e
confiabilidade do instrumento.
Análise dos itens
Há dois tipos de análise de itens, que poderíamos chamar de análise
teórica e análise empírica ou estatística.
Análise teórica dos itens
Esta análise é feita por juizes e visa estabelecer a compreensão dos
itens (análise semântica) e a pertinência dos mesmos ao atributo que
pretendem medir. Esta última é, às vêzes, chamada de análise de con-
teúdo, mas propriamente deve ser chamada de análise de construto, dado
que precisamente procura verificar a adequação da representação
comportamental do(s) atributo(s) latente(s).
No caso da análise semântica, duas preocupações são relevantes:
primeiro, verificar se os itens são inteligíveis para o estrato mais baixo (de
habilidade) da população-meta e, por isso, a amostra para esta análise
deve ser feita com este estrato; segundo, para evitar deselegância na
formulação dos itens, a análise semântica deverá ser feita também com
uma amostra mais sofisticada (de maior habilidade) da população-meta
(para garantir a chamada Validade aparente' do teste). De qualquer forma,
a dificuldade na compreensão dos itens não deve se constituir fator
complicador na resposta dos indivíduos, dado que não se quer medir a
compreensão deles (a não ser, obviamente, que o teste queira medir
precisamente isto), mas sim a magnitude do atributo a que os itens se
referem.
Na análise de conteúdo, os juizes devem ser peritos na área do
construto, pois sua tarefa consiste em ajuizar se os itens estão se referindo
ou não ao traço em questão. Uma tabela de dupla entrada, com os itens
arrolados na margem esquerda e os traços no cabeçalho, serve para
coletar esta informação. Uma concordância de, pelo menos, X0% entre os
juizes pode servir de critério de decisão sobre a pertinência do item ao
traço a que teoricamente se refere.
Análise empírica dos itens
A análise da dificuldade e da discriminação dos itens se faz em cima
dos dados coletados de uma amostra de sujeitos, utilizando-se de análises
estatísticas.
1) Dificuldade dos itens
A dificuldade do item é definida em termos da porcentagem
(proporção) de sujeitos que dão respostas corretas (testes de aptidão) ou
de acordo/preferência (testes de personalidade) ao item. Assim, sobre um
item que é respondido corretamente ou aceito por 70% dos sujeitos é
afirmado ser ele mais fácil que um outro que recebeu 30% de respostas
corretas.
Qual a dificuldade ideal dos itens de uma escala ou teste? A
resposta depende da finalidade do teste. Se se deseja um teste para
selecionar os melhores ou para determinar se um patamar 'x' de conheci-
mento foi atingido (como nos testes de referência a critério), então os itens
devem todos apresentar o nível de dificuldade do patamar que se quer
como critério de seleção. Assim, se se deseja selecionar somente os 30%
melhores candidatos, os índices de dificuldade dos itens devem ser em
torno de 30%. Se, entretanto, o interesse consiste em avaliar a magnitude
diferencial dos traços nos sujeitos, como geralmente é o caso, então uma
distribuição mais equilibrada dos itens em termos de dificuldade é requerida.
Neste caso, o interesse se centra sobre o poder de um teste discriminar
diferentes níveis de habilidades, atitudes, etc, nos sujeitos e, por conseguinte,
os itens devem poder avaliar tanto os que possuem pouca quanto muita
habilidade. Entretanto, é bom saber que itens que todos os sujeitos acertam ou
igualmente aceitam e itens que ninguém acerta ou aceita são ¡tens inúteis para
fins de diferenciar indivíduos; de fato, tais itens não trazem nenhuma
informação. Os itens que trazem maior informação são aqueles cujo índice de
dificuldade se situa em torno de §0%, pois, neste caso, 50% dos sujeitos
acertam e 50% erram, resultando 50 x 50 = 2.5(X) comparações possíveis, ao
passo que um item com dificuldade 30% teria 70% de erros e 30% de acertos,
resultando num nível de 30 x 70 = 2.100 bits de informação. Obviamente, um
item com dificuldade 100% ou 0% produzirá zero informação. Deve-se concluir
daí que todos os itens de um teste devam ter dificuldade 50%? Embora a
maioria dos itens devam apresentar tal índice de dificuldade, nem todos o
deverão, pois que assim poder-se-ia discriminar apenas dois niveis da
magnitude do traço medido, dado que itens com o mesmo nível de dificuldade
terão altas intercorrelações, determinadas pela circunstância de que serão os
mesmos sujeitos que sempre acertam ou sempre erram os itens todos. Haveria,
então, uma distribuição mais adequada dos itens de um teste em termos de
dificuldade? Considerando que eles devem cobrir toda a extensão de magnitude
do traço e que os itens de dificuldade 50% são os que produzem maior
informação, pode-se sugerir que uma distribuição dos mesmos mais ou menos
dentro de uma curva normal seria o ideal. Assim, se considerarmos a amplitude
de um atributo ou traço numa escala de 100 pontos, podemos dividi-la em cinco
níveis de magnitudes: 0 a 20, 20 a 40, 40 a 60, 60 a80 e 80 a 100, distribuindo
os itens assim: 10% deles em cada uma das duas faixas extremas, 20% em
cada uma das duas faixas seguintes e 40% na faixa média (vide Figura 3-2).
% DE ACERTOS FAIXA NÚMERO DE ITENS
80 a 100 V 10%
60 a 80 IV 20%
40 a 60 III 40%
20 a 40 II 20%
0 a 20 I 10%
Fig. 3-2 — Distribuição ideal dos itens por índice de dificuldade.
2) Discriminação dos itens
Discriminação se refere ao poder de um item em diferenciar sujeitos com
magnitudes diferentes de traço do qual o item constitui a representação
comportamental. Quanto mais próximas forem as magnitudes do traço que o
item puder diferenciar, mais discriminativo eie é. Assim, Poder-se-ia dizer que
discriminação se refere ao poder que o item possui de diferenciar sujeitos com
magnitudes próximas do traço a que se refere.
a) Grupos-critério
A dificuldade envolvida na tarefa de avaliar o poder discriminativo dos
itens consiste na escolha dos sujeitos que servirão de base como grupos-critério
que o item deve diferenciar. A escolha dos critérios para efetuar a análise da
discriminação dos itens tem dependido, na prática, dos objetivos do teste. Assim
existem critérios externos e critérios internos ao próprio teste cujos itens se quer
analisar. Critérios externos para estabelecer os grupos-critério podem ser, por
exemplo, sujeitos psiquiátricos e sujeitos não-psiquiátricos para avaliar o poder
de discriminação dos itens em testes psiquiátricos, ou sujeitos que tiveram êxito
e sujeitos que fracassaram num curso de treinamento, ou, ainda, tipos de
ocupações, etc. Enfim, trata-se de estabelecer grupos que se diferenciam em
algum comportamento definido como relevante com referência aos objetivos do
teste e verificar se os itens do teste são capazes de, individualmente, diferenciá-
los.
Utilizam-se também critérios internos ao próprio teste para definir estes
grupos-critério. Tipicamente é escolhido o escore total no próprio teste para
determinar os grupos extremos de sujeitos: grupo superior e grupo inferior. Em
amostras grandes, selecionam-se os 27% superiores e os 27% inferiores para
comporem os dois grupos (Kelley, 1939). Evidentemente, em amostras
menores, este percentual deverá ser maior, visto que os grupos de comparação
devem apresentar um número suficiente de sujeitos para permitir análises
estatísticas válidas. De modo geral, algo em torno de 30% será adequado;
contudo, em amostras normais e grandes é costumeiro se utilizar a "regra 27%",
como ficou sendo conhecida.
b) índices de discriminação
Existem dezenas de técnicas estatísticas para estabelecer o índice de
discriminação do item (Anastasi, 1988), os quais produzem basicamente
resultados similares (Oosterhof, 1976). Os mais utilizados são a análise da
diferença de médias ou de percentagens dos sujeitos que passaram (testes de
aptidão, onde há respostas certas e erradas) ou aceitaram (testes de
personalidade, atitude) o item no grupo superior vis-à-vis o grupo inferior, bem
como coeficientes de correlação, especialmente o coeficiente phi(ty) e a
correlação bisserial.
• O índice D
É um dos mais fáceis para ser computado, porque consiste simples-
mente na diferença de porcentagens de acertos no grupo superior e no
grupo inferior, isto é, S - I ou, em inglês, U - L (ULI ou ULD). Veja exemplo
na Tabela 3-2.
Tabela 3-2 — Computação do índice D
% dos que passaram Item
Grupo superior Grupo inferior
Ìndice D
1 80 40 40
2 100 90 10
3 30 50 -20
4 55 55 0
5
75 40 35
O índice D tem que ser positivo, e quanto maior for, mais discrimi-
nativo será o item. Obviamente, um D nulo ou negativo demonstra ser o
item não-discriminativo.
O teste "t"
Um índice de discriminação mais exato, embora mais laborioso de
se conseguir, consiste na análise da diferença entre as médias obtidas
pelos grupos superior e inferior. Neste caso, é necessário o cálculo das
respectivas médias e de suas variâncias. O nível de significancia do teste
't' pode ser verificado com exatidão em tabelas estatísticas próprias.
• Coeficientes de correlação
O coeficiente phi trabalha com dados dicotômicos, numa tabela de
quatro cáselas, e produz um valor que vai de -1 a +1, como qualquer
coeficiente de correlação. O cálculo deste coeficiente pode ser conseguido
através das tabelas de Jurgensen (1947), para o caso em que o número de
sujeitos for o mesmo nos dois grupos de sujeitos, ou das tabelas de
Edgerton (I960), para o caso deste número ser diferente.
O coeficiente bisserial de correlação (rb) utiliza as médias dos
escores dos sujeitos que passaram ou que não passaram o item. Os livros
de estatística apresentam várias formas de cálculo deste coeficiente
(Guilford, Fruchter, 1973).
O cálculo do índice de discriminação com base no escore total do
teste apresenta um problema teórico. Na verdade, procura-se analisar a
adequação do item (em termos de discriminação) baseada nas infor-
mações obtidas de todo o elenco de ¡tens (escore total). Tal procedimento
parece incongruente, dado que a adequação dos demais itens também está por
ser demonstrada, inclusive a esta altura das análises do teste ainda não se sabe
se os itens do teste são homogêneos, isto é, se o teste é unidimensional,
suposição necessária para se poder obter um escore total. Tenta-se resolver
este problema procedendo-se a uma análise fatorial dos itens antes da própria
análise individual dos mesmos.
3) Item Response Theory (IRT ou ICC)
Esta teoria de análise dos itens possui uma longa história (desde os anos
50), mas só bem recentemente está sendo utilizada praticamente, dadas as
dificuldades das análises estatísticas envolvidas que exigem o poder de
avançados softwares e micros de certo porte. AIRT é uma teoria estatística, mas
de utilização direta na psicometria, inclusive com grandes vantagens sobre
outros métodos tradicionais de análise de itens.
Os modelos matemáticos envolvidos nesta teoria são bastante
complexos e, embora seu conhecimento constitua uma grande vantagem, não
parece ser indispensável seu domínio para uso inteligente por parte do usuário.
A compreensão da sua lógica, entretanto, é indispensável.
Primeiramente, há vários modelos matemáticos envolvidos na IRT. Na
verdade, há três deles principais, dependendo do número de parâmetros que
pretendem avaliar dos itens. Os parâmetros em questão são a dificuldade, a
discriminação e a resposta aleatória (ou melhor, a resposta correta dada ao
acaso). Assim, temos o modelo logístico de 1, 2 ou 3 parâmetros.
Todos os modelos trabalham com traços latentes, isto é, teorizam sobre
as estruturas latentes, como faz a teoria psicométrica. Entendem os sistemas
psicológicos latentes como possuindo dimensões, isto é, propriedades de
diferentes magnitudes ou mensuráveis. Por isso, esta teoria também é
conhecida como a teoria do traço latente ou a teoria da curva característica do
item {¡tem characteristic curve - ICC). A teoria supõe que o sujeito possui um
certo nível de magnitude do traço latente, designado por theta (0), o qual é
determinado através da análise das respostas dos sujeitos por meio de diversas
funções matemáticas. A função do modelo completo de três parâmetros é:
A probabilidade de resposta correta, que define a posição (0) do
indivíduo no traço medido, é função de três parâmetros: a corresponde ao índice
de discriminação do item e é determinado pela curvatura da ogiva no ponto de
inflexão; b é o parâmetro da dificuldade/preferência e é
expresso pelo valor no eixo dos X no ponto de inflexão da curva; e é o
parâmetro que determina as respostas acertadas/preferidas por acaso,
sendo o D uma constante usualmente com valor 1,7.
Os três modelos de IRT mais conhecidos são os seguintes: 1) o
modelo logístico de um parâmetro ou o modelo Rasch (1966) — Rasch faz
a suposição de que os itens possuem o mesmo nível de discriminação e
que não há respostas dadas ao acaso, ficando como parâmetro a ser
avaliado somente a dificuldade dos itens; 2) o modelo logístico de dois
parâmetros (Birnbaum, 1968), que avalia a dificuldade e a discriminação
dos itens, assumindo que não hajam respostas dadas ao acaso; e 3) o
modelo de três parâmetros de Lord (1980), no qual os três parâmetros dos
itens são avaliados.
Exemplificando com o modelo de Lord: os valores Ө são expressos
em coordenadas cartesianas, tendo na ordenada a probabilidade de res-
posta correta, isto é, o P,(Ө), e na abeissa o traço latente, o próprio Ө.
Este procedimento produz, para cada item, uma ogiva, chamada de
curva característica do item (item characteristic curve ou ICC), como na
Figura 3-3.
Fig. 3-3 — ICC para três itens.
Na ilustração da Figura 3-3, os três parâmetros aparecem nas
seguintes posições: o a é representado pela inclinação da curva na altura
do ponto de inflexão, isto é, onde a curva corta a linha que representa a
probabilidade .50 de resposta correta (50%); quanto mais íngreme esta
curvatura, mais discriminativo é o item. O b é representado pela distância na
linha dos X (abcissa) que corresponde ao ponto determinado pela perpendicular
que vem do ponto de inflexão da curva. O c é definido pela assíntota inferior da
curva; quando esta assíntota não atinge a abcissa, há respostas dadas ao
acaso, e o tamanho destas respostas é definido pela distância que vai do ponto
0, na abcissa, até o ponto onde a curva corta a ordenada.
A adequação do uso da IRT depende de uma suposição que ela própria
não pode verificar, a saber, a unidimensionalidade do teste, isto é, a
homogeneidade do conjunto de itens que supostamente devem estar medindo
um mesmo traço. Este problema é bastante grave, dado que ele atinge algo de
crucial na psicometria — que é a questão da representação comportamental do
traço latente — e incide diretamente sobre a questão básica da validade dos
testes. Tipicamente, a dimensionalidade do teste é verificada através da análise
fatorial, e somente após ela seria justificado o uso de uma análise de tipo IRT.
Isto, evidentemente, vale também para a análise dos itens baseada no escore
total. A IRT tem uma vantagem sobre a última técnica, porque, pelo menos,
analisa os parâmetros do item independentemente um do outro. O que fica de
problemático neste contexto é que a análise fatorial se fundamenta em
equações lineares e, ao que parece, as correlações entre os itens seriam
normalmente de caráter curvilinear. Conseqüentemente, a prova da
unidimensionalidade do teste, que mede um e um só traço, fica difícil de ser
cabalmente demonstrada.
4) Vieses de resposta
Independentemente da qualidade dos itens, a resposta aos mesmos
pode ser desvirtuada por fatores relativos ao sujeito que a eles reage. Estes
vieses na resposta falseiam os dados, introduzindo correlações espúrias,
mesmo em se tratando de bons instrumentos psicológicos. Podemos classificar
estes erros em três categorias, em termos de suas causas: cultura/nível
socioeconómico, resposta aleatória e resposta estereotipada.
a) Erros associados à cultura
A causa de erros de resposta associados à cultura se relaciona ao
problema da transferência de instrumentos psicológicos para outras populações
para as quais eles não foram especificamente construídos e validados. E o caso
da utilização destes instrumentos para minorias e o da adaptação dos mesmos a
outras culturas (tradução de testes).
O problema do uso dos testes com minorias tem recebido grande atenção
nos Estados Unidos, sobretudo com a minoria negra. A IRT também vem se
preocupando com esta questão no contexto do uso de instrumentos para
estudos transculturais (Hambleton, 1991). O problema
que se observa ali é sobretudo a dificuldade relativa de certos itens para grupos
de indivíduos com tradições culturais e de experiência diferentes das dos
grupos para os quais os testes foram elaborados. Isto significa que pessoas de
habilidades similares num dado construto psicológico, mas de culturas
diferentes, apresentam diferentes probabilidades de êxito.
Vários métodos estatísticos foram apresentados para lidar com este
problema, chamado viés do teste {test bias), salientando-se o enfoque que
analisa a proporção dos sujeitos que respondem corretamente o item em cada
grupo (Angoff, 1982) e a IRT (Ironson, 1982; Hambleton, 1991; Ellis, 1991;
Jackson, 1991).
A técnica de Angoff ( 1982) consiste em transformar as porcentagens de
acertos nas duas populações em valores delta e plotá-los em coordenadas
cartesianas. No caso de as populações serem similares, esperam-se altas
correlações entre as respostas dos sujeitos de ambas as amostras, isto é, os
itens se apresentam com dificuldades similares, resultando em um agrupamento
dos itens em cima ou ao longo da linha de 45° que passa pelo ponto de origem
das coordenadas. Quando estas populações, contudo, forem culturalmente
diferentes, o índice geral de dificuldade dos itens pode aparecer mais forte
numa que na outra. Neste caso, os valores deltas não se agrupam junto à linha
de 45°, mas os pontos (que definem os itens) aparecem mais afastados desta
linha, isto é, aparece uma série de itens longe da linha, parecendo estranhos
aos demais (outsiders). Estes itens são mais difíceis para a amostra de sujeitos
onde eles aparecem plotados (vide Figura 3-4).
O problema com esta análise consiste no fato de que itens bem dis-
criminativos tendem a se mostrar outsiders e, com isso, correm o perigo de
serem eliminados como desviantes. Este problema é evitado com o uso do
enfoque da IRT para analisar os itens em termos de desviantes quando apli-
cados a uma população culturalmente diferente da original, dado que ela analisa
os parâmetros de cada item independentemente uns dos outros.
Esta técnica permite analisar a equivalência dos itens quando aplicados
a populações culturalmente distintas, identificando os itens que não apresentam
tal equivalência, isto é, ¡tens que apresentam um funcionamento diferencial
differential item functioning - DIF — (Ellis, 1991 ). AIRT produz os parâmetros
de dificuldade (b) e de discriminação (a) dos ¡tens para as duas amostras
culturalmente diferentes, e estes parâmetros podem ser comparados para
verificar se são ou não estatisticamente equivalentes ou diferentes. Esta
hipótese é testada através do qui-quadrado de Lord (1980; Hulin et al., I983).
Ao se piotar os índices de dificuldade (b) assim calculados das duas
amostras em coordenadas cartesianas, os b se alinham ao longo de uma linha
paralela à linha de 45°, que não passa pela origem das coordenadas,
Fig. 3-4 — Distribuição hipotética da dificuldade dos itens em amostras
de culturas diferentes.
mas corta, por exemplo, o eixo dos X, indicando que o teste como um todo
é mais difícil para a amostra indicada neste eixo (vide Figura 3-5). Os itens
mais difíceis para uma ou outra amostra aparecem indentados em direção
ao eixo da amostra para a qual tais itens são particularmente difíceis.
Assim, por exemplo, o item # 1 é mais difícil para a amostra A, sendo o item
#2 mais difícil para a amostra B.
Uma grande vantagem do enfoque da IRT neste particular consiste
em possibilitar a descoberta das causas de desvio de certos ¡tens (o fato
de serem mais difíceis para uma amostra do que para outra) e, assim, se
poder corrigir esta causa e tentar recuperar o item para o teste (Ellis, 1991).
b) A resposta ao acaso
Os fatores que determinam a resposta ao acaso não são determiná-
veis, pois são, por definição, aleatórios. Tal ocorrência pode ser devido a
Fig. 3-5 — Distribuição dos b de duas amostras.
inúmeros fatores não sistemáticos, como a má disposição do sujeito em
responder ao teste, incompreensão das instruções, gozação e outros. A
IRT identifica este tipo de resposta através do parâmetro c.
c) A resposta estereotipada
Trata-se realmente de erros ou de respostas tendenciosas devidos
a peculiaridades do sujeito que responde, sobretudo ocorrendo em testes
de personalidade e de atitude — são devidos a uma estereotipia na
resposta. Dois tipos aparecem salientes: a desejabilidade social e as
respostas sistemáticas.
A desejabilidade social na verdade corresponde a um traço de
personalidade, mas afeta negativamente a objetividade nas respostas de
auto-relato. Esta questão foi amplamente discutida por Edwards (1957,
1959), Edwards e Walker ( 1961 ), Edwards, Diers e Walker (1962) e Edwards
e Walsh (1963). Edwards, inclusive, construiu uma escala para avaliar esta
tendência nos sujeitos (Heineman, 1952; Messick, Jackson, 1961); êle
define a desejabilidade social como "a tendência dos sujeitos em atribuir
a si mesmos, em caso de autodescrição, afirmações de personalidade com
valores socialmente desejáveis e em rejeitar aquelas com valores social-
mente indesejáveis" (Edwards, 1957, p.vii). Essa atitude não representa
uma vontade de falsear os dados, mas é um desejo (inconsciente) de se
apresentar bem diante dos outros. O sujeito não procura intencionalmente
mentir sobre si mesmo (neste caso, seria mentira), mas o faz sem dar-se
conta disso: quer simplesmente aparecer com bons olhos diante dos
outros. Esta tendência é tão comum que parece um traço universal do ser
humano. Ela é, igualmente, um problema praticamente sempre presente
em inventários de personalidade. A maneira de controlar esta tendência
tem sido a elaboração de uma escala de desejabilidade e incluí-la no
inventário. Assim, um traço a mais é mensurado pelo inventário; mas fica
difícil saber o que fazer com tal dado que alerta sobre o fato de que o
sujeito pode bem ter utilizado a mesma tática na resposta aos demais
traços medidos pelo inventário. Pelo menos, fica o alerta para a interpre-
tação dos resultados do inventário, quando índices elevados de desejabili-
dade social estão presentes nos respondentes.
A resposta sistemática, por outro lado, representa erros de jul-
gamento. Hã uma série frustrante deste tipo de erros de resposta: efeito de
halo, leniência, tendência central, contraste, proximidade, e outras. O
controle destes erros tem se mostrado ainda bastante falho na utilização
de escalas de avaliação.
O efeito de halo foi cunhado por Thorndike (1920) e ocorre quando
"um avaliador tende a avaliar um indivíduo de modo semelhante sobre
todas as dimensões" (Guilford, 1959, p. 146). Este erro é inversamente
proporcional à variância nas respostas (Borman, 1975), acarretando altas
correlações entre diferentes fatores (Gillinsky, 1947; Taylor, Hastman, 1956)
e reduzidos desvios padrões (Bernardin, Walter, 1977).
O erro de leniência consiste em dizer "apenas coisas boas a respeito
de todo o mundo" (Dunnette, 1983). Estatisticamente, esta tendência é
definida como "uma mudança significativa na média das avaliações na
direção favorável, de uma condição de avaliação para outra" (Sharon,
Bartlett, 1969, p.252).
A tendência central ocorre quando um avaliador tende a colocar
todos os sujeitos no centro da escala. É uma tendência na qual "avaliado-
res hesitam proferir julgamentos extremos... e talvez ocorre mais normal-
mente quando avaliadores não conhecem suficientemente bem os
avaliandos" (Guilford, 1954, p.278).
Erro de contraste consiste na tendência das pessoas avaliarem os
outros ao oposto do que se avaliam a si mesmas. Os outros se tornam o
contraponto da auto-avaliação. Quem é organizado acha todos os outros
desleixados (Murray, 1938).
O controle destes e outros erros da resposta se apresenta difícil,
dado que eles têm origem na própria personalidade do sujeito que res-
ponde, tratando-se, portanto, de outros traços da própria personalidade. Tem-se
inventado maneiras de contornar tais erros, eliminando, por exemplo, o ponto
central (neutro) da escala para inviabilizar a tendência central ou eliminar a
parte inferior da escala para descaracterizar a leni-ência, mas tais investidas
não têm surtido efeitos suficientes e claros e, assim, estas tendências ainda
continuam sendo um problema substancial na medida da personalidade e das
atitudes.
Validade
Costuma-se definir a validade de um teste dizendo que ele é válido se de
fato mede o que supostamente deve medir. Embora esta definição pareça uma
tautologia, na verdade ela não é, considerada a teoria psicométrica exposta
acima. O que se quer dizer com esta definição é que, ao se medirem os
comportamentos (itens), que são a representação do traço latente, está-se
medindo o próprio traço latente. Tal suposição é justificada se a representação
comportamental for legítima. Esta legitimação somente é possível se existir uma
teoria prévia do traço que fundamente que a tal representação comportamental
constitui uma hipótese dedutível desta teoria. A validade do teste (este
constituindo a hipótese), então, será estabelecida pela testagem empírica da
verificação da hipótese — pelo menos, esta é a metodologia científica. Assim,
fica muito estranha a prática corrente na psicometria de se agrupar intuitiva-
mente uma série de itens e, a posteriori, verificar estatisticamente o que eles
estão medindo. A ênfase na formulação da teoria sobre os traços tem sido muito
fraca no passado; com a influência da Psicologia Cognitiva, esta ênfase
felizmente está voltando ou deverá voltar ao seu devido lugar na psicometria.
A validação da representação comportamental do traço, isto é, do teste,
embora constitua o ponto nevrálgico da psicometria, apresenta dificuldades
importantes que se situam em três níveis ou momentos do processo de
elaboração do instrumento: o nível da teoria, a coleta empírica da informação e
a própria análise estatística da informação.
No nível da teoria se concentram talvez as maiores dificuldades. Na
verdade, a teoria psicológica se encontra ainda em estado embrionário,
destituída quase que totalmente de qualquer nível de axiomatização, resultando
disto uma pletora de teorias, muitas vezes até contraditórias. Basta lembrar de
teorias como behaviorismo, psicanálise, psicologia existencialista, psicologia
dialética e outras, que postulam princípios irredutíveis entre as várias teorias e
pouco concatenados dentro de uma mesma teoria ou, então, em número
insuficiente para se poder deduzir hipóteses úteis para o conhecimento
psicológico. Havendo esta confusão no campo teórico dos construtos, torna-se
extremamente difícil para o psicometrista operacionalizar estes mesmos
construtos, isto é, formular
hipóteses claras e precisas para testar ou, então, formular hipóteses
psicologicamente úteis. Ainda quando a operacionalização for um sucesso, a
coleta da informação empírica não é ¡senta de dificuldades, como, por exemplo,
a definição inequívoca de grupos critérios onde estes construios possam ser
idealmente estudados. Mesmo no nível das análises estatísticas encontramos
problemas. Pela lógica da elaboração do instrumento, a verificação da hipótese
da legitimidade da representação dos construtos se faz pela análise fatorial
(confirmatoria), que procura identificar, nos dados empíricos, os construtos
previamente operacionalizados no instrumento. Acontece que a análise fatorial
faz algumas postulações fortes que nem sempre se coadunam com a realidade
dos fatos. Por exemplo, a análise fatorial assume que as respostas dos sujeitos
aos itens do instrumento são determinadas por uma relação linear destes com
os traços latentes. Todos os métodos atuais de análise fatorial postulam esta
relação linear. Há, ainda, o grave problema da rotação dos eixos, a qual permite
a demonstração de um número sem fim de fatores para o mesmo instrumento.
Diante destas dificuldades, os psicometristas recorrem a uma série de
técnicas para viabilizar a demonstração da validade dos seus instrumentos.
Fundamentalmente, estas técnicas podem ser reduzidas a três grandes classes:
técnicas que visam à validade de construto, validade de conteúdo e validade de
critério (APA, I954).
Validade de construto
A validade de construto ou de conceito é considerada a forma mais
fundamental de validade dos instrumentos psicológicos — e com toda a razão,
dado que ela constitui a maneira direta de verificar a hipótese da legitimidade da
representação comportamental dos traços latentes e, portanto, se coaduna
exatamente com a teoria psicométrica. Historicamente, o conceito de construto
entrou na psicometria através da APA Committee on Psychological Tests, que
trabalhou de 1950 a 1954 e cujos resultados se tornaram as recomendações
técnicas para os testes psicológicos (APA, 1954).
O conceito de validade de construto foi elaborado com o já clássico
artigo de Cronbach e Meehl (1955) "Construct validity in psychological tests",
embora o conceito já tivesse uma história sob outros nomes, tais como validade
intrínseca, validade fatorial e até validade aparente (face validity). Estas várias
terminologias demonstram a confusa noção que construto possuía. Embora
tenham tentado clarear o conceito de validade de construto, Cronbach e Meehl
ainda o definem como a característica de um teste enquanto mensuração de um
atributo ou qualidade, o qual não tenha sido "definido operacionalmente".
Reconhecem, entretanto, que a validade de construto reclama por um novo
enfoque científico. De fato, definir esta validade do modo que eles definiram
parece um pouco estranho em ciência, dado que conceitos não definidos
operacionalmente
não são suscetíveis de conhecimento científico. Conceitos ou construios são
cientificamente pesquisáveis somente se forem, pelo menos, passíveis de
representação comportamental adequada; do contrário, serão conceitos
metafísicos e não científicos. O problema é que os autores, sintetizando, aliás, a
atitude geral dos psicometristas da época, para definir validade de construto,
partiram do teste, isto é, da representação comportamental, em vez de partir da
teoria psicométrica que se fundamenta na elaboração da teoria do construto
(dos traços latentes). O problema não é descobrir o construto a partir de uma
representação existente (teste), mas sim descobrir se a representação (teste)
constitui uma representação legítima, adequada do construto. Este enfoque
exige uma colaboração, bem mais estreita do que existe, entre psicometristas e
Psicologia Cognitiva.
A validade de construto de um teste pode ser trabalhada sob dois
ângulos: a análise da representação comportamental do construto e a análise
por hipótese.
1) A análise da representação
São utilizadas duas técnicas como demonstração da conformidade da
representação do construto: a análise fatorial e a análise da consistência
interna.
A análise da consistência interna consiste essencialmente em verificar a
homogeneidade dos itens que compõem o teste. Assim, o escore total no teste
se torna o critério de decisão, e a correlação entre cada item e este escore total
decide a qualidade do item: sendo alta a correlação, o item é retido. O índice
alpha (a) de Cronbach é tipicamente utilizado como indicador sumário da
consistência interna do teste e, conseqüentemente, dos itens que o compõem.
Há alguns problemas com esta técnica como demonstração da
conformidade da representação do construto. Primeiramente, o escore total
constitui uma dificuldade, dado que ele somente faz sentido se o teste já é, a
priori, homogêneo. Assim, a correlação de cada item com o escore total já
pressupõe que os itens são somáveis, isto é, homogêneos; em outras palavras,
se pressupõe que todos os itens sejam uma representação do mesmo traço
(unidimensionalidade). Por outro lado, a intercorre-lação entre os itens não é
uma demonstração de que estes estejam medindo um e mesmo construto.
Suponha a situação de três itens saturados em três fatores, como segue:
__________F
1
_________ F
2
_________ F
3
1 .80 .30 .30
2 .30 .80 .30
3 .30 .30 .80
As correlações entre os três itens são todas de 0,57, altas e signifi-
cativas, mas nem por isso se pode dizer que os três itens estejam medindo uma
e a mesma coisa. Na verdade, o item 1 mede especificamente o fator 1 e os
outros itens medem outros fatores. Conseqüentemente, a análise da
consistência interna dos itens não parece garantir que eles sejam uma
representação unidimensional de um construto.
A análise fatorial tem como lógica precisamente verificar quantos
construtos comuns são necessários para explicar as covariancias (as
intercorrelações) dos itens. As correlações entre os itens são explicadas, pela
análise fatorial, como resultantes de variáveis-fonte que seriam as causas
destas covariancias. Estas variáveis-fonte são os construtos ou traços latentes
de que fala a psicometria. A análise fatorial também postula que um número
menor de traços latentes (variáveis-fonte) é suficiente para explicar um número
maior de variáveis observadas (itens). Assim, se, a partir de uma teoria, foi
construído um teste que mede um único traço latente, a análise fatorial poderia
verificar esta hipótese, demonstrando se o tal teste de fato mede um único traço,
isto é, que a matriz de intercorrelações entre os itens pode ser reduzida ou
explicada adequadamente por um únicofator. Neste caso, temos uma
demonstração empírica da hipótese de que o teste constitui uma representação
legítima e adequada do construto em questão, isto é, o teste tem validade de
construto.
Infelizmente, as coisas não aparecem assim tão nítidas. A razão principal
desta dúvida se fundamenta na teoria matemática da análise fatorial que define
a relação entre as variáveis observadas e as variáveis-fonte somente em termos
de equações lineares. Parece difícil se admitir que as intercorrelações entre os
itens possam ser todas elas reduzidas a equações lineares, particularmente
quando em, quiçá, nenhum campo da Psicologia e das ciências sociais e do
comportamento em geral se encontram tais equações. Encontram-se, sim,
equações logarítmicas, exponenciais e outras, isto é, equações não-lineares,
como, por exemplo, nas leis da psicofisica e da análise experimental do
comportamento.
2) Análise por hipótese
Esta análise se fundamenta no poder de um teste psicológico ser capaz
de discriminar ou predizer um critério externo a ele mesmo; por exemplo,
discriminar grupos-critério que difiram especificamente no traço que o teste
mede. Este critério é procurado de várias formas, havendo quatro entre as mais
salientes e normalmente utilizadas: validação convergente-discriminante, idade,
outros testes do mesmo construto e a experimentação.
A técnica da validação convergente-discriminante (Campbell, Fiske,
1967) parte do princípio de que para demonstrar a validade de construto de um
teste é preciso determinar duas coisas: 1) o teste deve
correlacionar significativamente com outras variáveis com as quais o cons-truto
medido pelo teste deveria, pela teoria, estar relacionado (validade convergente);
e 2) não se correlacionar com variáveis com as quais ele teoricamente deveria
diferir (validade discriminante).
Campbell e Fiske (1967, p. 125) apresentam o exemplo da Tabela3-3, a
seguir:
Tabela 3-3 — Matriz sintética de Multitraço- -Multimétodo
A ilustração apresenta seis blocos de resultados: três triângulos (com
linhas inteiras) e três retângulos (com triângulos de linhas pontilha-das). As
diagonais dos blocos-retângulo representam as correlações entre as variáveis
medidas por diferentes métodos e contêm a diagonal da validade (convergente);
estes valores devem ser altos para mostrar validade de construto. Os valores
fora destas diagonais nestes mesmos blocos (os triângulos de linhas
pontilhadas) representam as correlações entre diferentes variáveis medidas por
diferentes métodos; estes valores devem ser pequenos para mostrar validade de
construto (validade discriminante). O mesmo deve ocorrer com as correlações
fora das diagonais nos blocos-triângulo (com linhas inteiras), que representam
os coeficientes entre variáveis diferentes medidas pelo mesmo método (nas
diagonais estão os
coeficientes de precisão). Este método funciona se os métodos e as variá-
veis diferem o suficiente (máximamente) entre si.
A idade é utilizada como critério para a validação de construto de
um teste quando este mede traços que são intrinsecamente dependentes
de mudanças no desenvolvimento cognitivo/afetivo dos indivíduos, como
é o caso, por exemplo, da teoria piagetiana do desenvolvimento dos pro-
cessos cognitivos e da teoria de Spearman sobre a inteligência. A hipótese
a ser testada neste método é a de que o teste que mede o traço X, o qual
muda claramente com a idade, é capaz de discriminar distintamente gru-
pos de idades diferentes. O problema com este método consiste no fato de
que a maturação psicológica pode assumir dimensões e conotações muito
distintas em culturas diferentes, por um lado; por outro, outras variáveis
que não o traço em questão podem estar dependentes desta maturação,
dificultando ou impossibilitando a definição dos grupos-critério somente em
função da idade. Assim, se outras variáveis variam com a idade, pode bem
ser que estas sejam as responsáveis pelas mudanças no traço e não a
idade especificamente. Isto não seria grave problema se estas outras
variáveis variassem do mesmo modo em qualquer contexto cultural ou
socioeconòmico, o que obviamente é difícil de assumir. Dentro de uma
mesma cultura, o método se apresenta como importante para a determi-
nação da validade de construto.
A correlação com outros testes que meçam o mesmo traço é
também utilizada como demonstração da validade de construto. O argu-
mento é de que, se um teste X mede validamente o traço Z e o novo teste
N se correlaciona altamente com o teste X, então o novo teste mede o
mesmo traço medido por aquele teste. O problema com esta técnica
consiste no fato de que normalmente um teste de um traço qualquer não
se apresenta com tal pureza a se poder afirmar que ele mede exclusiva-
mente o tal traço. De fato, ele mede o traço em termos de um certo nível
de covariancia: por exemplo, existe uma correlação de 0,70 entre o teste
e o traço, o que eqüivale a uma comunalidade de 49%. Agora, o novo teste
correlaciona, digamos, também 0,70 com aquele teste, havendo, portanto,
comunalidade de 49% entre os dois testes. Qual será, neste caso, a comu-
nalidade do novo teste com o traço em si? Por azar, poderia acontecer que
a comunalidade de 49% entre os dois testes ocorra precisamente com os
51% do primeiro teste que não covariam com o traço; neste caso, a
comunalidade do novo teste com o traço seria 0%, isto é, o novo teste seria
uma representação totalmente equivocada do traço.
O uso da intervenção experimental aparece como logicamente
uma das melhores técnicas para se decidir a validade de construto de um
teste. Esta técnica consiste em verificar se o teste discrimina claramente
grupos-critério 'produzidos' experimentalmente em termos do traço objeto
de medida do teste. Assim, um teste que mede ansiedade teria validade de
construto (ansiedade) se discriminasse grupo não-ansioso de grupo ansi-
oso, definidos estes grupos em termos de manipulações experimentais —
o ansioso, por exemplo, criado assim através de experiencias provocado-
ras de ansiedade. Uma vez que se possa garantir que as manipulações
feitas nos grupos-criterio atingem exclusivamente o traço em questão, a
testagem da hipótese é válida; como, normalmente, estas manipulações
supostamente de uma variável de fato afeta uma série de outras variáveis,
sobretudo se as variáveis interagirem, fica muito confusa a decisão sobre
em que especificamente os grupos-critério diferem e, conseqüentemente,
fica inconclusiva a decisão sobre a hipótese de que o teste discrimina os
grupos-critério exclusivamente em termos do traço que ele pretende medir.
Em conclusão, a técnica da validação de construto via hipótese, que,
de um ponto de vista da metodologia científica, se apresenta como a mais
direta e óbvia, esbarra na dificuldade que existe na definição inequívoca
do critério a ser utilizado como representante da manifestação do traço.
Deve-se, na verdade, concluir que todas estas técnicas de validação
apresentam dificuldades graves, mas nem por isso se justifica o simples
abandono das mesmas. Primeiramente, porque em ciência empírica nada
existe de perfeito e isento de erro e, em segundo lugar, a consciência
destas dificuldades deve servir para melhorar e não abandonar as
técnicas. Aliás, é recomendável o uso de mais de uma das técnicas acima
analisadas para demonstrar a validade de construto do teste, dado que a
convergência de resultados das várias técnicas constitui garantia para a
validade do instrumento.
Validade de critério
Concebe-se como validade de critério de um teste o grau de eficácia
que ele tem em predizer um desempenho específico de um sujeito. O
desempenho do sujeito torna-se, assim, o critério contra o qual a medida
obtida pelo teste é avaliada. Evidentemente, o desempenho do sujeito
deve ser medido/avaliado através de técnicas que são independentes do
próprio teste que se quer validar.
Costuma-se distinguir dois tipos de validade de critério: 1 ) validade
preditiva e 2) validade concorrente. A diferença fundamental entre os dois
tipos é basicamente uma questão do tempo que ocorre entre a coleta da
informação pelo teste a ser validado e a coleta da informação sobre o
critério. Se estas coletas forem simultâneas (mais ou menos), a validação
será de tipo concorrente; caso os dados sobre o critério sejam coletados
após a coleta da informação sobre o teste, fala-se em validade preditiva.
O fato de a informação ser obtida simultaneamente ou posteriormente à do
próprio teste não é um fator tecnicamente relevante à validade do teste;
relevante, sim, é a determinação de um critério válido. Aqui se situa
precisamente a natureza central deste tipo de validação dos testes: 1)
definir um critério adequado e 2) medir, válida e independentemente do
próprio teste, este critério.
Quanto à adequação dos critérios, pode-se afirmar que há uma
série destes que são normalmente utilizados, quais sejam:
1) Desempenho acadêmico
Talvez seja o critério mais utilizado na validação de testes de
inteligência. Consiste na obtenção do nível de desempenho escolar dos
alunos, seja através das notas dadas pelos professores, seja pela média
acadêmica geral do aluno, seja pelas honrarías acadêmicas que o aluno
recebeu, ou seja mesmo pela avaliação puramente subjetiva dos alunos
em termos de "inteligente" por parte dos professores ou colegas. Embora
seja amplamente utilizado, este critério tem igualmente sido amplamente
criticado, não em si mesmo, mas pela deficiência que ocorre na sua
avaliação. É sobejamente sabida a tendenciosidade por parte dos profes-
sores em atribuir as notas aos alunos, tendenciosidade nem sempre
consciente, mas decorrente de suas atitudes e simpatias em relação a este
ou aquele aluno. Esta dificuldade poderia ser sanada até com certa
facilidade, se os professores tivessem o costume de aplicar testes de ren-
dimento que possuíssem validade de conteúdo, por exemplo. Como esta
tarefa é dispendiosa, o professor tipicamente não se dá ao trabalho de
validar (validade de conteúdo) suas provas acadêmicas.
Neste contexto, é também utilizado como critério de desempenho
acadêmico o nível escolar do sujeito: sujeitos mais avançados, repetentes
e evadidos — a suposição sendo de que quem continua regularmente ou
está avançado em termos de sua idade possui mais habilidade. Evidente-
mente, nesta história não entra somente a questão da habilidade, mas
muitos outros fatores sociais, de personalidade, etc, tornando este critério
bastante ambíguo e espúrio.
2) Desempenho em treinamento especializado
Trata-se do desempenho obtido em cursos de treinamento em
situações específicas, como no caso de músicos, pilotos, atividades
mecânicas ou eletrônicas especializadas, etc. No final deste treinamento
há tipicamente uma avaliação, a qual produz dados úteis para servirem de
critério de desempenho do aluno.
3) Desempenho profissional
Trata-se, neste caso, de comparar os resultados do teste com o
sucesso/fracasso ou o nível de qualidade do sucesso dos sujeitos na
própria situação de trabalho. Assim, um teste de habilidade mecânica pode
ser testado contra a qualidade de desempenho mecânico dos sujeitos na
oficina de trabalho. Evidentemente continua a dificuldade de levantar ade-
quadamente a qualidade deste desempenho em serviço dos sujeitos.
4) Diagnóstico psiquiátrico
Muito utilizado para validar testes de personalidade/psiquiátricos. Os
grupos-critério são aqui formados em termos da avaliação psiquiátrica:
normais vs. neuróticos, psicópatas vs. depressivos, etc. Novamente, a difi-
culdade continua sendo a adequação das avaliações psiquiátricas feitas
pelos psiquiatras.
5) Diagnóstico subjetivo
Avaliações feitas por colegas e amigos podem servir de base para
estabelecer grupos-critério. É utilizada esta técnica sobretudo em testes
de personalidade, onde é difícil encontrar avaliações mais objetivas. Assim,
os sujeitos avaliam seus colegas em categorias ou dão escores em traços
de personalidade (agressividade, cooperação, etc), baseados na convi-
vência que eles têm com os colegas. Nem precisa mencionar as dificulda-
des enormes que tais avaliações apresentam em termos de objetividade;
contudo, a utilização de um grande número de juizes poderá diminuir os
vieses subjetivos nestas avaliações.
6) Outros testes disponíveis
Os resultados obtidos através de outro teste válido que meça o
mesmo construto que o teste a ser validado servem de critério para deter-
minar a validade do novo teste. Aqui fica a pergunta óbvia: para que criar
outro teste, se já existe um que mede validamente o que se quer medir? A
resposta se baseia numa questão de economia: utilizar um teste que
demanda muito tempo para ser respondido ou apurado como critério para
validar um teste que gaste menos tempo.
Todos estes critérios podem ser considerados bons e úteis para fins
de validação de critério. A grande dificuldade em quase todos eles se situa
na demonstração da adequação da medida deles: em geral, a medida dos
mesmos é precária, deixando, por isso, muita dúvida quanto ao processo
de validação do teste. Entretanto, há exemplos famosos de testes vali-
dados através deste método, como é o caso do MMPI.
Validade de conteúdo
Um teste tem validade de conteúdo se ele constitui uma amostra
representativa de um universo finito de comportamentos (domínio); é
aplicável quando se pode delimitar a priorie claramente um universo de
comportamentos, como é o caso em testes de desempenho, que preten-
dem cobrir um conteúdo delimitado por um curso específico.
Para viabilizar um teste com validade de conteúdo, é preciso que se
façam as especificações do teste antes da construção dos itens. Estas
especificações comportam a definição de três grandes temas: 1) definição do
conteúdo, 2) explicitação dos processos psicológicos (os objetivos) a serem
avaliados e 3) determinação da proporção relativa de representação no teste de
cada tópico do conteúdo.
Quanto ao conteúdo, trata-se de detalhá-lo em termos de tópicos e
subtópicos e de explicitar a importância relativa de cada tópico dentro do teste.
Tais procedimentos evitam a super-representação indevida de alguns tópicos e
sub-representação de outros por vieses e pendores pessoais do avaliador. Claro
que será sempre o avaliador ou equipe de avaliadores quem vai definir este
conteúdo e a relativa importância de suas partes, mas esta definição deve ser
tomada antes da construção dos itens, garantindo certa objetividade, pelo
menos, nas decisões.
Quanto aos objetivos, um teste não deve ser elaborado para avaliar
exclusivamente um processo. Como na aprendizagem entram em ação vários
processos psicológicos, há interesse que todos eles sejam avaliados por um
teste de conteúdo. Por exemplo, o teste deverá conter itens que avaliam a
memória (reproduzir), a compreensão (conceituar, definir), a capacidade de
comparação (relacionar) e de aplicação dos princípios aprendidos (solucionar
problemas, transferência da aprendizagem).
Para facilitar a especificação do teste, pode-se utilizar uma tabela de
dupla entrada, com o detalhamento dos objetivos (processos) no topo e o
detalhamento dos tópicos à esquerda, explicitando, no corpo da tabela, o
número de itens, conforme Tabela 3-4.
Tabela 3-4 — Especificação do conteúdo e processos para uma prova de
rendimento em estatística descritiva
Processos (objetivos) Conteúdo
Conceituar Relacionar Aplicar
Total
Freqüência
Tendência Central
Variabilidade
2 3 1
3 1 5
3 2 4
6
9
9
Total 8 6 10 24
Precisão (fidedignidade)
O problema que se enquadra sob o conceito de fidedignidade vem
relatado sob uma série de outras denominações, como precisão, fidedignidade,
constância, consistência interna, confiabilidade, estabilidade, confiança,
homogeneidade. As mais genéricas e, por isso, as mais utilizadas são precisão
e fidedignidade.
Estas diferentes designações mostram a variabilidade de conceitos que
precisão assume, dependendo do aspecto que este parâmetro quer salientar do
teste. Na verdade, fidedignidade cobre aspectos diferentes de um teste, mas
todos eles se referem a quanto os escores de um sujeito se mantêm idênticos
em ocasiões diferentes; por exemplo, os escores obtidos num tempo 1 e num
tempo 2 para os mesmos sujeitos. Esta ocorrência (identidade dos escores)
evidentemente supõe que o traço que o teste mede se mantenha constante sob
estas diferentes ocasiões, como é suposto ser o caso, por exemplo, na maioria
dos traços de personalidade e de aptidão. Não seria o caso num teste de humor,
porque este traço por natureza varia de momento para outro, e um teste válido
de humor produziria escores necessariamente diferentes. Assim, o conceito de
fidedignidade, na verdade, se refere ao quanto o escore obtido no teste se
aproxima do escore verdadeiro do sujeito num traço qualquer; isto é, a
fidedignidade de um teste está intimamente ligada ao conceito da variância erro,
sendo este definido como a variabilidade nos escores produzida por fatores
estranhos ao construto. Aparece, assim, claro que a fidedignidade de um teste
depende da questão do erro da medida, especificamente do erro produzido pelo
próprio instrumento: quanto o escore produzido pelo teste se distancia do escore
verdadeiro do sujeito no traço em questão, isto é, a valor theta individual na IRT.
Para melhor conceber esta problemática, é preciso se referir à variância
verdadeira e variância erro. Um procedimento de medida qualquer, por exemplo,
os escores em um teste, produz uma variabilidade nos resultados que, em parte,
é provocada pelas diferenças no próprio traço medido entre diferentes sujeitos,
parte pela imprecisão do próprio instrumento e parte, ainda, por uma série de
outros fatores aleatórios. A fidedignidade da medida depende do tamanho da
variância erro, que é precisamente a variabilidade nos resultados provocada por
estes fatores aleatórios e pela imprecisão do instrumento. Expressa mais
positivamente, a fidedignidade de um instrumento diz respeito ao montante de
variância verdadeira que ele produz vis-à-vis a variância erro, isto é, quanto
maior a variância verdadeira e menor a variância erro, mais fidedigno o instru-
mento: um escore preciso é um escore que se aproxima do valor verdadeiro,
expresso estatisticamente pelo erro padrão da medida (tratado mais adiante).
A definição estatística da fidedignidade é feita através da correlação entre
escores de duas situações produzidos pelo mesmo teste. Se o teste é preciso,
esta correlação deve não somente ser significativa, mas se aproximar da
unidade (cerca de 0,90). De fato, uma correlação de 0,70, por exemplo,
expressaria uma comunalidade de apenas 49% entre as duas situações
provocadas pelo mesmo teste nos mesmos sujeitos. Neste caso, a variância
comum, digamos a variância verdadeira, seria menor que a variância erro,
demonstrando que o teste não produz resultados fidedignos,
isto é, o teste não possui precisão. Esta correlação, no caso do parametro de
fidedignidade ou precisão, é referida como o coeficiente de precisão ou de
fidedignidade.
Dependendo da técnica utilizada para demonstração da precisão de um
teste, surgem vários tipos de precisão: teste-reteste, formas paralelas,
consistência interna.
Precisão teste-reteste
Este tipo de precisão consiste em calcular a correlação entre as dis-
tribuições de escores obtidos num mesmo teste pelos mesmos sujeitos em duas
ocasiões diferentes de tempo. A correlação de 1,00 seria obtida se não
houvesse variância erro provocada pelo teste ou outros fatores aleatórios, como
fatores não controlados nos sujeitos ou na situação de testagem. Quanto mais
longo o período de tempo entre a primeira e a segunda testagem, mais chances
haverá de fatores aleatórios ocorrerem, diminuindo o coeficiente de precisão.
Este intervalo de tempo permite a ação dos fatores mencionados por Campbell e
Stanley ( 1%3) sob o tema de fontes de erro devido à história, maturação,
retestagem e às interações entre estes fatores, bem como ao próprio
instrumento. Por isso, vêem-se as graves dificuldades que apresenta este tipo
de análise da fidedignidade de um teste; particularmente grave aparece aqui a
questão da maturação, isto é, se o próprio traço matura (se desenvolve,
modifica), esta análise da precisão torna-se errônea, dada sobretudo a
eventualidade de que a maturação do traço se processe diferencial mente para
os diversos sujeitos testados. Além disso, e particularmente em testes de
aptidão, a testagem constitui um treinamento, e provavelmente diferencial, para
os sujeitos, o que provocará difereas na retestagem entre os mesmos,
reduzindo novamente o coeficiente de precisão do teste. Para contornar estas
dificuldades, outros tipos de análises foram elaboradas, como a das formas
alternativas ou análise da consistência interna.
Precisão de formas alternativas
Neste caso, os sujeitos respondem a duas formas paralelas do mesmo
teste, e a correlação entre as duas distribuições de escores constitui o
coeficiente de precisão do teste. A condição necessária para que esta análise
seja válida se situa na demonstração de que as amostras de conteúdo (de itens)
em ambas as formas sejam equivalentes, isto é, que os itens possuam níveis
equivalentes de dificuldade e de discriminação em ambas. Estes parâmetros
podem ser facilmente verificados através da IRT; há, contudo, algumas
dificuldades neste tipo de análise: as duas formas são aplicadas em sucessão
imediata, não eliminando assim totalmente o efeito do intervalo de tempo,
resultando na possível introdução de efeitos da história e do treinamento
(prática) obtido ao responder à primeira das formas alternativas; aparece
facilmente um efeito repetitório, dado que os
itens de ambas as formas são similares, produzindo efeitos motivacionais
negativos no responderte. Além disso, não é tarefa fácil construir formas
alternativas, quando a construção de um só teste já é uma tarefa dispendiosa,
razão pela qual poucos testes aparecem no mercado com formas alternativas.
Precisão da consistência interna
As várias técnicas de estabelecer este tipo de precisão visam
verificar a homogeneidade da amostra de itens do teste, ou seja, a
consistência interna do teste. As técnicas mais utilizadas são: duas
metades, Kuder-Richardson e alfa de Cronbach. Todas elas exigem
aplicação do teste em apenas uma única ocasião, evitando totalmente a
questão da constância temporal.
1) Precisão das duas metades
Os sujeitos respondem a um único teste numa única ocasião. O
teste é dividido em duas partes equivalentes, e a correlação é calculada
entre os escores obtidos nas duas metades. Nao é importante como o
teste é dividido em duas metades, conquanto que estas sejam equivalen-
tes. Na prática, contudo, as duas formas mais normalmente utilizadas são
a divisão do teste em primeira metade e segunda metade ou em itens
pares e itens ímpares. Para efetuar esta análise, de fato o teste não
precisa ser homogêneo, isto é, no qual todos os itens medem o mesmo
traço (por exemplo, itens somente verbais ou numéricos); o que é
fundamental é que as duas metades emparelhem itens homogêneos:
verbal com verbal, numérico com numérico, etc.
Neste tipo de precisão, é preciso notar que o cálculo da correlação
se baseia somente na metade do teste. Assim, num teste de 100 itens, a
correlação se basearia somente em 50 itens. Como o número de itens
afeta o tamanho do coeficiente de correlação, é preciso corrigir este
coeficiente para que leve em consideração a extensão total do teste e,
assim, produzir um coeficiente de precisão mais justo para o teste. Esta
correção é feita através da fórmula de Spearman-Brown:
onde, r
tt
é o coeficiente de precisão calculado, r
12
é o coeficiente de corre-
lação entre as duas metades do teste e n é o número de vezes em
que o teste foi dividido. Assim, um teste dividido em duas metades, o n
se 2, porque ele deve ser aumentado 2 vezes para se obter a forma total
do teste.
2) Precisão de Kuder-Richardson
Esta técnica, criada por Kuder e Richardson (1937), se baseia na
análise de cada item individual do teste. Os autores desenvolveram várias
fórmulas sendo a mais utilizada a fórmula 20, que segue:
onde, r„ é o coeficiente de precisão do teste, n o número de itens do teste,
DP,' o desvio padrão dos escores totais do teste e Σpq é o somatório do
produto da proporção de sujeitos que passaram (p) e dos que não
passaram (q) cada item.
Cronbach (1951) mostrou que esta técnica produz um coeficiente de
precisão do teste que corresponde à média dos coeficientes de todas as
metades em que o teste possa ser dividido, mas somente quando se utiliza
a fórmula de Rulon (1939), que trabalha com as variâncias das diferenças
entre as duas metades, e não a simples correlação com a correção de
Spearman-Brown, segundo observaram Novick e Lewis (1967). Esta equi-
valência de coeficientes, contudo, ocorre em testes homogêneos, porque
nos testes heterogêneos os coeficientes de Kuder-Richardson são nor-
malmente menores, dado que esta técnica não trabalha com diferenças
entre pares de itens e sim com a variância de todos os itens.
3) Alfa de Cronbach
Esta técnica de Cronbach (1951) constitui uma extensão da de
Kuder-Richardson. Esta última é aplicável somente quando a resposta ao
item é dicotômica — certo e errado, por exemplo. Entretanto, quando a
resposta ao item pode assumir mais de duas alternativas, o valor Σpq é
substituído por Σ(DP
t
2
), a soma dos desvios padrões de cada item. Esta
fórmula genérica é a seguinte:
onde DP
t
2
é a variância de todo o teste e Σ(DP
t
2
) é o somatório das variân-
cias de cada item do teste.
Precisão na apuração dos escores
Existe toda uma série de fatores que podem afetar negativamente
os resultados de um teste, tais como distração, cansaço, etc. Para a
maioria destes fatores pode-se encontrar alguma maneira de controlá-los
experimentalmente através, por exemplo, da padronização das condições
de testagem. Há, contudo, um fator importante na apuração dos resultados
de testes não-objetivos, onde a opinião do apurador entra como fator de
decisão. Neste caso, é preciso que mais de um apurador seja utilizado
para se garantir um resultado preciso no teste. A concordância, expressa
pela correlação entre as avaliações de diferentes apuradores, produzirá um
índice de precisão entre apuradores. Obviamente este índice deve ser
positivo e alto para garantir validade dos resultados.
O erro padrão de medida
Para estabelecer a precisão de um teste, pode-se, em lugar de calcular
um coeficiente de fidedignidade, calcular o erro provável da medida incorrido
pelo teste. Este erro é expresso em termos padrões e é o
seguinte:
onde o erro padrão da medida (EPM) se expressa em termos do desvio padrão
do teste (DP
t
) e do coeficiente de precisão do mesmo teste (r
tt
) obtidos na
mesma amostra de sujeitos.
Este índice se apresenta muito útil na interpretação de escores
individuais, pois com ele se pode definir os limites do intervalo dentro do qual
mais provavelmente se situa o escore verdadeiro do sujeito. Estes limites são
expressos pelo desvio padrão: ± 1 EPM em torno do escore obtido dá os limites
dentro dos quais há uma probabilidade de 68,26% de se situar o escore
verdadeiro; se se optar por 2 EPM, esta probabilidade sobe para 07,72% (vide
curva normal). Assim, se um sujeito obteve um Ql de KM) num teste cujo DP é
15 e o r
tt
= .91, seu escore verdadeiro se situa entre os
seguintes limites expressos pelo
EPM de:
Neste caso, os limites serão 100 ± 4,5 — ou seja, 104,5 e 95,5.
Existe na literatura uma louvável tendência de se apresentar os
resultados dos sujeitos num teste em termos de faixas definidas pelo DPM em
vez de escores isolados. Esta prática permite, igualmente, comparar com maior
precisão a diferença entre dois escores, observando se as faixas dos dois
escores se sobrepõem ou não.
Padronização (normas)
Padronização, em seu sentido mais geral, se refere à necessidade de
existir uniformidade em todos os procedimentos no uso de um teste válido e
preciso: desde as precauções a serem tomadas na aplicação do teste
(uniformidade das condições de testagem, controle do grupo, instruções
padronizadas e motivar os examinandos pela redução da ansiedade) até o
desenvolvimento de parâmetros ou critérios para a interpretação dos resultados
obtidos. Em seu sentido mais técnico de parâmetro psicométrico, a
padronização se refere a este último aspecto, isto é, como interpretar os
resultados.
Um escore bruto produzido por um teste necessita ser contextualizado
para poder ser interpretado. Obter, por exemplo, 50 pontos num teste de
raciocínio verbal e 40 num de personalidade não oferece nenhuma informação.
Mesmo se dissermos que o sujeito acertou 80% das questões
não diz muito, visto que o teste pode ser fácil (80% então seria pouco) ou difícil
(80% então seria muito). Na verdade, qualquer escore deve ser referido a algum
padrão ou norma para adquirir sentido. Uma tal norma permite situar o escore de
um sujeito, permitindo 1) determinar a posição que o sujeito ocupa no traço
medido pelo teste que produziu o tal escore e 2) comparar o escore deste sujeito
com o escore de qualquer outro sujeito. O critério de referência ou a norma de
interpretação é constituído tipicamente por dois padrões: 1) o nível de
desenvolvimento do indivíduo humano (normas de desenvolvimento) e 2) um
grupo padrão constituído pela população típica para a qual o teste é construído
(normas intragrupo).
Normas de desenvolvimento
As normas de interpretação dos escores de um teste baseadas no
desenvolvimento se fundamentam no fato do desenvolvimento progressivo (nos
vários aspectos de maturação psicomotora, psíquica, etc.) pelo qual o indivíduo
humano passa ao longo de sua vida. Neste sentido, são utilizados, como critério
de norma, três fatores: idade mental, série escolar e estágio de
desenvolvimento.
1) A idade mental
Este critério foi criado por Binet e Simon (1905). Estes autores falavam
de nível mental, depois popularizado como idade mental. Binet e Simon
separaram empiricamente uma série de 54 questões/tarefas em 11 níveis de
idade cronológica: 3 a 10 anos (oito níveis), 12, 15 anos e idade adulta. As
questões que eram respondidas corretamente pela média de crianças/sujeitos
de uma idade cronológica X definiam ovel/idade mental correspondente a esta
idade cronológica. Assim, a um sujeito que respondia a todas as questões que
as crianças de 10 anos eram capazes de responder era atribuída a idade mental
de 10 anos.
Na adaptação norte-americana da escala de Binet-Simon, a Stanford-
Binet (Terman, Merrill, 1960), a idade mental (IM ) foi expressa em termos da
idade cronológica (IC), resultando no quociente intelectual, o Ql, através da
fórmula:
Assim, quem responde a todas as questões correspondentes à sua idade
cronológica possui um Ql de 100 (por exemplo, para uma criança de 10 anos: Ql
= 100 x (10/10) = 100). A interpretação dos resultados em termos de Ql se faz
através da Tabela 3-5.
2) Série escolar
Este critério é utilizado para testes de desempenho acadêmico e so-
mente faz sentido quando se trata de disciplinas que são oferecidas numa
Tabela 3-5 — Interpretação dos escores de Ql
Ql Interpretação
140-160 .................................. Definitivamente superior
120-139 .................................. Superior
110-119 .................................. Médio Superior
90-109 .................................. Normal ou médio
80-89 .................................. Médio inferior
70-79 .................................. Deficiência limítrofe
50-69 .................................. Cretino
30-49 .................................. Imbecil
29 .................................. Idiota
seqüência de várias séries escolares. As normas são aqui estabelecidas
computando-se o escore bruto médio obtido pelos alunos em cada série,
resultando num escore típico para cada série. Desta forma, a criança que obtém
o escore bruto típico da 4
9
série obtém o escore padronizado de 4.
3) Estágio de desenvolvimento
Este critério é utilizado por pesquisadores na área da psicologia da
criança que estudam o desenvolvimento mental e psicomotor em termos de
idades sucessivas de desenvolvimento, como Gesell e Piaget.
Gesell e colaboradores (Ames, 1937; Gesell, Amatruda, 1947; Halverson,
1933; Knoblock, Pasamanick, 1974) desenvolveram normas para oito idades
típicas (de 4 semanas a 36 meses) de desenvolvimento das crianças nas áreas
do comportamento motor, adaptativo, da linguagem e social.
Piaget e seus colaboradores estudaram o desenvolvimento cognitivo e
estabeleceram uma seqüência de estágios sucessivos deste desenvolvimento
(sensório-motor, pré-operacional, operacional concreto, operacional formal).
Seguidores da escola piagetiana desenvolvem testes utilizando estes estágios
como critério de interpretação dos escores (Laurendeau, Pinard, 1962, 1970;
Pinard, Laurendeau, 1964).
Normas intragrupo
O critério de referência dos escores é o grupo ou a população para a qual
o teste foi construído. Aqui o escore do sujeito toma sentido em relação aos
escores de todos os sujeitos da população. De fato, ele é referenciado em
termos I) do posto percentílico ou 2) do desvio normal (z). Como tipicamente
não são conhecidos os escores da população, é sobre uma amostra
representativa desta que as normas são estabelecidas.
1) Posto percentílico
O escore do sujeito é expresso em termos de percentil. Este posto indica
quanto por cento de todos os sujeitos da população (amostra) estão abaixo dele.
Assim, se 40% dos sujeitos obtiveram um escore bruto menor do que 20, este
escore será expresso como percentil 40, o que indica que 40% dos sujeitos têm
escore menor que 20 e 60% têm escore maior. Um percentil de 50 indica que o
sujeito se situa na mediana dos escores da amostra. Usa o intervalo semi-
interquartílico (Q) em torno desta mediana para definir o significado relativo dos
postos dos sujeitos. Q = (Q3-Ql)/2, onde Ql é o percentil 25 e o Q3 o percentil
75.
Os escores percentílicos são fáceis de calcular e são de compreensão
simples. A grande dificuldade da escala percentílica se situa no fato de que as
distâncias entre escores sucessivos não são constantes, mas variam segundo a
posição do escore estar no início/fim da escala ou no meio dela. De fato, os
intervalos entre os percentis medianoso menores do que os dos extremos da
escala, como aparece ilustrado na Figura 3-6.
2) Escore padrão
As normas baseadas no escore padrão (escore Z) se fundamentam no
cálculo deste escore Z correspondente ao escore bruto do sujeito. Este cálculo é
feito de duas formas bastante distintas, que resultarão ou num escore padrão ou
num escore padrão normalizado. O primeiro é feito através de uma
transformação linear e o segundo através de uma transformação não-linear.
O escore padrão linear é calculado pela fórmula:
onde X = escore bruto, M - média do grupo e DP= desvio padrão.
O escore padrão normalizado é calculado através das tabelas da curva
normal, e consiste essencialmente em transformar as porcentagens em escores
Z, como ilustrado na Figura 3-6.
As duas formas dão resultados idênticos se as distribuições de
freqüência forem normais. Quanto mais as distribuições se afastam da
normalidade, menos recomendável é a utilização da transformação não-linear
dos escores.
De qualquer forma que o Z seja obtido, as normas baseadas nele
normalmente utilizam algumas transformações lineares ulteriores para evitar
duas dificuldades de uma escala de Z: 1) a presença de escores negativos, pois
o Z vai de menos infinito a mais infinito (mais praticamente, de -5 a +5), e 2) a
presença de decimais. Para eliminar estas duas dese-legâncias, tipicamente o Z
é multiplicado por um coeficiente e ao produto
Fig. 3-6 — Distribuição normal e de postos percentílicos.
é agregada uma constante. Tanto o coeficiente de multiplicação do Z
quanto a constante somada são arbitrárias, resultando em tantas formas
de normas quantas imagináveis. Contudo, alguns desses valores são
rotineiramente mais utilizados, produzindo normas já tradicionalmente
conhecidas, como: o escore T, os estaninos, o desvio Ql, o escore CEEB
e vários outros. As fórmulas de transformação para algumas destas
normas são:
T = 50 + 10z
Desvio Ql = 100 + 15z (Escalas de Wechsler) ou
Desvio Ql = 100 + 16z (Stanford-Binet) CEEB =
500 + 100z
CONCLUSÃO GERAL
A psicometria clássica já possui uma longa história e tem consegui-
do sucessos importantes em nível mundial. Contudo, devido à sua origem
de longa data, ela sofre de alguns problemas ou limitações que advem de
duas fontes: 1) ela surgiu dentro de um contexto histórico no qual a
Psicologia em geral era ditada pelo enfoque positivista e 2) se valeu dos
progressos da Estatística na qual predominavam as estatísticas paramétri-
cas e univariadas.
Da primeira fonte surgem as dificuldades referentes ao precário
embasamento psicológico teórico que a psicometria ainda sofre. Na
verdade, os psicometristas em geral não dão a devida atenção à funda-
mentação teórica na hora da elaboração dos seus instrumentos psicologi-
cos, donde resultam instrumentos que muitas vêzes não se sabe exata-
mente o que estão medindo ou, pelo menos, se estão medindo algo de
psicologicamente relevante. Este problema pode ser devidamente sanado
com o progresso da Psicologia Cognitiva, que dá a devida importância aos
componentes dos traços latentes, estudados em seus próprios méritos e
não, como vem fazendo a psicometria clássica, como interpretações que
se dão às resultantes de análises estatísticas (análise fatorial) feitas sobre
um agregado mais ou menos aleatoriamente agrupado de itens ou tarefas
respondidos por uma amostra de sujeitos. Da segunda fonte surge uma
série de limitações devido ao uso de estatísticas nem sempre adequadas
aos dados coletados, como, por exemplo, as análises dos itens baseadas
no escore total e a análise da fidedignidade do teste baseada na corre-
lação ou no erro de medida. Estas últimas limitações podem e estão sendo
superadas pelo desenvolvimento da nova teoria psicométrica, a Item
Response Theory.
REFERÊNCIAS BIBLIOGRÁFICAS
AMERICAN PSYCHOLOGICAL ASSOCIATION. Committee on Psychological Tests. Technical
recommendations for psychological tests and diagnostic techniques. Psychological
Bulletin Supplement. Washington, D.C., v.51, n.2. part 2, p.1-38. 1954.
AMES, L.B. The sequential patterning of prone progression in the human infant. Genetic
Psychology Monographs, Provincetown (MA), v.19, p.409-460, 1937.
ANASTASI, A. Psychological testing. 6.ed. New York: Macmillan, 1988.
ANGOFF, W.H. Use of difficulty and discrimination indices for detecting item bias. In: BERK,
R.A. (Ed.). Handbook of methods for detecting test bias. Baltimore (MD): Johns Hopkins
University Press, 1982. p.96-116.
BERNARDIN, H.J., WALTER, C.S. Effects of rater training and diary keeping on psychometric
error in ratings. Journal of Applied Psychology. Washington. D.C., v.62, n.1, p.64-69,1977.
BINET, A., SIMON. T. Méthodes nouvelles pour le diagnostic du niveau intellectuel des anor-
maux. L'Année Psychologique. Paris, v.1 1, p.191-244, 1905.
BIRNBAUM, A. Some latenttrait models and their use in inferring examinee's ability. In: LORD.
F.M.. NOVICK, M.R. (Eds.). Statistical theories of mental test scores. Reading (MA):
Addison-Wesley. 1968.
BORMAN, W.C. Effects of instructions to avoid halo error on reliability and validity of per-
formance evaluation ratings. Journal of Applied Psychology. Washington, D.C., v.60,
p.556-560. 1975.
CAMPBELL, D.T.. STANLEY, J. C. Experimental and quasi-experimental designs for research.
Chicago (IL): Rand McNally. 1963.
CAMPBELL. D.T.. FISKE. D.W. Convergent and discriminant validation by the multitrait-
multimethod matrix. In: JACKSON. D.N., MESSICK, S. (Eds.). Problems in human
assessment. New York: McGraw-Hill. 1967.
CARPENTER, PA. JUST. M.A., SHELL, P. What one intelligence test measures: a theoretical
account on the processing in the Raven Progressive Matrices Test. Psychological Review.
Washington, D.C., v.97, n.3. p.404-431. 1990.
CRONBACH, L.J. Coefficient alpha and the internal structure of tests. Psychometrika. v. 16, p.297-334,
1951.
CRONBACH, L. J., MEEHL, P.E. Construct validity in psychological tests. Psychological Bulletin,
Washington, D.C., v.52, p.281-302, 1955.
DUNNETTE, M.D. (Ed.). Handbook of industrial and organizational psychology. New York: Wiley, 1983.
EDGERTON, H.A. A table for computing the phi coefficient. Journal of Applied Psychology,
Washington, D.C., v.44, p.141-145, 1960.
EDWAR DS, A. L. The social desirability variable in personality assessment and research. New York:
Dryden, 1957.
--------------- . Social desirability and personality test construction. In: BASS. B.M., BERG, I .A.
(Eds.). Objective approaches to personality assessment. New York: Van Nostrand, 1959.
EDWARDS, AL, WALKER, J.N. Social desirability and agreement response set. Journal of Abnormal
and Social Psychology, n.62, p.180-183, 1961.
EDWARDS. AL, DIERS.C.J., WALKER, J.N. Response sets and factor loadings on 61 personality
scales. Journal of Applied Psychology. Washington, D.C., n.46, p.220-225. 1962.
EDWARDS. A.L., WALSH, J.A. The relationship between the intensity of the social desirability keying of
a scale and the correlation of the scale with Edwards' SD scale and the first factor loading of the
scale. Journal of Clinical Psychology. Brandon (VT), n. 19, p. 200-203, 1963.
ELLIS, B.B. Item response theory: a tool for assessing the equivalence of translated tests. Bulletin of
the International Test Commission, v.18, n.1-2, p.33-51, 1991.
GESELL. A., AMATRUDA, C.S. Developmental diagnosis. 2ed. New York: Hoeber-Harper. 1947.
GILLINSKY. A.S. The influence of the procedure of judging on the halo effect. American Psychologist.
Washington, D.C., v.2. p.309-310, 1947.
GUILFORD. J.P. Psychometric methods. New York: McGraw-Hill. 1954.
--------------- . Personality. New York: McGraw-Hill. 1959.
GUILFORD. J.P. FRUCHTER. B. Fundamental statistics in Psychology and Education. 5,ed. New York:
McGraw-Hill, 1973.
GUTTMAN. L. Measurement as structural theory. Psychometrika. v.36. n.4. p.329-347, 1971.
HALVERSON. H.M. The acquisition of skill in infancy. Journal of Genetic Psychology. Province-town
(MA), v.43, p.3-48, 1933.
HAMBLETON. R.K. Adapting tests for use in different cultures: technical issues and methods. Bulletin
of the International Test Commission, v.18, n.1-2, p.3-32.1991.
HEINEMAN. CE. A forced-choice form of the Taylor Anxiety Scale. Unpublished doctoral dissertation.
State University of Iowa. 1952.
HULIN. C.L.. DRASGOW. F.. PARSONS, C.K. Item response theory, applications to psychological
measurement. Homewood (IL): Dow Jones-Irwin, 1983.
IRONSON, G.H. Use of chi-square and latent trait approaches for detecting item bias. In: BERK, R.A.
(Ed.). Handbook of methods for detecting test bias. Baltimore (MD): Johns Hopkins University
Press. 1982. p.117-160.
JACKSON, D.N. Problems in preparing personality tests and interest inventories for use in multiple
cultures. Bulletin of the International Test Commissions.IH. n. 1-2. p.94-93, 1991.
JUNG. C.G. Psychologische Typen. Zurich: Rascher. 1921,
JURGENSEN, CE. Table for determining phi coefficients. Psychometrika, v. 12. p. 17-29, 1947.
KELLEY. T.L. The selection of upper and lower groups for the validation of test items Journal of
Educational Psychology. Washington, D.C., v.30, p.17-24. 1939.
KNOBLOCK. H., PASAMANICK. B. (Eds.). Gesell and Amatruda's developmental diagnosis. 3.ed. New
York: Harper and Row. 1974.
KRETSCHMER. E. Physique and character. New York: Hartcourt. 1925.
KUDER. G.F.. RICHARDSON. M.W. The theory of estimation of test reliability. Psychometrika. n.2. p.
151-160. 1937.
LAURENDEAU. M.. PINARD. A. Causal thinking in the child: a genetic and experimental approach.
New York: International Universities Press, 1962.
--------------- . The development of the concept of space in the child. New York: International
Universities Press, 1970.
LORD, F.M. Applications of item response theory to practical testing problems. Hillsdale (NJ): Erlbaum.
1980.
MESSICK. S., JACKSON. D.N. Acquiescence and the factorial interpretation of the MMPI.
Psychological Bulletin. Washington. D.C. v.58. p.299-304. 1961.
MULHOLLAND. T.M.. PELLEGRINO. J.W., GLASER, R. Components of geometric analogy solution.
Cognitive Psychology, v. 12..p.252-284. 1980.
MURRAY. H.A., et al. Explorations in personality. New York: Oxford University Press. 1938.
NEWELL. A.. SIMON. H.A. Human problem solving. Englewood Cliffs (NJ): Prentice-Hall. 1972.
NOVICK. M.R.. LEWIS. C. Coefficient alpha and the reliability of composite measurements.
Psychometrika. v.12. p. 1-13, 1967.
OOSTERHOF, A.O Similarity of various item discrimination indices. Journal of Educational
Measurement. Washington. D.C. v.13. p.145-150, 1976.
PELLEGRINO. J.W.. MUMAW. R.J.. SHUTE. V.J. Analysis of spatial aptitude and expertise. In:
EMBRETSON, SE. (Ed.). Test design: developments in psychology and psycho-metrics. 1985.
p.45-76.
PIAGET. J. The origins of intelligence in children. New York: International Universities Press. 1952.
PINARD. A.. LAURENDEAU, M. A scale of mental development based on the theory of Piaget:
description of a project. Journal of Research in Science Teaching. New York, v.2. p.253-260, 1964.
POPPER. K.R., ECCLES, J.C. O eu e seu cérebro. Brasília: Ed. UnB, 1977.
RASCH. G. An individualistic approach to item analysis. In: LAZARSFELD, P.F., HENRY, N.W. (Eds).
Readings in mathematical social sciences. Cambridge (MA): MIT Press, p.89-107.
RULON. P.J. A simplified procedure for determining the reliability of a test of split-halves. Harvard
Educational Review. Cambridge (MA), v.9, p.99-103, 1939.
SHARON, A.T.. BARTLETT. C.J. Effect of instructional conditions in producing leniency on two types of
rating scales. Personnel Psychology. Durham (NC), v.22, p.251-263, 1969.
SHELDON. W.H. The varieties of human physique: an introduction to constitutional psychology. New
York: Harper, 1940.
------------------ . The varieties of temperament: a psychology of constitutional differences. New
York: Harper. 1942.
SPEARMAN. C. "General intelligence" objectively determined and measured. American Journal of
Psychology, Champaign (IL), v. 15, p.201-293. 1904.
STERNBERG, R.J. Intelligence, information processing, and analogical reasoning: the com-ponential
analysis of human abilities. Hillsdale (NJ): Erlbaum, 1977.
----------------. The nature of mental abilities. American Psychologist, Washington. D.C.. v.U.
p.214-230. 1979.
----------------. Representation and process in linear syllogistic reasoning. Journal of Experimental
Psychology: General. Washington. D.C. v.109. p.119-159, 1980.
TAYLOR. E.K.. HASTMAN. R. Relation of format and administration to the characteristics of graphic
rating scales. Personnel Psychology. Durham (NC), v.9, p.181-206, 1956.
TERMAN. L.M.. MERRILL, M.A. Stanford-Binet Intelligence Scale: manual for the third revision. Form L-
M. Boston (MA): Houghton Mifflin. I960.
THORNDIKE. E.L. A constant error in psychological ratings. Journal of Applied Psychology.
Washington. D.C.v.4. p.25-29. 1920.
CAPITULO 4
MEDIDAS ESCALARES
Luiz Pasquali
Instituto de Psicologia
Universidade de Brasília
s medidas escalares em Psicologia se situam dentro do enfoque
epistemologico defendido pela psicometria, trabalhando com o modelo da
estrutura latente. Elas fazem uso dos conceitos de traço latente, sistema,
propriedade e magnitude (vide cap. 3).
Os parâmetros da medida (validade, fidedignidade) também continuam
sendo os parâmetros fundamentais na medida escalar. Assim, o conhecimento
dos capítulos sobre a teoria da medida e da medida psicométrica se faz
necessário para a compreensão do que será dito sobre as medidas escalares.
A medida escalar constitui uma das várias formas que a medida
psicométrica pode assumir. Nesta se incluem os testes psicológicos, os
inventários, as escalas, etc. As medidas escalares são mais utilizadas na
Psicologia Social, especificamente no estudo das atitudes, e também no campo
da personalidade, com o intuito de medir traços de personalidade (como, por
exemplo, o inventário de Comrey: Escalas de Personalidade de Comrey). Elas
se distinguem dos testes e inventários, porque aqueles são de uso mais corrente
na avaliação das aptidões (onde há respostas certas e erradas) e estes, no
campo da personalidade e da psicopatologia. Além disso, os testes e os
inventários, em confronto com as escalas, se apresentam como medidas para as
quais existem normas de interpretação, ao passo que para as escalas
comumente não são elaboradas tais normas. Na verdade, diferenças essenciais
entre estes vários tipos de medidas psicométricas não existem. Há mesmo
dúvidas quanto a existirem diferenças importantes entre escalas psicométricas e
escalas psicofísicas. A distinção, neste último caso, talvez ainda faça sentido. A
escala psicofisica visa escalonar estímulos físicos (através de medida
fundamental) que corresponderiam ou produziriam uma escala intervalar
psicológica (escala de resposta), sendo as duas relacionadas por alguma lei
psicofisica. A escala psicométrica visa escalonar estímulos que expressam um
construto psicológico, e seria mais neste sentido restrito
que se usaria mais comumente o conceito de escala. Mas estas dis-
tinções se tornam muito tênues, porque, afinal, sempre se escalonam
estímulos (itens) observáveis.
Também, a expressão escala é utilizada de múltiplas formas: para
designar o nível métrico da medida (escala ordinal, intervalar, etc); para
designar um contínuo de números (escala numérica de 5 pontos, por
exemplo); para designar os próprios itens de um instrumento, como no
caso do diferencial semântico, onde cada item é chamado de escala;
para designar diferentes técnicas de construção e uso de instrumentos
psicológicos de medida de atitudes (como escala tipo Thurstone, tipo
Likert, etc). Todos estes são usos legítimos da palavra escala e, mesmo,
não há contradições em tais usos. Embora eles possam trazer algumas
dificuldades, normalmente não produzem ambigüidades no tipo de escala
que se está falando. O termo, na verdade, originalmente se refere ao fato
de que, ao se proceder a uma medida de um atributo empírico, surge
uma série de números ordenados à qual é dado o nome de escala numé-
rica. Assim, qualquer medida resultaria numa escala. No caso presente,
entretanto, escala é utilizada como uma forma ou técnica de se fazer a
medida, especialmente na área das atitudes, como se verá a seguir.
ESCALAS PSICOFÍSICAS
Estas escalas visam verificar e descrever a correlação que existe
entre estímulos físicos (som, peso, tamanho, etc.) e a resposta do sujeito.
Mais especificamente, qual é o mínimo valor do estímulo que é capaz de
produzir uma resposta no organismo (limiar absoluto) e qual é o mínimo de
acréscimo no estímulo necessário para produzir no organismo uma
resposta diferente da anterior (limiar diferencial). A determinação do limiar
absoluto se faz em termos de 50% de percepção de um dado estímulo: o
nível de estímulo que é percebido em 50% das vezes é considerado o
limiar absoluto ou nível 0 (zero-inicial) da escala de resposta. Para a
determinação dos limiares diferenciais, várias leis foram apresentadas na
história da Psicologia. Weber (Stevens, 1951) concebeu alei da constante:
para produzir uma resposta diferente da anterior, o estímulo deve ser
aumentado por uma constante (k) que deve ser determinada empirica-
mente para cada modalidade de estímulo (peso, som, etc). Como logo se
percebeu que esta lei não correspondia muito à observação dos fatos,
Fechner (Stevens, 1951 ) apresentou uma lei logarítmica, na qual a resposta
depende de uma constante, diferente para cada modalidade de estímulo,
a qual multiplica o logaritmo do estímulo; isto é, para produzir uma
resposta diferente da anterior, o estímulo tem que aumentar logaritmica-
mente: a resposta aumenta aritmeticamente e o estímulo, geometricamen-
te. Outras leis vieram substituir a de Fechner (Stevens, 1951; Guilford,
1951; Guilford, 1954). Stevens, de fato, demonstrou que alguns pressupostos
de Fechner não podiam ser mantidos e introduziu novos procedimentos que
vieram a se caracterizar como a lei da potência (vide capítulo 2).
Uma exposição detalhada das medidas psicofísicas vai além da intenção
deste capítulo. Para tal informação devem ser consultados os trabalhos de
Stevens (1951) e Guilford (1954), por exemplo.
Dar-se-ão mais detalhes na exposição das escalas propriamente
psicométricas, a seguir. Na apresentação dos vários tipos de escalas, três
niveis de preocupação devem ser levados em conta: os procedimentos teóricos,
os procedimentos empíricos (experimentais) e os procedimentos analíticos, os
quais discriminariam diferentes tipos de escalas psicológicas. Um manual
prático para trabalhar com escalas psicométricas é o livro de A.L. Edwards
(1957), Techniques of Attitude Scale Construction.
O ENFOQUE DE THURSTONE
Caracterizando o pólo teórico de sua posição, Thurstone (1927)
introduziu o conceito de contínuo psicológico em oposição ao contínuo físico da
psicofisica. A diferença é a seguinte: suponha 10 objetos de igual tamanho, mas
com pesos diferentes. Estes objetos podem ser ordenados pelo peso de duas
maneiras. Primeiro, pode-se usar uma balança e ordenar os objetos pelo seu
peso real, produzindo um contínuo físico (através de medida fundamental); mas,
segundo, pode-se também pedir a indivíduos, na falta de uma balança, para
ordenar os objetos do mais leve ao mais pesado, e esta ordenação constitui um
contínuo psicológico de pesos. Esta ordenação psicológica pode ser feita pelos
sujeitos comparando os 10 objetos dois a dois, até se chegar à ordem final.
Com base neste raciocínio, Thurstone desenvolveu a lei do julgamento
comparativo, que poderia ser considerada como introduzindo o conceito de
métodos de escalagem psicológica (ou métodos psicométricos em sentido
estrito), em oposição aos métodos psicofísicos.
A lei do julgamento comparativo se explicita assim: ao comparar dois
estímulos 'i' e 'j' para decidir qual deles é maior (ou 'mais do que' em algum
atributo dado, como peso, por exemplo), o sujeito tem que fazer três
julgamentos. Primeiro ele tem que avaliar o estímulo '¡', depois, o estímulo 'j' e,
finalmente, a diferença i > j. Ao avaliar os dois estímulos individualmente, o
sujeito produz um processo discriminante (discriminalprocess) e ao avaliar a
diferença entre os dois estímulos, ele produz uma diferença discriminante
(discriminal difference). Contudo, ao fazer esses julgamentos em ocasiões
diferentes, o mesmo sujeito não produz o mesmo processo discriminante, de
sorte que, daí, resulta uma variabilidade chamada disper-
são discriminante em torno de um processo discriminante modal que
corresponde à média dos vários processos discriminantes com referência
ao estímulo. Assim, para cada estímulo, sobre o qual existe uma série de
julgamentos (muitos sujeitos avaliando o mesmo estímulo ou o mesmo
sujeito avaliando o estímulo em muitas ocasiões diferentes: procedi-
mentos experimentais), temos um processo discriminante modal e uma
dispersão discriminante, isto é, a média e o desvio padrão, dado que os
processos discriminantes se distribuem normalmente (suposição razoável).
Ao se fazerem os julgamentos comparativos entre estímulos para
definir qual deles é 'maior que' em algum atributo, produz-se uma tabela
de freqüências do tipo f, = i > j, conforme Tabela 4-1.
Tabela 4-1 — Freqüência de vezes em que i é considerado
maior que j por 100 sujeitos (Matriz F
)
i
j
ITENS 1 2 3 4 5 6
1 50 60 45 70 80 95
2 40 50 30 60 50 80
3
55 70 50 70 80 90
4 30 40 30 50 65 85
5 20 50 20 35 50 60
6 05 20 10 15 40 50
Obs.: Na diagonal estão os N/2.
Esta matriz F
ij
pode ser transformada na matriz P,, onde p
ij
= f
ij
/N,
que pode ser transformada na matriz Z
ij
através da tabela da curva normal,
a qual dá as posições escalares dos itens no contínuo do construto,
conforme exemplificado nas Tabelas 4-2 e 4-3.
Tabela 4-2 — Matriz P,
i
ITENS 1 2 3 4 5 (.
1 .500 .600 .450 .700 .800 .950
2 .400 .500 .300 .600 .500 .800
j
3 .550 .700 .500 .700 .800 .900
4 .300 .400 .300 .500 .650 .850
5 .200 .500 .200 .350 .500 .600
6 .050 .200 .100 .150 .400 .500
Soma
2.000 2.900 1.850 3.000 3.650 4.600
Tabela 4-3 — Matriz Z
ij
i
ITENS 1 2 3 4 5 6
j
1
2
3
4
5
6
.00 -
.25
.13
-.52
-.84
-1.65
.25
.00
.52
-.25
.00
-.84
-.12 -
.52 .00
-.52 -
.84 -
1.28
.52 .25
.52 .00
-.39 -
1.04
.84
.00
.84
.39
.00 -
.25
1.65
.84
1.28
1.04
.25
.00
Soma (S)
S + 3.28
Valor =
-3.13
.15
0
-.32
2.96
3
-3.28 0
0
-.14
3.14
3
1.82
5.10
5
5.06
8.34
8
Assim, a separação entre os processos discriminantes modais de
dois estímulos em termos de desvios normais é
Mas, como
segue que
onde Z
ij
= desvio normal, E¡ = processo discriminante modal do estímulo i,
E
j
= processo discriminante modal do estímulo j, DP¡ = dispersão dis-
criminante do estímulo i, DP¡ = dispersão discriminante do estímulo j e r
ij
= correlação entre E
i
e E
j
.
Esta é a fòrmula que determina os procedimentos analíticos e
permite estabelecer as posições escalares dos estímulos e suas distâncias.
Entretanto, para tornar esta fórmula solucionável, Thurstone fez outras
suposições, dado que ela tem incógnitas demais; de fato, o único valor
calculável a partir dos dados empíricos é o z
ij.
Das várias suposições que
Thurstone fez, como a igualdade das dispersões discriminantes e a
inexistência de correlação entre as respostas aos dois estímulos, surgiram
os famosos cinco casos da lei de Thurstone. O Caso V, por exemplo, é
que foi utilizado nos cálculos das tabelas acima para a obtenção dos
valores escalares (processos discriminantes modais) dos estímulos. Vale
ressaltar que Thurstone oferece testes estatísticos para a verificação da
consistência interna da escala resultante, bem como a verificação da ade-
quação das suposições feitas em cada caso utilizado.
Tendo-se obtido os valores escalares, em termos de desvios padrões, de
uma grande série de estímulos, pode-se construir uma escala intervalar,
selecionando aqueles (cerca de 20) que se situam a distâncias iguais entre si.
Estes estímulos assim escalonados constituem a escala para a medida
das atitudes. Os procedimentos experimentais para aferir as atitudes do
sujeito consistem em pedir ao mesmo que escolha o item (estímulo) com o qual
ele mais concorda, sendo o valor escalar deste item a medida da atitude do
sujeito. Ou pede-se para o sujeito escolher os três ¡tens com os quais mais
concorda, e a medida da sua atitude será a média dos valores escalares destes
três itens.
A construção de escalas a partir desta lei de Thurstone é extremamente
laboriosa. Na verdade, ela se torna quase impossível com um número elevado
de itens, dado que a comparação dos mesmos 2 a 2 aumenta geometricamente
o número de comparações a serem feitas. Para 10 estímulos temos (10 x 9)/2 =
45 comparações, e para 100 itens temos (100 x 99)/2 = 4.950. Por isso,
Thurstone desenvolveu outras técnicas de construção de escalas de atitude.
Uma delas é o método dos intervalos aparentemente iguais (Thurstone, Chave,
1929).
No caso deste método, as afirmações (cerca de 100) sobre um objeto de
interesse são impressas em cartões que os sujeitos devem distribuir em 11
pilhas segundo o grau de favorabilidade que, na sua opinião, a afirmação
apresenta em relação ao objeto psicológico. As 11 pilhas são erigidas sobre um
contínuo de cartões etiquetados de A a K, onde A está ancorado com a
expressão 'desfavorável', o K com 'favorável' e o F (o cartão a meio caminho de
A e K) com 'neutro'.
O valor escalar dos itens se faz através do cálculo da mediana, tendo
como coeficiente de variabilidade o intervalo semi-interquartílico, como na
Tabela 4-4.
Tabela 4-4 — Cálculo do valor escalar pelo método dos intervalos
aparentemente iguais
CATEGORIAS
AFIRMAÇÕES A B
c
D E F G H 1 J K Q
1 2 3 4 5 6 7 8 9 10 11
ESCALA
1 f
P pa
2
.01
.01
2
.01
.02
6
.03
.05
2
.01
.06
6 62 64 26
.03 .31 .32 .13
.09 .40 .72 .85
18
.09
.94
8 4
.04 .02
.98 1.00
6.8 1.7
2 f
P pa
0
.00
.00
0
.00
.00
0
.00
.00
10
.05
.05
40 28 50 26
.20 .14 .25 .13
.25 .39 .64 .77
28
.14
.91
24 4
.07 .02
.98 1.00
6.9 2.8
f - freqüência; p - proporção; pa - proporção acumulada
Diversas variantes deste método foram propostas (Ballin,
Farnsworth, 1941; Seashore, Hevner, 1933; Edwards, Kilpatrick, 1948;
Webb, 1951). O próprio Thurstone (Saffir, 1937) apresentou uma variante
que chamava de método dos intervalos sucessivos.
O ENFOQUE DE LIKERT
A técnica de Rensis Likert (1932) talvez seja a mais utilizada na
construção de escalas psicométricas e é conhecida, desde que Bird (1940)
assim a chamou, como método dos pontos somados (methodof summated
ratings).
Em seu pólo teórico, Likert sustenta que uma atitude (propriedade
psicológica) constitui uma disposição para a ação. Esta concepção apre-
sentava dificuldades para Likert na época, dado o enfoque do behavioris-
mo positivista que defendia a atitude como sendo um simples substituto
verbal para a ação concreta. Ele defendeu a atitude como um elemento da
personalidade, talvez concebido como um construto hipotético, ao afirmar
"se de fato tais elementos existem" — if, in fact, any such elements exist
(Likert, 1932, p.8). Defendeu igualmente que há uma série de tais constru-
ios de personalidade e não um único; novamente uma diatribe espelhando
as disputas da época entre unifatoristas e multifatoristas. Likert nem se pôs
a questão da magnitude das propriedades psicológicas (atitude, mais
especificamente), pois era para ele uma questão já decidida, isto é, as
propriedades psicológicas têm magnitudes, por isso é que podem ser
medidas.
A preocupação da escala Likert não consiste em procurar determi-
nar o valor escalar dos itens, como pretendia Thurstone, mas verificar o
nível de concordância do sujeito com uma série de afirmações que
expressem algo de favorável ou desfavorável em relação a um objeto
psicológico. As afirmações são respondidas numa escala de 3 ou mais
pontos, isto é, o sujeito tem que dizer se concorda, está em dúvida ou
discorda com o que a frase afirma sobre o objeto psicológico. O número de
pontos na escala de resposta varia de 3 a mais de 10, sendo as mais
utilizadas as escalas de 5 e 7 pontos. Aliás, o número de pontos utilizados
nas escalas Likert parece ser algo irrelevante. Na pesquisa de Matell e
Jacoby (1972), foram utilizadas escalas com 2 até 19 pontos; com exceção
das escalas de 2 e 3 pontos (por oferecerem poucos graus de liberdade),
em todas as outras a porcentagem de uso dos pontos e o tempo de
resposta não foram afetados de modo significativo. Outros estudos já
haviam descoberto que o número de pontos da escala, bem como a
existência ou não de um ponto neutro, não afeta a consistência interna da
escala Likert (Bendig, 1954; Komorita, 1963; Matell, Jacoby, 1971), nem a
estabilidade teste-reteste (Jones, 1968; Van der Veer, Howard e Austria,
1970; Goldsamt, 1971; Matell, Jacoby, 1971) e nem a validade concorrente
e preditiva (Matell, Jacoby, 1971, 1972).
Os procedimentos empíricos consistem em 1) criar um número n
de itens sobre um construto psicológico e 2) ter estes itens respondidos por
N sujeitos numa escala de n pontos. Para a construção dos itens, vide
critérios descritos na parte final deste capítulo.
Os procedimentos analíticos visam determinar a seleção final dos
itens e a avaliação dos parâmetros psicométricos da escala.
Likert sugere selecionar os itens em termos do seu poder de
discriminação de grupos-critério, formados estes à base do escore total
que os sujeitos obtêm na escala. Assim, um teste ¥ entre as médias de
cada item, obtidas pelos grupos superior e inferior (os 30% escores
superiores e 30% inferiores na escala) definem a discriminabilidade dos
itens. Entretanto, as análises mais modernas da IRT parecem mais
promissoras neste particular, pois elas oferecem até três parâmetros para
os itens: discriminação, dificuldade e resposta ao acaso.
Na análise da própria escala, importa verificar a validade e a
precisão. Uma análise importante da escala consiste em verificar a
unidimensional idade supostada mesma. Tipicamente se utiliza, para tanto,
a análise fatorial. A análise da fidedignidade é comumente feita através da
análise da consistência interna dos itens através do coeficiente alfa de
Cronbach. Mas qualquer das técnicas de validade e precisão podem ser
aqui utilizadas.
Fica ainda em dúvida se a escala de Likert produz medidas somente
ordinais ou se chegam a ser de intervalo. Na verdade, com os dados
empíricos coletados com a escala, pode-se avaliar o valor escalar das
categorias utilizadas (os pontos) na escala de resposta (Edwards, 1957) e,
a partir daí, utilizar estes valores escalares para as categorias. Tal
procedimento, contudo, tira a leveza e a facilidade de trabalhar com as
escalas tipo Likert. Edwards e Kenny (1946), aliás, verificaram que escalas
construídas no estilo Likert (considerando as categorias 1, 2, 3, etc, como
intervalos iguais) correlacionam em torno de 0,90 com escalas de intervalos
aparentemente iguais de Thurstone. Concluem ainda que, dada a
facilidade de construção e utilização, as escalas tipo Likert se apresentam
com grande vantagem sobre as de tipo Thurstone.
O ENFOQUE DE GUTTMAN
Guttman apresentou seu escalograma, para avaliar atitudes, numa
série de trabalhos (1944, 1945, 1947, 1950).
A parte teórica da técnica supõe que a propriedade psicológica
possua magnitude e seja unidimensional. Cada item (indicador comporta-
mental) expressa um nível diferente de magnitude, seguindo uma série
monotônica crescente (pelo menos de ordem). De sorte que o conjunto de
itens da escala expressa o contínuo da propriedade e que, sendo cumu-
lativos, a aceitação de um item de maior nível implica a aceitação de todos
os itens inferiores, isto é, de menor posto.
Os procedimentos empíricos da técnica consistem em construir
uma série de itens sobre um construto de tal forma que os itens possam
ser escalonados cumulativamente. Assim, o sujeito que concorda com um
item que expressa um certo nível de atitude com respeito ao construto
concordará com todos os itens que têm um nível menor. Desta forma, uma
série de itens (cerca de dez) podem ser escalonados do mais fraco ou
brando até o mais extremo, produzindo uma escala, pelo menos, ordinal.
Sendo isto verdade, basta saber o item mais extremo com o qual o sujeito
concorda para podermos reproduzir perfeitamente suas respostas nos
outros itens. Na realidade, porém, as coisas não acontecem tão certas
assim, de sorte que a reprodução das respostas do sujeito nunca se
perfeita. Então se pergunta: qual é o mínimo de reprodutibilidade das
respostas aceitável para se poder dizer que uma escala satisfaz o critério
de cumulatividade? Com este intuito, Guttman desenvolveu procedimen-
tos analíticos para determinar um índice de reprodutibilidade, o qual
resulta da comparação entre as respostas correta e incorretamente
endossadas. Suponha o seguinte: quatro afirmações sobre um construto
psicológico (tendo valor 1 a afirmação mais extrema de atitude) respondi-
das por seis sujeitos em termos de estar de acordo (valor 1 ) ou não-acordo
(valor 0). A Tabela 4-5 recolhe os resultados fictícios obtidos.
Tabela 4-5 — Dados fictícios para a escala de Guttman
AFIRM AÇÕES
SUJEITOS
1 2
3
4
SOMA ERROS
1
2
3
4 5
1
0 0
0 0
1 1
0 0
0
0 1
1 1
0
1 1
1
0 1
3
3
2 1
1
1
0 0
1
0
Esta tabela é montada de tal forma que nas colunas estão dispostos
os itens em ordem decrescente, do mais extremado ao mais brando, em
termos de atitude em relação ao construto, e nas linhas estão dispostos os
sujeitos, também em ordem decrescente do escore total obtido nos itens
(para cada item com o qual está de acordo, o sujeito recebe um ponto). Um
item que recebeu o acordo pelo sujeito obtém valor 1 e obtém 0 se o sujeito
não o marcou. Assim se forma uma tabela triangular, de tal sorte que
acima da diagonal deveriam aparecer somente 1 e abaixo somente 0. No
caso em pauta, como o item #1 é o que expressa a atitude mais extrema
em relação ao construto, o sujeito que está de acordo com este item
deveria necessariamente marcar todos os outros itens, fato que não
ocorreu com o sujeito 1, que marcou o item #1 mas não marcou o item #3.
Situações desta natureza provocam a ocorrência de 0 acima da diagonal,
o que é contado como um erro. Para o cálculo do índice de reprodutibilida-
de contam-se todos os erros, isto é, os 0 acima da diagonal, que, no caso,
são dois. Assim, o número de valores apropriados na tabela é 20 - 2 = 18.
O coeficiente de reprodutibilidade será 18/20 = 0,90. Guttman afirma que o
coeficiente deve ser pelo menos de 0,90 para que a escala possa ser
considerada adequada.
Escalas tipo escalograma têm a vantagem de avaliar a unidimensio-
nalidade, bem como de apresentar uma garantia de que a amplitude do
contínuo do construto está sendo coberta, particularmente se o número de
itens for grande (pelo menos 10, sugere Guttman). Contudo, é relativamente
raro de se encontrar na literatura esta forma de escalas. Por quê?
Primeiramente, nem todos os construtos psicológicos permitem escalabíli-
dade. Por exemplo, em atitude política, o sujeito pode estar de acordo com
uma posição do candidato e não com outra, o que poderia inclusive estar
indicando falta de unidimensionalidade da escala. Além disso, Guttman
não oferece dicas de como elaborar os itens, isto é, o escalograma tem
pouco poder heurístico; ele parece ser mais útil para a análise de uma
escala do que para guiar a construção dela.
O ENFOQUE DO DIFERENCIAL SEMÂNTICO
Osgood (Osgood, Suci, 1952; Osgood, Suci, Tannenbaum, 1957)
desenvolveu o pólo teórico de sua posição e uma técnica para medir o
conceito de significado (meaning). Este é concebido como um estado
cognitivo, entendido como um processo de mediação representativa da
realidade. O objetivo do Diferencial Semântico consiste em especificar as
condições de estímulo e de resposta sob as quais este processo funciona.
O processo de mediação é concebido como algo que se intercala entre o
estímulo e a resposta, como segue:
O processo mediativo é constituído pela relação r->s, significando
que o E (estímulo externo) detona um processo psicológico interno
composto de uma reação interna (r) ao E externo, a qual provoca estimu-
lações internas (s), levando este processo s->r a uma ação externa (R).
Este processo cognitivo dá o significado ao E para produzir a ação R.
Através de estudos fatoriais, Osgood chegou a definir este processo
cognitivo mediativo corno sendo caracterizado por três grandes fatores: o
processo apresenta um aspecto avaliatório (emocional), um de poder e um
de atividade. Isto quer dizer que o significado varia em termos destes três
fatores.
Como é este processo que determina o matiz da ação do sujeito (a
resposta R), seria de importante utilidade poder-se medi-lo. É o que
pretende fazer o Diferencial Semântico.
Os procedimentos empíricos consistem em elaborar uma série de
escalas (itens) que devem constituir uma amostra representativa para a
descrição de um conceito. Para ser representativa, esta série deve cobrir
as dimensões do significado acima assinaladas (os três fatores). Estas
escalas são apresentadas, em forma de adjetivos descritivos bipolares, a
uma amostra de sujeitos que as avaliam em relação a um conceito, para
ver qual o significado que os sujeitos dão a tal conceito, por exemplo, de
pai, nação, etc. O formato das escalas ou adjetivos bipolares é apresen-
tado como segue:
PAI
forte __ :__ : __ :__ : __ :__ :_ fraco
bom _ :__ : __ :__ : __ : __ :_ mau
ativo _ :__ : __ :__ : __ :__ :_ passivo
O sujeito deve marcar um dos sete segmentos da linha que vem
ancorada com os adjetivos bipolares. Esta marca indica duas tendências:
uma direção para um dos dois pólos e uma intensidade, desde que a
marca seja colocada mais próxima ou mais longínqua do pólo escolhido da
escala.
Os procedimentos analíticos consistem em verificar, pelo menos,
dois aspectos: o significado que o conceito tem para o sujeito ou grupo de
sujeitos em termos dos três fatores e a distância que diferentes conceitos
mantêm entre si para estes mesmos sujeitos.
Para efetuar estas análises, os sete segmentos das escalas (itens)
são definidos por uma escala numérica da seguinte forma:
- 3 . - 2 . - 1 . 0 . +1 . +2 . +3
Somando-se os escores de cada item por fator e dividindo pelo
número de itens no fator, são obtidos os escores dos sujeitos nos três
fatores para o conceito envolvido. Assim, 100 sujeitos avaliaram cinco
conceitos em nove escalas (três para cada fator), resultando nos dados da
Tabela 4-6 (dados fictícios).
Tabela 4-6 — Matriz de seis conceitos avaliados por 100 sujeitos em
nove escalas (dados fictícios)
CONCEITOS
ESCALAS
Pai Herói Destino Guerra Paz
Bom Ruim Doce
Amargo Agradável
Desagradável Forte
Fraco Grande Pequeno
Poderoso Impotente Ativo
Passivo Rápido Vagaroso
Cortante Embotado
3
2
2
1
1
2
1
1
0
3
3
2
3
3
2
2
3
0
0
0
-1
3 -2
3
2 -2
1
-3
-3
-3
2
3
3
-3
2
2
3
2
3
3
1
0
1
1
1
Assim, o pai é bom, bastante poderoso e algo ativo, ao passo que
guerra é ruim, impotente e passiva, etc.
Além dessa descrição dos conceitos, eles podem ser comparados,
verificando a distância semântica entre eles através da fórmula geral de
distância:
onde D
ij
é a distância linear entre os conceitos i e I e d
ij
é a diferença
algébrica entre as coordenadas para os dois conceitos envolvidos. Por
exemplo, a distância semântica entre os conceitos Herói e Destino é: (3
- -l)
2
+ (3 - 0)
2
+ (3 - -2)
2
= 50, sendo a raiz quadrada igual a 7,07, a qual
constitui a distância semântica entre os dois conceitos. O cálculo destas
distâncias permite colocar os conceitos num espaço n-dimensional,
formando uma estrutura espacial semântica, como na Figura 4-1,
sabendo-se que as distâncias semânticas entre Pai e Herói é de 2,06 e
entre Pai e Destino é de 5,59.
As escalas de tipo diferencial semântico têm-se mostrado bastante
fidedignas, com índices de precisão teste-reteste variando entre 0,83 a 0,91
(Osgood, Suci, Tannenbaum, 1957), chegando até a 0,97 (Jenkins, Russell,
Suei, 1957). Osgood e colaboradores (1957) apresentam também altos
índices de validade concorrente do Diferencial Semântico com as escalas
de Thurstone (entre 0,74 e 0,82) e de Guttman (da ordem de 0,79).
Para o leitor brasileiro, há uma exposição clara e prática da técnica
de Osgood no livro O Diferencial Semântico: uma Técnica de Medida nas
Ciências Humanas e Sociais, de CA. Alves Pereira (1986), Editora Ática,
São Paulo.
Figura 4-1 — Estrutura espacial semântica de três conceitos.
O ENFOQUE DE FISHBEIN E AJZEN
Fishbein e Ajzen (1975) desenvolvem o seu modelo de escala sob
a Teoria da Ação Racional. A teoria e a técnica destes autores estão
desenvolvidas no capítulo 14, para o qual remetemos o leitor.
ESCALA MULTIDIMENSIONAL
Pólo teórico
As escalas até aqui apresentadas são ditas unidimensionais, porque
elas visam avaliar os sujeitos em apenas um traço psicológico. Falando-se
de uma escala multifatorial, neste caso, entender-se-ia um conjunto de
várias escalas, cada uma medindo um fator ou traço independentemente.
Entretanto, um objeto psicológico pode ser avaliado sob vários aspectos ou
traços simultaneamente. Por exemplo: um candidato à presidência pode ser
avaliado em termos de sua filiação partidária (liberal vs. conservador),
recebendo uma pontuação nesta escala; ao mesmo tempo e independen-
temente, ele pode ser avaliado em termos de sua juventude (jovem vs. velho),
recebendo nesta escala uma outra avaliação, independente da que recebeu na
primeira escala. Teríamos aqui, então, duas escalas unidimen-sionais,
produzindo dois escores independentes. Contudo, pode-se pedir uma avaliação
simultânea do candidato em termos de ambos os atributos, a saber, filiação
partidária e juventude. No primeiro caso, o candidato teria dois escores: um em
filiação partidária e outro em juventude. No segundo caso, entretanto, o
candidato receberia apenas um escore, mas definido em termos de duas
dimensões, que seria ilustrado num espaço bidimensional, onde um ponto é
expresso por duas coordenadas. Assim, o escore dele, neste caso, seria
expresso como X
ij
, e não por X
¡
e X
j
. Continuando nesta ilustração, o mesmo
candidato poderia ser avaliado numa série de n traços simultaneamente, de
sorte que o escore dele poderia ser expresso num espaço n-dimensional, com
tantos subscritos quantos os traços sob os quais ele foi avaliado. Estas são as
escalas multidimensionais. No caso de uma avaliação em termos de duas
dimensões, o escore do candidato poderia cair em qualquer um dos quatro
quadrantes que resultam do espaço bidimensional, como na Figura 4-2, onde o
candidato X
i
se situa em (-1,2).
Figura 4-2 — Sujeito X
1
situado em um espaço bidimensional.
Ao ser avaliada uma série de candidatos, cada um deles seria
expresso por um ponto que se situaria num dos quadrantes. Os pontos
mantêm uma relação de proximidade (distância) entre si expressa
simultaneamente com respeito a dois traços: filiação partidária (eixo
horizontal) e juventude (eixo vertical). Para n dimensões, o ponto de cada
candidato teria, obviamente, proximidades entre si com respeito a n eixos
(num espaço n-dimensional).
Pólo experimental
A técnica para levantar os dados de escalas multidimensionais
consiste em pedir ao(s) sujeito(s) para avaliar(em) um objeto psicológico
(candidato), não em um traço de cada vez, mas em comparar vários
objetos psicológicos em vários traços. Por exemplo: Dados os candi-
datos A B C D, avaliar se os candidatos A e B são mais semelhantes
(próximos, iguais, etc.) entre si que os candidatos C e D. Assim, a
técnica para a coleta da informação usa termos que se referem a
"distância psicológica" ou "proximidade psicológica". Esta proximidade
vem designada sob vários termos, tais como parentesco, dependência,
associação, complementaridade, substitutividade, proximidade,
distância, interação, etc.
Um exemplo poderá ilustrar os procedimentos da técnica das
escalas multidimensionais. Suponha quatro candidatos à presidência (A,
B, C ,D). Os respondentes reagem à instrução de emparelhar 2 a 2 os
candidatos e dizer qual é o candidato preferido entre os dois (i > j). Deste
procedimento podem surgir os seguintes dados:
i
CANDIDATOS A B C D
j
A
B
C
D
7
5 8-
3 6 9
O candidato A foi preferido 7 vezes a B, 5 vezes a C e 3 vezes a D,
etc. Estes números podem ser considerados como indicando distâncias
entre os candidatos e serem expressos numa matriz de distâncias. Neste
caso, surge uma matriz simétrica, onde a distância d
ij
é igual a d
ij
e tendo
o valor 0 na diagonal, como segue (note que nem sempre d, deve ser
necessariamente igual a d ):
Com referência ao pólo analítico, a fórmula para cálculo das distâncias
é a fórmula euclidiana normalmente utilizada para distâncias, qual seja:
ou, sumariamente, d
ij
onde r corresponde ao número de dimensões (fatores) sob as quais os
candidatos foram avaliados — no nosso caso, supostamente duas: filiação
partidária e juventude.
Para a determinação da dimensionalidade que subjaz às proximidades
encontradas entre os objetos psicológicos avaliados (candidatos, no nosso
caso), há vários enfoques estatísticos, tanto paramétricos quanto não-
paramétricos: Coombs' unfolding technique (Coombs, 1964), o modelo de
Tucker e Messick (Tucker, Messick, (963), o modelo de Torgerson (1958), o
modelo de Ekman (1963), etc. Para tanto, consultem-se Kruskal e Wish (1991)
e Delbeke(l968). Existe, igualmente, uma série de programas de computador
para as análises com escalas multidimensionais (Kruskal, Wish, 1991, p.79).
A tecnologia das escalas multidimensionais tem sido usada por
psicólogos, sociólogos, antropólogos, economistas e educadores (Uslaner, apud
Kruskal, Wish, 1991). Seu uso em Psicologia, no entanto, não tem sido muito
extenso, apesar do seu caráter promissor na determinação da dimensionalidade
nas preferências psicológicas dos indivíduos. O caráter de complexidade
estatística talvez seja uma das razões para o pouco uso que se faz das escalas
multidimensionais.
PRINCIPIOS DE ELABORAÇÃO DE ESCALAS
Dado o grande uso que se faz das escalas, parece importante
apresentar alguns princípios e as etapas relevantes para a elaboração e
validação de tais escalas. A maioria dos princípios valem também para a
elaboração de qualquer instrumento psicométrico.
Há, pelo menos, três grandes pólos a serem levados em conta ao se
tentar elaborar escalas: os pólos teórico, empírico e analítico.
O pólo teórico enfoca a questão da teoria que deve fundamentar
qualquer empreendimento científico, no caso, a explicitação da teoria sobre o
construto ou objeto psicológico para o qual se quer desenvolver um instrumento
de medida e a operacionalização do construto em itens. Este pólo explicita a
teoria do traço latente, bem como os tipos de comportamentos que constituem
uma representação adequada do mesmo traço.
O pólo empírico ou experimental define as etapas e técnicas da
aplicação de instrumento piloto e da coleta da informação para proceder à
avaliação da qualidade psicométrica da escala.
O pólo analítico estabelece os procedimentos de análises estatísticas a
serem efetuadas sobre os dados para levar a um instrumento válido, preciso e,
se for o caso, normatizado.
A Figura 4-3 mostra o organograma destes procedimentos.
Fig. 4-3 — Organograma para elaboração de escalas de medida psicológica.
Os procedimentos teóricos devem ser elaborados para cada escala,
dependendo, portanto, da literatura existente sobre o construto psicológico
que a escala pretende medir. A teoria é, infelizmente ainda, a parte mais
fraca da pesquisa e do conhecimento psicològico, o que tem como conse-
qüência a precariedade dos atuais instrumentos psicométricos de medida
nesta área. Na verdade, os instrumentos baseados numa teoria psicológica
prévia mais elaborada (por exemplo, Edwards Personal Preference
Schedule) não são dos melhores no mercado. Tal ocorrência explica por
que os psicometristas sistematicamente fogem da explicitação de uma
teoria preliminar e iniciam a construção do instrumento pela coleta intuitiva
e mais ou menos aleatória de uma amostra de itens que dizem possuir
face validity, isto é, que parecem cobrir o traço para o qual eles querem
elaborar o instrumento de medida. Embora isto não pareça muito científico,
infelizmente é o que ocorre mais freqüentemente na construção de
instrumental psicológico. A inexistência de teorias sólidas sobre um
construto não deve ser desculpa para o psicometrista fugir de toda a espe-
culação teórica sobre o mesmo. É obrigação dele levantar, pelo menos,
toda a evidência empírica sobre o construto e procurar sistematizá-la e,
assim, chegar a uma miniteoria sobre o mesmo para guiá-lo na elaboração
de um instrumento de medida para o tal construto. Apesar do avanço e
sofisticação estatísticos na psicometria, parece ser esta fraqueza da base
teórica que vem maculando a imagem dos procedimentos psicométricos
na observação dos fenômenos psicológicos. Na verdade, com uma base
teórica coerente e, quanto possível, completa, torna-se viável uma
definição dos tipos e características dos comportamentos que irão
constituir a representação empírica dos traços latentes e, assim, operacio-
nalizá-los adequadamente (isto é, a construção dos itens se torna
coerente e adequada).
Os procedimentos analíticos são encontrados na literatura psicomé-
trica e estatística (vide cap. 6). Acrescentamos aqui apenas uma coletânea
de regras úteis para a construção dos itens, que tipicamente constitui a
parte mais laboriosa na elaboração das escalas.
A construção dos itens deve seguir certos requisitos, que podem ser
explicitados nas regras ou critérios seguintes:
1 — Critério comportamentali o item deve expressar um compor-
tamento, não uma abstração ou construto. Segundo Mager (1981), o item
deve poder permitir ao sujeito uma ação clara e precisa, de sorte que se
possa dizer a ele "vá e faça". Assim, 'reproduzir um texto' é um item
comportamental (vá e reproduza...), ao passo que 'compreender um texto'
não o é, pois o sujeito não sabe o que fazer com 'vá e compreenda...'.
2 — Critério de objetividade ou de desejabilidade: para o caso
de escalas de aptidão, os itens devem cobrir comportamentos de fato,
permitindo uma resposta certa ou errada. Para o caso das atitudes e de
personalidade em geral, os itens devem cobrir comportamentos desejáveis
(atitude) ou característicos (personalidade). O respondente, neste caso,
deve poder concordar ou discordar ou opinar sobre se tal comportamento
convém ou não para ele, isto é, os itens devem expressar desejabilidade
ou preferência.
3 — Critério da simplicidade: um item deve expressar uma única
idéia. Itens que introduzem explicações de termos ou oferecem razões ou
justificativas são normalmente confusos, porque introduzem idéias variadas
e confundem o respondente. Por exemplo: "Gosto de feijão porque é
saudável". O sujeito pode de fato gostar de feijão, mas não porque seja
saudável; assim, ele não saberia como reagir a tal item: se porque o feijão
é gostoso ou porque é saudável. O item exprime duas idéias.
4 — Critério da clareza: o item deve ser inteligível até para o estrato
mais baixo da população meta; daí, utilizar frases curtas, com expressões
simples e inequívocas. Frases longas e negativas incorrem facilmente na
falta de clareza.
5 — Critério da relevância (pertinência, saturação, unidimensionalí-
dade, correspondência): a expressão (frase) deve ser consistente com o
traço (atributo, fator, propriedade psicológica) definido e com as outras
frases que cobrem o mesmo atributo. Isto é, o item não deve insinuar
atributo diferente do definido. O critério diz respeito à saturação que o item
tem com o construto, representada pela carga fatorial na análise fatorial e
que constitui a covariancia (correlação) entre o item e o fator (traço).
6 — Critério da precisão: o item deve possuir uma posição definida
no contínuo do atributo e ser distinto dos demais itens que cobrem o
mesmo contínuo. Este critério supõe que o item possa ser localizado numa
escala de estímulos; em termos de Thurstone, diríamos que o item deve ter
uma posição escalar modal definida e um desvio padrão reduzido. Em
termos da IRT, este critério representa o parâmetro 'b' (dificuldade) e pode
realmente ser avaliado definitivamente somente após coleta de dados
empíricos sobre os itens.
7 — Critério da amplitude: este critério de fato se refere à escala total
e afirma que o conjunto dos itens referentes ao mesmo atributo deve cobrir
toda a extensão de magnitude do contínuo deste atributo. Critério nova-
mente satisfeito pela análise da distribuição dos parâmetros 'b' da IRT.
8 — Critério do equilíbrio: os itens do mesmo contínuo devem
cobrir igualmente ou proporcionalmente todos os segmentos (setores) do
contínuo, devendo haver, portanto, itens fáceis, difíceis e médios (para
aptidões) ou fracos, moderados e extremos (no caso das atitudes). De fato,
os itens devem se distribuir sobre o contínuo numa distribuição que se
assemelha à da curva normal: maior parte dos itens de dificuldade
mediana e diminuindo progressivamente em direção às caudas (itens
fáceis e itens difíceis em número menor).
9 — Critério da variedade: dois aspectos especificam este critério:
a) variar a linguagem: uso dos mesmos termos em todos os itens confunde
as frases e dificulta diferenciá-las, além de provocar monotonia, cansaço
e aborrecimento; b) no caso de escalas de preferências: formular a metade
dos itens em termos favoráveis e metade em termos desfavoráveis, para
evitar erro da resposta estereotipada à esquerda ou à direita da escala de
resposta.
10 — Critério da modalidade: formular frases com expressões de
reação modal, isto é, não utilizar expressões extremadas, como 'excelente',
'miserável', etc. Assim, ninguém é infinitamente inteligente, mas a maioria
é bastante inteligente.
11 Critério da tipicidade: formar frases com expressões condi-
zentes (típicas, próprias, inerentes) com o atributo. Assim, a beleza não é
pesada, nem grossa, nem nojenta.
12 — Critério da credibilidade (face validity): o item deve ser
formulado de modo que não apareça sendo ridículo, despropositado ou
infantil. Itens com esta última caracterização fazem o adulto se sentir
ofendido, irritado ou coisa similar. Enfim, a formulação do item pode
contribuir e contribui (Nevo, 1985; Nevo, Sfez, 1985) para uma atitude
desfavorável para com o teste e assim aumentar os erros (vieses) de
resposta. Este tema, às vezes, é discutido sob o que se chama de validade
aparente (face validity), que não tem nada a ver com a validade objetiva do
teste, mas pode afetar negativamente a resposta ao teste, ao afetar o
indivíduo respondente.
CONCLUSÃO
Apesar dos muitos problemas que ainda existem na teoria da
medida em ciências sociais e do comportamento, o uso de escalas,
especialmente em Psicologia Social e da Personalidade, além de
apresentar uma história de mais de meio século, é ainda muito difundido.
Esta ocorrência não pode ser considerada fortuita, mas deve proceder do
fato de que as medidas escalares são capazes de produzir conhecimento
válido nas ciências do comportamento. As várias técnicas expostas (Likert,
Thurstone, Guttman, etc.) têm apresentado razoável consistência, tanto em
sua estrutura interna quanto nos resultados obtidos através delas. Todas
essas técnicas, na verdade, oferecem procedimentos estatísticos que
permitem avaliar essa consistência interna. Quanto à consistência dos
resultados que produzem, a situação das escalas existentes e as próprias
técnicas propostas para a sua construção não aparecem ainda como
empolgantes. É possível, e quiçá provável, que este fenômeno se deva em
grande parte à falta de definição mais precisa destas mesmas técnicas
quanto aos procedimentos teóricos envolvidos na elaboração dos
instrumentos. Há uma preocupação grande, e louvável, referente à
adequação dos procedimentos estatísticos, mas estes não dão dicas
fundamentais quanto ao verdadeiro problema da escala, que é a cons-
trução de um instrumento válido, isto é, que de fato esteja medindo algo de
psicologicamente relevante. Sem uma boa teoria psicológica que a fun-
damente, a escala pode até aparecer estatisticamente perfeita e consis-
tente, mas medindo nada de relevante ou medindo algo desconhecido.
REFERÊNCIAS BIBLIOGRÁFICAS
ALBANESE. MA., FORSYTH, R.A. The one-, two- and modified two-parameter latent trait
models: an empirical study of relative fit. Educational and Psychological Measurement.
Durham (NC), v.44 n.2, p.229-246, 1984.
BALLIN. M.. FARNSWORTH, P.R. A graphic rating method for determining the scale values
of statements in measuring social attitudes. Journal of Social Psychology. Provincetown
(MA), v.13, p.323-327.1941.
BENDIG. AW. Reliability and the number of rating scale categories. Journal of Applied
Psychology. Washington, D.C., v.38, p.38-40. 1954.
BIRD, C. Social psychology. New York: Appleton-Century-Crofts. 1940.
BIRNBAUN, A. Some latent trait models and their use of inferring an examinee's ability. In:
LORD, F.M., NOVICK, M.R. (Eds.). Statistical theories of mental test scores. Reading
(MA): Addison-Wesley, 1968.
CAMPBELL, N.R. An account of the principles of measurement and calculations. London:
Longmans Green, 1928.
-------------- . Symposium: Measurement and its importance for philosophy. Proceedings Aristot.
Society Suppl.. London, v.17, p.121-142. 1938.
COOMBS, C.H. A theory of data. New York: Wiley. 1964.
DE BRUYNE, P., HERMAN, J„ DE SCHOUTHEETE, M. Dinâmica da pesquisa em ciências
sociais. .Ved. Rio de Janeiro: Francisco Alves. s.d.
DEBETS. P.. BROUWER. E.. SIJTSMA, K., MOLENAAR, I.W. MSP: a computer program for
item analysis according to a nonparametric IRT approach. Educational and Psychological
Measurement. Durham (NC), v.49. n.3. p.609-613, 1989.
DEBETS. P., BROUWER, E. MSP: a program for Mokken Scale analysis for polychotomous
items. Groningen: IEC ProGAMMA, 1989.
DELBEKE, L. Construction of preference spaces. Louvain: Publications of the University of
Louvain, 1968.
EDWARDS, AL. Techniques of attitude scale construction. New York: Appleton-Century-
Crofts. 1957.
EDWARDS. AL., KENNY, K.C. A comparison of the Thurstone and Likert techniques of
attitude scale construction. Journal of Applied Psychology, Washington, D.C., v.53, p. 72-
83, 1946.
EDWARDS, A.L, KILPATRICK, F.P. A technique for the construction of attitude scales. Journal of
Applied Psychology, Washington, D.C., v.32, p.374-384, 1948.
EKMAN. P. (s.n.t.) 1963.
FISHBEIN, M. AJZEN, I. Beliefs, attitude and intention: an introduction to theory and research. Reading
(MA): Wesley, 1975.
GOLDSAMT, M.R. Effects of scoring method and rating scale length in extreme response style
measurement. College Park (MD): University of Maryland, 1971. (Unpublished doctoral
dissertation)
GUILFORD, J.P. Psychometric methods. 2ed. New York: McGraw-Hill, 1954.
GUTTMAN, L. A basis for scaling qualitative data. American Sociological Review, Washington,
D.C..V.9, p.139-150. 1944.
---------------- . The basis for scalogram analysis. In: STOUFFER, SA. et al. Measurement and
prediction. Princeton (NJ): Princeton University Press, 1950. p.60-69.
. The Cornell technique for scale and intensity analysis. Educational and Psycholog
ical Measurement. Durham (NC), v.7, p.247-280, 1947.
----------------. The problem of attitude and opinion measurement. In: STOUFFER, S.A. et al.
Measurement and prediction. Princeton (NJ): Princeton University Press. 1950. p.46-59.
--------------- . On Festinger's evaluation of scale analysis. Psychological Bulletin. Washington,
D.C., V.44, p.451-465, 1947.
---------------- . Questions and answers about scale analysis. Research Branch, Information and
Education Division, Army Service Forces. Report D-2. 1945.
JENKINS. J.J., RUSSELL, W.A., SUCI. G.J. An atlas of semantic profiles for 360 words. In: Studies on
the role of language in behavior. Tech. Rep. No. 15. Minneapolis: University of Minnesota, 1957.
JONES, R.R. Differences in response consistency and subject's preferences for three personality
inventory response formats. Proceedings of the 67th Annual Convention of the American
Psychological Association, v.3, p.247-248, 1968.
KOMORITA. S.S. Attitude content, intensity, and the neutral point on a Likert scale. Journal of Social
Psychology. Provincetown (MA), v.61, p.327-334, 1963.
KRUSKAL, J.B., WISH, M. Multidimensional scaling. Newbury Park (CA): Sage Publications, 1991.
LIKERT, R. A technique for the measurement of attitudes. Archives of Psychology . v. 140, 1932.
LORD, F.M. A theory of test scores. Psychometric Monograph, Chicago (IL), n.l, 1952.
---------------- .Applications of item-response theory to practical testing problems. Hillsdale (NJ):
Lawrence Erlbaum, 1980.
MAGER, R.F. Medindo os objetivos de ensino ou "conseguiu um par adequado". Porto Alegre: Globo,
1981.
MATELL, M.S., JACOBY, J. Is there an optimal number of alternatives for Likert-scale items? Journal of
Applied Psychology. Washington, D.C., v.56, n.6, p.506-509, 1972.
---------------- . Is there an optimal number of Likert scale items? Study I: Reliability and validity.
Educational and Psychological Measurement, Durhan (NC), v.31, p.657-674, 1971.
MOLENAAR, I.W., SIJTSMA, K Mokken's approach to reliability estimation extended to multicategory
items. Kwant'rtatieve Methoden. Rotterdam, v.9 n.28, p.l 15-126,1988.
NEVO, B. Face validity revisited. Journal of Educational Measurement, Washington. DC, v.22, p.287-
293, 1985.
NEVO, B., SFEZ, J. Examinees' feedback questionnaires. Assessment and Evaluation in Higher
Education, Bath, v. 10, p.236-249, 1985.
OSGOOD, C.E., SUCI, G.J., TANNENBAUM, PH. The measurement of meaning. Urbana (IL):
University of Illinois Press, 1957.
----------------. A measure of relation determined by both mean difference and profile information.
Psychological Bulletin, Washington, D.C., v.49, p.251-262.
PEREIRA, CA. Alves. O diferencial semântico: uma técnica de medida nas ciencias humanas e sociais.
São Paulo: Ática, 1986.
POPPER, K.R. A lógica da pesquisa cientifica. São Paulo: Cultrix, 1972.
RASCH, G. Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish
Institute for Educational Research, 1960.
SAFFIR, M.A. A comparative study of scales constructed by three psycho-physical methods.
Psychometrika, v.2, p. 179-198, 1937.
SEASHORE, R.H., HEVNER, K. A time-saving device for the construction of attitude scales. Journal of
Social Psychology, Provincetown (MA), v.4, p.366-372, 1933.
SIEGEL, S. Nonparametric statistics for the behavioral sciences. New York: McGraw-Hill, 1956.
SIJTSMA, K., DEBETS, P., MOLENAAR, I.W. Mokken scale analysis for polychotomous items: theory,
a computer program and an empirical application. Quality & Quantity, apud DEBETS, P..
BROUWER, E., SIJTSMA, K., MOLENAAR, I.W. MSP: a computer program for item analysis
according to a nonparametric IRT approach. Educational and Psychological Measurement, Durham
(NC), v.49 n.3, p.609-613, 1989.
STEVENS, S.S. Mathematics, measurement, and psychophysics. In: STEVENS, S.S. (Ed.). Handbook
of experimental psychology. New York: Wiley, 1951. p.1-49.
THURSTONE, L.L. A law of comparative judgment. Psychological Review, Washington, D.C., V.34,
p.273-286, 1927.
----------------. Psychophysical analysis. American Journal of Psychology, Champaign (IL), v.38,
p.368-389, 1927.
--------------- . The method of paired comparisons for social values. Journal of Abnormal and Social
Psychology, v.21, p.384-400, 1927.
--------------- . Equally often noticed differences. Journal ot Educational Psychology. Washington,
D.C.,v.l8,p.289-293, 1927.
THURSTONE. L.L, CHAVE, E.J. The measurement of attitude. Chicago (IL): University of Chicago
Press, 1929.
TORGERSON, W.S. Theory and methods of scaling. New York: Wiley, 1958.
TUCKER, L.R., MESSICK, S. An individual differences model for multidimensional scaling.
Psychometrika, v.28, p.333-367, 1963.
VAN DÉR VEER, F., HOWARD, K.I., AUSTRIA, A.M. Stability and equivalence scores based on three
different response formats. Proceedings of the 78th Annual Convention of the American
Psychological Association, v.5, p.99-100, 1970.
WEBB, S.C. A generalized scale for measuring interest in science subjects. Educational and
Psychological Measurement, Durham (NC), v.ll, p.456-469, 1951.
CAPITULO 5
ESCALAGEM PSICOLÓGICA UNIDIMENSIONAL
Jorge de Souza
Departamento de Economía Universidade
Federal de Pernambuco
esde os primeiros estudos da psicofisica alemã, na segunda
metade do século XIX, os psicometristas lidam com o problema de
ordenação de um conjunto de estímulos ou objetos psicológicos
relativamente a uma de suas propriedades. Dá-se o caso, por exemplo,
quando os sujeitos do experimento, juizes ou examinandos, são instados
a manifestarem-se sobre qual o sinal sonoro, entre dois sinais a eles
submetidos, é o mais intenso. Postos, assim, diante de um conjunto de
sinais sonoros expostos dois a dois, os juizes dão as suas respostas, e
o objetivo do experimento é obter uma ordenação ascendente dos
estímulos quanto às suas intensidades. Essa mesma ordenação é
comparada com a correspondente ordem natural sob controle do
pesquisador. Quanto mais elevada for a compatibilidade entre as duas
seqüências, maior é a acuidade perceptiva do examinando.
Sob esse enfoque, os diversos sentidos da percepção humana,
como a visão, a audição, a sensação de peso, etc, foram investigados na
psicofisica e, a partir deles, estabeleceram-se as chamadas leis da
psicofisica.
Retomando essas idéias no século XX, Louis Thurstone, o grande
psicossociometrista norte-americano, concebeu uma situação mais geral
e pôde estender as idéias da psicofisica a uma classe mais ampla de
problemas que envolviam o conceito de traço psicológico. O traço
psicológico é uma propriedade ou uma variável de caráter latente — e,
portanto, não diretamente observável — ligada a algum sujeito ou objeto
de investigação. Enquadra-se nessa ordem, por exemplo, a variável
latente que leva os consumidores a manifestarem suas preferências entre
diversas marcas de um produto ou os cidadãos a escolherem seus
políticos preferidos num elenco de homens públicos.
Algumas das teorias psicométricas sobre o tratamento deste tema
são o objeto deste capítulo.
D
O MODELO DOS JULGAMENTOS COMPARATIVOS
Para o propósito de formalização matemática, considere-se o con-
junto {O
1
, 0
2
, ..., O
m
} constituido pelos m objetos psicológicos ou
estímulos O
1
, 0
2
, ..., O
m
. Esses estímulos, quando submetidos aos
julgamentos de n juizes ou examinandos J
1
J
2
, ..., J
n
, suscitam reações
comparativas relativamente ao traço psicológico, psicofisico ou paranor-
mal que eles representam. Dois modelos estatísticos de reação dos juizes
aos estímulos ressaltam neste capítulo:
I) se aos juizes são apresentados os pares de estímulos (O
i
, O
j
)
(¡>j), eles enunciam suas preferências, que podem ser dos dois tipos
seguintes:
• O
i
]O
j
(o juiz prefere O
i
a O
j
)
• O
i
]O
j
(o juiz prefere O
i
a O
j
), não sendo consideradas aqui nem a
omissão da opinião e nem tampouco a indiferença no julgamento;
II) se aos juizes são apresentados todos os m estímulos O
1
,, O
2
, ...,
O
m
, eles manifestam suas preferências através de uma ordenação decres
cente na intensidade com que o traço psicológico, segundo seus juízos,
está neles contido. Essa ordenação genérica é representada pela seqüên
cia O
i1
] O
i2
] ... ] O
im
, onde (i1, ¡2, ..., im) é uma permutação qualquer
dos objetos.
O primeiro tipo de reação dá origem ao chamado modelo dos jul-
gamentos comparativos e o segundo nomeia o denominado modelo dos
julgamentos categorizados. Ambos são atribuídos ao engenho estatístico de
Louis Thurstone (1927).
Duas situações, bem simples e cotidianas, podem ilustrar o que
acima se descreveu:
I) em uma pesquisa política, os estímulos podem representar
alguns líderes políticos, os juizes são uma amostra de eleitores e o traço
psicológico medido pode ser a preferência ideológica;
II) Em uma pesquisa mercadológica, os estímulos podem signi
ficar as diversas marcas de um produto, os juizes constituem uma amostra
de consumidores e o traço psicológico pode ser a simples preferência
pela marca.
As duas situações enunciadas escondem, na realidade, algumas
questões relevantes no estudo dos problemas comportamentais através de
modelos estatísticos. Com efeito, em ambos os exemplos fica patenteada
a idéia, bastante geral, de que se lida com uma amostra de examinandos
e não com a sua totalidade ou a população. Esta restrição conduz, é
claro, a um problema de inferência estatística concernente à indução
empírica. Quanto aos estímulos, muitas vêzes, também se lida com uma
amostra obtida de uma população de infinitas possibilidades. Diz-se, neste
caso, que os estímulos escolhidos constituem manifestações do traço psi-
cológico estudado e que a população de todas as manifestações possíveis do
traço é o seu universo de conteúdo. Há, desse modo, um segundo tipo de
problema inducional, chamado por Hotelling de inferência psicológica
(Hotelling, 1933).
O modelo dos julgamentos comparativos admite a existência de um
continuum psicológico, onde todo examinando ou juiz faz a sua
avaliação do conteúdo do traço contido em cada estímulo ou objeto
psicológico. Esse mecanismo de avaliação é inconsciente, e cada juiz por
eles manifesta a sua preferência após comparar as avaliações efetuadas
no continuum psicológico. As avaliações do conteúdo, independentemente
dos juizes que as efetuam, são denominadas de valores de escala do
estímulo. Dessa maneira, um valor de escala seria a medida verdadeira
do conteúdo do traço existente no estímulo. Entretanto, há que se convir
que as avaliações do conteúdo do traço em um dado objeto psicológico
podem variar de juiz a juiz ou, para um mesmo juiz, flutuar segundo o
instante de medição. No primeiro caso, está-se estudando um problema
de Psicologia Diferencial e, no segundo, um problema de Psicologia
Comportamental.
O modelo dos julgamentos comparativos pode ser imaginado,
segundo as descrições anteriores, como se a avaliação de um juiz gené-
rico a um estímulo O
i
fosse uma variável aleatória Xi cuja esperança
matemática E[X
i
] representa o valor de escala do objeto psicológico O¡ (i
- 1, 2, ..., m). Essa conclusão implica dizer que as avaliações Xi dos
juizes flutuam em torno do valor de escala µ
i
a menos de um erro aleatòrio
e, de esperança matemática nula, ou seja, que
(5.1)
onde E[E¡] = 0 e sendo µ¡ desconhecido (i = 1, 2,..., m).
A regra decisoria, de caráter estatístico, além de inconsciente ou la-
tente e que possibilita a um juiz genérico optar por um dos estímulos O¡ ou
P
j
é a seguinte: "O
i
] O
j
, ou seja, prefere O
i
a O
j
, se e somente se X
i
> X
j
onde X
i
e X
j
são as avaliações do traço psicológico feitas pelo juiz e que,
na realidade, são desconhecidas". Essa regra de decisão estabelece,
assim, uma relação de correspondência entre plano psicológico ou
mental e o plano de opiniões, de acordo com o esquema seguinte:
PLANO PSICOLÓGICO PLANO DE OPINIÕES
X
i
> X
j
O
i
] O
j
x
i
< x
j
o
i
[ o
j
Considerando, agora, a natureza probabilistica da decisão mental a
partir das avaliações individuais dos juizes, pode-se estabelecer a se-
guinte equação para caracterizar o modelo dos julgamentos comparativos:
(5.2)
isto é, são iguais as probabilidades da preferência de O
i
relativamente a
Oj e do evento que expressa o fato de o valor de escala de O
i
ser maior do que o correspondente valor de escala de O
j
.
O modelo se completa, desde o ponto de vista estatístico, com a
especificação de algumas propriedades adicionais relativas às distribui-
ções de probabilidades das m variáveis aleatórias repre-
sentativas dos erros. Louis Thurstone formulou, em 1929, as hipóteses de
que os m erros têm distribuições normais, mediante as
seguintes especificações numéricas:
i) (i = 1, 2,..., m), isto é, os erros têm esperanças matemáticas
nulas;
ii)
(i = 1,2 ..... m), ou seja, os erros ε
i
, têm variâncias iguais
a ";
¡ii) Corr
(i, j = 1, 2,..., m), isto é, os erros ε
i
, e ε
j
têm coeficien-
tes de correlação igual a ρ
ij
Sob tais hipóteses, laborando em torno da equação 5.2, pode-se
escrever que
(5.3)
Tendo em vista que a variável aleatória correspondente ao primeiro
membro da desigualdade tem distribuição normal (0,1), resulta que
onde Π
ij
= Prob [Oi > Oj] representa a probabilidade da preferência O
i
] O
j
Agora, fazendo
(5.5)
Fig. 5-1
Dessa maneira, a partir da última convenção estabelecida em (5.4),
pode-se escrever que
(5.6)
Ao modelo por esse modo caracterizado dá-se o nome de modelo
de julgamentos comparativos de Thurstone.
O sistema de equações estabelecido em (5.4) é constituído por
equações e pelas 2m incógnitas adicionais
às
incógnitas referentes às correlações, ou seja, o sistema é
subidentificado por possuir
incógnitas.
equações e
O seu caso particular mais simples pressupõe que sejam iguais as
variâncias dos erros e nulas as correlações entre eles, isto é,
Nessas circunstâncias, pode-se escrever o sistema de
equações anterior como
donde se conclui que
ou, ainda, como
(5.7)
O fator apenas afeta multiplicativamente os valores de escala
e pode ser desprezado desde que se interpretem os resultados numa
escala ordinal. Dessas digressões resulta que os m valores de escala
devem ser estimados através de um sistema superidentificado formado
pelas equações
(5.8)
Ele pode ser resolvido, por exemplo, através do método dos mínimos
quadrados, onde deve ser minimizada a função
Derivando-se relativamente aos valores de escala, encontra-se que
e assim sucessivamente.
Em geral, tem-se que
e, portanto, os esti-
madores mínimo-quadráticos
dos valores de escala dos
objetos psicológicos serão dados pela solução das equações
= 0 (i=1, 2, .... m-1), ou seja:
(i=1, 2
................................................................ m-1)
Simétricamente, a soma poderia ser obtida com j < i e isto eqüivale-
ria a escrever
Adicionando essas duas
equações, tem-se que
ou ainda, somando e subtraindo , do primeiro membro dessa última
equação
Impondo-se a restrição de que = 0, o que equivale apenas a
mudar a origem dos valores de escala, tem-se que
Convencionando-se, agora, sem nenhuma perda de generalidade,
que z
ii
= 0 (¡=1,2, ..., m), tem-se que ou seja,
ou, finalmente, em razão do mesmo argumento de simetria sobre os valo-
res de z:
(5.9)
( / = 1 , 2 ......................m).
Esta última expressão permite concluir que o valor de escala
estimado do objeto psicológico 0¡ (i = 1,2,..., m) só pode ser interpre-
tado numa escala ordinal e seu valor é encontrado considerando as fre-
qüências relativas = Freq Rel [O
i
] Oj das preferências que
sobrepõem O, ao estímulo O, e aos correspondentes z
ij
, valores da
curva normal padronizada, de acordo com a Figura 5-1.0 valor de
escala , é a média
onde se convencionou que z
ii
= 0.
O MODELO DOS JULGAMENTOS CATEGÓRICOS
Thurstone seguiu ainda uma outra ordem de idéias, a fim de explicar
o processo decisòrio de preferências dos juizes ou examinadores. Desse
modo, se no modelo dos julgamentos comparativos os juizes faziam
avaliações das intensidades dos estímulos no chamado continuum
psicológico, agora, seguindo uma outra formulação, Thurstone admitiu que
os juizes julgavam os estímulos localizando-os em um conjunto ordenado
de categorias representadas por intervalos do mesmo continuum psicológi-
co. Nesse caso, deve-se atribuir valores de escala não só aos estímulos
como, igualmente, aos limites que definem as diversas categorias do
continuum psicológico onde os estímulos são classificados. Suponha,
assim, em razão disso, que os m estímulos ou objetos psicológicos O
1
, O
2
.... O
m
devam ser classificados pelos juizes em um dos seguintes k
intervalos que constituem uma partição do continuum psicológico
, (c
k
, +), naturalmente ordenados de
modo ascendente, sendo essa ordenação simbolizada pela seqüência
I
Por outro lado, sendo µ, o valor de escala do estímulo
m), a regra decisòria mental de cada juiz é estabelecida pela seguinte
equivalência lógica: "O estímulo O
i
é classificado em um dos j primeiros
intervalos se e somente se seu valor de escala
é menor ou igual ao valor extremo c
j
do intervalo de maior intensidade".
Desde um ponto de vista eminentemente simbólico, essa regra pode ser
representada do seguinte modo: se e somente se
, onde
é o j-ésimo intervalo da partição".
Impõe-se considerar, ainda, no referente a esse novo modelo, que os k
intervalos I
1
,, l
2
,..., I
k
em que são classificados os m estímulos O
1
, O
2
, ..., O
m
,
podem ser vistos como representantes de uma ordenação em que, sendo k < m,
os estímulos são classificados nos lugares 1º, 2°.,... e k-ésimo, havendo,
portanto, a necessidade de alguns empates. No caso em que se tem k = m, ou
seja, quando o número de intervalos classificató-rios coincide com o número de
estímulos, esses empates já não são permitidos.
O método da categorização de Thurstone é de uso aconselhável, por
exemplo, quando o número de estímulos é grande. Com efeito, a comparação
por pares no modelo dos julgamentos comparativos exige de cada
juiz a manifestação de julgamentos, enquanto no modelo de ca-
tegorização os julgamentos correspondentes são em menor número.
Pelas razões já consideradas anteriormente, tanto as diferenciações nos
julgamentos dos juizes quanto as próprias variações temporais dos seus
comportamentos levam agora à substituição dos valores de escala µ
i
e C
j
por
variáveis aleatórias ξ
i
, e η
j
, nessa ordem, além, é claro, da mudança da regra
decisòria para a sua correspondente expressão probabilistica na categorização.
Nessas circunstâncias, tendo em vista o caráter classificatòrio do modelo,
designar-se-á por a probabilidade de que
o estímulo O
i
seja classificado em uma das j primeiras categorias representadas
pelos intervalos I
1
,, I
2
, ..., I
3
, ou seja:
(5.10)
onde o superindice (A) designa o fato de que se trata de uma probabilidade
acumulada. Do exposto, então, pode-se afirmar que tal probabilidade expressa-
se em termos dos valores da escala aleatorizada, através da
equação
(i = 1, 2,..., m; j = 1, 2,..., k)
Thurstone impõe, também às variáveis aleatórias além da
normalidade de suas distribuições, as seguintes estatísticas:
i)(¡- 1,2, ...,m)
ü)
(j= 1,2,..., k)
iii) são nulas todas as correlações entre as variáveis aleatórias.
Tratando a última expressão da probabilidade acumulada do mesmo
modo que no modelo dos julgamentos comparativos, pode-se concluir fa-
cilmente que
(5.11)
Do mesmo modo, considerando que as variáveis aleatórias de
escalagem têm distribuições normais, além de
incorrelacionadas, pode-se escrever que
ou seja:
, ou
ainda
Supondo que sejam constantes as variâncias e, portanto,
sem perda de generalidade, fazendo-se
2, ..., K), chega-se ao seguinte sistema de equações
m; j = 1,2,..., K), onde z
ij
representa a abcissa da curva normal tal que a
área à sua esquerda corresponde à probabilidade do estímulo O
i
estar nos j
últimos lugares de preferências dos juizes.
Fig. 5-2
A estimação mínimo-quadrática dos m + k parâmetros é objeto de
minimização da função
Derivando-a relativamente a µ¡ e c
j
e escrevendo as equações de I
a
ordem de otimização, obtêm-se as equações:
(i = 1, 2,..., m; j=l,2, ...,k)
donde se conclui que
(i- 1,2, ...,m; j= 1,2, ..., k)
ou ainda, equivocantemente,
(i- 1,2, ..., m; j= 1,2,..., k).
Convencionando tamm que o que não implica nenhu-
ma perda de generalidade, obtém-se a expressão
(5.12)
(j = 1, 2...................... k)
Substituindo esse resultado nas primeiras equações tem-se que
, ou seja,
ou, ainda, que
( / = 1.2........ m).
(5.13)
Tendo em vista a interpretação estritamente ordinal que se dá aos
valores de escala dos estímulos, conclui-se que
(/= 1, 2.......... m) ou, finalmente,
O MODELO DE LUCE
Ainda sob o mesmo enfoque metodológico dos modelos de
Thurstone, pode-se desenvolver um outro modelo, devido a Luce (1963)
e que possibilita aos juizes a natural opção por uma indiferença ou empate
entre os estímulos, o que é muito freqüente no comportamento humano.
Considere-se, para esse fim, a correspondente extensão do modelo
dos julgamentos comparativos de Thurstone ao caso em que os juizes
podem optar por um empate entre as intensidades de dois estímulos.
Desse modo, desde o ponto de vista decisional, aos valores de escala µ
i
(1-1,2,..., m) acrescenta-se ao modelo de Luce um parâmetro "e" positivo
(e > 0), de tal modo que os novos critérios de manifestação dos juizes são
agora exprimidos do seguinte modo:
(5.14)
se e somente se se e
somente se
em que o símbolo « denota o empate entre os
estímulos O¡ e Oj e o parâmetro "e" positivo é uma espécie de limiar que,
se não ultrapassado, impede a discriminação entre os estímulos O
i
e Oj
desde o ponto de vista da manifestação de uma preferência. Pela mesma
ordem de idéias usadas anteriormente, transformam-se essas regras
para a correspondente versão probabilistica, ou seja, impõem-se, agora,
os seguintes critérios decisorios de caráter estatístico:
(5.15)
onde n é uma variável aleatória normal com média igual a e e variância
igual a ψ
2
, e ε
ij
, denota a probabilidade do empate ou indiferença O
i
, = O
j
.
Operando de modo análogo àquele do modelo de Thurstone, conce-
bem-se as seguintes relações:
(5.16)
(5.17)
Seja, agora, o valor da abcissa da curva normal (0,1 )
correspondente à preferência ou seja, a abcissa cuja área à sua
direita, sob essa curva, é igual a . Daí, vem que
(5.18)
A preferência inversa O
i
] O
j
, por outro lado, fica caracterizada pela
correspondente equação
Fazendo agora
(5.19)
onde z
i[j
é a abcissa da curva normal (0,1) cuja área à esquerda desse
valor é igual a n
ji;
deve-se notar que, desse modo, para o modelo Luce,
encontram-se duas abcissas, de acordo com a figura 5-3.
Fig. 5-3
Supondo agora, tal como no modelo de Thurstone, inter-relacionadas
todas as variáveis aleatórias, torna-se claro que se tem
e, assim, pode-se escrever que
(5.20)
(5.21)
Supondo, também, simplificadamente, que as variâncias i
sejam independentes dos estímulos, concebe-se
que será constante e, desse modo, pode-se fazê-la
unitária porque esta hipótese corresponde apenas a uma mudança de
escala nos valores de escala, sempre interpretados na escala ordinal.
Desse modo, somando e subtraindo as duas equações anteriores,
obtêm-se as expressões
Diante das manifestações colhidas de n juizes, escrevem-se as
seguintes expressões para os estimadores naturais ū, e ê (i = 1, 2,..., m),
dos parâmetros do modelo:
(5.22)
(5.23)
Impondo, agora, do mesmo modo que antes aos
estimadores ū, (i= 1,2,..., m) a condição Σū = 0, chega-se
facilmente à expressão final
(5.24)
O MODELO DE BRADLEY- TERRY
Bradley e Terry (1952) consideraram uma outra linha de argumen-
tação para escalar um conjunto de m estímulos ou objetos psicológicos
baseados, ainda, no mesmo método das pareações, ou seja, na compa-
ração de todos os pares de estímulos efetuada por n juizes. Eles supuse-
ram. Dará isso, que a cada estímulo O, está associado um valor de escala
(i - 1, 2, ..., m) e que, para um juiz genérico, a probabilidade da
preferência O, ] O
j
é definida pela equação
(5.25)
Ressaltam, dessa hipótese, as duas seguintes conclusões:
I) a preferência porventura existente entre dois estímulos não é afetada
pelos (m - 2) estímulos restantes;
II) a hipótese formulada assemelha-se a um modelo de urnas para a
decisão sobre as preferências no continuum psicológico.
Ambas as restrições são motivos de fortes questionamentos que
enfraquecem o embasamento teórico do modelo de Bradley-Terry.
Entretanto, por sua simplicidade e, também, porque suas soluções
ordenam os estímulos de modo muito assemelhado ao do modelo dos
julgamentos comparativos de Thurstone, recomenda-se o seu uso.
No concernente à estimação de seus parâmetros, dois métodos
podem ser chamados para esse fim. O primeiro, o método dos momentos,
considera as freqüências absolutas n
ij
observadas para as preferências
Por elas pode-se escrever, de modo natural, as equações que
determinam os estimadores resultantes do método dos momentos
(5.26)
sem que, necessariamente, se tenha n
ij
+ n
ji
= n, ou seja, é possível não
opinar quanto à preferência no modelo proposto.
Após manipulações algébricas elementares, esse sistema se
transforma no sistema linear e homogêneo escrito matricialmente como
ou, ainda, equivalentemente,
(5.28)
É fácil ver que a matriz N é singular porque suas linhas são
linearmente dependentes (são nulas as somas dos elementos de cada
coluna), e que, por outro lado, os valores de escala devem satisfazer à
condição natural
Desse modo, substituindo uma equação genérica do sistema (5.28)
por essa última equação, pode-se encontrar uma solução do problema.
Assim, sendo substituída a linha j da matriz N pelo vetor 1 e sendo e
j
o j-
ésimo vetor unitário, ou seja, o vetor cuja j-ésima componente é igual à
unidade sendo nulas as demais, o sistema de equações anterior é
expressado matricialmente por
(5.29)
(5.27)
onde N
j
é nova matriz que resulta de N pela substituição antes enunciada.
Nesse caso, a solução do problema de escalagem é igual a
(5.30)
ou seja, fi é a j-ésima coluna da matriz N
j
-1
, inversa de N
j
, Pode-se
mostrar, facilmente, que essa solução independe de j, ou seja, que ela é
independente da equação substituída.
O outro método de estimação para o modelo de Bradley-Terry
segue um algoritmo geral de Ford (1957), desenvolvido para resolver um
sistema de equações resultante da aplicação do método da máxima-
verossimilhança. Assim, para as observações do modelo de Bradley-Terry
é fácil concluir que sua função de verossimilhança é dada pela expressão
(5.31)
Convencionando-se que n
ij
= 0 (i = 1,2, ..., m) e maximizando o
logaritmo natural Lg L da função de verossimilhança, obtém-se facilmente
o seguinte sistema de equações máximo-verossímeis, cuja solução for-
nece os valores de escala dos estímulos
(5.32)
Dessas equações resulta que
(5.33)
O método de solução de (5.33) consiste em usar um algoritmo
iterativo convergente usando a seguinte fórmula de recorrência, em que
Π
(k)
denota a aproximação de Π
l
„ na k-ésima iteração do algoritmo
(5.34)
A implantação do algoritmo anterior requer, para sua implementação
mais eficaz, as seguintes providências:
155
I) uma boa aproximação inicial para a sua rápida convergência;
II) uma normalização das aproximações obtidas
em cada etapa.
A aproximação inicial, aqui sugerida, consiste simplesmente em
fazer (¡ = 1,2,..., m), isto é, supõe-se inicialmente uma preferên-
cia manifestada imparcialmente sob a hipótese de absoluta ignorância no
concernente à natureza dos estímulos.
A condição de normalização é naturalmente imposta em cada etapa
e consiste em substituir cada por
para satisfazer à condição
É possível considerar, também, como Rao and Kuper (Sijberg, 1967),
uma generalização do modelo de Bradley-Terry para escalagem de estí-
mulos de modo a contemplar os julgamentos de preferências que passem
pela indiferença entre dois estímulos. O método próprio consiste, obvia-
mente, em reduzirem-se as probabilidades das preferências
O
i
] O
p
de modo a poder debitar seus saldos nas indiferenças O
i
= O
j
.
Segundo esse enfoque, agrega-se ao modelo tradicional de
Bradley-Terry um parâmetro 0 (O<0<1), de tal sorte que se tenham as
seguintes probabilidades:
(5.34)
(5.35)
(5.36)
A estimação, nesse caso, também pode ser submetida ao mesmo
algoritmo descrito anteriormente.
ALGUMAS CONSIDERAÇÕES ADICIONAIS
O leitor deve estar atento a algumas diferenciações entre as duas
grandes linhas clássicas de desenvolvimento de modelos de escalagem
psicológica unidimensional. Cumpre, assim, em primeiro lugar, dar des-
taque ao fato de que os modelos dos julgamentos comparativos e dos
julgamentos categóricos de Thurstone são dotados de uma racionalidade
aceitável desde o ponto de vista da teoria psicológica. Esta racionalidade,
entretanto, já não é aceitável pelo modelo de Bradley-Terry. Este último
assemelha-se a certas formulações da teoria matemática da aprendiza-
gem, desde que se concebam a irracionalidade do processo decisòrio e a
contrapartida de penalidades ou sanções para uma escolha equivocada.
Nessa situação, é óbvio, as opções de preferências entre os estímulos Ө
i
e Ө
j
, deverão repartirem-se proporcionalmente às probabilidades
e
Além disso, no que se refere, ainda, às concepções psicofísicas de
Thurstone, cujas origens remontam aos trabalhos de Fechner na escola
alemã de psicofisica, já foi feita referência à influência que sobre suas
idéias exerceu a teoria dos erros, que durante muito tempo dominou as
formulações estatísticas de Pearson, de Fisher e de Neyman da teoria
estatística clássica. Nada impede, entretanto, que as variáveis aleatórias
de escalagem tenham distribuições assimétricas representando as
disposições psicológicas diferentes dos juizes que, no caso de assimetrias,
acolhem as naturais tendências de se fazer avaliações severas ou
magnânimas.
Com efeito, um juiz severo tenderá a fazer avaliações baixas em
detrimento das avaliações mais elevadas e, contrariamente, um juiz
magnânimo se comportará seguindo uma postura inversa. Nessas
circunstâncias, torna-se perfeitamente admissível supor que as variáveis
aleatórias de escalagem ξ, dos estímulos O
i
, tenham distribuições de
probabilidades F(x) assimétricas ou concentradas lateralmente.
Para obter a generalização intuída a partir dos comentários
anteriores, considere as equações de escalagem do modelo dos julgamen-
tos comparativos de Thurstone,
Neste caso, uma outra forma de expressá-las consiste em escrever
que
(5.37)
ou, ainda, que
(5.38)
Segundo esse resultado, ao utilizar-se, por exemplo, uma distri-
buição do tipo gama, apresentam-se ao modelo os seus dois parâmetros
caracterizadores, além, é claro, dos valores de escala dos estímulos. Esses
parâmetros, quando estimados, permitem fazer apreciações sobre a seve-
ridade ou a magnanimidade dos juizes.
Desde um outro ponto de vista, entretanto, a dicotomia sobre a
justeza dos julgamentos efetuados pode ser o fruto exclusivo das dis-
paridades nos conteúdos latentes dos estímulos examinados, ou seja, se
a maioria deles contém baixos teores do conteúdo latente e os juizes são
equilibrados, a tendência destes é atribuir-lhes valores de escala
concentrados à esquerda, enquanto, no caso inverso, os valores de escala
concentrar-se-ão à direita. Estas observações apontam para novas
direções no exame do tema.
REFERENCIAS BIBLIOGRÁFICAS
BRADLEY, R.A.. TERRY. M.E. The rank analysis of incomplete block designs I: the method of paired
comparisons. Biometria, v.39, p.324-345, 1952.
FORD JR., L.R. Solution of a ranking problem from binary comparisons. American Mathematical
Monthly. Washington. D.C.. v.64. p.28-33, 1957.
GREENBERG, MG. A modification of Thurstone's law of comparative judgment category of equal or no
difference. Psychological Bulletin. Washington. D.C.. v.64. 108-112, 1965.
GUTTMAN, L. An approach for quantiting paired comparisons and rank order. Annals of Mathematical
Statistics. Hayward (CA), v.17, p.144-163. 1946.
HOTELLING, N. Analysis of a complex of statistical variables into principal components. Journal of
Educational Psychology. Washington. D.C.. v.24, p.417-441; 498-520,1933.
LUCE, R.D. Discrimination. In: LUCE, R.D., BUSH, R.R., GALANTER, E. Psychology. New York: Wley.
1963. v.1.
MICHAUD. P. Opinions aggregations. In: JANSE, J.. MARCOTORCHINO, J.F., PROTH, J. M. (Eds.).
New trends in data analysis and applications. Amsterdam: North Holland, 1983.
NISHISATO, S. Analysis of categorical data: dual scaling and its applications. Toronto: University of
Toronto Press, 1980.
--------------- . Optimal scaling of paired comparison and rank order data: an alternative to Gut-
tman's formulation. Psychometrika, v.43, p.263-271, 1978.
SIJBERG, L. Successive intervals scaling of paired comparisons. Psychometrika, v.32, p.297-308,1967.
SOUZA, J. de. Métodos de escalagem psicossocial. Brasília: Thesaurus, 1987.
THURSTONE, L.L. A law of comparative judgment Psychological Review. Washington, D.C., v.34,
p.273-286, 1927.
CAPITULO 6
EM TORNO DO ENSINO DE ESTATÍSTICA
NOS CURSOS DE BASE PSICOSSOCIAL
Jorge de Souza
Departamento de Economia
Universidade Federal de Pernambuco
mais do que freqüente — e eu diria mesmo justificável — a rejeição
por psicólogos, sociólogos e outros profissionais aos métodos
psicossociométricos e às muitas técnicas estatísticas abusiva e
equivocadamente aplicadas no trabalho investigativo nos domínios
de suas ciências. Causas diversas contribuem para essa verdadeira
aversão aos conhecimentos psicométricos e estatísticos, que se
manifesta, inicialmente, por um difuso sentimento de inadequação de
suas formulações, sobretudo no que concerne à ciência psicométrica
fundada pelos notáveis estatísticos ingleses Charles Spearman e Karl
Pearson, no que diz respeito aos seus fundamentos estatísticos, e pelo
dico e psicólogo francês Alfred Binet, no que se refere à formulação
adequada dos instrumentos conceituais de mensuração psicológica."
De fato, essa inadequação generalizadamente sentida, mas insatis-
fatoriamente justificada, é, em muitos casos, o resultado de concepções
teóricas que não encontram respaldo nem nas teorias estabelecidas e
muito menos na experiência com as fenomenologías psicológica, socioló-
gica ou psicossocial, de um modo mais amplo. É isso que se dá, por
exemplo, no uso abusivo que se faz da clássica Análise Fatorial com
fatores ortogonais como instrumento de pesquisa no domínio do psicos-
social. Atropela-se com ela qualquer expressão de bom-senso, pela
impertinencia do uso desrespeitoso dos fundamentos dessa técnica tão
atraente quanto perigosa.
Esse exemplo serve ao propósito de considerar a questão objeto
deste capítulo por suas verdadeiras dimensões epistemológicas. Com
* Note-se que. neste trabalho, concebem-se de modo inovador as bases históricas da Psi-
cometria como o resultado da confluência entre os esforços de psicólogos e estatísticos.
Para um mais amplo entendimento de uma formulação da história da Psicometria, pode-se
consultar, deste mesmo autor. História das Idéias Estatísticas. Recife: UFPE. 1995. Notas
internas.
efeito, no caso em tela, a inadaptabilidade do método fatorial manifesta-se,
em primeiro lugar, pela justificável rejeição que se deve esperar relativa-
mente a uma das hipóteses nele implícitas, configurada como a incorrela-
ção dos fatores ou variáveis latentes. Nesse sentido, o leitor já deve
beneficiar-se da dúvida natural que se lhe acomete — sub-repticiamente,
é bem verdade — quanto à adequação da Análise Fatorial. Mas essa
mesma rejeição aos fatores ortogonais pode ser também justificada pela
ignorância de quem os manuseia no referente à hipótese de ortogonalida-
de ou incorrelação entre os fatores.
Infere-se daqui, na realidade, uma dupla manifestação da ignorância
científica. Em primeiro lugar, no concernente às hipóteses fundamentais
dessa fértil técnica psicométrica e, em segundo lugar, pelo desconheci-
mento de alternativas metodológicas que superam satisfatoriamente a
restrição interposta. Assim, no caso, poder-se-ia optar pelo método
sucedâneo da Análise Fatorial Oblíqua como um meio propício à supe-
ração da séria restrição de ortogonalidade. Esta, sabe-se bem, não
encontra respaldo nem nos dados observacionais e nem, tampouco, nas
formulações teóricas subjacentes de todas as ciências psicossociais —
pode-se dizer sem medo de errar.
Não se há de inferir, desse exemplo — e essa formulação consubs-
tanciaria, também, um erro inaceitável —, que a Análise Fatorial clássica
com fatores ortogonais deva ser abandonada enquanto conhecimento
metodológico — não. O leitor mais versado nas literaturas estatística e
psicométrica iria logo nelas reconhecer a sua imprescindibilidade como
base ou etapa intermediária para alcançar a formulação mais pertinente ao
embasamento teórico da sucedânea — e mais pertinente — Análise
Fatorial Oblíqua.
Toda essa teia de considerações apoiada no paradigma da Análise
Fatorial auxilia-nos a concluir que, no geral, é ignorância quanto às bases
ou hipóteses que sustentam os métodos ou as técnicas psicométricas e
estatísticas o fator primordial de sua inadequação na abordagem dos
dados observacionais. Na realidade, essa última afirmação é por demais
abusiva, porque a inadaptabilidade constatada não reside nos métodos em
si mesmos, mas nas suas condições de aplicação. É que eles se compor-
tam com neutralidade, esperando, ingenuamente, que seus usuários
saibam manejá-los com respeito às suas idiossincrasias. Seria fácil e
cientificamente desonesto, convenhamos, assacar contra a Psicometria ou
a Estatística, rés inocentes que padecem da mesma injustiça com que as
uvas maduras, na fábula de La Fontaine, passaram por verdes pela
frustração da raposa incapacitada para alcançá-las.
Uma outra ordem de idéias sobre a insuficiência dos conhecimentos
psicométrico e estatístico resulta da consideração dos fins a que eles se
destinam. Para ilustração, ponha-se, ainda, o exemplo com que se vem
tratando o tema. E muito comum encontrarem-se dezenas de complexos
artigos que versam sobre a inferência estatística em Análise Fatorial. A tão
conhecida e importante revista pioneira Psychometrika é detentora de
recordes nesse sentido. Muito bem — digo com ênfase —, esses artigos
laureiam seus autores pela originalidade de suas concepções, pela
sofisticação estatística e matemática que nos deixam complexados e com
sentimentos mesmo que ora são os da inferioridade, vezes outras os da
frustração e — esse é o mais justo, reconheçamos — o do temor! Todas
essas dolorosas sensações, infelizmente, não são manifestadas de modo
explícito; não as revelamos para não nos desnudarmos diante dos colegas
que, eles mesmos, ironicamente, também as padecem no altar sofrido de
limitações iguais às que nos acicatam. E, se algo revelamos sobre isso em
algum momento, é uma espécie de rancor que gera, a meu juízo, esse
sentimento difuso de aversão à Psicometria e, também, à Estatística de um
modo geral. Como bom psicanalista inquieto, eu veria como normais esses
sentimentos e, até mesmo, considerá-los-ia mais que pertinentes ou
saudáveis. É que há algo de errado ou talvez inadequado por trás dessas
formulações estéreis, e é exatamente essa sensação que quero analisar
friamente. Onde sustentar-se, então, para considerá-la em suas di-
mensões corretas? Em que se podem apoiar os mortais psicólogo e
sociólogo, condenados ambos, juntamente com politicólogos e pedagogos,
ao sacrifício irremediável nesse altar de formalismos lógico-matemáticos?
Há um caminho fácil, leitor, quero dizer, perfeitamente trilhável, porque
possui para o intento apenas a difícil e delicada capacidade de observar;
mas deve-se fazê-lo, é claro, judiciosamente e sem idéias preconcebidas
— isso é essencial. Com efeito, todos esses conhecimentos — que se
diriam de cunho estatístico-inferenciais relativamente à Análise Fatorial —
sustentam-se, entre várias outras, na hipótese simples de que os erros dos
testes ou instrumentos de medição que geram os escores ou notas têm
distribuição normal de Gauss-Laplace. Essa é a questão que deve ser
considerada quando nos propomos a dissecar a plausibilidade de
Psicometria no contexto psicossocial a que ela se destina. Interroguemo-
nos, assim, se a destacada hipótese estatística sobre a normalidade dos
erros decorre da observação, do exame dos fatos, ou se, contrariamente,
ela é fruto da gratuidade ou da conveniência com que, Procustos neuróti-
cos da novidade científica, limitamos a realidade ao leito de ferro de
nossas conveniências acadêmicas, para brilharmos nesse mundo falso de
publicações e bibliografias!
Não há aqui como fugir-se, também, à sempre presente historicida-
de da ciência, à sua realidade de época, às marcantes influências
importadas e, sobretudo, engolidas sem a imprescindível digestão
presidida pelo amparo da crítica epistemológica! Com efeito, a Análise
Fatorial, desde os seus primórdios londrinos de 1904, sob a inteligência de
Spearman e, sobremodo, sob a tutela posterior de estatísticos como
Hotelling, Thurstone, Wishart, Roy, Fisher e outros que, nos anos 30 e 40
deste século, consolidaram-na como uma teoria normal da Analise Estatística
Multivariada, estava marcadamente influenciada pela mais que centenária teoria
dos erros normais, essa fecunda fonte de toda ciência observacional que
sustentou, também, a Estatística Inferencial da linha desenvolvida de Ronald
Fisher, Egon Pearson e Jerzy Neyman. No entanto, é preciso que se ressalte,
essa hipótese de normalidade, descoberta dos astrônomos e físicos, era
adequada aos dados das ciências experimentais, era ditada pelas observações
das ciências cujos experimentos eram controlados pelo pesquisador. Diante
disso, a conclusão que nos compete enunciar é a de que, infelizmente, o
conceito de erro distribuído normalmente não é respaldado pela natureza das
observações das variáveis psicossociais obtidas, desde logo, mediante
instrumentos de mensuração mais precários de que os das ciências
experimentais. Adotá-la, assim, seria amarrar a realidade ao mesmo leito de
ferro das conveniências que nos servem ao papel de Procustos da ciência e não
a de verdadeiros cientistas ou, pelo menos, a de profissionais honestos e
capacitados. Que fazer? Essa é a interrogação que, estarrecidos
justificadamente, nos fazemos agora. Não há como precipitar-se diante disso.
Longe, muito longe mesmo, a idéia de atirar tudo a esse lixo da ciência, tão
impressionantemente rico de teorias, métodos e técnicas exibidos
pretensiosamente como os mais puros produtos da inteligência e da cultura
humanas. Contenhamos a indignação natural diante da descoberta de que
tínhamos razão, de que não éramos tão tolos quanto as complicações
estatísticas nos faziam crer! Já não nos devemos vexar, mas ver a tudo com
reservas deve ser a primeira atitude, o que sugere a prudência, boa guia dos
nossos propósitos. E mais: antes de quaisquer outras considerações, havemos
de concluir que a posição mais correta é a de que, no estágio em que se situa a
inferência da Análise Fatorial — e é sobre ela que se sustenta o nosso
paradigma —, é que não convém adotá-la a não ser em situações muito
específicas. Isto porque, antes de mais nada, é imprescindível ver a Análise
Fatorial Clássica como um método eminentemente exploratório, sem nenhum
cunho inferencial ou de confirmação de hipóteses, que, este sim, é o cerne da
Inferência Estatística. Aliás, quase todo o aparato psicométrico até hoje
conhecido convém que seja visto muito mais pela ótica exploratória ou descritiva
e, menos do que desejam os seus teóricos desavisados e usuários incautos,
pela visão ideal da indução estatística.
A conclusão a que chegamos sobre tudo o que se disse é a de que, no
geral, o insucesso e a suspeição com que são vistos os métodos psicométricos
e estatísticos são fruto de várias causas que se somam nessa empreitada de
desprezo pelo bom-senso: a falta de conhecimento das hipóteses estatísticas
que lhes dão respaldo, o seu uso abusivo, extrapolando-se os limites sem que
para isso haja autorização científica e técnica e, last but not least, o
desconhecimento de alternativas metodológicas mais consentâneas.
O ENSINO DA PSICOMETRIA E DA ESTATÍSTICA
A Psicologia se insere no frondoso ramo das ciencias psicossociais,
ou seja, no elenco de tôdas as ciências que lidam com o subjetivismo
psicológico do homem e das relações humanas. Esse fato tem, para o
estatístico, uma conotação muito especial porque, contrariamente às
ciências experimentais, as ciências psicossociais, de que a Psicologia e a
Sociologia são membros proeminentes, são preponderantemente
dominadas por algumas características que, tornando-as especiais,
implicam uma fundamental diferenciação metodológica do tratamento
estatístico de seus problemas. Com efeito, apesar de que, em alguns
contextos, possam a Psicologia e a Sociologia em particular submeterem-
se ao método experimental, na quase absoluta maioria das vezes elas são
objeto do chamado método observacional. Dessa importante distinção de
cunho metodológico o que mais ressalta é a grande impossibilidade de
exercício do controle direto de fontes de variação, ou seja, a sustentação
experimental da homogeneidade ou invariância de certos fatores causais,
tão típicos das ciências experimentais. É esse mesmo controle junto com
o princípio de aleatorização, sabe-se bem, que vão propiciar a fundação,
pelo notável estatístico inglês, Sir Ronald Aylmer Fisher, do Delineamento
Experimental e da Análise Estatística da Variância. Esses métodos
estatísticos propiciaram um grande avanço à experimentação, não só por
dotá-la de instrumentos práticos de análise como por possibilitar-lhe a
própria cidadania científica.
A distinção mais marcante entre as ciências observacionais e as
experimentais, todavia, dá-se a partir de outras características que
separam integralmente as abordagens estatísticas de uma e de outra. É
desse modo que, por exemplo, tem-se prevalência nas ciências psicosso-
ciais das variáveis definidas por construtos ou traços. Um construto, sabe-
se bem, é um modo abstrato de conceber uma variável correspondente a
uma grandeza que não pode ser medida diretamente. São exemplos de
construtos a inteligência, a neurose e a ideologia. Um construto ou traço
também recebe outras denominações, conforme o domínio de conheci-
mentos onde ele se insere. Dessa forma, são sinônimas de construto as
expressões variável latente, variável abstrata e fator, tomadas da própria
Psicologia ou da Sociologia. Pode-se dizer, além disso, que um construto
também se representa pela definição operacional, mas o fato que se
deseja pôr em relevo nesta abordagem é a sua marcante presença nas
ciências psicossociais em contraposição à sua quase total ausência nas
ciências experimentais. Enquanto nessas últimas a mensuração é o
resultado da aplicação de um instrumento físico confiável, adredemente
preparado para esse clássico fim, nas primeiras a mensuração resulta do
uso de um instrumento conceptual, de confiabilidade duvidosa e funda-
mentalmente de validez discutível. Com efeito, se, por exemplo, quer-se
usar um teste psicológico para medir a inteligência ou um questionário
para avaliar o aprendizado, não há grande precisão ou estabilidade
estatística nas correspondentes avaliações e, com muito menos razão
ainda, pode-se garantir que eles medem, de modo incorruptível, os
construtos para os quais foram destinados. Tem-se o direito de perguntar,
em um questionamento natural a respeito e abrindo-se alternativas a
muitas dúvidas, se efetivamente o teste psicológico mede a inteligência ou
a cultura e se o questionário mede o aprendizado ou a memória... Os
problemas da confiabilidade e da validez assumem, assim, um dramático
papel nas ciências psicossociais, papel esse praticamente inexistente nas
ciências experimentais, pelo menos no que tange à validez dos seus
instrumentos de mensuração. Ninguém duvida, por exemplo, que um
termômetro sirva a outros propósitos que não o de medir temperaturas.
Entretanto, essa mesma certeza não preside o uso de um teste de
inteligência, para ficar apenas nesse caso mais facilmente perceptível.
Emergem dessas considerações, também e com destaque, a
dramática importância dos erros de mensuração, além da multiplicidade de
formas de medir a mesma variável latente. Esta última questão não ocorre
na Física e nem tampouco na Química, por exemplo, mas, nas ciências
psicossociais é comum lidar-se com ela sob a denominação de Problema
dos Indicadores Múltiplos. Só agora, mais recentemente, através dos
chamados Modelos Estruturais Lineares (LISREL) ou Modelos de
Estruturas de Covariancia, é que psicometristas, sociometristas, politicólo-
gos e econometristas têm atentado para essa importante questão. É assim,
em decorrência dessas abordagens mais recentes, que já se pode falar,
para o espanto dos economistas, em uma Econometria velha e em uma
Econometria nova!
Há, no entanto, uma outra característica que também distingue
profundamente, do ponto de vista da análise estatística, as duas grandes
ramificações das ciências objeto destas digressões. Queremos referir-nos,
nesse contexto, às escalas de mensuração ou de expressão das variáveis.
Com efeito, enquanto nas ciências experimentais é pequena a presença
e o uso das escalas nominal e ordinal, nas suas pobres coirmãs, as
ciências psicossociais, elas são preponderantes e imprescindíveis. Qual o
significado estatístico dessas constatações que eu enfatizo como o nó
górdio do ensino da Estatística e da Psicossociometria nos cursos de
Psicologia, Sociologia, Ciências Políticas e Pedagogia? A resposta inicial
e que vai surpreender, creio eu, a maioria dos leitores é a quase absoluta
ausência de conteúdos estatísticos correspondentes a essas necessida-
des, típicas das ciências psicossociais, nos respectivos cursos universitá-
rios. Pode-se propor essa mesma questão de uma outra forma ainda mais
contundente. Com efeito, pergunta-se: no estudo da Psicologia, por
exemplo, onde há uma maciça presença de variáveis nominais e ordinais,
por que o usual tratamento estatístico dessas variáveis não vai além de
uma descobrida e pouco reveladora representação gráfica ou do cálculo
de um sumário modal, até o atrevimento de uma mais ousada medida de
associação estatística? E esta, convenhamos, não vai mesmo além do
coeficiente de associação de Goodman-Kruskal e jamais prescinde do sempre
mal utilizado e pouco compreendido qui-quadrado de Pearson? E as inferências
estatísticas, ensinadas temerariamente já num primeiro curso de graduação e a
alunos absolutamente jejunos de qualquer compreensão da problemática
científica, são pertinentes às necessidades profissionais da Psicologia? E os
sociólogos, o que andam estudando? E mais ainda, pode-se perguntar: os
problemas científicos das ciências de teor psicossocial, que nos servem ao
exercício crítico neste trabalho, são compatíveis com as inexoráveis hipóteses
estatísticas subentendidas pelos métodos tão irresponsavelmente ensinados? A
resposta a essas questões não pode prescindir do registro do espanto com que
eu vislumbro as faces dos meus leitores. Há algo de podre nesse reino do
ensino da Estatística e da Psicometria nas ciências psicossociais, e nós todos,
estatísticos ou psicossociometristas, não nos fartamos do neologismo, temos
alimentado irresponsavelmente esse estado de coisas, seja por omissão, por
falta de conhecimento ou, ainda, pela ausência de um exercício crítico que a
pressa na neurótica busca de resultados novidadosos nos tem eximido de fazer.
Há uma outra característica que distancia as ciências psicossociais das
ciências experimentais. Quero referir-me, aqui, à multidimensiona-lidade que
marca as primeiras e que se acha bem menos representada nessas últimas.
Com efeito, os fenômenos comportamentais de base psicológica requerem, para
seu exame, a consideração de muitas variáveis que se lhe associam numa
interação ou sinergia que tornam não só difícil o isolamento de uma ou de
poucas entre elas, mas que fazem prevalecer o conceito de associação ou de
correlação estatística diante da noção clássica de causalidade. Emergem
dessas considerações o caráter mul-tivariado e acausai das variáveis e
fenômenos psicossociais que, por sua vez, vão fazer prevalecer sobre a sua
abordagem estatística a chamada Análise Multivariada. Entretanto, o que se
ensina aos profissionais desses domínios é, preponderantemente, Estatística
Univariada ou Unidimensional que, é óbvio, não atende às suas necessidades.
Eu desejo enfatizar, também, para que não vistamos sozinhos a
carapuça de desavisados, que os problemas até aqui exibidos são universais.
Não se trata, dessa maneira, de circunscrevê-los a uma esfera geográfica
terceiro ou primeiro-mundista e nem tampouco ocorre unicamente na formação
básica dos cientistas e profissionais da Psicossociologia em detrimento da
correspondente educação pós-graduada. Todos são padecentes desse grande
engodo que tem sido o ensino da Estatística.
Nesta altura, entretanto, já não há como prescindir do enunciado de
algumas causas, sob pena de estar aqui, este autor, a despejar nos leitores
umas tantas gratuidades, porque, reconheço também, de equívocos
e certas exagerações que fortificam do gosto literário, mas auxiliam-se na
pedagogia, não me eximo. Haverei de cometê-los sim, mas no grau menor
do passável, do não-essencial, e isso é o que importa. Há algumas
respostas — volto às indagações para que possamos entender esse
estado de coisas — e cito três delas, todas convergentes e as mais impor-
tantes a meu juízo. A primeira é a da tradição do ensino não-crítico dos
métodos estatísticos, que foram desenvolvidos e sistematizados, com
sucesso, como já se disse, sob a esfera das demandas exigentes das
ciências experimentais; a segunda é a da falta de sistematização que tem
marcado o desenvolvimento dos métodos estatísticos e psicométricos
apropriados ao tratamento dos problemas da alçada psicossocial; e a
terceira, finalmente, é a ausência de livros-textos críticos e atualizados, o
que tem possibilitado esse verdadeiro estelionato estatístico com que a
boa-fé dos nossos educandos tem sido desgraçadamente ludibriada.
Há, também, unindo-se a essas causas, uma força de inércia que
age não somente sob o domínio exclusivo das ciências psicossociais, mas
é geral no concernente ao ensino universitário da Estatística. Com efeito,
como responder a essa verdadeira obsessão de dotar os profissionais de
qualquer ramo da ciência de conhecimentos dos dificílimos métodos
estatísticos? Por que o sociólogo deve saber medir e por quê? O que se
deseja com isso? Por que um psicólogo que vai dedicar-se ao seu
consultório ou ao departamento de pessoal de uma indústria, por exemplo,
deve conhecer umas tantas noções de Estatística? Admitindo mesmo que
algo eles devam conhecer, o que ensinar? Seriam esses mais que
maltratados testes de hipóteses ou uma muito incompreendida análise de
variância, ou deveríamos pô-los a par da importância científica e técnica
e das condições epistemológicas inerentes às aplicações dos métodos
estatísticos em suas conjunturas profissionais e científicas? Deveríamos,
por outro lado, dar-lhes a prevalência de uma adequada e intuitiva
formação estatística no campo exploratório ou descritivo dos dados, ou
ensinar-lhes esses arremedos caricatos da ciência inferencial, de uma
indução empírica mais do que capenga?
Não seremos tolos ao ponto de achar que esse estado de coisas vá
ser alterado rapidamente. Pelo contrário, essa última questão, que bem
pode chamar-se de inércia do ensino, serve a muitos propósitos e
interesses que não podem ser contrariados por sustentarem o comodismo
e a omissão dos professores de Estatística e de métodos de pesquisas
psicossociais mais qualificados academicamente. E bastaria, para compro-
var esse estado de coisas, perguntar quem são os que ensinam os cursos
de Estatística dirigidos aos alunos dos departamentos de Psicologia, de
Sociologia, de Ciências Políticas e de Pedagogia das universidades. São
eles, os cursos, designados por aqui, no Brasil, de um modo um tanto
pejorativo sob a chancela de disciplinas de serviços. Enquanto os seus
tutores são, no geral, professores-assistentes e, mais que isso, os menos
experientes, porque os mais antigos rapidamente livram-se do escolho de
ensinar o que também não sabem a alunos que ou não querem saber ou
não têm condições de aprender. Pode-se dizer, dessa maneira, sem medo
de errar ou de cometer-se qualquer tipo de injustiças, que esses cursos
são ministrados pelos que não estão aptos a fazê-lo, nem pedagógica e
muito menos técnica e cientificamente. E é uma verdadeira purgação, não
nos iludamos, ter-se que ensinar essa estatística do equívocos a platéias
pouco afeitas às abstrações e desapetrechadas do mínimo conhecimento
matemático que o conhecimento da Estatística mais séria requer... O
resultado de tudo isso é muito doloroso, porque, se já não são convenien-
tes à formação dos profissionais da área psicossocial os conteúdos
programáticos das disciplinas de Estatística, Psicometria e quejandos,
agrava-se o problema pela deficiente qualificação científica de seus
responsáveis. E, mais urna vez, em razão dos problemas expostos, os
professores dos departamentos psicossociais agem do modo mais
estranho, porque, ao acusarem de alienantes e inconvenientes os
insubstituíveis métodos estatísticos — sem os quais não existiriam as suas
ciências —, afastam-se das verdadeiras causas dos males de que muito
padecem. Há, desse modo, um conluio de omissões e equívocos que
atenta contra a qualidade da formação profissional e que vai refletir-se, de
forma mais grave, nos trabalhos de pesquisa de que não podem eximir-se
os professores das ciências psicossociais. Assim, uma vez mais, volta-se
à literatura, porque não são as uvas que estão verdes e nem só a raposa
foi incapaz de alcançá-las, mas, estranhamente, tampouco o vinicultor
pôde usufruir os múltiplos benefícios de seu cultivo...
Sou de opinião que os problemas expostos só serão superados
mediante um esforço conjunto de estatísticos e cientistas psicossociais
para aproximarem mais as suas ciências, ou melhor, para difundirem-nas
bem mais aprofundadamente, bem mais criticamente... Cabe, sobretudo
aos estatísticos, um grande esforço de absorção dos novos conhecimentos
da difusa estatística observacional e dos correspondentes métodos de
análise. Isto significa renunciar — no que diz respeito ao tratamento das
ciências psicossociais — às já clássicas (e infladas de sucesso) posturas
estatísticas desenvolvidas sob a ótica das ciências experimentais. Dos
cientistas psicossociais requerem-se, de outra parte, uma ampla mudança
de mentalidade bem como a coragem para reformular, e de modo radical,
os conteúdos programáticos de todas as disciplinas de caráter estatístico
de seus cursos. Isso, entretanto, é tema para a próxima seção...
O QUE SE DEVE ENSINAR
Antes de quaisquer outras considerações referentes aos conteúdos
programáticos que devem constituir os cursos de Estatística para a
formação dos profissionais da área psicossocial, cumpre fazer alguns
comentários pertinentes ao modo como a Estatística interage com essas
ciências. Com freqüência, nesses domínios, cursos e livros toam nomes
diversos que podem ser classificados nas três categorias seguintes, onde
a palavra Psicossociologia quer significar, como sempre, cada uma das
respectivas ciências do comportamento de base psicológica antes menci-
onadas: Estatística Aplicada à Psicossociologia, Estatística Psicossocioló-
gica e Psicossociometria ou Estatística Psicossociológica.
Na realidade, esses títulos são objeto de muita confusão e pouco
entendimento. Trata-se, na verdade, de três categorias essencialmente
diferentes de conteúdos estatísticos, todos eles essenciais a um completo
entendimento do papel que a Estatística exerce nas ciências psicossociais,
além de complementares entre si. Com efeito, por Estatística Psicossocio-
lógica entende-se o uso dos métodos estatísticos para gerar os dados ou
observações específicas dessas ciências; por Psicossociometria ou
Psicossociologia Estatística quer-se referir à formulação de modelos e
teorias psicossociológicas, de cunho estatístico e probabilistico; e,
finalmente, por Estatística Aplicada à Psicossociologia traduz-se a
aplicação dos instrumentos estatísticos de natureza exploratória e infe-
rencial aos dados gerados pela Estatística Psicossociológica.
Desse modo, por exemplo, a Análise de Variâncias é um método
próprio de análise estatística e, em razão disso, pode ser aplicada a certos
contextos observacionais da Psicologia. Nessas circunstâncias, a Análise
de Variância é um método de estatística aplicada à Psicologia. Em con-
traposição a isso, por outro lado, a Teoria da Confiabilidade dos testes
subjetivos é Psicossociologia Estatística, por ser uma teoria de cunho
psicossociológico, tendo caráter estatístico.
Essa distinção não é arbitrária e já é tradicionalmente usada na
Economia, onde se conhecem e não se misturam as três correspondentes
categorias estatísticas. Físicos e astrônomos, de igual maneira, já há muito
tempo lidam com as suas particulares Fisicometria e Astronometria, só que
sob as denominações alternativas e menos novidadosas de Física Estatís-
tica e Astronomia Estatística. Foram os economistas os responsáveis por
essa onda de metrias que roubou à Estatística o seu claro e essencial
sentido de aplicabilidade. Feitas essas considerações, já se pode lembrar
que existe um pensar estatístico inerente a cada ciência. Essa forma de
ver os fenômenos particulares de um domínio é o resultado do reconheci-
mento da diferenciação entre indivíduos ou objetos de investigação
constituintes do que se pode denominar coletivo e no concernente às suas
propriedades ou características. Sendo assim, cada indivíduo ou objeto
possui uma medida de cada característica geral, e a consideração do
conjunto dessas medidas leva à noção de distribuição de freqüências das
correspondentes propriedades. Infelizmente, no geral, um coletivo não
pode ser abordado em sua integralidade e, desse modo, a ciência deve
fazer uso de suas partes abordáveis, alcançáveis ou disponíveis, isto é, ela
examina aquilo que tecnicamente se designa por amostras. Decorrem, dessas,
duas ordens gerais de conseqüências. Na primeira, uma amostra é investigada
em suas propriedades em si, isto é, ela é explorada ou descrita desde o ponto
de vista de sua consideração como um coletivo restrito. Nesse caso,
desenvolve-se o que se denomina de Estatística Exploratória ou Estatística
Descritiva, ou, ainda, Análise Estatística de Dados. Por ela busca-se intuir as
propriedades que vão construir as hipóteses. No segundo modo de ver uma
amostra, quer-se induzir as propriedades do coletivo a partir das revelações
originadas na exploração, isto é, trata-se de criar um método de indução
empírica chamado de Inferência Estatística. Segundo essa forma de ver, uma
amostra deve ser obtida por um mecanismo de aleatorizaçáo. Esta é a grande
contribuição da Estatística para resolver o clássico problema científico da
indução empírica, que, desde as formulações de David Hume, John Stuart Mill,
Karl Pearson, Rudolf Carnap, Karl Popper e outros eminentes filósofos da
ciência, ainda não se encontra satisfatoriamente resolvido. A dificuldade
enfrentada pelas ciências psicossociais, no concernente à Inferência Estatística,
reside, de um modo bem abrangente, no fato de que as suas amostras não são
probabilizadas, ou melhor, não são conhecidas as suas probabilidades de
seleção. É por essa razão primordial — apesar de existirem outras já
destacadas nas seções anteriores — que tenho definido a prevalência do estudo
estatístico de caráter exploratório no ensino universitário das ciências
psicossociais. Pelo menos, essa deve ser a posição prevalente em cursos
profissionais. Apoiando-se, assim, nessas conclusões, podem ser enunciadas as
linhas gerais que devem nortear, sobretudo, a formação estatística dos cientistas
psicossociais. Pode-se, desse modo, oferecer às considerações mais justas de
quantos se interessam por tais problemas as seguintes diretrizes gerais sobre o
ensino de Estatística e Psicometria:
i) a formação estatística deve ser eminentemente exploratoria;
ii) devem ser privilegiados os estudos referentes à construção dos
instrumentos conceituais de mensuração;
iii) devem ser bem compreendidas as limitações dos instrumentos de
mensuração e a natureza dos erros de mensuração;
iv) devem ser destacados os métodos de exploração das variáveis
expressáveis nas escalas nominal e ordinal.
Em face desses princípios, o leitor já tem como aquilatar o divórcio
definitivo entre o que ele aprendeu ou vem ensinando e aquilo que é o mais
adequado às suas necessidades científicas e profissionais. Deve-se ter coragem
para renunciar ao que vem sendo oferecido como conhecimento estatístico sob
as variadas denominações que têm camuflado o imenso fosso entre a
necessidade e a oferta desse conhecimento impres-
cindível à ciência, mas que não nos iludamos quanto a mudanças radicais.
Elas não ocorrerão, até mesmo porque os departamentos de Estatística
não contam com especialistas capazes de levar a bom termo essa her-
cúlea tarefa.
Antes que novos elementos sobre este assunto possam ser acres-
cidos, convém abordar a importante questão do livro-texto e das impres-
cindíveis leituras de artigos técnico-científicos nas revistas especializadas.
Os livros disponíveis não tratam de temas como a Escalagem Multivariada,
a Teoria das Respostas aos itens, a Análise de Estruturas Latentes, os
Modelos Lineares Multiequacionais, os Modelos Loglineares, a Análise de
Correspondências Múltiplas, e outras sofisticadas técnicas de cujo uso
científico ou aplicado muito se beneficiariam as ciências psicossociais. Não
se pode ser injusto, entretanto, sobretudo com autores como Raymond
Boudon, Hubert Blalock Jr., Herbert Solomon, Louis Guttman, Paul
Lazarsfeld, WarrenTorgerson, Johan Galtung, C.H. Coombs, A. Birnbaum,
L.L. Crombach, K.G. Jereskog, F.M. Lord, M.R. Novick, G. Rash, Louis
Thurstone, R. Thorndike, J. Guilford e H. Gulliksen. Esses autores, se bem
que profundos em suas exposições, ora pecam pela extrema especializa-
ção em alguns poucos tópicos, ora por transformarem em matemática ou
estatística complexa aquilo que poderia ser mais simplificado sem perda
do rigor lógico, ora por abordar insuficientemente temas tão importantes.
Nesse rol amplo, estão incluídos quase todos os principais teóricos do
domínio da Psicometria e da Estatística Social.
Essas digressões levam-nos à conclusão de que, no concernente
a livros-textos, há uma total impertinencia de seus conteúdos estatísticos
relativamente às idéias aqui expostas. Em particular, deve-se ressaltar,
são desatualizados e insuficientes. No que se refere, por outro lado, a
artigos nas revistas científicas, observa-se, nas mais importantes, um
sofisticado e, muitas vezes, estéril tratamento estatístico-matemático que
afugenta de suas leituras o leitor de formação humanística. Cumpre dizer
que, algumas vezes, também, os artigos tratam de generalizações absolu-
tamente desnecessárias ou, em certas situações, conferem a temas de
fácil compreensão um tratamento estatístico-matemático que verdadeira-
mente deforma as suas concepções básicas. Este é, entretanto, um quadro
geral de todas as revistas científicas que atendem às pressões acadêmicas
para que se publiquem artigos originais sem importarem-se com o leitor
médio ou com as idéias que deveriam ser prevalecentes, em detrimento
dos formalismos matemáticos. Elas são, desse modo, uma espécie comum
de jogo de compadres, onde uns poucos se entendem e muitos, para não
ficarem atrás, além de pagarem, fingem atualizarem-se. Assim, urge que
esses especialistas promovam os seus melhores esforços em prol da pu-
blicação de livros modernos de Estatística Psicossocial e que contemplem
todas as ciências por ela envolvida, numa postura mais nomotética do que
ideográfica, na linha do que eu tenho entendido como a Psicossociologia.
Com efeito, é desse modo que se unem umbilicalmente, pela base da
subjetividade mental, grande parte das teorias sociológicas e psicológicas,
e as correspondentes mensurações, nesses domínios, exibem bases cien-
tíficas e metodológicas equivalentes e muitas dificuldades comuns a serem
superadas mediante a imprescindível união de esforços. Posta dessa
maneira, a visão psicométrica estrita, de tradição psicológica, de cunho
ideográfico, cede lugar, neste momento, à expansão larga de seus limites,
tornando à Psicometria velha apenas a semente de uma Psicossociometria,
cidadã nomotética das ciências do comportamento de bases psicológicas.
CAPÍTULO 7
TEORIA DA RESPOSTA AO ITEM — IRT:
UMA INTRODUÇÃO
Luiz Pasquali
Instituto de Psicologia
Universidade de Brasília
IRT (Item Response Theory) já tem uma longa história. Ela iniciou
com os trabalhos de Lord (1952, 1953) nos Estados Unidos e
Rasch (1960) na Holanda, que a utilizaram para testes de
desempenho e de aptidão. Contudo, apenas ultimamente, a partir
de meados dos anos 80, a IRT vem se tornando a técnica predominante
no campo dos testes. A razão da demora desta teoria em ser
amplamente utilizada em psicometria consiste na enorme complexidade
de manipulação de seus modelos matemáticos, inviáveis sem os
requintados programas de computador, e estes só começaram
efetivamente a entrar no mercado nos anos 80.
Atualmente, a IRT parece que veio para ficar e substituir grande
parte da teoria clássica da psicometria — isto é um fato que já ocorre no
Primeiro Mundo (USA, Canadá, Europa, Japão, Israel, Austrália); no res-
tante do mundo ela é raramente utilizada, e no Brasil (América Latina em
geral) ela sequer é conhecida. Este capítulo visa precisamente iniciar no
País o conhecimento e, esperamos, o uso desta técnica no campo da
psicometria.
As publicações em IRT vêm crescendo e tomando conta das revis-
tas especializadas, como a Psychometrika. Há centros importantes de
pesquisa nesta área nos USA (University of Massachusetts at Amherst),
Holanda e Espanha (Universidade de Oviedo). Existe, inclusive, uma
sociedade internacional, a International Test Commission (ITC), que filia
seguidores da IRT. De fato, no Congresso Internacional da ITC, em
Oxford (Inglaterra), de julho de 1993, havia mais de 120 participantes de
cerca de 46 países. Da América Latina só estavam representados o Brasil
e a Argentina, com dois participantes cada.
O enorme impacto que a IRT vem tendo em psicometria se deve
ao fato de ela superar certas limitações teóricas graves que a psicometria
tradicional contém. Hambleton, Swaminathan e Rogers (1991) salientam
especialmente quatro dessas limitações:
1) Os parâmetros clássicos dos ¡tens (dificuldade e discriminação)
dependem diretamente da amostra de sujeitos utilizada para estabelecê-
los (group-dependenf). Daí, se a amostra não for rigorosamente repre-
sentativa da população, aqueles parâmetros dos itens não podem ser
considerados válidos para esta população. Como conseguir amostras
representativas é um problema prático grave para os construtores de
testes; a dependência dos parâmetros dos itens na amostra obtida se
torna um empecilho de grandes proporções para a elaboração de ins-
trumentos psicométricos não enviesados.
2) A avaliação das aptidões dos testandos também depende do
teste utilizado (test-dependent). Assim, testes diferentes que medem a
mesma aptidão irão produzir escores diferentes da mesma aptidão para
sujeitos idênticos. Testes com índices de dificuldade diferentes evidente-
mente produzirão escores diferentes. Mesmo no caso das formas
paralelas, há sempre a dificuldade de que o montante de erros nas duas
formas dificilmente seja o mesmo, o que produzirá novamente escores
diferentes.
3) A definição do conceito de fidedignidade ou precisão na teoria
clássica dos testes constitui também uma fonte de dificuldades. Ela é
concebida como a correlação entre escores obtidos de formas paralelas
de um teste ou, mais genericamente, como o oposto do erro de medida.
Ambos os conceitos apresentam dificuldades. Primeiramente, é pratica-
mente impossível satisfazer as condições de definição de formas
paralelas e, no caso do erro de medida, é postulado que este seja
idêntico em todos os examinandos — postulado improvável (Lord, 1984).
4) Outro problema da teoria clássica dos testes consiste em que
ela é orientada para o teste total e não para o item individual. Toda a
informação do item deriva de considerações do teste geral, não se
podendo assim determinar como o examinando se comportaria diante de
cada item individual.
Estas e outras dificuldades dos modelos e técnicas clássicos de
medida incitaram os psicometristas à procura de teorias alternativas que
pudessem permitir estabelecer (Hambleton et ai., 1991):
a) características do item sem ser dependente da amostra de sujeitos
utilizados;
b) escores dos examinandos independentes do teste utilizado;
c) um modelo em nível do item em vez do teste;
d) um modelo que não exija formas rigorosamente paralelas para
avaliar a fidedignidade;
e) um modelo que ofereça uma medida de precisão para cada escore
de aptidão.
Essas características são precisamente oferecidas pela Teoria da
Resposta ao Item (Hambleton, 1983; Hambleton, Swaminathan, 1985; Lord,
1980; Wright, Stone, 1979; Hambleton, Swaminathan, Rogers, 1991; Muñiz,
1990).
CARACTERÍSTICAS DA IRT
Teoria da IRT
Contrariamente à teoria clássica de psicometria, a IRT trabalha com
traços latentes e coloca dois axiomas fundamentais: 1) o desempenho do sujeito
numa tarefa (item do teste) se explica em função de um conjunto de fatores ou
traços latentes (aptidões, habilidades, etc.) — o desempenho é o efeito, e a
causa são os traços latentes; 2) A relação entre o desempenho na tarefa e o
conjunto dos traços latentes pode ser descrita por uma equação monotônica
crescente, chamada de ICC (Item Characteristic Function ou Item Characteristic
Curve — a curva característica do item) e exemplificada na Figura 7-1, onde se
observa que sujeitos com aptidão maior terão maior probabilidade de responder
corretamente ao item e vice-versa (Ө¡ é a aptidão e P¡(Ө) a probabilidade de
resposta correta).
Hã um número ilimitado de modelos para expressar esta relação,
dependendo do tipo de função matemática utilizada e/ou do número de
parâmetros que se quer descobrir para o item.
Fig. 7-1 —A curva ICC.
Uma preciosa vantagem da IRT sobre a teoria clássica consiste em que
os modelos utilizados permitem desconfirmação. Na verdade, a demonstração
da adequação do modelo aos dados (goodness-of-fif) é um passo necessário
nos procedimentos desta teoria.
Propriedades da IRT
Entre as características da IRT, duas são de especial relevância:
unidimensionalidade e independência local.
Unidimensionalidade
A IRT postula que há apenas uma aptidão responsável pela realização de
um conjunto de tarefas (itens). Parece pacífico que qualquer desempenho
humano é sempre multideterminado ou multimotivado, dado que mais de um
traço latente entra na execução de qualquer tarefa. Contudo, para satisfazer o
postulado da unidimensionalidade, é suficiente admitir que haja uma aptidão
dominante (um fator dominante) responsável pelo conjunto de itens. Este fator é
o que se supõe estar sendo medido pelo teste. O postulado da
unidimensionalidade ainda continua importante, dado que a IRT, embora
estudos estejam sendo feitos nesta área, ainda não possui soluções adequadas
para modelos multidimensional.
Independência local
Este postulado afirma que, mantidas constantes as aptidões que afetam
o teste, as respostas dos sujeitos a quaisquer dois itens são estatisticamente
independentes. Seja 0 o conjunto de aptidões que afetam um conjunto de itens,
Uj a resposta de um sujeito ao item i (i = 1, 2, ..., n) e
a probabilidade de
resposta do sujeito i com
aptidão significa a probabilidade de uma resposta correta e
a probabilidade de uma resposta errada. A independência local
pode ser matematicamente afirmada como
A independência local significa que, para examinandos com uma aptidão
dada, a probabilidade de resposta a um conjunto de itens é igual aos produtos
das probabilidades das respostas do examinando a cada item individual. Assim,
se um sujeito acertou os itens 1 e 2 e errou o 3, a configuração de suas
respostas é U, = 1, U
2
= 1, U
3
= 0 (1, 1, 0), e a independência local implica que
sendo
Embora pareça improvável que os comportamentos de um mesmo
sujeito não estejam correlacionados, a independência local afirma que, se
houver correlação, esta se deve à influência de fatores outros que não o
fator dominante. Se estes outros fatores forem controlados (mantidos
constantes), o fator dominante será a única fonte de variação, e as respos-
tas se tornam independentes. Assim, a independência local implica a
unidimensionalidade (Lord, 1980; Lord, Novick, 1968)
MODELOS DA IRT
Embora seja ilimitado o número de modelos matemáticos que
podem expressar a relação de probabilidade de sucesso em um item e a
aptidão medida pelo teste (isto é, a ICC), na prática há três que predomi-
nam. Estes se distinguem pelo número de parâmetros que utilizam para
descrever o item — os modelos logísticos de I, 2 e 3 parâmetros, a saber:
a) que avaliam do item somente a dificuldade, b) a dificuldade e a discrimi-
nação, c) ou a dificuldade, a discriminação e a resposta correta dada ao
acaso.
Modelo logístico de 1 parâmetro
Este modelo, inicialmente criado por Rasch (1960) e expresso como
modelo de ogiva, foi descrito para um modelo logístico por Wright (1977a,
1977b) e permite tratamento matemático mais fácil. Sua fórmula é
( l = 1. 2........n),
onde P
i
(Ө) é a probabilidade de um examinando com aptidão 0 responder
o item I e é representado como uma curva tipo S; b, é o parâmetro de
dificuldade do item I; n é o número de ¡tens no teste; e é um número
transcendental com valor de 2,718; D, constante que vale 1,7.
P
i
(Ө) produz uma curva chamada curva característica do item (ICC
— Item Characteristic Curve), conforme a Figura 7-1.0 parâmetro b¡ do
item corresponde ao ponto, na escala de aptidão 0, onde a probabilidade
de resposta é 0,50. Quanto maior for o b
i
, maior deve ser o nível de aptidão
exigido para que o examinando tenha a chance de 50% de acertar o ¡tem.
Transformando a escala da aptidão em escores padrões, com média = 0
e desvio padrão = 1, os valores de b, tipicamente se situam entre -2 (itens
fáceis) e +2 (¡tens difíceis), conforme Figura 7-2, onde o item 1 exige
aptidão de cerca de -1,10 e o item 2 aptidão 0,50, sendo este item mais
difícil que o item 1.
Fig. 7-2 — Parâmetro de dificuldade (b) de dois itens.
A constante D foi incluída na fórmula para tornar a curva logística
igual à curva normal acumulada (ogiva) utilizada nos estudos pioneiros da
IRT.
Modelo logístico de 2 parâmetros
Birnbaum (1968) desenvolveu a equação que serve para avaliar dois
parâmetros do item: dificuldade e discriminação. A fórmula é
onde a, é o parâmetro de discriminação do item, que pode variar de - a
+, mas tipicamente varia entre 0 e 2. Valores negativos indicariam que a
probabilidade de acertar um item estaria inversamente relacionada com a
aptidão, o que soa estranho. A Figura 7-3 mostra os dois parâmetros do
item (b¡ e a
i
). O a
i
é representado pela inclinação da curva no ponto de
inflexão, onde a probabilidade de resposta correta é 0,50.
Na ilustração, o item 2 é mais difícil que o item 1 (parâmetro b
i
, mas
muito menos discriminativo (parâmetro a), pois a inclinação da sua curva
é bem menor que a do item 1.
Fig. 7-3 — Parâmetros de dificuldade (b) e discriminação (a) de
dois itens.
Modelo logístico de 3 parâmetros
Desenvolvida por Lord (1980), a fórmula deste modelo é:
onde c¡ é o parâmetro do item que avalia a resposta correta dada ao item
por acaso e é expresso pela assíntota inferior da curva. Se esta assíntota
cortar a ordenada acima do ponto 0, há presença de acertos ao acaso
(Figura 7-4). No caso do item 2 na Figura 7-4, há 20% de probabilidade de
que o item seja acertado por acaso, sendo esta probabilidade de 0 para os
outros dois itens.
DETERMINAÇÃO DOS PARÂMETROS DE ITENS E APTIDÕES
A determinação destes parâmetros constitui apenas uma das etapas
na elaboração de instrumentos psicológicos. As etapas da elaboração de
instrumentos dentro da IRT dividem-se em três níveis de procedimentos:
1) Procedimentos teóricos, onde se incluem as etapas de a)
estabelecimento do sistema ou variável (traço latente) a ser medido;
Fig. 7-4 — ICC do modelo de três parâmetros para três itens.
b) desenvolvimento da teoria psicológica sobre este traço;
c) operacionalização do traço através da elaboração dos comporta-
mentos que o representam (elaboração dos itens); e
d) análise teórica dos itens.
2) Procedimentos empíricos, que consistem em
a) definição da amostra de sujeitos para a coleta da informação sobre
o teste que se quer utilizar no futuro na população; e
b) aplicação dos itens a esta amostra.
3) Procedimentos analíticos, que consistem em
a) escolha do modelo de IRT;
b) estabelecimento da dimensionalidade do traço (unidimensionali-
dade dos itens);
c) avaliação dos parâmetros dos itens e da aptidão do sujeito (o traço
0);e
d) demonstração da adequação do modelo aos dados empíricos.
Na IRT, o desempenho do sujeito numa tarefa (item), isto é, a
probabilidade de resposta correta [P¡(0)], depende de 1 ) aptidão do sujeito
(0) e 2) dos parâmetros dos itens (a
i
, b
i
e c
i
). Daí, a primeira tarefa do IRT é
viabilizar modelos que possam permitir a descoberta dos parâmetros dos
itens.
Com base nos dados empíricos, isto é, as respostas da amostra de
sujeitos aos itens, se faz a estimativa dos parâmetros destes itens. Isto
consiste em se escolher corno parâmetros para os ¡tens aqueles valores que
maximizam a probabilidade de ocorrência dos dados que de fato apareceram
nas respostas dos sujeitos. Por exemplo, se se lançar 100 vêzes uma moeda
(cara ou coroa) e aparecer 60 caras e 40 coroas, a probabilidade mais
verossímil de que apareça cara é de 60/100, isto é, 0,60. Assim, estima-se que
0,60 é o valor mais provável de aparecer cara. Este método de avaliação se
chama de máxima verossimilhança (maximum likelihood), porque os valores
estimados são os mais verossímeis, plausíveis, com respeito aos dados
empíricos obtidos.
A estimação dos parâmetros se faz por aproximações sucessivas
(iteração), utilizando-se pacotes estatísticos apropriados, tais como BICAL
(Wright et al., 1979), para modelos logísticos de 1 parâmetro, e BILOG (Mislevy,
Bock, 1984) e LOGIST (Wingersky, Barton, Lord, 1982), para modelos de 1,2 e
3 parâmetros. Estes pacotes produzem tanto os parâmetros dos itens quanto os
valores de 0 dos sujeitos (Baker, 1987; Birnbaum, 1968; Lord, 1980;
Swaminathan, 1983; Hambleton, Swaminathan, 1985).
A lógica destes procedimentos será ilustrada brevemente, seguindo
Muñiz Fernández (1990). Os valores estimados para os parâmetros pelo método
da verossimilhança são os que maximizam a probabilidade de que ocorram
aqueles valores (respostas) dados pelos sujeitos. Então procura-se uma função
matemática que produza estes máximos, como ilustrado na Figura 7-5 (onde o
sujeito 1 tem seu máximo em 0 = - 1,50 e o sujeito 2 em 0=1).
Fig. 7-5 — Máximos da função de verossimelhança.
Seja U¡ a resposta ao item. Em testes de aptidão, U¡ = 1 se o item for
corretamente respondido ou U, = 0 se o sujeito errar o item. A equação ICC
dá precisamente a probabilidade de acerto e erro para um dado valor de
aptidão 0, sendo , onde se
entende como a probabilidade de uma resposta correta para um
tal valor de G. Exemplo: a probabilidade de acertar o item na Figura 7-6 é
de 0,60 e a de errar é de 0,40 para um valor 0 de 1:
Aptidão (0) Fig. 7-6 —
Probabilidade 0.60 de acerto do item a 0 = 1.
Como a resposta a um item para um dado valor de 0 é uma prova
de Bernoulli, segue que
No nosso caso,
Como um teste tem n itens, a probabilidade de um padrão de
resposta é dado pelo produto das probabilidades de cada item (dado o
axioma da independência local). Assim, um padrão 11010 para cinco itens
será:
que é a função de verossimilhança (maximum likelihood function).
Esta equação vem normalmente expressa em termos de logaritmos
por ser mais fácil de operar, pois
Assim, a equação de verossimilhança se escreve
onde In = logaritmo natural e u = vetor das respostas.
AJUSTE DO MODELO (model-data goodness-of-fif)
Estabelecidos os parâmetros do modelo, é preciso demonstrar que
o modelo IRT escolhido se adapta aos dados empíricos, isto é, se os
valores P(0) estimados pelo modelo não diferem dos valores obtidos
empiricamente (a saber, a proporção de sujeitos que de fato acertaram o
item).
Para tal demonstração há uma série de procedimentos estatísticos
que constituem ainda o ponto fraco da IRT (Muñiz, 1990; Hambleton et al,
1991). Entre eles, há o x
2
e a análise dos resíduos.
Wright e Panchapakesan (1969, apud Muñiz, 1990) utilizam uma
estatística parecida com o x
2
para verificar o ajuste do modelo:
onde k = número de categorias em que se dividiu 0 Ө,n
j
= número de
sujeitos dentro da categoria, P(Өj) = valor da ICC para a categoria j dado
pela fórmula do modelo, Pe(Өj) = proporção de sujeitos que de fato
acertaram o item para a categoria J e x
2
se distribui com k-1 graus de
liberdade.
Exemplo (Muñiz, 1990, p.51-53): Mil sujeitos responderam 20 itens. O
programa LOGIST estimou os parâmetros, mostrando que o modelo de dois
parâmetros seria o aconselhável. Para o item 10, o programa deu que a=l e
b=2. O Ө foi dividido em 5 categorias (usa-se o ponto médio das categorias
para os cálculos) e os resultados foram os da tabela 7-1.
Tabela 7-1 — Proporção de 1.000 sujeitos acertando item 10 por
categoria de 0
Ө ny Pe(Өy) P(Өy)
4-5 70 0,97 0,99
3-4 90 0,95 0,92
2-3 200 0,70 0,70
1-2 300 0,35 0,30
0-1 340 0,10 0,07
1.000
Os valores P(0) calculados pelo modelo de dois parâmetros [PӨ
j
)] foram
conseguidos usando a fórmula deste modelo, onde os parâmetros para o item
10 foram: a = 1 e b = 2.
Aplicando-se a fórmula do x
2
resulta:
x
2
=
que, para graus de liberdade k-1 = 5-1 = 4, a probabilidade de tal x
2
(=12,2) a gl
= 4 ocorrer por acaso se situa entre 0,02 e 0,01. Portanto, somente no nível de
98% de confiança pode-se afirmar que o modelo de dois parâmetros se ajusta
aos dados empíricos do item 10. Pela Figura 7-7, vê-se que os valores
empíricos, Pe(0), e os calculados, P(0), são bastante similares.
Análise dos resíduos
Esta análise consiste em verificar se a diferença entre o desempenho
real dos sujeitos num item e o desempenho predito pelo modelo não é
estatisticamente diferente de 0:
Fig. 7-7 — Valores preditos pelo modelo Pe(Өj) e valores empíricos P(Өj).
onde r, = resíduo, Pij = desempenho real, isto é, proporção de respostas
corretas ao item i na categoria j da aptidão Ө, e E(P¡j) = desempenho
predito pelo modelo.
Normalmente, este resíduo é expresso em dados padronizados
(resíduo padronizado - z
ij
):
sendo N¡ o número de sujeitos na categoria. Esta categoria se refere a que
o 0 deve ser dividido em categorias (10 a 15), como no caso do x
2
.
A Figura 7-8 mostra que os dados empíricos não se coadunam com
os preditos, pois as duas linhas não coincidem.
INVARIANZA DOS PARÂMETROS
A invariância dos parâmetros constitui o ponto central da IRT e
afirma que se pode estimar 1) os escores dos sujeitos independentemente
do teste utilizado e 2) os parâmetros dos itens independentemente da
amostra de sujeitos utilizada. Se o modelo IRT utilizado se ajusta aos
dados empíricos, então são salvos estes objetivos, ilustrados na Figura 7-9.
Fig. 7-8 — Discrepância entre modelo e dados empíricos.
Fig. 7-9 — ICC para dois itens e distribuição de 0
para dois grupos de sujeitos.
A Figura 7-9 mostra que 1) as curvas ICC para os dois itens podem
ser obtidas tanto com a amostra N, quanto com a N
2
— conseqüentemente,
os parâmetros dos itens independem da amostra utilizada; e 2) o valor da
aptidão Өj pode ser obtido utilizando-se tanto o item 1 quanto o item 2 —
este Өj corresponde à probabilidade de acerto de 75% do item 1 e 50% do
item 2. Continua valendo, contudo, como em qualquer estimação estatísti-
ca, que quanto maior e mais heterogênea a amostra de sujeitos, mais
precisa será a estimação dos parâmetros.
Para demonstrar a invariância da aptidão (0), se aplicam dois testes
com itens diferentes, mas que medem a mesma aptidão, a uma mesma
amostra de sujeitos, e os resultados mostrarão se há ou não coincidência.
Se houver coincidência, então os itens dos dois testes se distribuirão em
torno de uma linha reta num sistema de coordenadas, como na Figura 7-10,
e uma indicação numérica será dada pela correlação de Pearson entre as
duas avaliações.
Fig. 7-10 — Valores 9 obtidos por testes diferentes.
Evento similar ocorre na demonstração da invariância dos parâme-
tros dos itens (a, b, c). Aqui se usam duas amostras de sujeitos para
responder ao mesmo teste. Se os parâmetros dos itens (por exemplo, a
dificuldade b — vide Figura 7-11) são os mesmos nas duas amostras,
novamente surgirá uma linha reta nas coordenadas e a correlação de
Pearson estima a coincidência dos parâmetros.
Fig. 7-11 — Valores b¡ obtidos em duas amostras diferentes de sujeitos.
FUNCOES DE INFORMAÇÃO E EFICIENCIA
Um poderoso método para descrever itens e testes bem como para
selecionar itens é dado pela função de informação do item e do teste. Ela
permite analisar quanto um item ou um teste traz de informação para a
medida da aptidão.
Função de informação do item
A fórmula da função é
onde I
j
(Ө) é a "informação" fornecida pelo item i no nível da aptidão G,
Pi(Ө) é a derivada de Pi(Ө) com relação a Ө, Pi(Ө) é a ICC e Q
i
(Ө) = 1 - P
i
(Ө).
No caso do modelo logístico de três parâmetros, a equação se
simplifica para
Esta equação mostra a importância que têm os três parâmetros
sobre o montante de informação do item. Na verdade, a informação 1) é
maior quando b¡ se aproxima de 0; 2) é maior quanto maior for o a¡; e 3)
aumenta com a diminuição de c
i
, para Ө, como mostra a figura 7-12.
Fig. 7-12 — Função de informação para quatro itens.
Observa-se na Figura 7-12 que o item 1 fornece a maior informação
a Ө = 1,5 e o item 2 a Ө = -1,5. O item 3 dá bem menos informação que os
itens 1 e 2, porque o c, > 0, mas dá mais informação do que estes itens no
nível deӨ = 0. O item 4, devido ao grande c (c
4
, = 0,15), tornou-se inútil no
teste, pois não produz qualquer informação a mais do que a já produzida
pelos itens 1, 2 e 3 em qualquer nível de Ө.
Função de informação do teste
A informação fornecida pelo teste é simplesmente a soma das
informações fornecidas por cada item do mesmo:
Outra maneira de representar esta função de
informação do teste é através do erro padrão de medida, chamado na
IRT de erro padrão de estimação. A 1(Ө), na verdade, é o inverso deste
erro:
erro padrão de estimação.
Similarmente ao erro padrão de medida da teoria psicométrica
clássica, o EPE permite estabelecer intervalos de confiança em torno dos
escores 0 dos sujeitos.
Exemplo: Um teste de 50 itens aplicado a 100 sujeitos deu 1(Ө = 4 para
Ө = 3. Para nível de confiança de 95%, qual o intervalo em que cai o 0?
Resposta:
1) para 95%, z= ±1.96
2) erro máximo =
3) assim, o intervalo para 0 será 3 ± 0,98, ¡sto é, 2,02 a 3,98.
Eficiência relativa
A l(0) permite comparar a relativa eficiência de um teste com relação
a outro em sua capacidade de estimar a aptidão 0:
onde ER(Ө) = eficiência relativa e l
1
,(Ө) e l
2
(Ө) são funções de informação
dos testes 1 e 2, respectivamente.
Exemplo: Se 1,(Ө) = 30 e l
2
(Ө) = 15, então ER(Ө) = 30/15 = 2. O teste
1 é duas vezes mais eficiente que o teste 2 para estimar 0, isto é, o
teste
1 poderia ser reduzido pela metade ou o teste 2 aumentado 50% para
ambos terem o mesmo nível de eficiência.
TRANSFORMAÇÕES DO 0
O valor 0 de um sujeito define a probabilidade de ele acertar um
dado item. A escala 0, onde se situa o escore do sujeito, veio expressa
neste capítulo em termos de escores padrões com média = 0 e desvio
padrão = 1. Entretanto, para facilitar o uso prático do 0, este pode ser
expresso em termos de escalas mais apropriadas e mais inteligíveis,
fazendo uso de transformações lineares ou não-lineares.
As transformações lineares consistem em expressar o 0 acrescen-
tando-se a ele uma constante e, além de uma constante, também um fator
multiplicativo. Contudo, ao se fazer tal operação no 0, é necessário que se
faça o mesmo aos parâmetros dos itens para, assim, manter a invariância
da escala 0.
Para modelo de 1 parâmetro:
Para modelo de 2 parâmetros:
Para modelo de 3 parâmetros:
Por exemplo, Woodcock (1978) fez a seguinte transformação para
seu teste:
Entretanto, a transformação linear mais interessante é aquela que
transforma o 0 no escore verdadeiro (x) da psicometria clássica:
Contudo, enquanto o 0 se estende de - a +, o Τ se situa entre 0
e n (número de itens do teste), dado que cada item pode contribuir com 1
(acerto) ou 0 (erro). Assim, o 0 expresso em termos de x corresponde à
escala dos acertos, que é mais facilmente entendida pela grande maioria
das pessoas.
Quanto às transformações não-lineares, deve-se dizer que há uma
série delas; contudo, normalmente elas não facilitam a interpretação dos
escores, o que, afinal, é a razão principal das transformações. De qualquer
forma, a mais utilizada é a transformação logits, que faz uso de logaritmos
naturais de base e. No caso do modelo de 1 parâmetro, ela seria
onde
191
Assim, tem-se,
APLICAÇÕES DA IRT
Entre as inúmeras possíveis aplicações da IRT na teoria dos testes,
algumas são especialmente relevantes, nas quais a IRT tem contribuições
inovadoras e promissoras.
Banco de itens
Na era do computador, a existência de banco de itens permite uma
utilização não somente mais sofisticada, mas muito mais expediente,
prática e eficiente da medida psicológica. A construção do banco de itens
é viável dentro da teoria psicométrica clássica, fornecendo os parâmetros
de dificuldade e discriminação de cada item. Entretanto, nesta teoria, os
parâmetros são dependentes da amostra de sujeitos utilizada. A IRT
permite estabelecer os mesmos parâmetros independentemente da
amostra utilizada; daí é possível incluir sempre novos itens diretamente
comparáveis com os já inclusos no banco. A técnica para esta façanha,
entre outras, consiste em aplicar os novos itens juntamente com uma
amostra de itens já incluídos no banco a uma amostra razoável de sujeitos
e estimar os parâmetros dos novos itens em confronto com os dos itens
utilizados do banco de itens. Assim os novos itens entram no banco nas
mesmas condições que os velhos.
Testes a medida (computerized adaptive testing CAT)
Anteriormente, foi visto que um teste fornece uma medida mais
precisa da aptidão (0) do sujeito quando seus itens se situam no nível de
dificuldade correspondente ao nível da aptidão do sujeito. Assim, um
sujeito com G = 2 deveria ser examinado com itens de dificuldade (b) em
torno de 2, dado que a função de informação deles, para tal 0, é máxima
a esse nível. Na utilização tradicional dos testes, é costumeiro aplicar-se
um mesmo teste a sujeitos de níveis diferentes de 0. Num caso destes, o
teste avalia bem alguns sujeitos e mal outros. O ideal seria aplicar para
cada sujeito um teste diferente, obviamente medindo a mesma aptidão,
mas que se emparelhe, em termos de dificuldade, ao nível G de cada
sujeito. Esta é a idéia atrás dos testes feitos a medida (tailored ou
computer adaptive testing). Nesta situação, a seqüência dos itens
submetidos ao examinando depende do desempenho do mesmo no item
anterior; assim, para cada sujeito, a seqüência de itens é diferente de
sujeito para sujeito. O que fica de problemático em tal procedimento é a
garantia de que sujeitos diferentes submetidos a itens diferentes estejam
sendo avaliados da mesma forma. A IRT, podendo estabelecer os
parâmetros e as funções de informação dos itens, pode também demons-
trar a equivalência entre testes diferentes, ou melhor, selecionar, para
sujeitos diferentes, itens diferentes mas equivalentes.
Equiparação de escores (test score equating)
O problema que a equiparação dos escores procura resolver é o
seguinte: se dois examinandos tomam testes diferentes para avaliar a
mesma aptidão, é possível comparar os seus escores? Por exemplo, na
seleção para entrada na universidade nos USA tomam-se decisões sobre
quem é aprovado ou não baseadas em escores de testes diferentes para
diferentes sujeitos. É isto justificável? Sim, se os escores são comparáveis.
Este problema, que já vinha sendo tratado na psicometria clássica,
particularmente desde o trabalho de Angoff (1971), recebeu solução bem
mais condizente com a IRT. Se se dispõe de um banco de itens construí-
dos através da IRT, então tem-se à disposição um elenco grande de itens
cujos parâmetros são conhecidos. Para avaliar um nível qualquer de 0, é
indiferente qual a amostra de itens utilizados, dado que o 0 independe do
instrumento (elenco de itens) usado, conquanto se trate de itens que
meçam a mesma aptidão, é claro, e cujos parâmetros sejam conhecidos.
Quando se quer utilizar itens novos com sujeitos novos, é preciso que
neste procedimento se incluam itens do banco, cujos parâmetros são
conhecidos, para equiparar os parâmetros dos novos itens — façanha que
é tipicamente viabilizada na IRT (veja Banco de itens, na página anterior).
Identificação de itens enviesados
A questão a que se refere este problema é a de justiça social. O
teste não pode prejudicar um sujeito por causa de sua raça, sexo ou coisas
similares (as minorias) que, em tese, não têm nada a ver com a aptidão
sendo medida — problema levantado sobretudo por Jensen (1969, 1980).
A questão em pauta se refere a que um mesmo instrumento produz
medidas diferentes de uma mesma aptidão, porque entram, numa situação,
fatores estranhos que não estão presentes na outra. Por exemplo: medir
a temperatura da água fervente ao nível de mil metros de altitude sempre
é diferente de quando medida ao nível do mar. Isto ocorre não porque a
água ferve em graus diferentes segundo o termômetro, mas porque há, no
caso, a presença da altura em relação ao nível do mar. Para comparar as
duas medidas, é preciso controlar o fator altura. Várias técnicas foram
propostas para tratar deste problema na psicometria clássica com
referência aos testes (Scheuneman, 1979; Angoff, Ford, 1973;Angoff, 1982),
mas foi a IRT que trouxe técnicas mais apuradas para esta tarefa. Basica-
mente, a técnica da IRT para corrigir a "injustiça" dos testes consiste em
comparar as ICC resultantes do mesmo item ou teste para sujeitos
diferentes e compará-las, para verificar qual o desvio das mesmas entre
um grupo de sujeitos e outro. Assim, é possível estabelecer o funciona-
mento diferencial {differential item functioning - DlF) que cada item do
teste tem com relação a estes grupos de sujeitos. O DlF é definido como:
um item mostra DIF se sujeitos com a mesma aptidão 0, mas de grupos
diferentes, não têm a mesma probabilidade de acertar o item. O item que
apresentar tal problema, o DIF, deverá ser revisto, refeito ou eliminado do
teste. Há várias técnicas estatísticas para estabelecer o DIF (Hambleton,
Swaminathan, Rogers, 1991; Ellis, 1991; Hambleton, Swaminathan, 1985).
CONCLUSÃO
AIRT não veio somente para ficar, mas constitui a teoria psicométrica
predominante no dito Primeiro Mundo de hoje. Embora ela seja teorica-
mente complexa e praticamente exigente em seus procedimentos analí-
ticos, parece imprescindível que todos os que trabalham com testes
psicológicos tenham conhecimento da mesma e dela façam uso na elabo-
ração de seus instrumentos. A literatura é abundante na área, e a disponi-
bilidade de softwares apropriados o é igualmente. O desconhecimento da
IRT no Brasil vem complicar ainda mais o lastimável estado atual dos
instrumentos psicológicos aqui utilizados, dado que nem a psicometria
clássica é ensinada adequadamente na grandíssima maioria das universi-
dades brasileiras.
REFERÊNCIAS BIBLIOGRÁFICAS
ANGOFF, W.H. Scales, norms, and equivalent scores. In: THORNDIKE. R.L. (Ed.). Educational
measurement. 2.ed. Washington, D.C.: American Council on Education, 1971. p.508-GC)0.
------------------. Use of difficulty and discrimination indices for detecting test bias. Baltimore (MD):
The Johns Hopkins University Press. 1982.
ANGOFF, W.H., FORD, S.F. Item-race interaction on a test of scholastic aptitude. Journal of
Educational Measurement. Washington, D.C.. v.10, p.95-105, 1973.
BAKER. F. B. Methodology review: item parameter estimation under the one-, two-, and three-
parameter logistic models. Applied Psychological Measurement. St. Paul (MN). v.ll, p. 111-142,
1087.
BIRNBAUM, A. Some latent trait models and their use in inferring and examinee's ability. In: LORD,
F.M.. NOVICK, M.R. Statistical theories of mental test scores. Reading (MA): Addison-Wesley,
1968. p. 17-20.
ELLIS, B.B. Item Response Theory: a tool for assessing the equivalence of translated tests. Bulletin of
the International Test Commission, v.19 n.1/2, p.33-51, 1991.
HAMBLETON, R.K. Principles and selected applications of Item Response Theory. In: LINN, R.L. (Ed.).
Educational measurement 3.ed. New York: McMillan. 1989. p.147-200.
HAMBLETON, R.K. (Ed.). Applications of Item Response Theory. Vancouver (BC): Educational
Research Institute of British Columbia. 1983.
HAMBLETON. R.K.. SWAMINATHAN, H. Item Response Theory, principles and applications. Boston
(MA): Kluwer, 1985.
HAMBLETON, R.K., SWAMINATHAN. H., ROGERS. H.J. Fundamentals of Item Response Theory.
London: Sage, 1991.
JENSEN, A.R. Bias in mental testing. New York: Free Press, 1980.
------------------. How much can be boost IQ and scholastic achievement? Harvard Educational
Review, Cambridge (MA), v.39, p.1-123, 1969.
LORD, F.M. An application of confidence intervals of maximum likelihood to the estimation of an
examinee's ability. Psychometrika. v. 18, p.57-75.1953.
----------------- .Applications of Item Response Theory to practical testing problems. Hillsdale (NJ):
Lawrence Erlbaum, 1980.
------------------. Standard error of measurement at different ability levels. Journal of Educational
Measurement, Washington, D.C., v.21, p.239-243, 1984.
------------------. A theory of test scores. Iowa City (IA): Psychometric Society, 1952. (Psychometric
Monograph, 7).
LORD, F.M., NOVICK, M.R. Statistical theories of mental test scores. Reading (MA): Addison-Wesley.
1968.
MISLEWY. R.J., BOCK, R.D. BILOG: maximum likelihood item analysis and test scoring logistic models.
Mooresville (IN): Scientific Software, 1984.
MUÑIZ FERNANDEZ. J. Teoría de respuesta a los ítems: un nuevo enfoque en la evolución psicológica
y educativa. Madrid: Piramide, 1990.
RASCH, G. Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish
Institute for Educational Research, 1960.
SCHEUNMAN, J. A method of assessing bias in the test items. Journal of Educational Measure-ment.
Washington, D.C., v.16, n.3, p.143-152. 1979.
SWAMINATHAN, H. Parameter estimation in Item-response models. In: HAMBLETON, R.K. (Ed).
Applications of Item Response Theory. Vancouver (BC): Educational Research Institute of British
Columbia, 1983. p.24-44.
WINGERSKY. M.S., BARTON, M.A., LORD, F.M. LOGIST users guide. Princeton (NJ): Educational
Testing Service, 1982.
WOODCOCK, R.W. Development and standardization of the Woodcock-Johnson Psycho-Educational
Battery. Hingham (MA): Teaching Resources Corporation, 1978.
WRIGHT, B.D. Misunderstanding of the Rasch model. Journal of Educational Measurement.
Washington, D.C., v. 14, p.219-226, 1977a.
------------------. Solving measurement problems with the Rasch model. Journal of Educational
Measurement. Washington, D.C., v.14, p.97-116. 1977b.
WRIGHT. B.D., STONE, M.H. Best test design. Chicago (IL): MESA Press. 1979.
WRIGHT. B.D.. MEAD, R.J., BELL, S.R. BICAL: calibrating items with the Rasch model. Chicago (IL):
University of Chicago. School of Education. 1979. (Statistical Laboratory Research Memorandum,
23B).
WRIGHT, B.D., PANCHAPAKESAN, N. A procedure for samplefree item analysis. Educational and
Psychological Measurement, Durham (NC), v.29, p.23-48, 1969.
2ª PARTE
MÉTODOS E TÉCNICAS DE MEDIDA EM CIENCIAS DO COMPORTAMENTO
Ca p . 8Co n s ider ações e m tor n o d a Med i d a da I n teli g ê ncia 199
Leandro da Silva Almeida
Cap. 9 — La Medición de la Organización Lògica del Pensamiento 225
Alfredo O. López Alonso
Cap. 10 Observação do Comportamento 263
Cecilia Guarnieh Batista
Cap. 11 — A Medida da Criatividade 305
Eunice M. L. Soriano de Alencar
Cap. 12 — Estratégias e Medidas em Análise de Conteúdo 319
Edson A. de Souza Filho
Cap. 13 Medida Projetiva 341
Jurema Alcides Cunha
Maria Lúcia Tiellet Nunes
Cap. 14 — A Medida na Teoria da Ação Racional 367
Maria Alice D'Amorim
Cap. 15 — Desenvolvimento de Instrumento
para Levantamento de Dados (Survey) 387
Hartmut Günther
Cap. 16 — Evaluación Conductual: una Experiencia de Integración 405
Eleonora Vivas
CAPÍTULO 8
CONSIDERAÇÕES EM TORNO DA MEDIDA
DA INTELIGÊNCIA
Leandro S. Almeida
Universidade do Minho, Portugal
e permanece atual na Psicologia e na sociedade em geral o
estudo e a medida da inteligência, se muitas das nossas
apreciações diárias e decisões decorrem de inferências que
fazemos a propósito das nossas capacidades e das capacidades dos
outros, certo que bastante dúvidas se vão acumulando no seio dos
psicólogos quanto a um eventual consenso de perspectivas num futuro
próximo a propósito da sua definição e medida. A polêmica em torno
quer da definição quer da medida da inteligência tem permanecido ao
longo do tempo, ultrapassando o período áureo da abordagem diferen-
cial e dos testes (Almeida, 1988). Se muitas críticas foram formuladas a
propósito dos autores fatoralistas da inteligência, apontando-se
nomeadamente que descreviam produtos do desempenho e não a
inteligência na sua essência e no seu exercício, certo que duas dezenas
de anos de pesquisa no seio da Psicologia Cognitiva, já com estudos de
incidência experimental, não têm conseguido maior uniformidade de
posições no nível teórico e da prática. Se juntarmos a afirmação
atribuída a Jensen (1969) — intelligence, like electricity, is easier to
measure than to define — à possibilidade de que no virar do século, e
apesar de tôdas as críticas, a avaliação da inteligência será ainda feita
pelos testes tradicionais e nos mesmos moldes das provas com quase
um século de existência (Horn, 1979), então podemos iniciar este texto
dizendo quão difícil é falar sobre "medida da inteligência" ou pretender
ter um discurso coerente e integrador das posições mais significativas
no assunto.
Este capítulo reporta-se, sobretudo, ao conceito de inteligência
como capacidade cognitiva no sentido do conceito de "inteligência
geral". É oportuno lembrar também que as aptidões específicas não
serão alvo deliberado deste texto e menos ainda a referência às
medidas do rendimento (achievement tests), mais associadas aos
conhecimentos e à aprendizagem.
POR QUE FALAR AINDA EM MEDIDA DA INTELIGENCIA?
Temos assistido nos últimos anos a uma diminuição do número de
referências, de títulos de livros e artigos ou de comunicações em con-
gressos usando as expressões tradicionais de "inteligência", "aptidões",
"capacidade intelectual" ou "quociente de inteligência". Por outro lado,
utilizam-se hoje mais conceitos substitutivos como "cognição", "processos
cognitivos", "aptidão escolar", "aptidão cognitiva" ou "aptidão escolástica"
(Reschly, 1990). Este fato, no entanto, não pode assumir-se como refle-
tindo menor interesse pelo estudo da inteligência ou querendo traduzir
alterações significativas quer na definição quer, e muito menos, na avalia-
ção da inteligência. Por exemplo, a WISC-R, mantendo o termo "inteligência"
na sua designação, interpreta o Ql calculado como school functioning level
(SFL); o Lorge-Thorndike Intelligence Test passou a designar-se Cogni-
tive Ability Test, o Otis-Lennon Mental Ability Test designa-se agora Otis-
Lennon School Ability Test, e na 4ª revisão da Stanford-Binet (1986) o
tradicional Ql passou a designar-se Standard Age Scores (SAS). As
alterações, como se depreende, foram mais de "circunstância" que de
"substância", muito embora poderão melhor enquadrar o uso dos testes
e os seus resultados num movimento sócio-cultural que relativizou a sua
objetividade, rigor e valor, ou em modelos da intervenção psicológica
menos circunscritos à avaliação.
Como explicar tudo isto? Interessa ainda o estudo da inteligência?
Serão ainda necessárias as medidas da inteligência?
Podemos enquadrar a resposta a esta questão fazendo referência
a dois tipos de variáveis, aliás também importantes para explicar a
diminuição do uso do termo "inteligência" ou a sua substituição por
outros. A primeira tem a ver com o desencanto no seio dos psicólogos e
da opinião pública com alguns excessos associados a meio século de uso
e abuso da medida da inteligência (também da medida em geral na Psico-
logia). Poderiam os psicólogos não saber verdadeiramente o que os testes
mediam, mas, desde que servissem para diferenciar e apresentar alguma
correlação com o desempenho futuro dos sujeitos noutras situações, eram
necessários e suficientes. Poder-se-ia não saber o que era a inteligência,
mas, desde que se assumisse que o teste a avaliava, então ela passava
a ser definida por "aquilo que o teste mede". Um verdadeiro ciclo vicioso
se instalava na pesquisa e na prática. Empresas e recursos são maiorita-
riamente conduzidos para a construção de novos testes, para a estandar-
dização dos seus resultados, para o reforço da sua capacidade preditiva
e para os estudos diferenciais, tomando as características sócio-culturais
dos indivíduos.
Um segundo tipo de aspectos decorre da percepção hoje tida de
que alguns construtos psicológicos necessitam ser melhor definidos
tomando a sua essência e não apenas as suas manifestações externas.
Inclusive, algumas vêzes, questionamo-nos se algumas das variáveis
psicológicas que estudamos — e isto não é exclusivo da inteligência —
têm uma existência e substância próprias ou poderão não traduzir mais
que meros artefatos e realidades criadas pelos psicólogos. Claro está que,
mesmo sendo realidades criadas, elas podem ser igualmente úteis para
descrever e analisar a realidade psicológica, ou seja, o comportamento
humano. Contudo, nesse caso, temos que assumir uma postura diferente
e mais humilde comparativamente àquela que nos caracterizou entre os
anos 40 e 60 a propósito da medida da inteligência e das implicações
práticas decorrentes dos seus resultados. Nessa altura, como os profis-
sionais dos testes e, por meio destes, os analistas da mente, fomos
afirmando não só a existência como a hereditariedade da inteligência, não
só as diferenças interindividuais de capacidade como decidindo os proje-
tos sócio-profissionais des sujeitos.
Dentro de uma postura mais relativista, podemos concordar com
Anastasi (1986, p.5) que the term intelligence has acquired too many
excess meaning that obfuscate its nature. Um pouco narcisicamente, os
investigadores foram defendendo as suas posições, avolumando o
número de dados a favor das suas teorias e justificando o interesse
comercial das suas baterias de testes. Os psicólogos, na prática, pouco
interessados no alcance teórico de tais discussões, acabavam por utilizar
os testes que comercialmente se encontravam disponíveis. Com alguma
intuição à mistura, eles acreditavam que tomando os resultados nos testes
decidiam melhor da colocação profissional e da orientação vocacional dos
indivíduos. Os testes ajudavam a cometer menos erros inferenciais na
rotulação de uma criança como "deficiente mental" ou na fixação de um
grau de demência a um adulto acusado judicialmente de um crime.
Basicamente, eram essas as condições do uso dos testes de
inteligência. No contexto escolar importava definir em que medida a
criança possuía as capacidades e os níveis de desenvolvimento intelectual
requeridos para prosseguir uma escolaridade dita normal ou regular, ou
qual o seu perfil de aptidões tendo em vista uma orientação escolar e
profissional no quadro das alternativas sociais existentes. No contexto
laborai, a avaliação da inteligência e das aptidões intelectuais foi ampla-
mente usada em seleção profissional. Nas situações de clínica e de
justiça, a avaliação da inteligência servia à definição do grau de consciên-
cia, de julgamento ou de crítica, a par de considerações sobre estados de
demência ou de deterioração intelectual.
Permanecem atuais estes problemas? Permanecem atuais as
formas de medida e o uso dado tradicionalmente à avaliação realizada?
Infelizmente, os problemas de insucesso nas aprendizagens
escolares permanecem e algumas crianças apresentam dificuldades
cognitivas acentuadas. Também — e aqui podemos dizer que felizmente —,
as alternativas de realização pessoal diversificam-se em termos escolares
e profissionais, exigem-se níveis mais elevados de especialização de
conhecimentos, ao mesmo tempo que nalgumas profissões se exige uma
grande capacidade cíclica de reconversão profissional. Por tudo isso
permanece necessário compreender as dificuldades de aprendizagem
apresentadas por alguns alunos, orientar vocacionalmente os indivíduos
e proceder a seleções no quadro do mundo do trabalho. Também ao nível
da clínica e da justiça, os exemplos que atrás descrevemos continuam
presentes na sociedade dos nossos dias e, possivelmente, justificando
uma maior atenção por parte das autoridades e instituições. A evolução
da sociedade não diminuiu a incidência de alguns problemas e dificul-
dades individuais; nalguns casos permitiu a sua mais livre manifestação,
sensibilizou as pessoas para a sua existência ou, ainda, foi ocasião da sua
maior freqüência.
Nao é possível diagnosticar tais problemas sem instrumentos
adequados de medida, nem prevenir a sua manifestação sem a respectiva
avaliação. Tampouco é possível realizarmos investigação nesses domí-
nios sem bons instrumentos de medida. Se é verdade que para algumas
situações de realização escolar e profissional algumas medidas mais
diretas do desempenho parecem substituir as medidas mais diferidas,
nomeadamente os testes tradicionais de inteligência e de aptidões, certo
que estes últimos ocupam ainda um papel importante na avaliação psico-
lógica. Por outro lado, se o desempenho da criança em tarefas escolares
concretas ou a performance do adulto em determinadas atividades profis-
sionais podem melhor servir o objetivo de uma avaliação contextualizada
das capacidades de um e outro para aprender e para realizar, algumas
vezes os testes psicológicos poderão ser necessários quando maior obje-
tividade é reclamada na avaliação, quando interessa confrontar os
desempenhos individuais com os resultados reportados a grupos de
pertença (análise interindividual) ou quando importa recolher informação
tendo em vista a estimação do desempenho futuro dos indivíduos. É pos-
sível, ainda, defender o uso dos testes como medida da inteligência
menos contextualizada, ou mais na sua essência, ultrapassando-se mais
facilmente experiências e conhecimentos singulares de cada indivíduo. Os
objetivos da avaliação devem determinar a tipologia de instrumentos a
usar, e é verdade que para algumas situações, onde antes se usavam os
testes, recorre-se hoje a medidas mais diretas e mais contextuáis do
desempenho cognitivo.
Por outro lado, podemos afirmar que a avaliação das aptidões
cognitivas permanece hoje um dos domínios mais significativos da
aplicação da Psicologia (Wigdor, Garner, 1982), mesmo que se tenha
complementado os testes tradicionais com formas mais comportamentais
de medida, como revelam os resultados de inquéritos junto aos psicólogos
(Cruz, Almeida, Ribeiro, 1993; Murphy, Davidshofer, 1988), ou que se tenha
substituído a lógica seletiva anterior associada aos testes por uma outra
tendo em vista o conhecimento e o aproveitamento de cada indivíduo
(Tyler, 1981). Oakland e Hu (1992), tomando as respostas de psicólogos
de 44 países, verificaram que, entre os dez testes mais usados internacio-
nalmente junto a crianças e jovens, quatro deles dizem respeito a testes
de inteligência geral (WÏSC/WISC-R na I
a
posição; Raven na 2
8
posição;
Stanford-Binet na 5ª posição; WAIS/WAIS-R na 6
a
posição), dentre outros
testes cognitivos (Bender, DAT, Frostig) e da personalidade (Rorschach,
TAT, MMPI).
FORMAS DE AVALIAÇÃO DA INTELIGÊNCIA
Não faz sentido falarmos em formas de avaliação da inteligência
sem primeiro abordarmos a sua definição. Aliás, ou fazemos esse esforço
e conseguimos algum acordo entre os autores, ou todas as formas de
medida que se proponham são no mínimo criticáveis. Julgamos que é
importante interligar formas de avaliação a definições prévias, e minima-
mente aceitas, até para podermos interpretar convenientemente os resul-
tados e saber diferenciar criticamente os diversos tipos de instrumentos
disponíveis.
Duas abordagens da inteligência permaneceram na investigação e
na prática psicológica em termos de definição e de medida da inteligência.
Por um lado, a concepção de inteligência como uma entidade simples ou
como entidade integradora de funções (vejam-se os conceitos de "inteli-
gência geral", de "fator geral de inteligência", de "inteligência compòsita"
ou de "quociente de inteligência"); por outro, a concepção de inteligência
como uma estrutura de aptidões diferenciadas ou independentes entre si.
Para o primeiro caso — aquele em que se situa este texto — podemos
mencionar os trabalhos de Binet e de Wechsler, autores que não só
definiram a inteligência como conjunto integrado de funções mentais —
entidade unitária e global — como produziram baterias também elas
reunindo itens diversificados tendo em vista a medida dessa globalidade
funcional. Temos ainda autores como Spearman (1927), Vernon (1965) ou
Cattell ( 1971) para quem a inteligência era sobretudo, ou em primeiro lugar
em termos de importância, um fator geral entendido como capacidade de
apreender e estabelecer relações, muito embora os dois últimos acres-
centem fatores de segunda ordem ou de grupo. Se para Binet e Wechsler
a inteligência seria melhor avaliada através de uma multiplicidade de
tarefas cognitivas de índole verbal e prática, para Spearman ela sê-lo-ia
através de tarefas abstratas, mais pautadas pela novidade que pelo
conhecimento anterior do sujeito, e envolvendo o raciocínio indutivo e
dedutivo.
Contrariamente a este primeiro grupo de autores, Thurstone (1938)
e Guilford (1959) defenderam uma inteligência formada por aptidões
independentes. No primeiro caso são propostas 7 aptidões diferenciadas,
como compreensão verbal, fluencia verbal, aptidão numérica, velocidade
perceptiva, aptidão espacial, memória e raciocínio (estas aptidões
aparecem avaliadas através da bateria PMA do mesmo autor — Primary
Mental Abilities). Guilford defende um número bastante mais elevado de
aptidões, de acordo com o seu modelo Structure-of-lntellect (S.O.I.). Na
versão mais recente do seu modelo, tomando a combinação de S opera-
ções mentais, de 5 conteúdos das tarefas e de 6 produtos possíveis do
trabalho mental, chega à proposta de 150 aptidões diferentes (Guilford,
1982). Neste texto preocupa-nos a inteligência, definida no sentido de
inteligência geral ou fator g, pelo que nos remeteremos exclusivamente ao
primeiro grupo de autores.
A inteligência, dita inteligência geral, tem sido sobretudo avaliada
através de tarefas envolvendo a compreensão, o raciocínio e a resolução
de problemas, em conteúdos diversos (verbal, numérico, abstrato, espacial)
e onde o que está mais particularmente em causa são os processos
cognitivos associados ao relacionamento da informação e à aplicação de
leis, princípios e relações inferidas. Por outras palavras, podemos afirmar
que predominam aqui as funções cognitivas mais complexas comparati-
vamente às funções simples de reconhecimento ou de memória, ou ainda
às formas sensório-motoras predominantes nos testes de Galton e de
MacKeen Cattell no começo do século (Almeida, 1988). Estudos numa ori-
entação mais cognitiva de inteligência permitem-nos, de novo, reforçar a
importância das componentes relacionais e inferenciais na sua descrição
operacional (Sternberg, 1980).
A unanimidade dos autores em torno dos processos mentais mais
valorizados e o recurso a materiais diversos na formulação das tarefas
justificam que alguns autores falem numa inteligência verbal, numa inteli-
gência prática ou numa inteligência abstrata. Jensen (1981) classifica os
testes de inteligência geral em testes verbais (requerem o uso da
linguagem, por exemplo provas de vocabulário ou analogias verbais),
testes não-verbais (não requerem explicitamente o uso da linguagem, por
exemplo os testes papel-lápis de matrizes, analogias ou seqüências
figurativas) e os testes de realização (requerem o desenho do sujeito, a
construção de algo ou a manipulação de materiais, por exemplo as provas
de cubos ou de puzzles). As escalas de inteligência de Wechsler, por
exemplo, recorrem a essa diversidade de situações.
A grande classificação que se pode assumir nos testes de
inteligência geral, em nosso entender, é basicamente serem testes
coletivos ou testes individuais. Veremos, então, várias especificidades
destes testes tomando essa subdivisão.
ESPECIFICIDADES DOS TESTES COLETIVOS
Os testes de inteligência de aplicação coletiva datam da Iª Grande
Guerra e do contributo dos psicólogos americanos na seleção dos recru-
tas. Já em 1923, no seu livro Intelligence Testing, Pintner identificava 37
testes coletivos de inteligência, entre os quais cinco não recorrendo à lin-
guagem (tudo neles, inclusive as instruções, era figurativo) e seis não
verbais.
São exemplos mais recentes de testes coletivos de inteligência: 1)
o Culture Fair Intelligence Tests (Cattell, 1973), onde os itens, pretensa-
mente avaliando a inteligência sem a interferência de fatores culturais,
através do uso de figuras abstratas, cobrem diferentes tarefas — séries
progressivas, classificação, matrizes e descoberta de propriedades
comuns —, e 2) as Raven's Progressive Matrices (Raven, 1941, 1981,
1985), onde os itens são figuras geométricas na forma de matriz e onde
falta uma parte a escolher entre 6-8 alternativas. Estas compreendem três
versões devidamente diferenciadas: a) a Coloured Progressive Matrices,
destinada a crianças; b) a versão estandardizada, composta por 60 itens;
e c) a Advanced Progressive Matrices, formada por 36 itens e destinada
a adultos mais desenvolvidos intelectualmente.
Algumas características gerais dos testes coletivos de inteligência
podem apontar-se. Em primeiro lugar, são testes papel-lápis e, por
norma, são realizados num tempo previamente definido. O limite de tempo
não é, no entanto, fator decisivo no desempenho (trata-se de testes de
competência e não de velocidade). Esse tempo limite serve sobretudo à
busca de maior objetividade na avaliação e de maior diferenciação
interindividual dos resultados. Nos testes de inteligência, como nos demais
testes referenciados a normas, um procedimento usado na fixação do
tempo limite num teste é tomar o tempo necessário para que 20% da
população o possa concluir na globalidade dos seus itens.
Em segundo lugar, o formato dos itens nos testes coletivos de
inteligência é geralmente de escolha múltipla (multiple-choice), cabendo
ao sujeito assinalar a alternativa que lhe pareça mais correta. Sobretudo
a partir dos testes coletivos usados na Grande Guerra, e com a genera-
lização da avaliação da inteligência no campo da indústria e do ensino, a
quase totalidade dos testes coletivos apresentam alternativas de resposta
para escolha do sujeito. Este formato assegura uma maior objetividade na
avaliação, nomeadamente no nível da escorização e cotação (permite,
aliás, na maioria dos casos, uma informatização de tais procedimentos).
O número de alternativas é variável, contudo procura-se que não seja
inferior a quatro ou cinco, para reduzir a probabilidade de acerto mera-
mente ocasional num item a 25% ou a 20%, respectivamente.
Em terceiro lugar, comparativamente aos testes individuais, é mais
fácil a estandardização das condições de aplicação e de escorização dos
resultados em testes coletivos. O aplicador pode estar menos presente na
situação de avaliação, justificando isso inclusive uma certa tendência atual
para a administração informatizada destes mesmos testes. Em termos de
estandardização, podemos afirmar que, respeitando-se as instruções que
constam dos manuais, e sendo a correção e escorização igual para todos
os sujeitos, as diferenças encontradas nos resultados podem assumir-se,
logicamente, como manifestação das capacidades individuais. Por último,
a sua aplicação coletiva traduz, por norma, uma economia de recursos.
A sua principal dificuldade ou limitação tem a ver com a pouca
atenção dada à forma como os sujeitos respondem ou a outros aspectos
que poderiam servir a interpretação dos resultados, por exemplo as
razões que levam um sujeito a escolher determinada alternativa não tida
como correta pelo construtor do teste. Associada a esta limitação está
uma outra que tem a ver com a percepção de uma discrepância entre o
resultado final do sujeito (ou seja, o número de itens corretamente
resolvidos) e a sua capacidade real em face da pouca interação entre o
avaliador e o sujeito, ou seja, os poucos espaços para o confronto do
sujeito com o seu desempenho. Por outro lado, o fornecimento das
alternativas de resposta, ainda que favoreça a estandardização do testing,
pode provocar o aparecimento de padrões específicos de resposta
(raciocínio, comparação, justificação) ou também respostas ocasionais
nem sempre devidamente ponderadas na análise dos desempenhos
individuais. Apesar destas desvantagens, a informação disponível
permite-nos afirmar que estes testes medem de fato, de alguma forma ou
em certa medida, a inteligência (Jensen, 1980; Jackson, 1984).
ESPECIFICIDADES DOS TESTES INDIVIDUAIS
Os testes individuais de inteligência são hoje ainda bastante
utilizados. Ou porque os testes coletivos podem sofrer de certa "crise"
presente em face das reações suscitadas pelas avaliações massivas das
populações escolares, ou porque os testes coletivos poderão não
aprofundar a avaliação cognitiva requerida para certas decisões de
classificação ou de seleção a tomar, certo que os testes individuais de
inteligência permanecem bastante utilizados e a definir o principal papel
dos psicólogos, por exemplo os psicólogos escolares nos Estados Unidos
(Reschly, 1990).
São exemplos de testes individuais as bem conhecidas escalas de
inteligência de Binet e de Wechsler. A Escala de Inteligência Binet-Simon
(1905)foi objeto desucessivas reformulações nos Estados Unidos (Escala
de Inteligência Stanford-Binet; Terman, 1916; Terman, Merrill, 1937, 1960)
e uma mais recente na França (Nouvelle Echelle Métrique de l'Intelligence
NEMI; Zazzo et al., 1966). Na sua revisão mais recente nos Estados Unidos, ou
seja, a 4ª versão (Thorndike, Hagen, Sattler, 1986), a escala tenta integrar-se
num modelo dito hierárquico de inteligência, onde, a par de um fator geral de
inteligência, podemos falar em três fatores de grande grupo, como a aptidão
cristalizada (raciocínio verbal e raciocínio quantitativo), a aptidão fluida ou
analítica e a memória a curto prazo.
As escalas de inteligência de Wechsler, em termos de concepção de
inteligência, não se diferenciam das de Binet (inteligência como conjunto de
funções cognitivas). Aliás, contrastando com Spearman, refere que quanto mais
se procura purificar os testes em termos de um fator geral mais este perde a
sua capacidade avaliativa da própria inteligência. Esta não é apenas uma
função mental simples, mas, antes, uma parte de um todo ainda maior, a
personalidade (Wechsler, 1950). A principal diferença foi o abandono do Ql de
razão e, logicamente, do conceito de idade mental, das vicissitudes do seu
cálculo e a adoção do Ql de desvio.
A primeira escala construída designou-se Wechsler-Bellevue Intelligence
Scale (Wechsler, 1939), que em 1955 passou a designar-se Wechsler Adult
Intelligence Sca/e(WAIS) e da qual existe uma revisão mais recente (WAIS-R,
1981). Trata-se de uma escala destinada à avaliação da inteligência do adulto
através de 11 subtestes — seis verbais (informação, memória de números,
vocabulário, aritmética, compreensão e semelhanças) e cinco de realização
(completamento de gravuras, cubos, puzzles, arranjo de imagens e código) — e
que permite a obtenção, no final, de três quocientes de inteligência (Ql verbal,
Ql de realização e Ql global). Duas outras escalas foram ainda desenvolvidas
por Wechsler para a avaliação intelectual das crianças. Referimo-nos à
Wechsler Intelligence Scale for Children (WISC), para as idades dos 6 aos 16
anos, e à Wechsler Preschool and Primary Scale of Intelligence (WPPSI), para
as idades dos 4 aos 6 ou 6V2 anos. A WISC foi criada em 1949, tendo a sua
primeira revisão em 1974(WISC-R). A WPPSI foi desenvolvida em 1968. Ambas
as provas se assemelham, em termos de estrutura, aplicação, scores e
interpretação, à WAIS.
Algumas características dos testes individuais de inteligência podem
apontar-se. Nos testes individuais, para além da estandardização dos estímulos
e das condições de testing que poderíamos afirmar serem também
preocupação nos testes coletivos de inteligência, é importante considerar a
relação interpessoal que se estabelece entre o avaliador (por norma um
psicólogo) e o sujeito (criança ou adulto). Para além de nessa relação
interferirem variáveis diversas do avaliador e do sujeito, como o sexo, a idade, a
classe social ou a atração física, convém não esquecer que a própria situação
de avaliação é já uma relação percepcionada de formas diversas pelos
diferentes sujeitos e que tal percepção interfere no desempenho. Trabalhos
clássicos confirmam, de fato, diferenças nos
desempenhos em função das percepções individuais da utilidade, da
dificuldade e do sentido do testing (Roazzi, Spinillo, Almeida, 1991).
Como se tem afirmado, na avaliação individual, o sujeito percepciona-
se a responder não aos itens ou ao teste, mas ao próprio psicólogo. Isso
complica ainda mais a situação — por exemplo, as reações em face dos
itens fáceis ou difíceis que a prova comporta. Por todas estas razões, é
decisiva a relação criada na avaliação da inteligência através de testes
individuais, devendo ser dada particular atenção aos primeiros momentos
da avaliação. Mais uma vez, importa aqui assinalar que estes testes
devem não apenas ser de aplicação exclusiva por psicólogos, como estes
devem ter uma formação geral e específica nas técnicas usadas.
Comparativamente aos testes coletivos, nos testes de aplicação
individual, por norma, não são fixados limites de tempo (o que não impede
de se fixarem bonificações nos resultados para desempenhos mais
rápidos). Por outro lado, é freqüente estes testes incluírem provas com
manipulação de materiais e onde se procura uma informação avaliativa
complementar ou alternativa à realizada através de itens verbais ou
meramente figurativos. Finalmente, nos testes individuais, o sujeito não se
limita a escolher uma alternativa, antes organiza uma resposta que será
pontuada de acordo com o seu grau de adequação e de rigor em face da
situação ou do problema apresentado. Aliás, na grande maioria destes
testes, os sujeitos respondem a itens mais adequados ao seu nível de
capacidade (evitam-se itens demasiado fáceis ou demasiado difíceis). Ao
longo da aplicação das provas, o psicólogo, partindo das respostas
corretas ou erradas anteriores, vai definindo que itens posteriores são
passados ao sujeito.
Finalmente, os testes individuais são uma ocasião para a avaliação
de aspectos cognitivos e não estritamente cognitivos do desempenho e
importantes na interpretação dos resultados finais. O fato de a avaliação
ocorrer numa situação individual, quase situação de "entrevista-clínica"
ou "experimental-clínica", permite apreciar aspectos como: 1 ) a reação do
sujeito ao testinge à sua prossecução (cooperação, ansiedade, bloqueios,
persistência, etc), 2) o impacto de variáveis pessoais e situacionais no
próprio desempenho (fadiga, motivação, autoconfiança, etc.) e 3) infor-
mação referente às respostas corretas e aos erros dados, designadamente
em relação aos processos cognitivos aí usados. Consegue-se, assim,
uma avaliação da inteligência mais aprofundada e interligando infor-
mações de índole quantitativa (pontos, notas, normas) e qualitativa
(comportamentos, reações, relação, personalidade), utilizando-se os
testes individuais em situações de diagnóstico e de seleção que requeiram
uma maior exigência e individualização da informação. Possivelmente,
em face da menor incidência da avaliação para efeitos de diagnóstico e
de estimação das diferenças interindividuais, a favor de uma lógica mais
preventiva e desenvolvimental, os testes individuais de inteligência
permitem uma avaliação mais compreensiva das capacidades dos sujei-
tos, nomeadamente tomando na análise do desempenho a interação entre
capacidade e contexto ou tarefa (Roazzi, Spinillo, Almeida, 1991).
CONTROVÉRSIAS EM TORNO DA AVALIAÇÃO DA INTELIGÊNCIA
O aparente sucesso verificado no recrutamento por ocasião da ia.
Grande Guerra através de testes de inteligência conduziu a um verdadeiro
boom destes mesmos testes na sociedade civil a partir de então,
nomeadamente nos Estados Unidos. Surge, então, uma grande indústria
voltada para a avaliação em larga escala da inteligência (Murphy,
Davidshofer, 1988), particularmente voltada para a satisfação de necessi-
dades de maior objetividade e pretensa cientificidade das tarefas de
seleção e classificação profissional.
No setor da Educação, e também nos Estados Unidos, esse boom
teve lugar nos anos 60. O lançamento do Sputnik pela União Soviética
despolutou um maior investimento do governo americano na educação,
quer através de programas sócio-educativos voltados para a "compen-
sação educativa" das crianças provenientes de meios sócio-culturais
menos estimulantes, quer através da introdução nas escolas de uma
prática sistemática de avaliação das capacidades intelectuais. De novo
buscava-se a "excelência", e os testes voltaram a ser massivamente
aplicados.
A controvérsia em torno dos testes, se era já uma realidade,
ganhava logicamente particular incidência nesses momentos de utilização
massiva. O uso desenfreado dos testes e a tomada dos seus resultados
como absolutos suscitaram receios e reservas públicas. A partir de então
esta controvérsia torna-se objeto de preocupações legislativas. Nalguns
estados americanos, por exemplo, os testes de inteligência são pura e
simplesmente abolidos, ou limitadas juridicamente as decisões com base
nos resultados em testes.
Esta controvérsia assumiu diferentes argumentos, vários deles em
torno do rigor e da validade das medidas de inteligência. Sem dúvida, os
aspectos mais decisivos nesse debate público, inclusive no seio dos
psicólogos, passavam pela questão da sua neutralidade social e pela
questão do seu rigor científico. Em ambos os casos, o problema consistia
na defesa/recusa de que um mesmo teste pudesse avaliar e comparar a
inteligência dos indivíduos independentemente das suas origens e expe-
riências sócio-culturais. Múltiplos argumentos foram usados contra os
testes. Pondo de lado aqueles argumentos que mais poderão traduzir a
animosidade do público, centrar-nos-emos nos que decorrem do baixo
valor científico da medida da inteligência.
A neutralidade social dos testes de inteligência
Na segunda metade deste século, a contestação sócio-cultural aos
testes de inteligência foi-se acentuando. Os grupos sociais mais
desfavorecidos apresentavam resultados mais fracos nos testes tradicio-
nais de inteligência e, por causa desse desempenho inferior, apareciam
com maior freqüência segregados em termos de ensino e de emprego.
Colocava-se, então, em causa a pretensa neutralidade social e validade
científica dos testes. Falando em nome da Black Psychological Associ-
ation, Jackson (1975) afirmava tal enviezamento nos testes e tomava-os
como quasi-scientific tool for perpetuating racism. Claro está que esta
mesma questão se pode generalizar a outras especificidades sócio-
culturais dos individuos, que não apenas étnicas, nomeadamente quando
específicas dos grupos sociais ditos minoritários.
Assim colocado o problema, podemos formar duas orientações na
sua análise. Uma primeira que é apreciar os aspectos sociais que
interferem na avaliação, dificultando desse modo a sua neutralidade
social. Nesta altura, o esforço dos investigadores deveria ser dirigido para
a concepção de formas de avaliação da inteligência menos afetáveis
socialmente. Uma segunda orientação, mais radical, parte da afirmação
da inteligência como uma construção social e, como tal, não pode ser
avaliada fora do seu contexto. Neste último caso, a questão da neutrali-
dade social da inteligência não faz qualquer sentido. Apenas respeitando
as experiências sócio-culturais se poderá avaliar a inteligência, o mesmo
é dizer que não podemos com um único teste ou tipo de testes avaliar a
inteligência junto de qualquer grupo.
No quadro da primeira orientação, várias pesquisas procuraram
diminuir a incidência dos fatores culturais na avaliação da inteligência.
Umas centraram-se nos próprios testes e respectivos itens, enquanto
outras procuraram cuidar das próprias condições de avaliação (situação
de testing). Estão neste caso as tentativas de construção de testes livres
de influências culturais (free culture tests) ou das experiências educacio-
nais dos indivíduos (Eels et ai., 1951). Tais testes, de conteúdo figurativo-
abstrato, permanecem, ainda hoje, como uma tentativa séria de diminuir
— que não eliminar — a influência de tais variáveis na avaliação da
inteligência e, ainda hoje, esse tipo de testes é usado em investigações
transculturais como "um mal menor".
Para além do conteúdo e do formato dos itens nos testes de
inteligência, em várias investigações questionou-se o impacto da própria
relação avaliador-avaliado nos resultados de tais testes. A influência
dessa relação no desempenho, e sendo essa influência diferente de acordo
com as origens social e étnica dos sujeitos (Labov, 1970), veio reforçar o
movimento anti-testing. As críticas foram-se tornando cada vez mais
incisivas e abrangentes e, nalguns momentos, os testes foram associados
a práticas racistas (Jackson, 1975; Jones, Wilderson, 1976) ou aformas de
desumanizar e de destruir crianças e jovens negros (Williams, 1970). Este
último autor (Williams, 1972) construiu um teste em sua opinião melhor
adequado à avaliação intelectual de crianças negras, pois que assente nas
suas experiências culturais. Tentou demonstrar também que um teste de
inteligência, enviesado culturalmente, poderia favorecer um grupo de crianças
em relação a outros. Referimo-nos ao Black Intelligence Test of Cultural
Homogeneity (BITCH), um teste de vocabulário assente nos conhecimentos
culturais dos ghettos negros; nesta prova, as crianças negras obtêm melhores
desempenhos que as brancas (Matarazzo, Wiens, 1977). Contudo, o fato dos
itens estarem mais centrados em conteúdos específicos do que em processos
cognitivos de tratamento da informação e de resolução de problemas questiona
muito se de fato estamos perante medidas válidas de inteligência (Cronbach,
1978; Jensen, 1980; Matarazzo, Wiens, 1977), parecendo igualmente irrefutável
que os sujeitos realizam melhor quando as tarefas dos testes se aproximam do
seu quadro de referência cultural (Sternberg, 1991).
Permanece o problema e a controvérsia em seu redor. Será que os
testes medem a mesma coisa em qualquer grupo humano? A questão pode ser
mais básica ainda, ou seja: como pretender avaliar a inteligência — pelo menos
parcialmente um produto cultural — pretendendo-se prescindir da sua origem?
Será que alguma vez a avaliação da capacidade intelectual pode prescindir das
experiências dos indivíduos? Não afetaremos os processos cognitivos
avaliados ao pretendermos avaliá-los através de tarefas libertas dos
conhecimentos culturais?
Os testes de inteligência, segundo alguns, seriam apenas fiéis e válidos
para indivíduos da etnia branca e escolarizada (Williams, 1974). Com efeito, os
sujeitos da etnia branca e escolarizada estão mais freqüentemente em contato
com as atividades culturais, de resolução de problemas e de leitura e escrita
que compõem as tarefas dos testes. Os testes cujos itens se aproximam ou
refletem os conhecimentos e a experiência escolar não são socialmente
neutros, pois tais aspectos não se encontram igualmente distribuídos. Os ¡tens
verbais são aqueles mais facilmente afetados. Jensen (1980, p.637) acrescenta
que os testes papel-lápis, requerendo a leitura, respostas escritas, velocidade,
conteúdo verbal e evocação de informação antes aprendida são mais
facilmente influenciados pelos aspectos culturais que, comparativamente, os
testes de realização, figurativos, respostas orais, conteúdo não-verbal, potência
e resolução de problemas. As implicações decorrentes destas considerações
podem assumir alguma gravidade. O valor inquestionável dos testes pode
perpetuar medidas socialmente discriminatórias. Os professores podem tender
a explicar o baixo rendimento dalguns grupos de alunos tomando como
referência o seu baixo desempenho em testes de Ql (cooling out - Mercer,
1973). Ao mesmo tempo, a constatação de que
certos grupos são superiores e outros inferiores nos testes de inteligência
pode sugerir uma determinação genética para tais diferenças (Jensen,
1969; Hernstein, 1971) e, em boa verdade, alguns setores da população
pensam dessa forma. A questão da universalidade da medida e da com-
parabilidade interindividual dos resultados em testes de inteligência
merece, no mínimo, maiores cuidados nas inferências e nas conclusões
que os psicólogos produzem neste domínio.
A fidelidade e a validade dos resultados nos testes
Sem desmerecer o mérito e o rigor dos argumentos por detrás da
controvérsia social antes apontada, mencionaremos agora alguns pontos
que mais de perto parecem decorrer do estatuto "científico" da própria
avaliação. Em primeiro lugar, é difícil assegurarmos que se avalia algo, ou
convencer disso alguém, quando o próprio objeto da avaliação não se
encontra ainda perfeitamente definido. Pelos menos em parte, esta é a
situação ou a verdade a propósito da inteligência. Aliás, em algum
momento avança-se num determinado sentido e mais tarde retoma-se o
que havia sido abandonado. Como exemplo, volta-se hoje a reativar o
interesse, já presente no começo do século, pela medida da inteligência
tomando indicadores de natureza fisiológica (tempos de reação, potenciais
evocados, condutibilidade elétrica da pele, etc). Por outras palavras,
parece-nos que os testes serão sempre medidas possíveis da inteligência,
mas nunca — pelo menos neste momento — "as medidas da inteligência".
A falta de uma definição clara e precisa de inteligência, capaz de
reunir o consenso dos investigadores e estimular a produção de indicado-
res mais universais da inteligência, explica porque alguns investigadores
e profissionais do terreno não se identificam com o tipo de testes exis-
tentes atualmente (cf. Sternberg, 1991); em sua opinião, os testes
existentes valorizam determinados aspectos e não outros do desempenho
cognitivo. Por exemplo, dão pouca atenção aos estilos cognitivos, à
criatividade, às interfaces com o conhecimento dos indivíduos, às suas
expectativas ou aos aspectos sócio-relacionais, favorecendo uma lógica
"intelectiva" (Roazzi, Spinillo, Almeida, 1991).
Em nossa modesta opinião, a busca de estandardização e objeti-
vidade no material do teste (formato e conteúdo dos itens, procedimentos
de resposta, tempo de execução, parâmetros de cotação, por exemplo)
terão justificado um "artificialismo" nas situações apresentadas e na
própria execução que, certamente, impede a todos os sujeitos a expres-
são das suas reais capacidades e, muito menos, a sua avaliação de uma
forma mais compreensiva — por exemplo, como se organizam, funcionam
ou manifestam nas situações concretas. Se alguns sujeitos se adaptam
com facilidade às novas tarefas, ou mesmo ao "jogo" que se propõe,
outros existem que apenas parcialmente se envolvem. Mais uma vez
defendemos o teste como um instrumento ou meio de avaliação, e não
corno a avaliação no seu todo ou forma exclusiva de recolha da infor-
mação sobre a capacidade e o funcionamento cognitivo dos indivíduos.
É interessante assinalar que este "artificialismo" foi várias vezes
justificado, quer para assegurar a objetividade da medida, quer para
assegurar a sua própria neutralidade social. Procurou-se através dele
diminuir o impacto das variáveis sócio-culturais e das experiências
educativas na avaliação, seja de uma "inteligência pura", seja das
diferenças interindividuais. Mais uma vez, aceitando-se a inteligência —
pelo menos parcialmente — como um produto da socialização dos
indivíduos, tal artificialismo deixa de ter sentido, pois, inclusive, dificulta
a medida da inteligência na sua essência. Quando falamos no
artificialismo dos itens nós estamos de algum modo a criticar a falta de
ligação imediata entre o conteúdo, o formato e a linearidade dos
processos subjacentes aos itens nos testes e conhecimentos anteriores
ou as tarefas quotidianas dos indivíduos. Por norma, as tarefas nos
testes são breves, simples e de execução linear, o que não
corresponde à realidade quotidiana (Sternberg, 1985, p.30). Resta
saber se, sendo isso necessário por razões de objetividade e de
economia de recursos na avaliação, tais itens se constituem como
elementos básicos (validade de conteúdo) e como bons indicadores
(generalização) do desempenho habitual, ou se isso se aplica da
mesma forma a todo e qualquer sujeito (universalidade). Aliás, o próprio
"artificialismo" — veja-se a forte componente "abstrata" e "racional" dos
itens — pode mais facilmente fazer parte das experiências de crianças
e adultos da classe média, das sociedades mais industrializadas e
escolarizadas.
Um outro aspecto prende-se com a melhoria dos desempenhos nos
testes de inteligência com o treino ou a sua realização repetidas vezes.
Para além de se questionar os ganhos daí decorrentes em face das defi-
nições de inteligência algumas vezes avançadas — por exemplo, a sua
estabilidade e a sua independência em face da aprendizagem ou conhe-
cimentos específicos —, podemos afirmar que tais ganhos afetam, no
mínimo, ou a objetividade ou a validade dos resultados obtidos. A partir
das instruções, os exemplos ou os exercícios de treino que são incluídos
em cada teste deveriam, por norma, possibilitar a cada indivíduo a apren-
dizagem requerida para o desempenho de modo a este traduzir a sua
"potência" (capacidade possuída). A melhoria verificada nos resultados
com a repetição da realização de um teste, que não nos parece difícil de
compreender ou explicar, questiona no imediato a idéia de que todos
estejam à partida em igualdade de condições e, no final, sejam as dife-
renças observadas apenas interpretadas como refletindo diferenças reais
nos níveis de capacidade possuída. Mais complicado, ainda, a relação que
alguns estudos defendem entre as expectativas e as atribuições causais
dos indivíduos (mais do foro sócio-motivacional) e os seus resultados nos
testes. Apesar da natureza essencialmente "intelectiva" destes testes, os
resultados refletem também outras facetas dos indivíduos, ou seja, o impacto
de variáveis mais ligadas à motivação e à personalidade (Barros, Almeida,
1991).
Outras dificuldades podem apontar-se, nomeadamente quanto à forma
como são usados os testes. Algumas vezes eles não se encontram
convenientemente adaptados e aferidos para os grupos populacionais onde
aparecem usados, quer ao nível da investigação, quer da prática psicológica.
Muitas vezes acaba-se por não respeitar nem atender às especificidades
lingüísticas e culturais dos indivíduos (Reschly, 1981). Claro está que aqui o
problema pode ser tido como anterior ao teste. Contudo também é verdade que
alguns estudos sobre a validade preditiva dos testes partiram da formação
prévia de grupos contrastantes de sujeitos. Por exemplo, em muitos trabalhos e
na prática psicológica, a avaliação, por norma, ocorre já quando um problema
de comportamento ou quando uma deficiência cognitiva se encontra
identificada. Nessa altura não é difícil encontrar correlações mais ou menos
elevadas entre os dois tipos de ocorrências. Em tais estudos, mais que estudar
o poder prognóstico dos testes, reforça-se o sentido de diagnóstico do uso dos
testes como se a ciência psicológica se resumisse, ou socialmente se justifi-
casse, por essas atividades.
Finalmente, as condições do testing são diversas e decisivas para os
resultados, e uma avaliação minimamente consciente requer uma
individualização da informação. Esta individualização mostra-se particularmente
importante em avaliações através de testes coletivos, pois que pouca
informação o psicólogo pode obter a propósito das justificações e dos
processos usados pelo sujeito nas suas respostas. Importa uma avaliação que
permita uma imagem compreensiva e funcional do sujeito, o que em boa
verdade nem sempre acontece na avaliação tradicional. Indivíduos com ótimos
resultados nos testes nem sempre se apresentam socialmente eficientes, ao
mesmo tempo que outros diagnosticados como "limítrofes" (entre a normalidade
e a deficiência) se manifestam gênios em algumas áreas científicas e culturais.
Algumas tentativas existem para esta avaliação compreensiva, mas são ainda
mais a exceção do que a regra.
Uma das propostas mais conhecidas para uma avaliação abrangente e
individualizante da inteligência é o programa System of Multicultural Pluralistic
Assessment (SOMPA), de Mercer e Lewis (1978). O SOMPA destina-se a
crianças entre os 5 e os 11 anos e integra a informação decorrente da 1)
aplicação da escala WISC-R com a informação obtida através de 2) entrevistas
aos pais, da 3) entrevista individual à criança, da 4) sua história médica, da 5)
sua avaliação sensório-motora e perceptiva e da 6) aplicação de um Inventário
de Comportamentos Adaptativos para Crianças. A informação referente ao
background sócio-econômico deve
entrar numa equação de regressão para transformar o score de Ql
(WISC-R) num score standard reportado como Potencial de Aprendiza-
gem Estimado (Estimated Learning Potential — ELP). A vantagem do
SOMPA (dito programa de avaliação compreensiva da inteligência),
segundo o seu próprio autor (Mercer, 1973; 1978), é o de permitir uma
interpretação diferente para os scores obtidos (não a predição do sucesso
esperado no futuro, mas o proveito que a criança poderá fazer das situa-
ções de aprendizagem que atendam ao seu contexto sócio-cultural) e o
de não associar ao "estigma da deficiência" as percepções de incapaci-
dade, dadas as conseqüências sociais e psicológicas nefastas que daí
decorrem.
ALTERAÇÕES PREVISÍVEIS NA AVALIAÇÃO DA INTELIGÊNCIA
Algumas alterações são previsíveis, e em parte vão já sendo reali-
dade, no que toca à avaliação da inteligência. Outras podem ter-se, para
já como desejáveis num futuro próximo, em face da pertinência das críti-
cas formuladas aos testes tradicionais de inteligência.
Uma primeira alteração podemos aqui tomá-la como esforço de
maior pormenorização. Este esforço pode situar-se em diferentes níveis
— por exemplo, tentando-se decompor conceitos clássicos de inteligência
(aptidão verbal, quociente de inteligência, raciocínio) nos seus elementos
processuais mais básicos e, com isto, não só "purificar" o teste como
também o significado da sua informação. Um outro enfoque da pormenori-
zação passa pelo maior interesse na análise intra-individual do desempe-
nho no teste, em alternativa a uma apreciação reportada exclusivamente
a normas de grupo (Perlman, Kaufman, 1990), sendo previsível o apareci-
mento de um maior número de provas referenciadas a critério (criterion-
referenced tests). Este esforço de maior pormenorização permite antever
uma informação qualitativamente superior, pois integra e atende aos
processos cognitivos utilizados pelos sujeitos na obtenção dos seus
scores globais, ao mesmo tempo que permite contextualizar essa infor-
mação nas experiências educativas, nos procedimentos de resolução de
problemas ou nas estratégias e estilos cognitivos do sujeito em causa.
Uma segunda alteração prende-se com o alvo da avaliação. Aqui
algumas mudanças parecem ser desejáveis, por exemplo uma valorização
progressiva das capacidades e dos aspectos cognitivos mais diretamente
ligados às aprendizagens e ao conhecimento, em desproveito de uma
avaliação fortemente orientada para aptidão mental ou intelectual pura
(Horn, 1979; Resnick, 1979; Sattler, 1988). Neste mesmo sentido vão as
preocupações com avaliações intelectuais mais compreensivas, por
exemplo integrando na avaliação da inteligência componentes não
estritamente cognitivas (autoconceito, auto-eficácia, expectativas de
sucesso ou de fracasso), aliás, também não exclusivamente centradas
nas aprendizagens curriculares (experiências e conhecimentos quotidia-
nos). Espera-se que daqui possa resultar uma melhor compreensão
quanto às formas habituais de adaptação e de resolução de problemas no
quotidiano pessoal (Perlman, Kaufman, 1990).
Em terceiro lugar, a avaliação da inteligência deverá passar a incluir
aspectos mais dinâmicos do próprio exercício e funcionamento cognitivo.
Referimo-nos, por exemplo, aos estilos cognitivos ou às estratégias de
processamento da informação ou, por outras palavras, não apenas e não
tanto ao "quanto se é inteligente", mas ao "como se funciona cognitiva-
mente". O teste K-ABC atende já a esta preocupação ao incluir provas
para avaliação do processamento seqüencial e simultâneo de informação.
Julgamos que este ponto de novo nos remete para a possível discrepân-
cia entre capacidade ou capacidades possuídas e desempenho manifesto
nos testes e para a possibilidade dessa discrepância estar parcialmente
associada aos procedimentos resolutivos menos adequados usados pelos
sujeitos nas tarefas (cf. o conceito de "zona do desenvolvimento proximal"
introduzido por Vygotsky, 1978).
Por último, o futuro da avaliação da inteligência deverá passar pelo
impacto dos desenvolvimentos teóricos que hoje se estão a operar no
campo da cognição (Lindemann, Matarazzo, 1990; Sternberg, 1991),
nomeadamente os estudos experimentais no quadro da teoria do proces-
samento da informação, a simulação dos processos mentais através do
computador (ou o mero uso do computador na avaliação) e os estudos em
psicofisiologia (compreensão dos fatores neurológicos, bioquímicos e
fisiológicos relacionados com a atividade inteligente). Em primeiro lugar,
os avanços registrados no campo da informática e da tecnologia em geral
estão a ter algum impacto nas formas habituais de avaliação da inteligên-
cia. Se num primeiro momento apenas a escorização era feita de uma
forma mecânica e rápida através destes meios, hoje a própria aplicação,
organização de itens e elaboração de relatórios-síntese aparecem
realizados através do computador. Potenciais vantagens deste procedi-
mento têm a ver com 1) um conhecimento mais apurado das respostas
aos itens isolados (tempo de latência, por exemplo), o que não é possível
em testes coletivos papel-lápis, 2) uma aplicação mais de acordo com as
reais características e capacidades dos sujeitos (eliminação dos itens
anteriores (Weiss, Davidson, 1981) e 3) um menor tempo, menor custo e
maior objetividade que daí podemos retirar. Evidentemente que estas
vantagens não são absolutas. Importa verificar e controlar o uso, só por
si, do computador. A familiaridade e a relação estabelecida com a
máquina e o teste podem influenciar o desempenho, embora pareça já
haver alguma informação de que em relação aos testes coletivos não se
verifica uma perda significativa na acuidade dos resultados (Murphy,
Davidshofer, 1988). Importa que os ganhos daí decorrentes em termos de
recursos humanos e materiais envolvidos não se convertam em perda de
informação do testing e, conseqüentemente, do próprio sentido e relevân-
cia da avaliação psicológica (Perlman, Kaufman, 1990), muito embora
tenhamos também que reconhecer — e isto infelizmente — que nem toda
a avaliação anterior da inteligência atendia e integrava a diversidade de
informações relativas à situação de teste.
Finalmente, os trabalhos experimentais analisando as correlações
entre a inteligência e as tarefas cognitivas básicas, já muito próximas do
substrato neurológico, permanecem ainda envoltos em grandes dúvidas
quanto ao seu contributo efetivo para a avaliação da inteligência (Stern-
berg, 1991). Muito embora nas duas últimas décadas seja substancial o
volume de investigações nesta área e se possa pensar que ultrapassamos
já a falta de rigor nas medidas de Galton (Ceci, 1990), certo que é ainda
bastante cedo para se concordar com autores que tomam os tempos de
reação e outros indicadores básicos do processamento da informação
como uma das medidas mais válidas e culturalmente neutras da inteligên-
cia (Eysenck, 1982).
CONCLUSÃO
Uma posição relativistica e crítica em relação aos testes justifica-se
no presente, até para defesa dos próprios testes e do seu valor na prática
psicológica. Diríamos que, olhando pelo prisma das suas características
métricas, os testes de inteligência, sem se poderem tomar como rigorosos
a 100%, garantem confiança e ajudam a tomar decisões. A margem de
erro nas estimativas e nas decisões é menor com o seu uso do que sem
ele. Evidentemente que esta margem de erro aumenta quanto mais pró-
ximo de um indivíduo — caso individual — se situarem a avaliação e as
decisões. Ela é menor quando nos reportamos a grupos e particularmente
a grandes grupos.
Reportando-nos aos testes mais referenciados na bibliografia ou
usados na prática para avaliar as características intelectuais dos indi-
víduos, podemos afirmar que eles apresentam resultados satisfatórios em
termos da sua fidelidade e validade. De um modo geral, os coeficientes de
fidelidade assentes na estabilidade dos resultados e na consistência
interna dos itens atingem valores acima de .75 e de .85, respectivamente.
Alguma estabilidade de desempenho parece verificar-se ao longo da
idade dos indivíduos, pelo menos entre a infância e o início da idade
adulta (Rees, Palmer, 1970; Harnqvist, 1968; Wechsler, 1958; Matarazzo,
1972). Em vários estudos longitudinais se verificou, desde idades bastante
precoces, uma relativa estabilidade nas medidas tradicionais do Ql,
nomeadamente já a partir dos 18/24 meses de idade (Bayley, 1949;
Bradway, Robinson, 1961).
No nível da validade, podemos afirmar que os coeficientes de
validade empírica e os parâmetros apreciativos da validade de conceito
ou de construto ajustam-se também aos objetivos da avaliação psicoló-
gica prosseguidos em cada teste. Os testes de inteligência são ainda hoje
medidas preditivas do sucesso do indivíduo na escola, no trabalho ou na
vida social. Não dispomos, pelo menos até o presente, de substitutos
adequados para os testes de inteligência quando o objetivo da avaliação
psicológica se situa no conhecimento do nível e capacidade de funciona-
mento mental ou na predição do seu desempenho posterior. Claro está
que, retomando algumas das críticas feitas aos testes, podemos estar aqui
a tomar informação redundante. Por um lado, porque são tomados certos
indicadores e não outros do sucesso e do fracasso em termos escolares
e profissionais. Por outro, é previsível que os resultados nos testes se
correlacionem com os desempenhos escolares na medida em que as
tarefas apresentadas nos testes são similares às aprendizagens e ativi-
dades curriculares (Detterman, 1979). Isto não impede o valor informativo
do teste e dos resultados obtidos em termos de diagnóstico e de previsão,
mesmo que aceitemos quão bom seria se também o teste permitisse uma
informação prescritiva, ou seja, dar informações relevantes para orientar
a educação, o ensino e a aprendizagem (Perlman, Kaufman, 1990).
Os comentários produzidos em relação à fidelidade e à validade dos
resultados nos testes não retiram a pertinência das críticas feitas ao
método dos testes, nem tampouco podem significar que tudo está bem
como está ou que tudo, desde que relativizado, fica resolvido. Vários pro-
blemas subsistem na prática. A generalização de resultados de amostras
para subgrupos ou destes para os indivíduos singulares oferece particula-
res dificuldades, mesmo do ponto de vista deontológico. Por tudo isto,
importa melhorar a qualidade dos instrumentos, cuidar do seu uso e
precisar a interpretação dos seus resultados. Julgamos que as críticas
jogam aí um importante papel pelo impacto que podem causar nos cons-
trutores e nos aplicadores dos testes.
Apesar das críticas, os testes permanecem apreciados e utilizados;
não sendo perfeitos, oferecem no entanto maiores garantias e validade às
decisões que se não existissem ou comparativamente a outras fontes
alternativas de informação. Por exemplo, quando em alguns estados
americanos os testes de inteligência foram substituídos por testes mais
ligados ao rendimento da criança, uma maior percentagem de crianças
provenientes das minorias étnicas continuaram a ser encaminhadas para
os centros de educação especial (Vane, Motta, 1990). Informação acumu-
lada em relação ao Ql ou a outras medidas do desempenho cognitivo
atestam que quem melhor realiza tais provas também obtém melhor ren-
dimento noutros contextos de vida (Carroll, Horn, 1981).
Concomitantemente às críticas e à defesa dos testes, podemos
também colocar o interesse com o estudo das diferenças individuais. Por
norma, um e outro aspecto andam juntos quando se referem às vantagens
e às desvantagens da sua consideração na Psicologia. Mais uma vez
parece-nos ser interessante para a prática psicológica o estudo das
diferenças individuais. Para além dos aspectos comparativos daí
decorrentes, e que nalgumas situações da prática psicológica são
decisivos, mesmo nas relações de ajuda e de educação, o conhecimento
de tais diferenças podem significar maior individualização. Atenda-se, por
exemplo, ao paradigma aptitude and treatment interactions (ATI) e às suas
aplicações no contexto escolar (Cronbach, Snow, 1977). Claro está que
pretendemos aqui interligar "diferenças individuais" ao "esforço de
individualização", o que nem sempre terá ocorrido. A este propósito
podemos referir alguns desenvolvimentos na avaliação da inteligência
decorrentes da aplicação dos conceitos de "zona de desenvolvimento
proximal" (Vygotsky, 1978) e de "potencial de aprendizagem" (Feuerstein,
1979). O que está aqui em causa é sobretudo uma perspectiva dinâmica
de avaliação, onde o avaliador interage, questiona, dirige e instrui o
desempenho da criança, acreditando-se que, desta forma, se fica a
conhecer melhor o seu funcionamento cognitivo e a discrepância entre a
sua capacidade desenvolvida e a sua capacidade latente.
Este "esforço de individualização" é também decisivo numa avali-
ação psicológica, quando bem feita. A questão da falta de atenção ao
indivíduo e ao seu contexto no testing é decisiva na avaliação psicológica,
cabendo ao profissional zelar pela sua superação. A questão da "validade
ecológica" pode melhor ser atendida se o psicólogo considera situações-
problema como fonte dos testes. Também particularizando no caso da
avaliação da inteligência, esta não pode ser reduzida à aplicação e
escorização de um teste. Aliás, por mais perfeito que seja o teste, ou
mesmo que se melhore a sua fidelidade e validade, certo que isso não
torna o seu uso mais automático. O seu valor é sempre instrumental, e —
como o nome indica — tudo depende da competência de quem o usa.
Esse alguém deve ser melhor que os testes que usa (Kaufman, 1982, p. 13).
Na avaliação psicológica, a precisão do instrumento não dispensa
a finura da intuição (Zazzo et al., 1978). O tomar apenas os testes ou seus
resultados, por maior objetividade que detenham, não só é insuficiente
como pode induzir-nos a erros. A par dos testes, importa considerar
informação relativa a conhecimentos, atitudes e aptidões, por outras
palavras, uma avaliação geral da competência (Sundberg, Snowden,
Reynolds, 1978). Como refere Zazzo e colaboradores, "é preciso abando-
nar a idéia de que um processo se pode tornar tão preciso que possa ser
confiado ao primeiro que surja; todo o processo científico não é mais que
um instrumento que exige utilização por uma mão inteligente" (Zazzo et
al., 1978, p.156). Isto tem sido, aliás, designado por intelligent testing
(Kaufman, 1982; Wesman, 1968), se quisermos o uso inteligente dos testes
de inteligência. As deficiências dos testes não colocam em causa a sua
utilização, contudo obrigam-nos a considerá-las quer na interpretação
dos valores recolhidos quer na busca de informação complementar
através de outros meios. Talvez por isso se justifique, e cada vez mais, a
formação dos psicólogos na área da avaliação.
REFERÊNCIAS BIBLIOGRÁFICAS
ALMEIDA. L.S. Teorias da inteligência. Porto: Ed. Jornal de Psicologia, 1088.
ANASTASI, A. Evolving concepts of test validation. Annual Review of Psychology, v.37, p.
1-15, 1986.
---------------- . Psychological testing. New York: Macmillan, 1988.
BARROS. A.M.. ALMEIDA, L.S. Dimensões sócio-cognitivas do desempenho escolar. In:
ALMEIDA. L.S. (Ed.). Cognição e aprendizagem escolar. Porto: Associação dos Psicó-
logos Portugueses, 1991.
BAYLEY, N. Consistency and variability in the growth of intelligence from birth to eighteen
years. Journal of Genetic Psychology, Provincetown (MA), v.75, p.165-196, 1949.
BINET. A.. SIMON, T. Méthodes nouvelles pour le dignostic du niveau intellectuel des anor-
maux. L'Année Psychologique, Paris, v.ll, p.191-244, 1905.
BRADWAY. K.P., ROBINSON. N.M. Significant IQ changes in twenty-five years: afollow-up.
Journal of Educational Psychology. Washington. DC, v.49, p.278-281, 1961.
CARROLL. J.B., HORN, J.L. On the scientific basis of ability testing. American Psychologist,
Washington, D.C., v.36, p.1012-1020, 1981.
CATTELL. R.B. Abilities, their structure, growth, and action. Boston (MA): Houghton Mifflin,
1971.
---------------- . Cattell culture fair intelligence tests. Champaign (IL): Institute for Personality and
Ability Testing, 1973.
CECI, S.J. On intelligence... more or less: a bioecological treatise on intellectual development.
Englewood Cliffs (NJ): Prentice-Hall, 1990.
CRONBACH. L.J. Review of the BITCH Test Eighth Mental Measurements Yearbook. Highland
Park (NJ): Gryphon, 1978. v.1.
CRONBACH, L.J.. SNOW. R.E. Aptitudes and instructional methods-, an handbook for re-
search on interactions. New York: Irvington, 1977.
CRUZ. OR, ALMEIDA. L.S.. RIBEIRO, I.S. Avaliação psicológica e utilização dos testes em
Portugal: comportamentos e atitudes dos psicólogos. In: ALMEIDA, L.S., RIBEIRO, I.S.
(Eds.). Avaliação psicológica: formas e contextos. Braga: Associação dos Psicólogos
Portugueses, 1993.
DETTERMAN, D.K. A job half done: the road to intelligence testing in the year 2000. In:
STERNBERG. R.J., DETTERMAN, D.K. (Eds.). Human intelligence. Norwood (NJ): Ablex,
1979.
EELS. K. et al. Intelligence and cultural differences. Chicago (IL): Univ. Chicago Press, 1951.
EYSENCK. H.J. A model for intelligence. New York: Springer, 1982.
FEUERSTEIN, R. The dynamic assessment of retarded performers, the learning potential
assessment device, theory, instruments, and techniques. Baltimore (MD): Univ. Park
Press. 1979.
GUILFORD, J.P. Cognitive psychology's ambiguities: some suggested remedies. Psychological
Review, Washington, D.C., v.89, p.4ª-59, 1982.
------------------. Three faces of intellect. American Psychologist. Washington, D.C., v. 14. p.469-
479. 1959.
HARNQVIST, K. Relative changes in intelligence from 13 to 18. Scandinavian Journal of Psychology,
Stockholm, v.9, p.50-82, 1968.
HERNSTEIN, R. IQ. Atlantic-Monthly, Boston (MA), p.43-64, Sept. 1971.
HORN. J.L. Trends in the measurement of intelligence. In: STERNBERG, R. J., DETTERMAN, D.K.
(Eds.). Human intelligence. Norwood (NJ): Ablex, 1979.
JACKSON, D.A. Multidimensional aptitude battery (MAB): manual. Port Huron (Ml): Research
Psychologists Press, 1984.
JACKSON, G. On the report of the ad hoc committee on educational uses of tests with disadvantaged
students. American Psychologist. Washington, D.C.. v.30. p.88-92. 1975.
JENSEN, A.R. Bias in mental tests. New York: Free Press, 1980.
------------------. How much can we boost IQ and scholastic achievement? Harvard Educational
Review, Cambridge (MA), v.39, p.1-123. 1969.
------------------. Straight talk about mental tests. London: Methuen, 1981.
JONES, R., WILDERSON, F. Mainstreaming and the minority child: an overview of issues and a
perspective. In: JONES, R. (Ed.). Mainstreaming and the minority child. Reston (VA): Council for
Exceptional Children, 1976.
KAUFMAN, A.S. Psicometria razonada con el WISC-R. México: Manual Moderno, 1982.
LABOV, W. The logic of nonstandard English. In: WILLIAMS, F. (Ed.). Language and poverty. Chicago
(IL): Markham. 1970.
LINDEMANN, J.E., MATARAZZO, J.D. Assessment of adult intelligence. In: GOLDSTEIN, G,
HERSEN. M. (Eds.). Handbook of psychological assessment. New York: Pergamon, 1990.
MATARAZZO, J.D. Wechsler's measurement and appraisal of adult intelligence. Baltimore (MD):
Williams and Wilkins, 1972.
MATARAZZO, J.D. WIENS. A.N. Black intelligence test of cultural homogeneity and Wechsler adult
intelligence scale scores of black and white police applicants. Journal of Applied Psychology,
Washington, D.C., v.62, p.57-63, 1977.
MERCER, J.R. Labeling the mentally retarded. Berkeley (CA): Univ. California Press, 1973.
------------------. Theoretical constructs of adaptive behavior: movement from a medical to a
social-ecological perspective. In: COULTER, W.A., MORROW, H.W. (Eds.). Adaptive behavior,
concepts and measurements. Orlando (FL): Grune and Stratton, 1978.
MERCER, J.R., LEWIS, J.R. System of multicultural pluralistic assessment (SOMPA). San Antonio
(TX): Psychological Corporation, 1978.
MURPHY, K.R., DAVIDSHOFER, CO. Psychological testing-, principles and applications. [S.I.]:
Prentice-Hall. 1988.
OAKLAND, T.. HU, S. The top 10 tests used with children and youth worldwide. Bulletin of the
International Test Commission, v.19, n.l, p.99-120, 1992.
PERLMAN. M.D.. KAUFMAN. A.S. Assessment of child intelligence. In: GOLDSTEIN, G„ HERSEN, M.
(Eds.), Handbook of psychological assessment. New York: Pergamon, 1990.
PINTNER, R. Intelligence testing. New York: Henry Holt, 1923.
RAVEN, J.C. Manual for Raven's progressive matrices and Mill Hill vocabulary scales. London:
H. K. Lewis, 1981.
------------------ . Standardization of progressive matrices. British Journal of Medical Psychology,
Leicester, v.19, p.137-150, 1941.
RAVEN, J.C., COURT, J.H., RAVEN, J. Manual for Raven's progressive matrices and scales:
standard progressive matrices. London: H. K. Lewis, 1985.
REES, A.H., PALMER, F.H. Factors related to change in mental test performance. Developmental
Psychology Monographs, v.3, n.2, 1970.
RESCHLY, D.J. Aptitude tests in educational classification and placement. In: GOLDSTEIN, G.,
HERSEN, M. (Eds.). Handbook of psychological assessment. New York: Pergamon, 1990.
------------------ . Evaluation of the effects of SOMPA Measures on classification of students as
mildly retarded. American Journal on Mental Deficiency, v.86, p.16-20, 1981.
RESNICK, LB. The future of IQ testing in education. In: STERNBERG. R.J., DETTERMAN. D.K.
(Eds.). Human intelligence. Norwood (NJ): Ablex, 1979.
ROAZZI, A., SPINILLO. A.G., ALMEIDA, L.S. Definição e avaliação da inteligência: limites e
perspectivas. In: ALMEIDA, L.S. (Ed.). Cognição e aprendizagem escolar. Porto:
Associação dos Psicólogos Portugueses, 1991.
ROSENTHAL. R.. JACOBSON. L. Pygmalion in the classroom. New York: Holt, Rinehart and
Wiston, 1968.
SATTLER, J.M. Age effects on Wechsler adult intelligence scale-revised tests. Journal of
Consulting and Clinical Psychology. Washington. D.C.. v.SO, p.785-786. 1982.
------------------ . Assessment of children. San Diego (CA): Jerome M. Sattler. 1988.
SPEARMAN, C. The abilities of man. New York: Macmillan, 1927.
STERNBERG, R.J. Beyond IO: a triarchic theory of human intelligence. Cambridge: Cambridge
University Press, 1985.
------------------ . Death, taxes, and bad intelligence tests. Intelligence, Norwood (NJ), v. 15, p.257-
269. 1991.
SUNDBERG, N.D., SNOWDEN, L.R., REYNOLDS, W.M. Toward assessment of personal
competence and incompetence in life situations. Annual Review of Psychology, v.29, p.179-
221.1978.
TERMAN, L.M. The measurement of intelligence. Boston (MA): Houghton Mifflin, 1916.
TERMAN, L.M., MERRILL, M.A. Stanford-Binet intelligence sca/e.3.ed.rev. Boston (MA):
Houghton Mifflin, 1960.
------------------ . Stanford-Binet intelligence scale. Boston (MA): Houghton Mifflin, 1973.
THORNDIKE, R.L, HAGEN, E.P., SATTLER, J.M. Stanford-Binet intelligence scale. 4.ed. Chigago
(IL): Riverside, 1986.
THURSTONE, L.L Primary mental abilities. Chicago (IL): Univ. Chicago Press, 1938.
TYLER, L.E. Individuality, human possibilities and personal choice in the psychological de-
velopment of men and women. San Francisco (CA): Jossey-Bass, 1981.
VANE. J.R.. MOTTA. R.W. Group intelligence tests. In: GOLDSTEIN, G., HERSEN, M. (Eds.).
Handbook of psychological assessment. New York: Pergamon, 1990.
VERNON, P.E. The structure of human abilities. London: Methuen, 1965.
VYGOTSKY. L.S. Mind in society, the development of higher psychological process. Cambridge
(MA): Harvard University Press, 1978.
WECHSLER, D. Cognitive, conative, and non-intellective intelligence. American Psychologist,
Washington, D.C., v. 15, p.78-83, 1950.
------------------ . The measurement and appraisal of adult intelligence. Baltimore (MD): Williams
and Wilkins, 1958.
------------------ . The measurement of adult intelligence scale. Baltimore (MD): Williams and
Wilkins, 1939 e 1944.
------------------ . Wechsler adult intelligence scale-revised. New York: Psychological Corporation,
1981.
. Wechsler intelligence scale for children-revised. New York: Psychological Corpora
tion. 1974.
WEISS, D.J.. DAVIDSON, M.L Test theory and methods. Annual Review ofPsychology.*.32, p.629-
658, 1981.
WESMAN, AG. Intelligenttesting. American Psychologist, Washington, D.C., v.36. p. 112-113, 1968.
WIGDOR, A.K.. GARNER, W.R. Ability testing: uses, consequences, and controversies.
Washington, D.C.: National Academy Press, 1982.
WILLIAMS, R.L The BITCH test. St. Louis (MO): Black Studies Program. Washington University,
1972.
------------------ . Danger: testing and dehumanizing the black child. Clinical Child Psychology
Newsletter, v.9, p.5-6, 1970.
------------------ . The problem of match and mismatch in testing black children. In: MILLER, L.
(Ed.). The testing of black students: a symposium. Englewood Cliffs (NJ): Prentice-Hall, 1974.
ZAZZO. R., GILLY M.. VERBA-RAD. M. Nouvelle échelle métrique de l'intelligence. Paris: Armand
Colin, 1966.
------------------ . Nova escala métrica da inteligencia. Lisboa: Livros Horizonte, 1978. v.1.
CAPITULO 9
LA MEDICIÓN DE LA ORGANIZACIÓN LOGICA
DEL PENSAMIENTO
Alfredo O. López Alonso
Universidad del Salvador
Buenos Aires. Argentina
uestra intención de medir la organización lògica del pensamiento
puede remontarse al año 1979 cuando desarrollamos por primera
vez el Test de Coherencia de Razonamiento, al que
abreviadamente designaremos TCR. En aquellos momentos no éramos
todavía conscientes — ni siquiera sospechábamos — de que con ese
instrumento, creado expresamente para medir lo que su misma
denominación indica — la coherencia — íbamos a poder evaluar más
adelante un aspecto más amplio y complejo del pensamiento, como es
su organización lógica.
Estábamos recién adentrándonos en nuestras investigaciones sobre
procesos cognitivos e inferenciales, y hasta entonces el TCR era sólo un
método de exploración. Teníamos una idea aún incompleta de lo que el
test podía medir. Pero, si bien no estaba aún dentro de nuestras especu-
laciones la idea de medir la organización lógica del pensamiento, ésta fue
una consecuencia directa y necesaria de los resultados que luego
obtuvimos con ese instrumento.
Se dio de algún modo un ejemplo de lo que suele llamarse seren-
dipity, pues un recurso metodológico como un test — generalmente
producto de una teoría previamente elaborada — sirvió inesperadamente
no sólo para ampliar esa teoría de base, sino también para generar una
nueva teoría sobre un tópico prácticamente desconocido.
En síntesis, el TCR fue el factor de unión y generación entre una
teoría previa sobre procesos de razonamiento y una teoría consecuente
sobre la organización lógica del pensamiento.
Antes de pasar a detallar qué clase de instrumento es en sí el TCR,
qué resultados brindó y qué otros aspectos del pensamiento permitió
explorar — objetivo de este trabajo — vamos a referirnos al contexto y fines
El autor agradece profundamente a la Profesora María Herminia del Rey y a la Analista
Programadora Viviana Nancy Agnoli, ambas de la Universidad del Salvador, por su valiosa
e insustituible colaboración en los aspectos técnicos informático-computacionales.
teóricos dentro de los cuales se creó y desarrolló — contexto y fines que
lo ligan ineludiblemente al estudio del pensamiento y la lógica.
RELACIONES ENTRE LOGICA. PENSAMIENTO Y PSICOLOGIA
La capacidad lógica de la mente humana ha sido siempre un tema
de gran atracción y discusión por el gran poder de racionalidad que
involucra y pone en juego.
Todo lo concerniente a esa capacidad despierta inmediatemente
preguntas sobre qué es la lógica, qué es el pensamiento y cuáles son las
relaciones entre una y otro. Y si a ello agregamos el supuesto de que
existe una organización lógica natural del pensamiento, entonces se nos
presenta el problema aun más complejo de cómo probar y definir esa
organización y qué importancia reviste para cualquier actividad humana.
Las relaciones entre lógica y pensamiento son en cierto sentido
paralelas a las de teoría y realidad; ambas están involucradas en toda
argumentación humana tendiente a servir de fundamento a una estrategia
probada de acción, toma de decisión o solución exitosa de problemas. De
allí, que en un nivel profundo de análisis esas relaciones adquieran un
carácter crucial.
En un libro clásico de enseñanza de la lógica, Francisco Romero y
Eugenio Pucciarelli (1947) sostenían que ineludiblemente toda inteligencia
dotada de una capacidad teórica tiene que sentirse atraída por la lógica,
y veían a ésta como una manera en que el pensamiento y la inteligencia
pueden comprenderse mejor a sí mismos. Aducían asimismo que los
principios lógicos siempre han remitido a las leyes del pensar y del
pensamiento — una asociación que se torna mucho más fuerte y explícita
a partir de Boole (1847, 1854), un profesor de matemáticas inglés conside-
rado el fundador de la lógica simbólica.
Boole desarrolló el álgebra de la lógica y del cálculo de clases como
categorías esenciales de los procesos humanos de razonamiento y
entendimiento. El primero de sus libros, The Mathematical Analysis of Logic
(de 1847), estuvo dedicado a un análisis matemático de la lógica y al
cálculo del razonamiento deductivo, y el segundo libro, An Investigation of
the Laws of Thought (de 1854), estuvo destinado a investigar las leyes del
pensamiento sobre las cuales él consideraba se fundaban las teorías
matemáticas de la lógica y la probabilidad.
Con el programa de Boole se inicia un cambio revolucionario en la
lógica y se aclaran mejor las relaciones entre ésta y el pensamiento. Para
Boole la lógica es un sistema formal, un cálculo capaz de recibir distintas
interpretaciones y cuya validez depende tan sólo de las leyes de combina-
ción de sus símbolos, cualquiera sea la interpretación que les demos. Su
propósito era investigar las leyes del pensamiento y formalizarlas como
tales. Inadvertidamente, éste era un propósito sumamente ambicioso que
luego dio lugar a ciertas confusiones e interpretaciones contrapuestas
sobre el tema, dado que algunos objetaron que Boole había confundido la
lógica con las leyes del pensamiento, en tanto que otros entendieron que
intentaba separarlas y aclarar su relación.
Uno de los investigadores actuales sobre el tema, Del Val (1977)
quién suscribe en favor de la segunda interpretación, ha sostenido que
"Boole fue, de hecho, capaz de separar la lógica de la psicología y de la
epistemología, cosa que no habían hecho sus antecesores" (Del Val,
1977, p.20).
De nuestra parte, entendemos que no es apropiado confundir o
identificar la lógica con las leyes del pensamiento, porque si bien aquélla
surge como una formalización abstracta y explícita de las operaciones y
procesos inferenciales de éste, nunca llega a abarcarlo en todos sus
aspectos ni en toda su profundidad. Desde nuestro punto de vista, el
pensamiento es siempre mucho más de lo que puede ser una lógica
producto de aquél, ya que ésta sólo hará explícitos unos pocos de los
múltiples y complejos procesos inferenciales implícitos del pensamiento y,
por ello, dará solamente un "mapa somero" del mismo. De ahí que
consideramos que el programa de Boole, aunque revolucionario e
innovador para la lógica y su relación con el pensamiento, fue sumamente
ambicioso por la amplitud y complejidad de los procesos que intentaba
formalizar y sintetizar.
La lógica es una disciplina que vacía al pensamiento de sus
contenidos y los estudia en cuanto a sus formas y a la generalidad de las
mismas. Hace explícitas ciertas relaciones a fin de sustentar las razones
necesarias y/o suficientes que deben esgrimirse para aceptar o rechazar
concluyentemente la verdad o falsedad de unos argumentos — las conse-
cuencias — a partir de la verdad o falsedad de otros — las premisas. La
lógica, entonces, surge como una reflexión explícita sobre el proceso de
pensar, a efectos de abstraer y generalizar algunas de sus formas y
principios regulatorios, y justificar las conclusiones que se extraigan a
través de los mismos, pero sólo a partir de su forma y valor de verdad, no
de su contenido.
No obstante, la lógica no es una disciplina simple. Existe una lógica
general que constituye la doctrina fundamental de toda lógica, y lógicas
parciales y especializadas. Por ejemplo, junto a la lógica formal y asertiva
de los valores de verdad existen también las lógicas modales — a ambas
hemos de referirnos luego. Hay también una metalógica, desde que la
lógica se constituye y se fundamenta recursivamente sobre niveles
progresivos de abstracción y formalización y el más elevado de esos
niveles — el metalógico — provee los principios fundamentales y reglas
formales de todo lenguaje lógico. De este modo, la lógica se constituye
como ciencia, desligándose del pensamiento y de sus ataduras lingüísticas
y psicológicas, como también de sus bases ontológicas, filosóficas o
metafísicas, según se vea.
Si bien la lógica es un producto exclusivo del pensamiento, llega un
punto en el que se independiza de éste, y se convierte en una instancia
crítica, normativa, correctiva y evaluativa del mismo — dentro, por
supuesto, de ciertos límites y condiciones previamente estipuladas. Vista
de este modo, estimamos que la lógica cumple con un principio definido
por Wundt (1886, 1889) como principio de heterogénesls de los fines,
según el cual un proceso, producto de un sistema, se independiza de éste
(en este caso sería la lógica respecto al pensamiento) y después pasa a
constituirse en un factor externo de determinación y control del sistema
original.
Aunque bajo otra denominación, este principio fue también adoptado
por Vaihinger, filósofo positivista-idealista y biólogo pragmático, quién
escribió hacia 1876-1877 una obra denominada La Filosofía del Como Sí
en la cual explica cómo el conocimiento surge a base de una necesidad y
utilidad biológica de adaptación del individuo al medio, y pasa luego a
independizarse de la misma y a trascenderla.
De este modo, podemos esbozar como esquema a primera vista,
que la lógica, aunque surgida del pensamiento, se separa necesariamente
de éste como un producto explícito del mismo y pasa a regularlo externa-
mente, como un conjunto independiente de principios normativos y de
reglas de formación, transformación y control.
También se separa así la lógica de la psicología. Si bien la psicolo-
gía se encarga de los procesos de pensamiento en cuanto tales, la lógica
contribuye con la misma dando las formas, leyes y reglas de formación, y
sintaxis, como condiciones generales para interpretar y evaluar esos
procesos y sus productos.
La lógica contribuye así como una disciplina que puede establecer
y evaluar la validez y correción formal y la eficiencia de esos procesos,
pero sin explicarlos como tales. Por el contrario, su explicación como
procesos le corresponde a la psicología.
Las leyes de la lógica constituyen entonces principios reguladores
atemporales y de validez universal; atemporal¡dad y universalidad que
prueban de algún modo su independencia del pensamiento y de la
psicología, ya que éstos no gozan de esas mismas prerrogativas.
En síntesis, al pensamiento la lògica sólo lo justifica y valida formalmente
en su corrección; en tanto que, la psicologia no lo valida pero lo explica como
proceso, sea corredo o erròneo.
La reflexión sobre el pensamiento comenzó tempranamente entre los
filósofos de la antigüedad. En primer lugar, Sócrates dio un método de
autorreflexión, la "mayéutica", que nos permite darnos cuenta y hacer explícitos
contenidos implícitos y no advertidos de nuestro pensamiento, que al hacerlos
explícitos nos hacen reconocer nuestros errores y contradicciones.
Luego, Platón dio una doctrina de las ideas como entidades separadas
de la realidad sensible y una primera interpretación del conocimiento a priori
independiente de la experiencia. En tercer lugar, Aristóteles nos dio una doctrina
explícita del razonamiento basada en su forma y en su valor de verdad, pero
separada de su contenido o significado material; así como separó "materia" y
"forma" en la constitución de nuestros conceptos. Con esto se pasó del
pensamiento a la lógica.
Aunque Aristóteles utilizó el término "lógica" sólo como adjetivo, la primer
sistematización de la lógica le pertenece, según trabajos reunidos bajo el
nombre de Organon. El núcleo de su doctrina fue el "silogismo", término griego
que en distintas acepciones significa "cálculo, cuenta, recapacitación, raciocinio,
argumento demostrativo", en suma, "razonamiento" en sus aspectos más
explícitos y autorreflexivos.
La lógica para Aristóteles fue básicamente instrumental, un método para
separar el pensamiento válido del falaz y de este modo sustentar la veracidad
de un nuevo conocimiento sobre la veracidad de nuestro conocimiento anterior.
Para ello utilizó ciertas formas y expresiones del lenguaje — las proposiciones
categóricas — en las cuales hizo explícitas la función de tres términos (sujeto-
medio-predicado), ligados mediante la cópula (es - son) y términos que denotan
la extensión del "sujeto", como "todos", "algunos", "ninguno" — si bien, en el
siglo XIX, Bentham (1827) y Hamilton (1859) propusieron incluir expresiones de
cuantificación para el término "predicado", ello no prosperó.
Las formas de los juicios categóricos son: "Todos los A son B" (universal
afirmativa), "Ningún A es B" (universal negativa), "Algún A es B" (particular
afirmativa), y "Algún A no es B" (particular negativa), las que se representan con
los símbolos: A, E, I, O, respectivamente. De esta cuádruple categorización
aristotélica, luego se derivó un cuadro de oposiciones, en el que se determinan
ciertas compatibilidades e incompatibilidades entre esos cuatro juicios
categóricos, según sean contrarios o subcontrarios, contradictorios o
subalternos entre sí. A partir de ese cuadro de oposiciones se definen también
distintas formas de inferencias inmediatas a las que apelaremos después.
Esto viene a colación de que la lógica, al tomar los aspectos
formales, universales y atemporales, de los objetos del pensamiento,
procura establecer demostrativamente el carácter necesario, implicatorio,
compatible, contingente, excluyente o contradictorio, de las conclusiones
que extrae de sus propios argumentos iniciales o premisas.
No obstante y como ya lo anticipáramos, hay lógicas especializadas
que pueden tomar aspectos no tan puramente formales y asertivos de los
objetos del pensamiento, como la "modalidad", la "necesidad", el "modo de
ser", etc.. En tal sentido, por ejemplo, Georg Henrik Von Wright (1970) ha
opuesto una "lógica modal" a la "lógica de la verdad" a la que nos hemos
estado refiriendo preferentemente. Von Wright arguye que las lógicas
modales hacen referencia a otros aspectos de las cosas distintas de la
verdad, como su necesariedad, su posibilidad o imposibilidad, su
contingencia (modos aléticos), su verificación, refutación o indecisión
(modos epistémicos), su obligación, permiso o autorización, su prohibición
o su indiferencia en tal sentido (modos deónticos), o bien su carácter
universal (todos) o de existencia, inexistencia o vacuidad (algunos,
ninguno) — modos existenciales.
La importancia de incluir, o tener al menos en cuenta, algunos de
estos aspectos de la lógica modal viene al caso desde que — desde un
punto de vista no sólo lógico, sino también psicológico — el modo en que
está expresado un argumento, o bien los aspectos espontáneos y modales
de una proposición, pueden alterar fundamentalmente la capacidad de los
sujetos para comprenderlos y darles un significado unívoco y apropiado,
y también para resolverlos de una manera lógicamente correcta. Por
ejemplo, las proposiciones categóricas antes enunciadas de Aristóteles,
incluyen términos como "todos", "algunos", "ninguno" que afectan a la
extensión y existencia de los conceptos, y, por ende, su comprensión
cabal. Creemos que a través de estos términos se vinculan aspectos de la
lógica asertivo-formal de la verdad con aspectos de una lógica modal, lo
que implica que los primeros no están totalmente exentos de los problemas
de interpretación de los segundos. Este ha sido un aspecto clave tenido en
cuenta en nuestro criterio exploratorio y evaluativo de la organización
lógica del pensamiento a través del TCR.
Von Wright (1970) afirmaba que aunque los conceptos modales se
distinguen de los conceptos de verdad, los dos dominios de categorías no
están del todo separados lógicamente, ya que están ligados, por lo
menos, por una relación asimétrica. Esta es: "si una proposición es
verdadera entonces es posible ". Su conversa no es válida, ya que no
todas las proposiciones posibles son verdaderas.
Si la existencia y la extensión de los términos de clase que
integran las premisas de un razonamiento constituyen un factor modal que
se suma a la afirmación y/o negación de los mismos para alterar las
transformaciones de la cópula (es - son), entonces conviene ensayar
distintas formulaciones a las ya dadas por la lógica clásica de
predicados y silogismos. Este es un aspecto al que volveremos más
tarde cuando nos refiramos a las características formales del instrumento
de evaluación lógica (el TCR) que expondremos en la próxima sección en
sus aspectos lógicos y psicométricos.
La lógica de clases y su álgebra dadas por Boole y De Morgan fue
continuada por Schroder (1890) y luego ampliada y sistematizada por
Whitehead y Russell (1910) junto con la lógica de predicados, silogismos
y funciones proposicionales. Paralelamente, la lógica fue analizada desde
distintas perspectivas: por el empirismo (Hume, Stuart Mill), el criticismo
(Kant), el formalismo (Peano, Hilbert), el enfoque gnoseológico-metodológico
(Sigwart, Wundt), el logicismo (Zermelo, Dedekind, Frege, Russell y
Whitehead), el intuicionismo (Brouwer) y el fenomenologismo lógico
(Husserl, Pfãnder). También por "el empirismo lógico" (Wittgenstein,
Carnap, Reichenbach) que puso el acento en el lenguaje y la verificación,
y en la inducción y la probabilidad (Keynes).
Una variante más la constituyó el "psicologismo lógico", como el
sustentado por ejemplo por Lipps (1893), quién sostenía que la lógica se
apoya en lo psicológico y depende exclusivamente de esto. Esta posición
ha sido criticada como una forma de reduccionismo psicologista y total
relativismo, que desconoce la independencia de la lógica y de los principios
básicos de la misma, como el de "identidad", "no-contradicçión" y "tercero
excluido"; los que, si bien tienen una dimensión psicológica, son también
principios ontológicos, ideales, metalógicos y gnoseológicos, separada-
mente de aquélla.
La lógica ha sido vista también como "ciencia normativa", sobre todo
desde Kant (1800) y desde Herbart (1808,1813); es decir, como ciencia que
prescribe formas y leyes del pensamiento. Este enfoque puede incurrir en
el sesgo de sobrevalorar la lógica sobre el pensamiento, desconociendo
el hecho fundamental de que la lógica, aunque norme y valide las formas
y transformaciones del pensamiento, éste es siempre un proceso viviente,
mucho más complejo que aquélla e indudablemente la desborda.
Si bien las relaciones entre lógica y pensamiento han sido aborda-
das por filósofos, lógicos y psicólogos, aún no están del todo claras y se
estima que la coincidencia o base común que pueda haber entre los
mismos, proviene, más que nada, de los principios ontológicos formales
(de identidad, no-contradicción y tercero excluido) que fueron interpreta-
dos por el kantismo como principios trascendentes regulativos de la razón.
Estos principios formales ontológicos son base de los principios lógicos y
gnoseológicos homónimos, y sus distintos niveles no deben ser confundi-
dos entre sí. Asimismo, Leibniz, uno de los principales filósofos del
racionalismo, había ya sostenido que nuestro razonamiento se apoya en
dos grandes principios fundamentales: el de "no-contradicción" y el de
"razón suficiente" como argumento de causalidad.
Por su parte, los psicólogos — como algo se adelantó — no han
estudiado la lógica tanto como disciplina en sí, sino más bien como medio
para ser contrastado con el pensamiento y estudiar de este modo el grado
en que los sujetos razonantes — se entiende razonantes naturales no
entrenados en lógica — son capaces de alcanzar espontáneamente o
autónomamente los principios y estructuras formales de la lógica sin aún
conocerlas. Si esta coincidencia se da, ello no sólo refuerza la universa-
lidad de la lógica, sino también la racionalidad inherente del pensamiento
humano y su natural organización lógica de base, aunque esto pueda
suponer de algún modo un cierto petitio principii, a pesar de su indepen-
dencia.
Pero aún así, a los psicólogos no sólo les ha importado establecer
hasta qué punto el pensamiento humano es Isomórfico con la lógica, sino
también, la medida en que no lo es, y se han preguntado, entonces, por
qué desviaciones o fallas de la racionalidad ha de explicarse esa no-
isomorfía; o bien, en última instancia, esa posible o eventual irracionalidad
de la mente humana.
Para ello, tanto en un caso como en el otro, la lógica ha sido el
referente y el juez ineludible y supremo. En tal sentido, la racionalidad o
irracionalidad, como la logicidad y la ilogicidad del pensamiento humano,
han sido y siguen siendo objeto de gran debate para la Psicología
Cognitiva, lo que veremos en la sección siguiente.
EL PROBLEMA DE LA LOGICA DEL PENSAMIENTO
DESDE EL PUNTO DE VISTA DE LA PSICOLOGIA COGNITIVA
El pensamiento puede verse como un complejo proceso de repre-
sentaciones que pueden ser lógicamente consistentes o contradictorias;
pero para adquirir status de conocimiento, esas representaciones, además
de coherentes, deben ser un reflejo fiel y adecuado de la realidad. Esto
involucra un problema epistémico en el cual no profundizaremos.
Las propiedades, posibilidades y fundamentación del conocimiento
han sido tema clásico de la Gnoseologia o Teoría del Conocimiento, y
parten de una relación básica entre sujeto cognoscente y objeto conocido.
Esta cuestión es también hoy tema de las Ciencias Cognitivas, entre las
cuales se encuentran la Psicología Cognitiva, la Psicolinguistica, la
Inteligencia Artificial, la Neurociencia, etc. Pero, como ya dijéramos,
aunque el conocimiento dependa de esa adecuación sujeto-objeto, la
lógica prescinde de ella y sólo abstrae su forma, con lo cual el estudio del
conocimiento no se completa. Por ello, la teoría del conocimiento y la
Psicología Cognitiva han debido aunar los aspectos puramente formales
y los aspectos de contenido, como significado, conceptualización e
inferencia, buscando una explicación más comprehensiva.
Dentro de las investigaciones psicognoseológicas del pensamiento
ocupan un lugar destacado las investigaciones en psicología del razona-
miento. Halpern (1990) define al razonamiento como el proceso basado en
reglas que deciden lógicamente lo que tenemos que creer o aceptar
concluyentemente. De este modo el razonamiento es el área de estudio de
la Psicología Cognitiva que liga, a modo de puente, la lógica y el pensa-
miento.
En el estudio del razonamiento, se ha partido generalmente de la
división clásica entre razonamiento inductivo y razonamiento deductivo. En
el caso del razonamiento deductivo, las premisas o argumentos que
tomamos como punto de partida suelen ser generalizaciones o, por lo
menos, enunciados de una extensión mayor que la de la conclusión,
abarcando o incluyendo a éstas en sus implicaciones. Estas generaliza-
ciones suelen ser creencias sobre la naturaleza del mundo de las cuales
extraemos instancias particulares como conclusión. El razonamiento
deductivo tiene además el poder de contar con reglas de decisión (reglas
de la lógica deductiva) por las cuales se puede demostrar la verdad de las
conclusiones a partir de la verdad de las premisas, siempre que el
razomaniento responda a una forma lógicamente válida.
Por el contrario, en el razonamiento inductivo las convicciones o
creencias que tomamos como premisas o puntos de partida suelen ser
hechos que hemos observado y verificado, de modo tal que a partir de
ellos (un número finito y limitado de hechos) pretendemos extraer una
conclusión, cuya extensión y nivel de generalidad es siempre mayor que
la de las proposiciones que expresan aquellos hechos. Esta es la razón
básica por la cual no podemos demostrar la verdad de las conclusiones a
partir de la verdad de las premisas cuando usamos razonamientos inducti-
vos. Es decir, éstos no son demostrativos.
En la práctica diaria, cuando las personas razonan no lo hacen de
una manera que es pura o exclusivamente deductiva o inductiva, sino
emplean alternativa e intercambiablemente ambos tipos de inferencia —
además de otras. Sin embargo, resulta generalmente más verosímil
suponer que es el razonamiento de tipo deductivo el que mejor refleja el
grado de organización lógica del pensamiento, más de lo que permitiría
hacerlo un razonamiento de tipo inductivo o probable, aunque éstos son
también un reflejo de esa organización. Esta diferencia puede atribuirse al
carácter concluyente, demostrativo, no-contingente y necesariamente
no-contradictorio de las conclusiones de un razonamiento deductivo.
Uno de los problemas que más preocupó a los psicólogos cognitivos
que estudiaban las relaciones entre lógica, conocimiento y pensamiento,
fue el de la consistencia o coherencia interna de sus procesos — esto
significa su necesaria no-contradicción. En tal sentido, algunas contribu-
ciones tempranas de autores de la Psicología Cognitiva social, como
Feldman y otros (1966) y Abelson y otros (1968), dieron cuenta de que la
consistencia del pensamiento constituía un elemento básico para explicar
la organización del mismo. En la misma línea, Wyer (1974), al revisar
distintos sistemas psicosociales de organización cognitiva, llegó a la
conclusión de que todas las formulaciones teóricas sobre la manera en que
dichos sistemas están estructurados, inferidos o interrelacionados, parten
del común suspuesto de que los sujetos organizan sus conceptos, argumen-
tos y creencias, de un modo internamente consistente o no-contradictorio.
También hay factores que ligan la consistencia interna con los senti-
mientos. En tal sentido, Festinger (1957) y Heider (1958) hallaron que la
falta de consistencia en el orden cognitivo produce un estado displacentero
en el orden emocional, el que atribuyen a una necesidad natural de los
sujetos a eliminar sus inconsistencias o contradicciones internas. De este
modo la consistencia puede verse también como una forma de equilibrio
a ser logrado entre sus procesos intelectuales y emocionales.
En un contexto teórico vinculado, McGuire (1960), por un lado, y el
mismo Wyer (1974) por el otro, han dado una explicación alternativa de la
consistencia cognitiva y su logro. Ambos han hecho especial referencia a
un efecto organizacional, denominado "efecto socrático", según el cual los
sujetos tienden a incrementar espontáneamente su consistencia interna a
medida que van tomando conciencia de sus contradicciones y al constras-
tar sus distintas convicciones y creencias en plazos relativamente breves
de tiempo. Wyer destaca especialmente este efecto de timing para explicar
procesos cognitivos de cambio y organización más amplios y complejos.
Asimismo, McGuire, quien ha formulado una teoría psicosocial de la orga-
nización cognitiva, no sólo toma aspectos puramente formales o lógicos de
la misma, sino también destaca similaridades y diferencias entre principios
lógicos, tomados como paradigma o modelos de razonamiento, y la con-
ducta real, vital, de procesamiento de la información que llevan a cabo los
sujetos permanentemente. En tal sentido McGuire ha tratado de comparar
el "razonamiento formal" con el "pensamiento deseado" (wishful thinking)
en relación con procesos de cambio de actitudes y un estado de "armonía
interna" que los seres humanos necesitan mantener a modo de equilibrio,
entre sus sistemas de acción, creencia y pensamiento.
A su vez, Abelson y Rosenberg (1968) siguiendo la misma línea de
investigaciones en consistencia cognitiva, y partiendo del aspecto dual,
lógico y psicológico a la vez, de esta problemática, han acuñado el
concepto de "psico-lógica" para explicar el equilibrio interno en el cambio
y organización de actitudes y para describir cómo obran factores lógicos
y extralógicos de equilibrio interno en la conducta social de los individuos.
Consecuente con estos argumentos, el mismo MacGuire distinguió, en la
dinámica de la conducta y de las representaciones psicosociales, la
intereacción existente entre una consistencia lógica y otra psicológica,
admitiendo que ésta última, si bien es fuertemente demandante, no es tan
estricta, precisa, ni estable como la primera. Finalmente, en la misma línea
psicosocial, Wyer concluyó que las cogniciones y el procesamiento infe-
rencial de la información tiende a organizarse de acuerdo con ciertas leyes
que deben ser exploradas y expresadas formalmente a fin de explicar y
justificar su consistencia interna.
De estos autores se extrae la conclusión de que en la dinámica
actitudinal e Inferencial de los seres humanos, como asimismo en sus
argumentos, decisiones y acción razonada, existe una pugna e interacción
permanente entre argumentos lógico-formales y necesidades extralógicas
y/o psicológicas. Aún más, ciertos autores como Lord y otros (1979), Kassin
(1979) y Wason (1966-1968) han descripto ciertos efectos diferenciales, en
el sentido de que los sujetos parecen ser más sensibles y consecuentes
con la lógica, según ésta tienda a confirmar, más que a desconfirmar, sus
actuales creencias y expectativas; en tanto, que tienden a racionalizar o
distorsionar confirmatoriamente la información cuando resulta lógicamente
refutatoria de las mismas.
Otros autores, como Lindzey y Aronson (1969) han sostenido que las
personas, en última instancia, se comportan de una manera a través de la
cual procuran elevar al máximo la consistencia dentro de su sistema
lògico-cognitivo, y entre éste y su conducta actitudinal, pública y abierta.
Si bien la consistencia lógica-psicológica de la que hablan estos
autores no es la misma consistencia interna lógico-formal del pensamiento
que estamos investigando, ambas se ligan entre sí y hallan un común
denominador a través de la idea de isomorfismo entre lógica y razona-
miento natural o social.
Los argumentos esbozados por dichos investigadores psicosociales
sugieren una idea importante para sustentar nuestra tesis fundamental del
isomorfismo: la idea de que los aspectos racionales (lógicos) e irracionales
(ilógicos) del pensamiento interactúan entre sí procurando alcanzar el nivel
más alto de consistencia interna (o el número más bajo de autocontradic-
ciones) antes de eludir la "indeseada refutación" o de aceptar la "deseada
confirmación".
Estas cuestiones han generado una prolongada controversia entre
dos corrientes principales y antagónicas de la teoría psicológica del
razonamiento a las que cabe referirnos sumariamente: una, que sustenta
aprioristicamente la logicidad y racionalidad esencial de la mente humana;
y otra que supone una suerte de ilogicidad o irracionalidad sistemática.
Esta controversia y su posible solución están íntimamente ligadas a los
objetivos del TCR (López Alonso, 1990, 1991).
En torno a esa cuestión y en relación con el área específica del
razonamiento silogístico, Mayer y Revlin (1978) han destacado tres líneas
básicas de investigación: a) una línea destinada a indagar la naturaleza de
los procesos inferenciales — línea en la cual nos insertamos; b) una línea
que implementa los silogismos a modo de estándar diagnóstico contra el
cual comparar la ejecución de diferentes grupos en relación a nivel
intelectual — por ejemplo Guilford (1959), Thurstone (1938), Frandsen y
Holder (1969) — o bien en relación a diagnóstico clínico-diferencial — por
ejemplo, Feather (1965), Gottesman y Chapman (1960), Von Domarus
(1944) — y, finalmente, c) una línea de estudios que adopta el silogismo en
su sentido lógico clásico como modelo de pensamiento, línea dentro de la
cual incluye a Boole (1854).
En la línea de investigación a la que estimamos pertenecer — la
línea a) — el acento se ha puesto tanto en la codificación de los materiales
inferenciales por parte del sujeto como en las reglas de inferencia que
emplea o pueden utilizarse como contraste o comparación. En esta línea,
por ejemplo, se insertan los trabajos de Rimoldi (1955, 1984) en los que
compara la "táctica de resolución de problemas" empleada por un sujeto
con una "táctica ideal" sustentada en la lógica y en el empleo lógico de la
información. Pero dentro de esta línea siempre ha sido una preocupación
fundamental la determinación y contrastación de los factores lógicos, por
un lado, y psicológicos o extralógicos, por el otro, los que inducen a
cambios significativos, a variabilidad y a un rendimiento diferencial en la
capacidad y organización lógica de los sujetos.
De cuestiones emanadas de esta línea de investigaciones, surgió la
discusión sobre la racionalidad o irracionalidad del pensamiento, según la
forma en que los sujetos seleccionan, construyen, representan o comparan
sus materiales inferenciales y resuelven sus problemas. Dentro de esta
línea están quienes dan mayor importancia a la comprensión cabal de esos
materiales por parte del sujeto, como también a su habilidad para
almacenarla y recuperarla organizacionalmente en el momento oportuno.
Esta es una línea que puede ser incluida dentro del enfoque que sustenta
la racionalidad básica — lógica — del entendimiento humano. Dentro de
esta línea se encuentran autores como Richter (1957), Chapman y
Chapman (1959), Henle (1962,1978), Smedslund (1970), Ceraso y Provitera
(1971), Erickson (1974, 1978), Revlin (1975), Dickstein (1976), etc.
Paralelamente, se encuentra en la misma línea el enfoque opuesto
al anterior, aquél que supone la existencia de ciertas "formas" de inferencia
que son erróneas o carentes de racionalidad, pero que se reiteran de
manera sistemática en la conducta humana de resolución de problemas.
Esta tendencia ha intentado explicar, por ejemplo, los errores o fallas en la
resolución de problemas silogísticos y de probabilidad subjetiva, por cuenta
de factores extralógicos o sesgos heurísticos sistemáticos y no-racionales.
Dentro de esta línea se enrolan autores como Woodworth y Sells (1935),
Sells (1936), Morgan y Morton (1944), Frase (1966), Lefford (1946), Wasori
(1984), Evans (1983), Pollard (1982), Johnson-Laird (1983, 1990), Tversky
y Kahneman (1974) y otros.
A pesar del antagonismo de las dos líneas arriba mencionadas,
ambas abocadas al estudio de los procesos inferenciales de problemas
lógicos, creemos que el estudio de dichos procesos, desde la perspectiva
del Isomorfismo entre lógica y razonamiento y desde el grado en que
se da diferencialmente en el sujeto — tal como pretendemos lograrlo
mediante el empleo del TCR —, permite dirimir esa cuestión básica entre
racionalidad-logicidad e irracionalidad-ilogicidad. Confiamos en que la
medición del isomorfismo mencionado, además de dar un índice válido y
gradual de la organización lógica del pensamiento, constituye un recurso
apropiado para superar y trascender dicha disyuntiva. Esta problemática
y su relación con el TCR puede verse en López Alonso 1988, 1990, 1991.
Allí el TCR está dirigido a estudiar la capacidad natural diferencial
del razonamiento deductivo del ser humano, contrastando las premisas y
conclusiones de un razonador no-entrenado, con las conclusiones que
pueden extraerse de esas mismas premisas cuando se aplican las reglas
y principios de la lógica de conjuntos — y hallando, de este modo, el grado
de isomorfismo entre razonamiento y lógica.
En los razonamientos deductivos, la manera en que los sujetos
formulan o codifican sus premisas incide directamente en la corrección o
no-contradicción de las conclusiones. Este argumento ha sido sostenido
por Mary Henle (1962, 1978) y la gente que ha seguido su línea de trabajo,
y ha sido experimentalmente probado por el autor y sus colaboradores
usando el TCR (López Alonso, 1991, 1992; Ricardi, 1992; López Alonso y
Ricardi, 1993). Por tal motivo, hemos adoptado el criterio de tipificar y
computar los errores de contradicción en relación con la estructura de
premisas como criterio diferencial para evaluar la organización lógica del
pensamiento.
Con dicho instrumento, el razonamiento deductivo producto de una
larga cadena de inferencias hechas por el sujeto, y que careciera
totalmente de errores de contradicción, estaría reflejando un excelente
nivel de organización lógica del pensamiento de dicho sujeto. Contraria-
mente, en la medida en que haya un número mayor y creciente de errores
de ese tipo, ello estaría reflejando un grado progresivo de menor organiza-
ción hasta llegar a un punto de desorganización o incoherencia total.
A propósito de lo que venimos exponiendo, Halpern (1990) ha
sostenido que en el razonamiento cotidiano uno de los requisitos que la
gente espera ver satisfecho para su aceptación (sea deductivo, inductivo
o una mezcla de ambos) es que las premisas, además de verosímiles, les
resulten consistentes. Esto es importante porque son justamente las
premisas las que van a sustentar las conclusiones de todo razonamiento
y de toda toma de decisiones o soluciones de problemas, y lo que queda
a posteriori es sólo la consistencia o coherencia que las conclusiones o
decisiones deben guardar con las mismas. Estas consideraciones no sólo
reflejan la importancia del rol de las premisas en el razonamiento y en la
toma de decisiones, sino también la importancia de la consistencia interna
de todo proceso inferencial en relación con aquéllas.
Pero otro punto de importancia que se desprende de lo anterior es
evaluar hasta qué punto la gente es capaz de preveer o detectar con
suficiente anticipación el riesgo de cometer contradicciones en el
desarrollo de su propio pensamiento. Esta capacidad de prevención o
anticipación no sólo es tomada como un signo de organización lógica del
pensamiento, sino también como un requisito de importancia fundamental
para la eficiencia y confiabilidad del pensamiento en general y del
razonamiento en particular, tanto en sus aspectos prácticos de aplicación
cotidiana que eviten el error u otros riesgos, como en sus aspectos
formales, más abstractos y generales.
Con todas estas consideraciones y antecedentes teóricos referidos
al contexto lógica/pensamiento-razonamiento/psicología en torno a la
coherencia o consistencia interna, pasamos a ver en detalle los aspectos
técnicos, lógicos y psicométricos del instrumento en cuestión — el TCR.
METODO
Descripción de la técnica (TCR), de su hoja de respuesta y primeras
definiciones lógico-conjuntisticas
El instrumento con el cual se ha intentado medir directamente la
coherencia interna de razonamiento o su no-contradicción, e indirecta-
mente la organización lógica, implícita, del pensamiento, es el antes
aludido Test de Coherencia de Razonamiento (TCR). El TCR fue diseñado
por primera vez por el autor en 1979. En ese momento se definieron dos
formas y subformas (Formas la, Ib, Ha, lib) que fueron descriptas por López
Alonso (1981, 1988) y por Orsi (1988).
El TCR consiste de dos partes. Estas dos partes son claramente
presentadas en la hoja de respuetas del TCR, un ejemplo de la cual es
dada en la Figura 9-1. Como allí puede apreciarse, en la primera parte, se
le da al sujeto una lista de cuatro términos o atributos relacionares entre
sí, con una breve y concisa definición. Estos cuatro atributos son intercam-
biables y según cuáles sean los que se adopten, se define con ellos la
forma del test. Cualquiera sea la forma, esos cuatro atributos se represen-
tan con las letras A, B, C y D. Por ejemplo, la forma I (subformas a,b) se
construyó con los atributos Respetable (A), Honorable (B), Admirable
(C), y Venerable (D), como términos de valoración ética y social de las
personas a ser relacionados entre sí. La forma II (subformas a,b) se
construyó con los atributos Americano (continental) (A), Argentino (B),
Europeo (C), e Inglés (D) dados como lugares de nacimiento de las
personas — país o continente. A modo de ejemplo, en la Figura 9-1 se da
un modelo de la hoja de respuesta de la Forma Ila del TCR.
Forma II a
Coherencia: Significa que dos afirmaciones son compatibles o no-contradictorias.
PRIMERA PARTE: Estime los siguientes porcentajes de acuerdo con su criterio (entre Oy 100)
- De toda la población mundial, qué porcentaje es AMERICANA .................. .60. ......... %
- De toda la población mundial, qué porcentaje es ARGENTINA .................. .55.......... %
- De toda la población mundial, que porcentaje es EUROPEA .................. 30.......... %
- De toda la población mundial, que porcentaje es INGLESA .................. 25.......... %
Le agradeceremos que complete los siguientes datos:
Fig. 9-1 — Hoja de respuestas (Test de Coherencia).
Cualquiera sea la forma, en la primera parte del test se le pide al
sujeto que estime subjetivamente entre 0% y 100% el porcentaje en que con-
sidera existe cada uno de esos cuatro atributos en su universo de discurso.
Estos porcentajes se representan como %A - ...%, %B = ...%, %C = ...%,
%D =...%. Estos cuatro porcentajes son considerados las premisas exten-
sionales del TCR. Estas premisas expresan la idea que el sujeto tiene
sobre la extensión o proporción que cada atributo cubre sobre el universo
y su existencia o no-existencia; en este último caso se considera al
atributo como conjunto o clase vacía.
Por esta razón, los porcentajes — %A, %B, %C y %D — deben ser
dados entre 0% y 100% y no tienen por qué sumar 100% todos ellos, sino
pueden sumar menos, igual o más que 100%. Este es el porcentaje o
extensión del universo. Si alguno de ellos es igual a 100% entonces el
atributo correpondiente es tomado como igual al conjunto universal (U);
y si, por el contrario, alguno de ellos es igual a 0% entonces el atributo
correspondiente es tomado como igual al conjunto vacío (0). Estas cotas
universales tienen efecto para la evaluación de la coherencia interna del
test, ya que si a dos atributos les fueron dados porcentajes que entre ellos
suman más del 100%, entonces no pueden mantener entre sí una relación
de exclusión en la segunda parte del test porque no pueden exceder la cota
Fig. 9-1 (cont.) ____________________________________________________________
SEGUNDA PARTE
(b)
Preg.
No.
UNA PERSONA ............ .(
A
)........
(atributo sustentado)
TIENE
QUE SER
NO
PUEDE
SER
PUEDE
SER
(atrib. interrog.)
1 Una persona AMERICANA X AMERICANA
2 Una persona AMERICANA X ARGENTINA
3 Una persona AMERICANA X EUROPEA
4 Una persona AMERICANA X INGLESA
5 Una persona ARGENTINA X AMERICANA
6 Una persona ARGENTINA X ARGENTINA
7 Una persona ARGENTINA X EUROPEA
8 Una persona ARGENTINA X INGLESA
9 Una persona EUROPEA X AMERICANA
10 Una persona EUROPEA X ARGENTINA
11 Una persona EUROPEA X EUROPEA
12 Una persona EUROPEA X INGLESA
13 Una persona INGLESA X AMERICANA
14 Una persona INGLESA X ARGENTINA
15 Una persona INGLESA X EUROPEA
16 Una persona INGLESA X
INGLESA
17 Una persona AMERICANA
X
NO-AMERICANA
18 Una persona AMERICANA X NO-ARGENTINA
19 Una persona AMERICANA X NO-EUROPEA
20 Una persona AMERICANA X NO-INGLESA
21 Una persona ARGENTINA X NO-AMERICANA
22 Una persona ARGENTINA X NO-ARGENTINA
23 Una persona ARGENTINA X NO-EUROPEA
24 Una persona ARGENTINA X NO-INGLESA
25 Una persona EUROPEA X NO-AMERICANA
26 Una persona EUROPEA X NO-ARGENTINA
27 Una persona EUROPEA X NO-EUROPEA
28 Una persona EUROPEA X NO-INGLESA
29 Una persona INGLESA X NO-AMERICANA
30 Una persona INGLESA X NO-ARGENTINA
31 Una persona INGLESA X NO-EUROPEA
32 Una persona INGLESA X
NO-INGLESA
(continua)
Fig. 9-1 (cont.)
SEGUNDA PARTE (cont.)
Preg.
(B)
No.
UNA PERSONA ........ (A)
(atributo sustentado)
TIENE
QUE SER
NO
PUEDE
SER
PUEDE
SER
(atrib. ¡nterrog.)
33 Una persona NO-AMERICANA X AMERICANA
34 Una persona NO-AMERICANA X ARGENTINA
35 Una persona NO-AMERICANA X EUROPEA
36 Una persona NO-AMERICANA X INGLESA
37 Una persona NO-ARGENTINA X AMERICANA
38 Una persona NO-ARGENTINA X ARGENTINA
39 Una persona NO-ARGENTINA X EUROPEA
40 Una persona NO-ARGENTINA X INGLESA
41 Una persona NO-EUROPEA X AMERICANA
42 Una persona NO-EUROPEA X ARGENTINA
43 Una persona NO-EUROPEA X EUROPEA
44 Una persona NO-EUROPEA X INGLESA
45 Una persona NO-INGLESA X AMERICANA
46 Una persona NO-INGLESA X ARGENTINA
47 Una persona NO-INGLESA X EUROPEA
Una persona NO-INGLESA
X
INGLESA
49 Una persona NO-AMERICANA X
NO-AMERICANA
50 Una persona NO-AMERICANA X NO-ARGENTINA
51 Una persona NO-AMERICANA X NO-EUROPEA
52 Una persona NO-AMERICANA X NO-INGLESA
53 Una persona NO-ARGENTINA X NO-AMERICANA
54 Una persona NO-ARGENTINA X NO-ARGENTINA
55 Una persona NO-ARGENTINA X NO-EUROPEA
56 Una persona NO-ARGENTINA X NO-INGLESA
57 Una persona NO-EUROPEA X NO-AMERICANA
58 Una persona NO-EUROPEA X NO-ARGENTINA
59 Una persona NO-EUROPEA X NO-EUROPEA
60 Una persona NO-EUROPEA X NO-INGLESA
61 Una persona NO-INGLESA X NO-AMERICANA
62 Una persona NO-INGLESA X NO-ARGENTINA
63 Una persona NO-INGLESA X NO-EUROPEA
64 Una persona NO-INGLESA X NO-INGLESA
universal. Esta restricción está destinada a asegurar la coherencia o
consistencia interna entre la extensión y la existencia de los cuatro
atributos y las relaciones que guardan entre sí.
A tal efecto, en la segunda parte del test, se le presenta al sujeto una
lista de 64 preguntas, en cada una de las cuales debe establecer optativa-
mente una relación entre cada par posible de los cuatro atributos, según
éstos son alternados como antecedente o consecuente de la relación (es
decir: como primer término o segundo término del par), y según van siendo
afirmados o negados alternativamente. Las negaciones o complementos
de A, B, C y D, se representan como -A, -B, -C y -D, respectivamente.
Las respuestas que los sujetos deben dar a cada uno de los items
del test (64 de la segunda parte) consisten en tres posibles relaciones, una
de las cuales deben optar poner entre los términos de cada par de atri-
butos. Estas relaciones son: 1) tiene que ser, 2) puede ser, y 3) no puede
ser. Aunque dichas relaciones están expresadas de este modo en la hoja
de respuesta, a los efectos de una notación abreviada se representan con
los símbolos 1, P y 0, respectivamente. En la hoja de respuestas, el sujeto
opta por una de estas tres relaciones marcando una x en la columna
correspondiente a una de ellas (al efecto, ver Figura 9-1) y en la línea
correspondiente al par de atributos relacionados.
A los efectos de ejemplificar la notación abreviada de las respuestas
del sujeto, si éste ha optado por las relaciones "Americano puede ser
Argentino" y "Argentino tiene que ser Americano" como atributos A y B,
entonces dichas expresiones se notan "APB"y "BlA", respectivamente. De
la misma forma, "Americano no puede ser Europeo" se nota "AOC".
Fundamentos lógico-cognitivos del TCR
Las relaciones "tiene que ser", "puede ser" y "no puede ser" las
hemos incluido en el TCR como modalidades de la cópula (es, son). Estas
modalidades se han arbitrado a los efectos de restarle a la cópula la
ambigüedad que reviste en las expresiones silogísticas clásicas — sobre
todo en las correspondientes a los enunciados categoriales aristotélicos
antes vistos, en donde la comprensión de la cópula está ambiguamente
ligada a los términos cuantitativos "todos", "algunos", "ninguno"; por
ejemplo, el enunciado universal "Todos los A son B" no excluye la
posibilidad de "Algún A es B", y viceversa, dado que dichas proposiciones,
en la lógica clásica, son superimplicante y subimplicante, respectivamente,
entre sí (Stebbing, 1965).
La antes aludida Henle (1978) destacó esta ambigüedad en la
expresión clásica de la cópula, como un factor perturbador en la compren-
sión correcta de las premisas o del alcance de sus términos. Otros autores
como Ceraso y Provitera (1971), que siguieron esas prevenciones de
Henle, desarrollaron técnicas silogísticas que modificaban las expresiones
clásicas en favor de una menor ambigüedad, y lograron mediante ello que
los sujetos alcanzaran mejores niveles de rendimiento lógico. Ello fue
atribuído a que, mediante esas modificaciones "desambiguantes", los suje-
tos alcanzaran una mejor comprensión lógica de las relaciones implícitas
en las premisas. Nuestras expresiones modales de la cópula, entonces,
antes vistas (representadas por 1, P ó 0), nos han permitido obtener una
mayor comprensión de esas relaciones sin ambigüedad y de una manera
más sencilla, por tratarse de expresiones usuales del lenguaje común.
Antes invocamos a ciertos postulados de la lógica modal de Von
Wright y entre ellos aludimos a principios modales de necesariedad, de
posibilidad y de imposibilidad. Justamente, estos tres principios modales
que afectan a la cópula, se hacen efectivos en las expresiones "tiene que
ser" (necesariedad), "puede ser" (posibilidad) y "no puede ser" (imposibili-
dad). Como antes dijéramos, la combinación de principios de una lógica
asertiva y de la verdad con principios de una lógica modal como los
invocados, parecen afinar o aguzar mucho mejor el sentido y comprensión
lógica de la cópula en relación con su uso y alcance real, reduciendo, de
este modo, el riesgo o margen de error y ambigüedad en su rol relacionan-
te de términos.
De igual manera, la expresión "A tiene que ser B" ó "AIB" debe
entenderse extrictamente como "Todo A es B" a la manera de la lógica
proposicional, o bien como "A está incluido en B" en lógica de clases o de
conjuntos. Pero a diferencia de la expresión clásica, la expresión "Todo A
es B", ó AlB, no es acá compatible ni superimplicante de "Algún A es B".
Por la misma razón, la relación dada en la expresióm "A puede ser B" debe
entenderse, desprovista de ambigüedad, como "Algún A, pero no todos,
son B", o "Algún A es B y algún A no es B", proposicionalmente; o como "A
tiene intersección no-vacía con B, sin estar incluida en B", en lógica de
conjuntos. Esto hace a las relaciones "tiene que ser" y "puede ser" incom-
patibles entre sí, y portanto inambiguas e inconfundibles. Finalmente, del
mismo modo, "A no puede ser B" ó "AOB" debe entenderse como equiva-
lente a "Ningún A es B" o a "A excluido de B", intersección AB vacía,
respectivamente. Esta relación también es incompatible con las dos
anteriores y con "Algún A no es B", lo cual las hace no-ambiguas entre sí.
Nuestra tesis fundamental aquí, es que el pensamiento, para
hacerse explícito, puede crear y aplicar distintas expresiones lógico-
formales para representar un mismo sistema de relaciones de la realidad,
pero para que esto sea válido debe haber coherencia, transformabilidad,
no-ambigüedad y plena diferenciación entre las condiciones específicas
de definición de una expresión lógico-formal a otra.
Para cada par de atributos, entonces, el sujeto debe optar por una
de esas tres relaciones modales señaladas (1, P ó 0), marcando una cruz
en una de ellas para cada item en la columna correspondiente. Para una
mejor ilustración, la hoja de respuesta dada en Figura 9-1 se presenta con
los porcentajes y marcas que un sujeto supuesto ha contestado en la
primera y segunda parte del test.
En el ejemplo de la Figura 9-1 vemos que el "atributo antecedente"
(o primer término del par) se presenta fijo para "atributos consecuentes"
variables. Esto corresponde a la subforma "a" de la forma II del TCR. La
subforma "b" (o forma lib) supone los mismos atributos pero con "antece-
dentes variables" y "consecuente fijo". Estas dos subformas "a" y "b" se
distinguen para cualquier forma del test y para detectar el posible efecto
que pueda tener la variación, o no, del antecedente (o del consecuente) en
la coherencia de razonamiento.
Al contestar las primeras doce relaciones entre pares de atributos A,
B, C y D, en la segunda parte del test, el sujeto está formulando las premi-
sas relaciónales. Estas premisas están constituidas por las relaciones
modales 1, P ó 0 que el sujeto marcó (o interpuso) optativamente entre los
siguientes pares de atributos: A.B, A.C, A.D, B.A, B.C, B.D, C.A, CB, CD,
D.A, D.B y D.C (en la subforma "a"). De cada uno de los seis pares combi-
nados de atributos que pueden construirse a partir de los cuatro atributos
originales A, B, C y D — es decir, a partir de los seis pares combinados AB,
AC, AD, BC, BD y CD — se desprende una serie de ocho relaciones
modales, según que los atributos de cada par vayan siendo alternados
como antecedente/consecuente de una relación modal, o bien afirmados
o negados. Por ejemplo, a partir del par combinado AB se desprende la
siguiente serie de ocho términos:
donde r representa genéricamente a una de las tres relaciones modales i,
P ó 0; y donde -A y -B son las negaciones o complementos de A y B,
respectivamente.
Del mismo modo que hemos desplegado esta serie para el par AB,
se pueden desplegar seis series semejantes para los restantes pares
combinados; es decir, además de AB, para los pares AC, AD, BC, BD y
CD. Estas seis series dan lugar a 4ª items de la segunda parte del test. Si
a éstos sumamos las relaciones r que el sujeto debe dar a cada atributo
consigo mismo, ya afirmado o negado, se llega entonces al total de 64
items de la segunda parte. Sumados los items de la primera y segunda
parte, el TCR queda constituido por 68 items o respuestas consecutivas
dadas por el sujeto.
Todo ese conjunto de 68 items constituye en sí una red lógica,
dentro de una trama o sistema de relaciones inferenciales. La serie AB
arriba desplegada es una serie de inferencias inmediatas. A partir de
Stebbing (1965) las hemos calificado como las formas inferenciales: original
o directa (ArB), conversa (BrA), obversa (Ar-B), conversa obvertida (Br-A),
inversa obvertida (-ArB), contrapuesta (-BrA), inversa (-Ar-B) y contra-
puesta obvertida (-Br-A). Estas ocho inferencias inmediatas están lógica-
mente entrelazadas entre sí, dando lugar a dependencia lógica dentro
de la serle. Desde ya, esto debe ocurrir también dentro de cada una de las
seis series antes mencionadas; pero, dado que estas seis series están
inferencialmente entrelazadas entre sí, ello da lugar a una dependencia
lógica entre series, que debe agregarse a la "dependencia dentro de cada
serie" antes invocada, para lograr la coherencia total del sistema. Tanto la
dependencia lógica "dentro" como la "entre" las seis series nos dan una
idea de la complejidad y extensión del compromiso lógico que supone para
el sujeto el sistema total de inferencias dado por los 68 items del TCR.
Por otra parte, para una única serie de un par de atributos —
digamos AB — existen 14 distintas series lógicamente posibles, según la
relación que va de A a B sea AlB, AOB ó APB, y según A ó B sean iguales
o distintos de U (Universo) y de 0 (vacío). En la Tabla 9-1 se dan estas 14
posibles series AB internamente consistentes. En la columna de la
izquierda se dan las igualdades o diferencias entre A, B y las cotas
universales U y 0; luego en la columna del medio, se dan las tres posibles
relaciones r de A a B como primera premisa relacionai; finalmente en la
tercera columna se dan los restantes siete términos de la serie (2.° a 8.º
términos) consistentes con lo dado en las columnas primera y del medio
de dicha tabla. En la columna del medio las relaciones r ( 1,0, P) se dan en
términos de las relaciones de conjunto caracterizadas por Erickson (1974)
en el estudio de razonamiento silogístico. Estas relaciones son:
Id. - Identidad entre A y B (A = B)
Sb. - Subconjunto (A incluida en B)
Sp. - Superconjunto (A incluye a B)
Ov. - Solapado (overlap) (A y B se solapan pero no se incluyen)
Ex. - Exclusión (A y B se excluyen mutuamente)
(Sp.) - A Superconjunto cuando B = 0 (conjunto vacío)
Estas mismas 14 series lógicamente posibles pueden darse para los
restantes pares AC, AD, BC, BD y CD. Erickson es un investigador del
razonamiento deductivo que, en tal sentido, ha seguido supuestos similares
a los de Henle.
Sobre la base de todas estas definiciones y compromisos lógicos
dados como requisitos para la evaluación del TCR, consideramos probada
su pertinencia y validez como instrumento para evaluar y medir la
coherencia y organización lógica del pensamiento, sobre la base de la
isomorfía entre lógica y razonamiento del sujeto.
En tal sentido, la medida de esa coherencia y organización va a
depender, y va a estar validada al mismo tiempo, por ese grado de iso-
morfismo. La isomorfía entre la estructura inferencial, secuencial, de las
respuestas dadas por el sujeto y la estructura inferencial que se desprende
de aplicar principios y reglas lógicas a partir de premisas consistentes
dadas por el propio sujeto no puede ser aleatoria ni inatinente.
Como ya hemos sugerido, para medir ese isomorfismo hemos
adoptado el criterio de contar los errores de contradicción cometidos por
el sujeto a lo largo del TCR. Esos errores de contradicción surgen de
aquellos items en los que la relación r dada por el sujeto no corresponde
con la que debe ser de acuerdo con los principios y reglas lógicas. Estos
Tabla 9-1 — Consistencia dentro de la Serie (AB)
Relaciones de conjunto
dadas por Erickson
Igualdad/Diferencia
entre A, B, U, y 0
Primera premisa
relacionai
Series (AB) posibles consistentes
(desde el 2 o al 8.0 término)
(A1B) (AOB) (APB)
Id.
Sb.
Sb.
Id.
Sb,
Id.
Sb.
(Sp)
(Sp-)
Ex.
Ex.
Sp.
Sp.
Ov.
(B1A)(A0-B)(B0-A)(-A1B)(-B1A)(-A1-B)(-B1-A)
(BOA) (A1 -B) (B1 -A) (-A1B) (-B1 A) (-A0-B) (-B1 -A)
(BPA) (AO-B) (BP-A) (-A1B) (-B1 A) (-A0-B) (-B1 -A)
(B1A)(A1-B)(B1-A)(-A1B)(-B1A)(-A1-B)(-B0-A) (B1
A) (A1 -B) (B1 -A) (-A0B) (-BOA) (-A1 -B) (-B1 -A)
(B1A)(A1-B)(B1-A)(-A0B)(-BPA)(-A1-B)(-BP-A)
(B1A)(AP-B)(B0-A)(-A1B)(-B1A)(-A1-B)(-B0-A)
(BOA) (A1 -B) (B1 -A) (-APB) (-BOA) (-AP-B) (-B1 -A)
(B1 A)(A0-B) (BO-A) (-A0B) (-BOA) (-A1 -B) (-B1 -A)
(BPA) (AO-B) (BP-A) (-APB) (-BOA) (-AP-B) (-B1 -A) (B1
A) (AP-B) (BO-A) (-A0B) (-BPA) (-A1 B) (-BP-A)
(BPA)(AP-B)(BP-A)(-APB)(-BPA)(-AP-B)(-BP-A)
(B0A)(A1 -B) (B1 -A) (-APB) (-BPA) (-AP-B) (-BP-A)
(B0A)(A1-B)(B1-A)(-A1B)(-B1A)(-A0-B)(-B0-A)
Id. =identidad, Sb. =subconjunto, Sp. = superconjunlo, Ov. =Iraslapamiento (overlap), Ex. =exclusión entre conjuntos. Las rela-
ciones Sp. entre paréntesis pueden dar lugar a controversia con respecto a Ex.; ellas respuenden al criterio del autor que se ha
basado en (B1 A). Esta ambigüedad surge del conjunto vacio cuando se lo emplea como término consecuente de las relaciones R.
principios y reglas parten de las definiciones preposicionales y de con-
juntos que antes viéramos en relación con las relaciones tiene que ser ( 1 ),
puede ser (P) y no puede ser (0).
Los errores de contradicción en el TCR son en realidad autocontra-
dicciones que el sujeto comete con sus propias premisas, lo que destaca
más su carácter interno y de organización del pensamiento. En trabajos
anteriores (López Alonso, 1988; Ricardi, 1989) hemos probado que los
sujetos cometen menos errores de contradicción cuando son ellos mismos
los que eligen sus premisas que cuando se las impone el experimentador
"desde afuera". Esta diferencia hablaría ya de por sí a favor de un factor
interno de autoconsistencia o autocoherencía, que podría resumirse como
que: "todo sujeto tiende a ser más coherente consigo mismo que con el
resto del mundo". Sí bien, esto puede entenderse a primera vista como un
principio un tanto obvio o trivial, su importancia es fundamental: primero,
porque diferencia una medida de la coherencia interna del sujeto de una
externa, y, segundo, porque por otros resultados obtenidos parece ser que
la coherencia interna es un prerrequisito y condición indispensable para el
logro de la coherencia externa o con el mundo (López Alonso, 1991c, 1992;
Ricardi, 1993a; López Alonso, Ricardi, 1993).
Los fundamentos lógicos del TCR serán completados en las
secciones siguientes referidas a su procedimiento de evaluación y su
evaluación mediante diagrama rectangular.
Procedimiento de evaluación del TCR hoja de evaluación
Una vez que el sujeto ha completado los items del TCR sus respuestas
son volcadas a una hoja de evaluación. Un modelo de esta hoja se da en la
Figura 9-2.
PREMISAS EXTENSIONALES
Diagrama Rectangular
A
( + )
A-B-C-D
(+)
AB-C-D
(-) B
-AB-C-D
( + )
-A-B-C-
D
(-)
A-BC-D
(-)
ABC-D
(-)
-ABC-D
( + ) c
-
A
-
B
C
-
D
U
(-)
A-BCD
(-)
ABCD
(-)
-ABCD
( + )
-
A
-
B
CD
(-)
A-B-CD
(-)
AB-CD
(-)
-AB-CD
-A-B-CD
D
Fig. 9-2 — Hoja de evaluación.
En la parte de arriba de la hoja de evaluación pueden observarse
cuatro matrices de 4x4, subdenominadas matrices I, II, III, IV, en las cuales
cada hilera y cada columna corresponden respectivamente a los atributos
A, B, C, D; o bien a sus negaciones: -A, -B, -C, -D. En todas estas
matrices las hileras corresponden al "atributo antecedente" o primer
término de cada par, en tanto que las columnas siempre corresponden a
los "atributos consecuentes" o segundo término del par.
Las celdas de las matrices están destinadas al registro de las
relaciones modales r que ligan a los correspondientes atributos — el que
define a la hilera y el que define a la columna — de las cuales la celda es
intersección. Por ejemplo, si un sujeto en la hoja de respuesta respondió
"Una persona Americana puede ser Argentina" (es decir, marcó x en la
columna "puede ser" entre los atributos Americano y Argentino), esto se
transcribe brevemente como APB y se registra P en la celda intersección
de la hilera A y la columna B. Asimismo, si este sujeto luego responde "Una
persona Argentina tiene que ser Americana", o B1A, entonces se coloca
1 en la celda intersección de la hilera B y la columna A.
Las celdas están subdivididas por una línea de puntos en una parte
superior y una inferior. En la parte superior se anota la relación r que el
sujeto dio al par de atributos correspondientes. La parte de abajo, en
cambio, está destinada al evaluador, para que éste anote allí la relación r
que corresponde de acuerdo con principios lógicos. Si ambas r coinciden
habrá ¡somorfía entre la estructura de las relaciones del sujeto y las de la
lógica; pero si no coinciden se marcará un determinado error de
contradicción.
En la matriz I se anotan las relaciones r dadas a los pares de
atributos afirmados; por ejemplo ArB y BrA. En esta matriz van las infe-
rencias originales y conversas. En la matriz II van las relaciones entre
antecedente-afirmado y consecuente-negado; por ejemplo, Ar-B y Br-A.
Siguiendo a Stebbing, en esta matriz van las inferencias obversas y
conversas obvertidas. En la matriz III van las relaciones antecedente-
negado/consecuente-afirmado — por ejemplo, -ArB y -BrA — y corres-
ponde a las inferencias inversa obvertida y contrapuesta. Y finalmente, en
la matriz IV van las relaciones antecente y consecuente ambos negados
— por ejemplo, -Ar-B, -Br-A — correspondiendo a las inferencias inversa
y contrapuesta invertida.
En cada una de estas matrices, la diagonal que va desde el ángulo
superior-izquierdo al ángulo inferior-derecho contiene las relaciones que
pueden establecerse entre afirmaciones y/o negaciones de un mismo
atributo. Así, por ejemplo, en la matriz I está la relación entre A y A (AIA),
etc.; en la matriz II, la relación entre A y -A (AO-A), etc.; en la matriz III, -
A y A (-A0A), etc.; y en la matriz IV, la relación entre -A y -A (-Al-A), etc.
Las relaciones de las diagonales de las matrices I y IV son de
identidad positiva y de identidad negativa, respectivamente, y se les da
la relación 1 (tiene que ser). Las relaciones de las diagonales de las
matrices II y III registran relaciones básicas de no-contradicción y de
tercero excluido, y se les da la relación 0 (no puede ser).
A la izquierda de la matriz I, se anotan los porcentajes correspon-
dientes a las premisas extensionales %A, %B, %C y %D. Estos valores
controlan que las premisas relaciónales no sean contradictorias con las
premisas extensionales y las cotas universales del sistema. En caso de
que exista alguna contradicción entre ambos tipos de premisas — por
ejemplo: que el sujeto haya contestado %A = 50% y %B = 60%, y que
después pretenda establecer las relaciones B1A (B incluido en A) o bien
AOB (A y B excluidos entre sí) — las mismas se computan como errores
extensionales, dado que constituyen incompatibilidades con las premisas
extensionales. Las premisas relaciónales, además de deber ser compati-
bles con las extensionales, deben ser compatibles entre sí, y asimismo
todas las restantes relaciones r en el test deben ser compatibles con
ambos tipos de premisas.
Por debajo de las cuatro matrices antes vistas, se da un diagrama
rectangular (inspirado en diagramas de Venn) a través del cual se logra
un mapa de la estructura de relaciones modales correspondientes a
las premisas relaciónales compatibles dadas por el sujeto. Con este
mapa el evaluador decide la compatibilidad que las premisas relaciónales
deben guardar con las premisas extensionales y luego las relaciónales
entre sí, como así también la compatibilidad que las restantes respuestas
del test deben guardar con todas las premisas.
A los efectos de ilustrar el procedimiento, en la hoja de evaluación
de la Figura 9-2 se vuelcan los datos anotados en la hoja de respuesta de
la Figura 9-1.
Evaluación mediante el diagrama rectangular
La evaluación del TCR se realiza completamente a través del
diagrama rectangular que aparece en el ángulo inferior izquierdo de la
Figura 9-2. Este diagrama aparece subdividido en 16 espacios como
consecuencia de superponer en el mismo rectángulos correspondientes a
los atributos A, B, C y D. De este modo, el rectángulo mayor corresponde
al conjunto universal (U), y los rectángulos menores superpuestos corres-
ponden a dichos cuatro atributos. Para reconocer en el gráfico cuál es cada
uno de esos rectángulos, se han colocado las letras identificatorias corres-
pondientes (U, A, B, C y D) en los ángulos superior-derecho de cada uno.
A los efectos de la evaluación, el evaluador debe llenar los 16
espacios con signos + y -. El signo + indica que un espacio o intersección
es no-vacío; en tanto que el signo - indica que el espacio es vacío. La
distribución de estos signos en los 16 espacios del diagrama depende
exclusivamente de las relaciones que el sujeto dio a las doce premisas
relaciónales. Los signos +/- varían según la relación r que el sujeto
estableció entre dos atributos.
Para una mejor ejemplificación de las reglas con que se asignan los
signos +/-, se dan en la Figura 9-3 diagramas de Venn explicativos. En
ellos, se da la distribución de signos +/- para las relaciones 1, P y 0 entre
los atributos A y B, cuando A es antecedente y B consecuente. Los cuatro
casos que allí se plantean deben entenderse como reglas lógicas de
evaluación según que el atributo antecedente (en este caso A) sea igual o
distinto de vacío. El signo ? que aparece en el espacio de B, fuera de A, es
para ser llenado por la conversa BrA. Con estas reglas básicas se llena
todo el conjunto de 16 espacios del diagrama rectangular, siguiendo el
siguiente criterio: Cada vez que una relación r obliga a poner en un
espacio un signo +/- distinto del que ya había sido puesto por otra
relación r anterior, esta discrepancia indica que estamos frente a una
contradicción. En tanto los signos coincidan habrá coherencia o
compatibilidad — y también Isomorfismo lógica/razonamiento del sujeto.
En el caso en que A = 0
a) Diagrama de Venn correspondiente a (AIB)
En el caso en que A ≠Ǿ
b) Diagrama de Venn correspondiente a (AIB)
c) Diagrama de Venn correspondiente a (AOB)
d) Diagrama de Venn correspondiente a (APB)
Fig. 9-3 — Diagramas de Venn.
Cómo se establece el puntaje del sujeto en el TCR
El puntaje que un sujeto obtiene en el TCR se basa en el cómputo
de respuestas erróneas (o contradicciones) y no en el de respuestas
correctas. De este modo, un sujeto que obtiene 0 puntos en el test es un
sujeto de coherencia perfecta, y si su puntaje aumenta, ello será un
indicador de un grado progresivo de incoherencia de razonamiento o de
insuficiencia de su organización lógica del pensamiento.
El cifrar el puntaje sobre la base de los errores y no en las respues-
tas correctas tiene una serie de ventajas. La primera de ellas es la
posibilidad de diferenciar distintos tipos de errores y una segunda es
analizarlos en profundidad posteriormente, según un análisis de items
correspondientes. Otra ventaja sería detectar las posibles falencias
estructurales del razonamiento del sujeto en sus puntos precisos de
fracaso inferencial.
Pero el aspecto más importante por el cuál conviene centrar el
cómputo más en los errores que en las respuestas correctas, es que esto
le permite al investigador pasar de un enfoque evaluativo estrecho y
superficial, basado en la respuesta (modelo estímulo-respuesta) a un
enfoque más amplio y profundo basado en los procesos inferenciales
puestos en juego a lo largo del test (modelo estímulo-proceso inferencial
¡ntraorganísmico-repuesta). De este modo, esto permite estudiar las
causales de incoherencia y de desorganización lógica del pensamiento.
Esto se ha logrado en trabajos sucesivos (López Alonso, 1988, 1991a,
1991b, 1992; Orsi, 1988; Ricardi, 1989, 1993a, 1993b) y se continuará.
El puntaje del test se basa entonces en el cómputo de errores de
contradicción cometidos por el sujeto, los cuales son discriminados según
los siguientes tipos:
Contradicciones con las premisas extensionales
Se trata de aquellas relaciones r que entran en contradicción con los
porcentajes %A, %B, %C y %D. Se computa la cantidad de errores de
este tipo.
Contradicciones con las premisas relaciónales
Son las relaciones r que entran en contradicción con otras relaciones
r previamente dadas o correspondientes a las premisas relaciónales.
También se computa separadamente la cantidad de errores de este tipo.
Transgresiones al principio básico de identidad
Se trata de aquellas relaciones r incompatibles entre dos afirmacio-
nes o dos negaciones de un mismo atributo. Este tipo de error aparece en
las diagonales antes señaladas de las matrices I y IV. Se distinguen dos
subtipos: 1) Transgresiones a la identidad positiva (ó ld.+) — son los
errores de contestar, por ejemplo, AOA ó APA, en lugar de AIA, que es la
identidad. Estos errores sólo aparecen en la matriz I y se computan como
tales; 2) Transgresiones a la identidad negativa (ó Id.-) — son los errores
de contestar, por ejemplo, -AO-A ó -AP-A en lugar de -Al-A , que es la
identidad de un atributo definido por lo negativo. Este tipo de identidad es
importante distinguirlo, porque se ha dado como error significativo en cier-
tos tipos de cuadros o perturbaciones psiquiátricas (López Alonso, 1988).
Estos errores sólo aparecen en la matriz IV y se computan como tales.
Transgresiones a principios básicos de no-contradicción y tercero excluido
Se trata de aquellas relaciones r incompatibles dadas entre la afir-
mación y la negación de un mismo atributo. Por ejemplo, contestar Al-A
ó AP-A, en la diagonal de la matriz II; o -AIA ó -APA en la de la matriz III,
en lugar de AO-A ó -AOA, respectivamente. Estos errores pueden compu-
tarse conjunta o separadamente, pues ambos transgreden una noción
básica de no-contradicción y de tercero excluido, según se vea, y son un
índice indudable de desorganización lógica.
Items del TCR no respondidos
Se trata de las relaciones r que el sujeto ha dejado en blanco. Estas
no-respuestas se consideran como una forma de fracaso en el logro de la
coherencia total, aunque no constituyan en sí algún tipo de contradicción.
Por tal razón, se computan como tales, separadamente.
Puntaje total de errores
Bajo este título se da la suma total de errores o fracasos dados en
los cinco puntos anteriores. Esta suma total es un reflejo del rendimiento
global del sujeto en coherencia de razonamiento.
El cómputo de estos seis puntos se da en el ángulo inferior-derecho
de la Figura 9-2 y con el mismo culmina y se sintetiza el proceso de
evaluación llevado a cabo en esa hoja. Recuérdese que cuanto más alto
es el puntaje o número de errores, mayor es el índice de incoherencia y
desorganización lógica del pensamiento. Luego, para un análisis cualitativo
también importa tener en cuenta el tipo de error, su ubicación dentro de la
cadena inferencial y el tipo de inferencia inmediata (según Stebbing) que
supone.
Formas del TCR desarrolladas hasta el presente
Como puede apreciarse a través de la lectura de los puntos
anteriores, el TCR tiene un esquema básico que parte de un conjunto de
atributos y que puede variarse indefinidamente según cuáles sean los
atributos que se tomen y cuál es el área de aplicación o investigación
científica.
Ya hemos hecho referencia a las Formas I y II del test y a sus subformas
a y b correspondientes. Recordemos que la Forma I estaba compuesta por los
atributos "Respetable", "Honorable", "Admirable" y "Venerable", que son formas
incluidas de valoración social y cultural. Recordemos también que la Forma II
estaba constituida a partir de los atributos "Americano", "Argentino", "Europeo" e
"Inglés", que pueden interpretarse como nacionalidades o lugares de nacimiento.
A estas dos formas ya referidas, se le agregaron posteriormente las
siguientes formas:
Forma III — constituida por los atributos "Americano" (continental),
"Argentino", "Hispanoparlante" y "Angloparlante". Esta forma se caracteriza por
combinar dos atributos de la Forma II con otros dos atributos lingüísticos, dando
lugar a una estructura relacionai distinta.
Forma IV — desarrollada para niños en colaboración con la Lio Nora
Ricardi. Los atributos constitutivos fueron: "Los animales", "Los gatos", "Las
flores" y "Las rosas", y se presentaban en forma textual y en forma gráfica
simultáneamente, a efectos de facilitar la comprensión de los niños. Esta forma
fue ideada especialmente para ser comparada con pruebas de desarrollo
intelectual de Piaget, tanto en niños normales, como diferencia-damente en
niños oyentes y en niños sordos (Ricardi, 1989, 1993b) repectivamente.
Forma V — constituye una ampliación metodológica e instrumental
significativa del TCR, pues consiste en extender la evaluación de la coherencia
inferencial desde el conjunto básico de cuatro atributos a un conjunto de
atributos mucho mayor. Por ejemplo, el primer modelo de la Forma V se
constituyó sobre los cuatro atributos básicos, que en este caso estuvieron
referidos a posturas y categorías de valor como: "Idealista", "Realista",
"Materialista" y "Escéptico". Además de establecerse las relaciones r entre estos
cuatro atributos y su correspondiente diagrama rectangular, se establecieron las
relaciones r que guardaban esas cuatro posturas de valor con cada uno de los
términos de una lista de 36 actividades u ocupaciones humanas. Entre éstas
estaban, por ejemplo: "sacerdote", "científico", "político", "prostituta", "juez",
"narcotraficante", "médico", "educador", "travesti", "economista", "banquero",
"drogadicto", "asistente social", "psicólogo", "abogado", "predicador", "legista",
"filántropo", etc.
Esta nueva forma pemítió establecer un mapa para cada una de esas
actividades o profesiones según su compatibilidad o incompatibilidad con las
relaciones del diagrama rectangular que refleja las posturas axiológicas del
respondente y dando el grado de "idealismo", "realismo", "materialismo" y
"escepticismo" que corresponda a cada una de esas 36 actividades. Sólo a
modo de breve referencia, diremos que el mapa de "sacerdote" se constituyó
con mayor frecuencia y consistencia sobre las
intersecciones de los atributos "idealista" y "realista"; mientras que el de
"narcotraficante" se constituyó con igual definición sobre las intersecciones
de "materialista" y "escéptico". De este modo, tomando estos dos ejemplos
contrapuestos, puede establecerse y ampliarse indefinidamente el mapa
inferencial que liga a distintos atributos a través de distintas categorías
conceptuales importantes, y a distintos niveles de significación. Dichos
mapas constituyen en sí una estructura de relaciones inferenciales entre
conceptos que permiten explorar, justamente, procesos de formación de
conceptos, de categorización, definición y aprendizaje. Las posibilidades
de exploración, de este modo, se tornan ilimitadas, dado que sólo depende
de cambiar el conjunto de términos o atributos que se desee estudiar. Una
de las aplicaciones posibles que se está planeando para un futuro —
esperemos — no muy lejano, es la de utilizar esta forma para establecer
el grado de consistencia o no-contradicción entre y dentro distintos
sistemas expertos referidos a áreas comparables de conocimiento, donde
a veces la no-consistencia o contradicción mutua entre y dentro de los
sistemas expertos haya creado gran desconcierto. Obviamente, esta
aplicación supone crear formas del TCR especializadas y ajustadas a cada
sistema experto.
Por último, otra forma que se proyecta es una en la cuál se
combinan percepción visual de la realidad, organización perceptual,
memoria operativa, coherencia de razonamiento y organización lógica del
pensamiento.
CONCLUSIONES
Hemos reservado para esta última sección las consideraciones
relativas a las normas psicométricas del TCR y a algunos de los resultados
obtenidos con dicho instrumento.
Respecto de las normativas psicométricas esperadas de todo instru-
mento de medición, en especial a las propiedades de confiabilidad, validez,
sensibilidad y generabilidad que deben satisfacer dichos instrumentos,
cabe decir lo siguiente:
La primer propiedad que hemos atendido y — entendemos —
satisfecho es la de validez. Creemos que por sus fundamentos lógicos, el
TCR tiene de por sí una validez de contenido y de constructo asegurada
en esa disciplina. Secundariamente y un poco contrariamente a lo habi-
tualmente esperado, hemos puesto atención en la confiabilidad.
Nuestro criterio extemo ha sido en realidad el de la isomorfía entre
los procesos de razonamiento del sujeto y la lógica, y entendemos con esto
asegurada la validez de la prueba sobre la base de que esa isomorfía no
es un producto aleatorio, sino lógico-organizacional de la mente. La
posibilidad de que esa isomorfía o coincidencia estructural entre dos
sistemas independientes (lógica-pensamiento) ambos tan complejos, se
produzca al azar es totalmente impensable. Las posibilidades aleatorias de
llenar al azar sólo la segunda parte de la hoja de respuestas es de 3 a la
64. Por otra parte, llama la atención la habitual frecuencia (30%) con que
jóvenes sin instrucción lógica son capaces de responder el TCR sin ningún
error de contradicción, la que es mucho más alta cuando se trata de uno
a cinco errores solamente. Todo esto ha garantizado de algún modo no
sólo la validez del instrumento, sino la existencia de una organización
lógica natural en la mente humana (López Alonso, 1990, 1991a) y éste es
uno de los resultados más importantes.
Implícitamente, nuestro criterio de validez se ha sustentado también
en el principio wundtiano de heterogénesis de los fines, dado que, adap-
tando nuestra interpretación del mismo, la lógica se instrumenta como una
disciplina independiente del pensamiento, aunque se haya originado a
partir de éste. En tal sentido, si la lógica no fuera independiente del
pensamiento o si no supusiéramos dicho principio, y no fuera, por tanto, un
sistema regulativo y evaluativo del mismo independiente, entonces no
podríamos adoptar la lógica como "criterio externo" para fundamentar
sobre el mismo nuestro criterio de validez.
Volviendo a la confiabilidad, como antes dijéramos, la hemos dejado
en un plano secundario. Con esto hemos seguido un criterio que ha sido
destacado por Sechrest (1989). Este autor ha objetado críticamente a
aquéllos que, sin pensarlo, suponen que una medida no puede ser válida
sin ser previamente confiable. Para ello, Sechrest se ha basado en el
criterio de seguridad y generalización, previos al de confiabilidad, tal como
ha sido sustentado por Cronbach y otros (1972), y también se ha basado
en ejemplos críticos propios y de Harrell (1981) respecto de la estabilidad
y seguridad de las medidas de confiabilidad.
Según estos autores, si bien la confiabilidad es usualmente interpre-
tada como un coeficiente que indica el grado de estabilidad o no-variabilidad
aleatoria de una medición, puede no diferenciar suficientemente entre la
estabilididad/variabilidad del instrumento y la estabilidad/variabilidad del
objeto o sujeto medido. Para evitar este riesgo, debemos contar con un
suficiente criterio de validez previo.
Si tenemos asegurado un criterio de validez tal, se atenuará esa
insuficiencia de la confiabilidad frente a la complejidad de factores del
proceso medido. En tal sentido, la confiabilidad no ocultará riesgo o error
alguno de estimación y/o evaluación por variabilidad no discriminada.
Sechrest atribuye también a falta de comprensión del problema de la
generalización visto por Cronbach y colaboradores y a la confusión
derivada de distintos conceptos de confiabilidad, como una fuente posible
de graves errores en la fundamentación de la medición. Siguiendo este
criterio, hemos preferido, entonces, asegurar previamente un suficiente
criterio de validez sustentado en el isomorfismo entre la lógica deductiva
de clases y/o de conjuntos y el razonamiento natural o no entrenado
lógicamente de los sujetos.
No obstante, hemos obtenido medidas de confiabilidad "test-retest"
y "formas paralelas" bastante satisfactorias — correlaciones iguales a 0,95
y 0,89, respectivamente.
Respecto a la sensibilidad y generabilidad del TCR, cabe decir que
éstas dependen del mismo factor internológico-organizacional que se
pretende medir. López Alonso (1992), Ricardi (1993a) y López Alonso y
Ricardi (1993) constataron, en los resultados del TCR tomado a muestras
de estudiantes secundarios, de sujetos psiquiátricos y controles, que la
sensibilidad básica del instrumento y el grado de organización lógica del
pensamiento están fuertemente asociados y dependen de la estructura de
relaciones r que los sujetos han dado como premisas relaciónales.
Asimismo, respecto a la generalidad, constataron en los mismos
trabajos que ésta aumenta cuando la estructura de relaciones r que el
sujeto confiere a las premisas se adecúan mucho más a las relaciones
existentes en la realidad. Los autores mencionados diferenciaron para una
misma forma del TCR (Forma II) 40 estructuras diferentes de relaciones de
premisas. Una sola de esas estructuras acaparó la mayor frecuencia o
adhesión por parte de los sujetos; esta estructura fue la que más unívoca-
mente reflejó la estructura de relaciones de la realidad y la que dio el
promedio más bajo de errores de contradicción (3,90 errores para 176
sujetos), comparada con estructuras unipersonales que distorsionaban las
relaciones de la realidad y donde el número de errores ascendió a 57 sobre
64 ítems (para un único sujeto).
Como vemos, el TCR refleja su sensibilidad através del distinto tipo
de estructura relacional de premisas dada por los sujetos, y refleja su
generalidad a través del grado en que dicha estructura se ajusta de la
forma más adecuada y unívoca a la estructura de relaciones existentes en
la realidad, y no la distorsiona. Con estos resultados se comprueba cómo
el TCR satisface y pone de relieve la importancia de la diferenciación antes
invocada de que todo sujeto tiene dos formas de coherencia: una, interna,
consigo mismo, y otra, externa, con el mundo y la realidad — donde la
primera importa para el logro de la segunda, pues la primera representa a
su organización lógica interna.
Respecto a su fundamentación epistemológica, el TCR es una
técnica coincidente con los principios y estructuras cognitivas fundamenta-
les de la "lógica operatoria" de Piaget (1977), ya sea en lo que hace a los
aspectos de extensión y comprehensión de las estructuras formales jerárqui-
cas operativas de agrupamiento, grupo y/o reticulado, como a sus aspectos de
conservación, coordinación, reversibilidad y equilibrio del sistema. Y coincide
también con Piaget en el criterio de considerar que la capacidad de resolución
de las contradicciones se halla en el nivel más alto y avanzado del desarrollo
intelectivo.
Queda una última cuestión: Hemos supuesto a la lógica como
independiente del pensamiento, pero ¿hasta qué punto el grado de isomorfismo
entre ambos es una medida cabal de la organización del pensamiento y de su
dinámica?
Ya hemos dicho que el pensamiento es un proceso vital y abierto, y por lo
tanto expuesto permanentemente a nuevos conflictos cognitivos y
contradicciones, lo cual lo hace cambiante, sujeto a error, incertidumbre e
inestabilidad. Esto es producto de su intercambio dinámico con la realidad y
depende de las representaciones, intencionalidad, objetivos y expectativas del
sujeto pensante. En otro trabajo (López Alonso, 1990, 1991a) nos referimos a
esta característica del pensamiento como sistema abierto y necesitado de un
permanente equilibrio entre redundancia y entropía de la mente.
Cuando iniciamos nuestro proyecto de medir la organización lógica del
pensamiento a través del TCR, no partimos de la idea de que el pensamiento
tuviera que ser una organización lógica perfecta e infalible. Una organización tal
nos estaría hablando de un sistema cerrado y autosuficiente, cuando, en
realidad, el pensamiento es todo lo contrario: un sistema abierto, falible y
perfectible, permanentemente expuesto a error e incertidumbre. Si el
pensamiento no fuera así, no sería ni pertenecería a un sistema viviente.
Pero entonces, dentro de ese contexto ¿qué sentido tiene medir la
organización lógica del pensamiento a través de su isomorfismo con la lógica —
una ciencia formal, de "artefactos formales congelados", atemporal e
inamovible?
Nuestra respuesta es: El isomorfismo, en realidad, está midiendo la
coherencia y la fuerza lógica del pensamiento hasta un cierto estándard o nivel
de alcance y realización representado por una cierta lógica, y no más allá de
ésta. La lógica sólo se encarga de dar y marcar ese nivel. Es como una "regla"
con la que se mide el crecimiento organizacional del pensamiento y sólo nos
dice que el pensamiento ha llegado "por lo menos hasta acá" en su
organización, pero esa "regla" no es esa organización ni la explica. El
pensamiento puede crecer en su complejidad mucho más allá de lo que esa
"regla" o lógica puede medir, pues el pensamiento es un proceso vital,
inferencialmente progresivo y sin límites — un generador ilimitado de
significaciones, conceptos y formas.
REFERENCIAS BIBLIOGRÁFICAS
ABELSON, R.P. ARONSON, E., MCGUIRE, W.J.. NEWCOMB, T.M., ROSENBERG, M.J..
TANNEMBAUM, P.H. (Eds.)- Theories of cognitive consistency, a source-book. Chicago (IL): Rand-
McNally, 1968.
BENTHAM, J. Outline on a new system of logic. [S.I.: s.n.], 1827.
BOOLE, G. An investigation of the laws of thought. London: Macmillan, 1854.
--------------- .The mathematical analysis of logic. Cambridge (MA): MacMillan, Barclay and
MacMillan, 1847.
--------------- . The mathematical analysis of logic. Oxford: Basil Blackwell, 1948,1951.
BROUWER, L.E.J. Intuitionism and formalism. Bulletin of the American Mathematical Society, V.20,
p.81-96, 1913.
CERASO, J., PROVITERA. A. Sources of error in syllogistic reasoning. Cognitive Psychology. V.2,
p.400-410. 1971.
CHAPMAN. L.J., CHAPMAN, J.P. Atmosphery effect re-examined. Journal of Experimental Psychology
Washington, D.C.. v.58, p.220-226,1959.
CRONBACH. L.J., GLESER, G.C., RAJARATNAM, N.. NANDA. H. The dependability of behavioral
measure, theory of generalizability for scores and profiles. New York: Wiley, 1972.
DEL VAL, J.A. (Comp.). Investigaciones sobre lógica y psicología. Madrid: Alianza Universidad, 1977.
DICKSTEIN, L.S. Differential difficulty of categorical syllogisms. Bulletin of the Psychonomic Society.
V.8, p.330-332. 1976.
ERICKSON. J.R. Research on syllogistic reasoning. In: REVLIN, R., MAYER, RE. (Eds.). Human
reasoning. Washington, DC: Winston, 1978.
--------------- . A set analysis theory of behavior in formal syllogistic reasoning tasks. In: SOLSO,
R.L. (Ed.). Theory of cognitive psychology, the Loyola Symposium. Potomac: Erlbaum. 1974.
EVANS, J.S.B.T. Selective processes in reasoning. In: EVANS, J.S.B.T. (Ed.). Thinking and reasoning,
psychological approaches. London: Routledge and Kegan. 1983.
FEATHER, NT. Acceptance and rejection of arguments in relation to attitude strength, critical ability,
and intolerance of incosistency. Journal of Abnormal and Social Psychology, v.69, p. 127-136,1965.
FELDMAN, S. (Ed.). Cognitive consistency, motivational antecedents and behavioral consequents. New
York: Academic Press, 1966.
FESTINGER, L A theory of cognitive dissonance. Stanford (CA): Stanford University Press, 1957.
FRANDSEN, A.N., HOLDER. J.R. Spatial visualization in solving complex verbal problems. Journal of
Psychology. Provincetown (MA), v.73, p.229-233, 1969.
FRASE, L.T. Belief, incongruity, and syllogistic reasoning. Psychology Reports, v. 18, p.982, 1966.
GOTTESMAN, L. CHAPMAN, L.J. Syllogistic reasoning errors in schizophrenia. Journal of Consulting
Psychology, v.24, p.250-255, 1960.
GUILFORD. J.P. Three faces of intellect. American Psychologist. Washington. D.C., v.14,
p.469-479, 1959.
HALPERN. J. Reasoning. In: EYSENCK. M.W. (Ed.). The Blackwell dictionary of cognitive
psychology. Oxford: Basil Blackwell. 1990.
HAMILTON, W. Lectures on metaphysics and logic. [S.I.: s.n.J, 1859.
HARRELL. W.A. The effects of alcohol use and offender remorsefulness on sentency decisions.
Journal of Applied Social Psychology. Silver Spring (MD). v. 11, p.83-91, 1981.
HEIDER, F. The psychology of interpersonal relations. New York: Wiley. 1958.
HENLE. M. Foreword. In: REVLIN, R., MAYER. R.E. (Eds.). Human reasoning. Washington,
D.C.: Winston. 1978.
. ------------ . On the relation between logic and thinking. Psychological Review. Washington.
D.C.. V.69, p.366-378, 1962.
HERBART, J.F. Hauptpunkte derlogik. [S.I.: s.n). 1808.
— ---------- . Lehrbuch zur einleitung in die philosophie. [S.I.: s.n.]. 1813.
JOHNSON-LAIRD, P.N. Mental models. Cambridge (MA): Harvard University Press. 1983.
------------- . El ordenador y la mente: introducción a la ciencia cognitiva. Barcelona: Paidós,
1990.
KAHNEMAN, D.. SLOVIC, P.. TVERSKY, A. (Eds.). Judgment under uncertainty: heuristics
and biases. Cambridge: Cambrigde University Press, 1983.
KANT, I. Logik. [S.I.: s.n.|. 1800. (Redactado por Jàsche sobre apuntes de clase de Kant).
KASSIN, S.M. Base rates and prediction: the role of sample size. Personality and Social
Psychology Bulletin. Beverly Hills (CA). v.5, p.210-213, 1979.
LEFFORD, A. The influence of emotional subject matter on logical reasoning. Journal of
General Psychology. Provincetown (MA), v.34. p. 127-151, 1946.
LINDZEY. G„ ARONSON, E. (Eds.). The handbook of social psychology. 2.ed. Reading
(MA): Addison Wesley, 1969. v.3: The individual in the social context.
LIPPS, T. Grundzuge derlogik. [S.I.: s.n|. 1893.
LOPEZ ALONSO. A.O. Test de coherencia. Publicación CIIPME. Buenos Aires, v.65. 1981.
------------- . Razonamiento humano: un test para su consistencia interna. Revista Signos
Universitarios. Buenos Aires, v.7, n.13 (Especial: Psicología), 1988.
------------- . Razonamiento humano: distintos niveles de insight estructura y organización lógica
subyacente (versión ampliada). Cuadernos Pinero, Buenos Aires, n.16, 1990.
------------- . Razonamiento humano: distintos niveles de insight, estructura y organización lógica
subyacente. Revista de Psicología General y Aplicada. Madrid, v. 44, n.2, p.221-230,199 la.
------------- . Hacía una teoría sistémico-cibernética de la organización cognitiva de la mente y
del origen de la conciencia. Revista Signos Universitarios. Buenos Aires, v.10, n.19
(Especial: Miscelánea I), 1991b.
--------------. Incidencia de la codificación de las premisas en el logro de un razonamiento
coherente. Revista Interdisciplinata, Buenos Aires, v.10 n.2, p. 137-167, 1991c.
--------------. Relational structures of premisses as determinant of reasoning coherence and
thought logical organization. Brussels, 1992. Trabajo presentado en el 25th. International
Congress of Psychology, Bélgica, julio 1992.
LOPEZ ALONSO, A.O., RICARDI, N.C. La organización lògica del razonamiento en relación con
categorías de diagnòstico psiquiátrico. Revista IRICE, Rosario, 1993.
LORD, C.R., ROSS, L, LEPPER, M.R. Biased assimilation and attitude polarization: effects of
prior theories on subsequently considered evidence. Journal of Personality and Social
Psychology, Washington, D.C., v.37, p.2098-2109, 1979.
MAYER, N.E., REVLIN, R. An information processing framework for research on human
reasoning. In: REVLIN, R., MAYER, R.E. (Eds.). Human reasoning. Washington, D.C.:
Winston, 1978.
McGUIRE, W.J. Cognitive consistency and attitude change. Journal of Abnormal and Social
Psychology, v.60, p.345-353,1960.
--------------- .A syllogistic analysis of cognitive relationships. In: ROSENBERG, M.J. .HOVLAND,
G.I., McGUIRE, W.J., ABELSON, R.P., BREHM, J.W. (Eds.). Attitude organization and change.
New Haven: Yale University Press, 1960.
MORGAN, J.J., MORTON, J.T. The distortion of syllogistic reasoning produced by personal
convictions. Journal of Social Psychology, Provincetown (MA), v. 13, p. 180-184, 1944.
ORSI, A.N. Coherencia de razonamiento y diferencias individuales: un estudio de sus carac-
terísticas e interdependencias. Revista Signos Universitarios, Buenos Aires, v.7, n.13
(Especial: Psicología), 1988.
PIAGET, J. Ensayo de lógica operatoria. Buenos Aires: Guadalupe, 1977.
POLLARD, P. Human reasoning: some possible effects of availability. Cognition, Amsterdan,
V.12, p.65-96, 1982.
REVLIN, R. Two models of syllogistic reasoning: feature selection and conversion. Journal of
Verbal Behavior,w.l4, p.180-195, 1975.
RICARDI, N.C. Estudio evolutivo del pensamiento y su covariación con la consistencia interna
del razonamiento en niños sordos y oyentes. Revista del Instituto de Investigaciones
Educativas. Buenos Aires, v.15, n.67/68, oct. 1989.
--------------- . La consistencia interna de razonamiento y su relación con distintas dimensiones
de la personalidad, en sujetos con y sin antecedentes psiquiátricos. Buenos Aires: Instituto
de Investigaciones Psicológicas de la Universidad del Salvador, 1992. (Serie Documenta
Laboris).
--------------- . Construcción de premisas y coherencia de razonamiento. IRICE-URN-CONICET,
Rosario, n.6, mar. 1993a.
----------------. Niveles diferenciales de rendimiento lógico en niños oyentes y sordos. Interdiscipli-
naria, Buenos Aires, v.ll, n.2. 1993b.
RICHTER, M. The theoretical interpretation of errors in syllogistic reasoning. Journal of Psy-
chology, Provincetown (MA), v.43, p.341-344, 1957.
RIMOLDI, H.J.A. Problems of thinking about thinking: language, and logical structure in problem
processing. In: FROELICH, W., SMITH, G., DRAGUNS, J., HENTSCHEL, U. (Eds.).
Psychological processes in cognition and personality. Washington, D.C.: Hemisphere, 1984.
. A technique for the study of problem solving. Educational and Psychological Measure
ment, Durham (NC), v.15, n.4, p.450-461, 1955.
ROMERO, F., PUCCIARELLI, E. Lógica. Buenos Aires: Espasa-Calpe, 1947.
SCHRODER. Vorlesungen uber die algebra dér logik. [S.I: s.n.], 1890.
SECHREST, L. Metodo de investigación, fiabilidad y validez. In: BELLACK, AS., HERSEN, M. (Eds).
Métodos de investigación en psicología clínica. Bilbao: Desclée de Brouwer, 1989.
SELLS, SB. The atmosphere effect: an experimental study of reasoning. Archives of Psychology, V.29,
p.3-72, 1936.
SMEDSLUND, J. Circular relation between understanding and logic. Scandinavian Journal of
Psychology, Stockholm, v.ll, p.217-219, 1970.
STEBBING, L.S. Introducción a la lógica moderna. México: Fondo de Cultura Econòmica, 1965.
THURSTONE, L.L. Primary mental abilities. Psychometric Monograph, Chicago (IL): n.l, 1938.
TVERSKY. A.. KAHNEMAN, D. Judgment under uncertainty: heuristics and biases. Science,
Washington, D.C., v.185, n.4157,p.U24-1131, 1974.
VAIHINGER. H. La filosofia del corno si. [S.I.: s.n.], 1878-1879.
VON DOMARUS, E. The specific laws of logic in schizophrenia. In: KASAMIN, J.S. (Ed.). Language
and thought in schizophrenia. Berkeley: University of California Press, 1944.
VON WRIGHT, G.H. Ensayo de lógica modal. Buenos Aires: S. Rueda, 1970.
WASON, P.C. Problem solving and reasoning. British Medical Bulletin. Cognitive Psychology,
Edinburgh, v.3, p.206-210,1971.
---------------. Realismo y racionalidad en la tarea de selección. In: CARRETERO, M., GARCIA
MADRUGA, J.A. (Comps.). Lecturas en psicología del pensamiento. [S.l.]: Alianza Psicología,
1984.
----------------. Reasoning. In: FOSS. B. (Ed.). New horizons in psychology. London: Penguin, 1966.
---------------. Self contradictions. In: JOHNSON-LAIRD, P.N., WASON, P.C. (Eds.). Thinking:
readings in cognitive science. Cambrigde: Cambridge University Press, 1977.
WHITEHEAD, A.N., RUSSELL, B. Principia mathematica. Cambrigde: Cambridge University Press,
1910.
WOODWORTH, R.S., SELLS, S.B. An atmosphere effect in normal syllogistic reasoning. Journal of
Experimental Psychology, v.18, p.451-460, 1935.
WUNDT, W. Ethik. [S.I.: s.n], 1886.
---------------. System dér philosophie. [S.I.: s.n.], 1889.
WYER JR., R.S. Cognitive organization and change: an information processing approach. Potomac:
Erlbaum, 1974.
CAPÍTULO 10
OBSERVAÇÃO DO COMPORTAMENTO
Cecília Guarnieri Batista
Centro de Estudos e Pesquisas Prof. Dr. Gabriel Porto (CEPRE)
Faculdade de Ciências Médicas da UNICAMP
presente capítulo aborda os fundamentos teóricos e as diretrizes
metodológicas para a realização de estudos de observação do
comportamento. Exclui a pesquisa baseada em entrevistas e na
análise de relatos verbais e de falas; exclui também a pesquisa relacio-
nada à aplicação de testes e de escalas de desenvolvimento.
Observação é definida por Reber (1985), no The Penguin Diction-
ary of Psychology, com três acepções: 1) Em um sentido genérico,
qualquer forma de exame de eventos, comportamentos, fenômenos, etc.
2) Por extensão, qualquer dado individual, escore, valor, etc, que
represente um evento, comportamento ou fenômeno. O autor comenta
que o termo "observação" muitas vezes é usado em oposição a "expe-
rimento", favorecendo a distinção entre a pesquisa com manipulação de
variáveis independentes e a pesquisa que utiliza observação naturalística.
Lembra, entretanto, o argumento de muitos de que tal diferenciação é
desnecessária, uma vez que um experimento é meramente uma forma de
fazer observação. 3) Um comentário casual ou informal a respeito de, ou
uma interpretação do que foi observado.
Observação naturalística é definida, no mesmo dicionário, como
a coleta de dados através de cuidadosa observação de eventos em seu
ambiente natural. E métodos observacionais são definidos como
quaisquer dos procedimentos e técnicas utilizados em pesquisa não-
experimental para favorecer a observação precisa de eventos.
Este trabalho se concentra nos "métodos observacionais", utilizados
especialmente em situação de "observação naturalística" do comporta-
mento humano, de acordo com as definições acima.
ESTUDOS OBSERVACIONAIS NO BRASIL — ANOS 70
Um dos impulsos para a realização de pesquisa em Psicologia no
Brasil foi a criação dos cursos de pós-graduacão na área, destacando-se
entre os primeiros os do Instituto de Psicologia da Universidade de Sao
Paulo, que se iniciaram, em 1970, com a autorização dos cursos de
mestrado nas áreas de concentração em Psicologia Experimental e
Psicologia Escolar.
Muitos dos primeiros estudos em observação do comportamento
constituíram-se nas teses de doutorado de alguns dos professores orien-
tadores desses cursos, notadamente da área de Psicologia Experimental.
Vários desses trabalhos consistiram em estudos etológicos do comporta-
mento animal (Cunha, 1967, Carvalho, 1972 e Ribeiro, 1972, estudando
formiga saúva — Atta sexdens rubropiloser, Forel e Ades, 1972, estudando
a aranha Arigiope argentata). Outras teses foram desenvolvidas na área
da análise do comportamento (Witter, 1969, sobre discriminação em pré-
escolares; Kerbauy, 1972, sobre autocontrôlé do comportamento alimen-
tar; Mejias, 1973, sobre modificação do comportamento escolar). Foram
também realizados estudos sobre a interação mãe-criança, por docentes
da USP-Ribeirão (Rossetti-Ferreira, 1967, em Londres; Marturano, 1972,
na USP; Alves, 1973, na então Faculdade de Filosofia, Ciências e Letras
de Ribeirão Preto; Stella, 1974, em Londres). Destaque-se, ainda, o
estudo sobre interação mãe-bebê, de Sollitto (1972) na PUC-SP. Os
alunos de pós-graduacão receberam a influência desses docentes e,
também, de outros professores ligados à análise do comportamento
(Carolina M. Bori, Maria Amélia Matos, Margarida Windholz e Thereza P.
Lemos Mettel, esta última inicialmente atuando na USP-Ribeirão e
posteriormente na UnB). Dessa forma, as abordagens teóricas que mais
influenciaram a realização de estudos observacionais no período foram
a etologia e a análise do comportamento, que serão examinadas a seguir.
Influências teóricas e conceituais
Etologia
A etologia pode ser caracterizada como uma perspectiva biológica
de estudo do comportamento. Originária da Zoologia, inicialmente
caracterizou-se como uma ciência do comportamento animal. Isso levou
o etòlogo, de acordo com as considerações de Carvalho (1978), a olhar
o comportamento como um aspecto da Biologia do animal e a formular a
respeito do comportamento o mesmo tipo de questões que formularia a
respeito dos órgãos do corpo. Isso significa que o etòlogo considera que
o comportamento é fruto da evolução, foi criado pela seleção natural, pela
pressão seletiva do ambiente onde a espécie evoluiu e ao qual é
adaptada. A autora considera que esse ponto de vista traz duas
conseqüências metodológicas principais.
A primeira conseqüência se refere às questões a serem formuladas
sobre o comportamento (ou sobre qualquer evento biológico) a partir
dessa perspectiva, ou seja, as questões sobre o porquê causai, ontoge-
nético, funcional e evolucionário (ou filogenètico). Segundo Carvalho
(1978), a pergunta causai se refere aos determinantes da ocorrência de
um evento comportamental no indivíduo. A questão ontogenética se reporta
à origem do comportamento no indivíduo; já a questão funcional liga-se à
função que o comportamento tem para a espécie, considerando-se a aná-
lise em relação ao ambiente evolucionário do animal. Por fim, o porquê
filogenètico refere-se ao modo pelo qual a evolução criou, na espécie, os
mecanismos responsáveis pela emissão do comportamento no indivíduo.
Os métodos empregados para responder a essas questões, de
acordo com Cunha, que se baseia em Lorenz, são, basicamente, a obser-
vação e a comparação. Para Cunha (1983), a observação é o único método
realmente indispensável, mas o emprego da comparação é que tem
permitido a inter-relação das quatro áreas características de inves-
tigação, referentes às questões mencionadas. Ele fundamenta essa
afirmação com o seguinte argumento: de um lado, o estudo da causação
do comportamento deve geralmente começar pelo levantamento do
etograma de uma espécie, ou seja, "o conhecimento pormenorizado de
seus comportamentos típicos em pelo menos certas fases do ciclo
biológico, traduzido numa categorização e descrição com um caráter
morfológico" e, de outro lado, o estudo da filogênese do comportamento
geralmente envolve o estudo comparativo de duas ou mais espécies que,
por outros critérios, como os morfológicos, se apresentam aparentadas.
Quando se inicia o estudo filogenètico, freqüentemente se verifica a
necessidade dos conhecimentos providos pelo etograma, que torna o
investigador mais preparado para reconhecer características similares ou
diferentes entre espécies. E essa relação de semelhança ou diferença leva
à busca de uma explicação em termos de seleção natural ou de fatores de
condicionamento ou treino ocorridos ao longo da vida do animal. Assim,
Cunha apresenta uma visão de investigação das quatro questões, que se
baseia no método de observação e que é integrada pelo método de
comparação.
Voltando às colocações de Carvalho sobre conseqüências metodo-
lógicas da perspectiva biológica que caracteriza a etologia, essa autora
considera que a segunda conseqüência metodológica é a ênfase no
organismo. Para Carvalho (1978), cada espécie tem sua própria história
evolucionaría, e cada aspecto de seu comportamento ou estrutura se torna
compreensível à luz dessa história. Isso resulta em tornar extremamente
importante considerar qual é o organismo que está em jogo ao se analisar
o comportamento.
A etologia dedicou-se, inicialmente, ao estudo do comportamento
de diferentes animais (insetos, peixes, aves, mamíferos, notadamente
primatas). Os estudos do comportamento humano passaram a aumentar
a partir dos anos 70 (Hutt e Hutt, 1974, original de 1970; Blurton Jones, 1972;
McGrew, 1972). Estes estudos têm ênfase descritiva, trazem em geral
relações extensas de categorias de comportamentos definidos morfologi-
camente, utilizam como medidas a freqüência de ocorrência, a duração e
a intensidade, e buscam efetuar análise de seqüência de categorias.
Em nosso meio, Cunha (1974) ministrou por vários anos um curso de
observação do comportamento animal de orientação etològica, formalizando
uma série de aspectos referentes à elaboração de definições de comporta-
mento. Comportamento é entendido como um fenômeno biológico, "consti-
tuído de estados orgânicos, posturas e movimentos cuja forma e orga-
nização não podem ser atribuídas diretamente a energias externas ao
sistema orgânico, que os exibiria como uma manifestação de sua irrita—
bilidade e modificabilidade" (Cunha, 1975, p.264). Os estados orgânicos
são "revelados por aspectos funcionais tais como temperatura, cor, rigidez,
etc, de uma estrutura orgânica ou suas partes"; as posturas são definidas
como "disposições espaciais estacionarias de partes do organismo umas
em relação a outras"; e os movimentos, como "mudanças de posição
espacial de uma ou mais partes do organismo em relação a outras, toma-
das como referência" (id. ibid., p.265).
Análise do comportamento aplicada
A análise do comportamento aplicada teve suas bases definidas ao
final dos anos 60 e foi derivada da análise experimental do comportamento,
que aborda a relação comportamento-ambiente corno em constante altera-
ção recíproca, conforme se depreende da afirmação de Skinner (1975, p.1)
de que "os homens agem sobre o mundo e o transformam e por sua vez
são transformados pelas conseqüências de suas ações". As unidades de
estudo são constituídas por classes de estímulo, definidas através de seus
efeitos no comportamento, e por classes de respostas, definidas por suas
conseqüências no ambiente (Catania, 1973). As relações entre esses
eventos são explicitadas na contingência de reforçamento: segundo
Skinner (1975, p. 12), "uma formulação das interações entre um organismo
e o seu meio ambiente, para ser adequada, deve sempre especificar três
coisas: 1) a ocasião na qual ocorreu a resposta, 2) a própria resposta, e 3)
as conseqüências reforçadoras. As relações entre elas constituem as
contingências de reforçamento". A estratégia metodológica da análise
experimental do comportamento é explicitada por Sidman (1960) como
estando baseada no estudo de alterações na freqüência acumulada de
uma resposta ao longo do tempo, identificando-se a influência da intro-
dução de variáveis sobre uma linha de base estável. Dessa forma, a
análise experimental do comportamento enfatiza a importância do estudo
das mudanças no comportamento à medida em que ocorrem, em contra-
posição a outras abordagens experimentais que se limitam à medição
anterior e posterior à realização da intervenção experimental.
A análise do comportamento aplicada foi delimitada por Baer, Wolf
e Risley (1968, p.91) corno "o processo de aplicar princípios de comporta-
mento, algumas vêzes em experiência, para a melhoria de comportamen-
tos específicos, e de avaliar simultaneamente se as mudanças observadas
poderiam ser atribuídas ao processo de aplicação — e, em caso positivo,
a que partes do processo". Assim, a análise aplicada está dirigida para o
exame de comportamentos que são socialmente relevantes, ao invés de
serem convenientes para estudo. Segundo esses autores, o estudo deve
ser aplicado, comportamental e analítico; além disso, deve ser tec-
nológico, conceitualmente sistemático e efetivo, devendo, ainda,
demonstrar alguma generalidade.
Quanto à metodologia de coleta de dados, Bijou, Peterson e Ault
(1968, p. 175) propõem "um método para integrar os campos de estudo
descritivo e experimental a nível dos dados e dos conceitos empíricos".
Eles consideram que essa integração é possível se for utilizada como dado
básico a freqüência de ocorrência de eventos ambientais e comportamen-
tais, sendo que a informação sobre as relações funcionais entre eventos
só poderão ser fornecidas por estudos experimentais. Os autores
estabelecem procedimentos para a condução de estudos descritivos de
campo, incluindo as seguintes considerações: a) Especificação da
situação em que o estudo é conduzido — segundo os autores, a situa-
ção deve ser definida em termos do ambiente físico e social e dos eventos
observáveis que ocorrem no mesmo, buscando-se o mínimo de variações
na mesma ao longo do estudo, b) Definição de eventos comportamen-
tais e ambientais em termos observáveis — os autores consideram que
a seleção de eventos comportamentais e ambientais deve ser derivada de
estudos preliminares, a partir dos quais se constrói um código observacio-
nal, consistindo de itens definidos e de seus símbolos. Os eventos
comportamentais deverão ser registrados em sua freqüência real ou em
termos de sua ocorrência ou não ocorrência a intervalos de tempo
prefixados. Eventos ambientais podem se referir a objetos, descritos em
termos de suas características físicas; a eventos biológicos, difíceis de
medir em situações de campo; e a eventos sociais, definíveis do mesmo
modo que definem eventos comportamentais, e) Mensuração da
fidedignidade do observador — os autores apresentam a fórmula para
cálculo do acordo entre observadores (acordos/acordos + desacordos) e
propõem procedimentos para evitar a ocorrência de desacordos, d)
Procedimentos para coleta, análise e interpretação de dados — os
autores sugerem que a coleta de dados seja realizada a intervalos
regulares, que a análise consista na transformação dos dados de modo a
facilitar a visualização das relações entre eventos e que a interpretação se
limite a conceitos empíricos e relações consistentes com as observações
e análises efetuadas. Eles consideram que, em um estudo descritivo de
campo, as interpretações geralmente consistem em uma comparação do
que foi descoberto na situação com outros dados obtidos sob condições
funcionalmente semelhantes.
Diretrizes metodológicas
Como decorrência das proposições teóricas da etologia e da análise
do comportamento aplicada, foi desenvolvida uma série de diretrizes
metodológicas para a realização de estudos observacionais, que serão
descritas a seguir. Antes, porém, é importante lembrar a questão da
seletividade. Segundo Hinde (1966), a seleção na observação é inevitável:
a descrição e a classificação envolvem rejeição de dados e seleção de
critérios. Sempre se corre o perigo de rejeitar os dados essenciais e utilizar
unidades de análise irrelevantes. No entanto, a rejeição insuficiente de
dados pode levar a um conjunto de detalhes confusos e desviar a atenção
dos aspectos essenciais do problema. Para Hinde (1973), o grau de
seleção depende do problema estudado e do fato de que a precisão do
registro diminui à medida que aumenta o número de respostas a registrar.
Delimitação de unidades e definição de categorias de comportamento
Hinde (1973) lembra que o comportamento se apresenta numa
complexa sucessão de eventos no tempo: é preciso dividi-lo em unidades
para possibilitar sua descrição e classificação. As unidades devem ser
delimitadas a partir de pontos de transição, ou seja, de fenômenos que se
distinguem, por sua forma ou por seus resultados, do fenômeno
imediatamente precedente (Cunha, 1975). A divisão do comportamento em
unidades, a partir de mudanças em sua forma (descrição física ou
morfològica), tem sido enfatizada pelos etólogos (Blurton Jones, 1972;
Cunha, 1976). Na divisão do comportamento pelos seus resultados
(descrição pela conseqüência ou funcional), separa-se o contínuo da ação
cada vez que o comportamento produz um efeito particular sobre o meio.
Hinde (1966) aponta duas vantagens básicas da definição funcional: a) uma
breve descrição pode cobrir um grande número de padrões motores
variáveis; b) esse tipo de descrição chama a atenção para características
essenciais do comportamento, que podem não aparecer em descrições
pela forma, tais como a orientação com respeito ao ambiente ou a
qualidade de responder a estímulos externos. Apesar de alguns etólogos
ressaltarem a importância da definição pela forma, outros afirmam que
ambos os tipos de definição podem ser usados e mesmo combinados num
catálogo (Hinde, 1973; Hutt e Hutt, 1974). Segundo Hinde (1973), a prefe-
rência depende da natureza do comportamento em questão, bem como do
objetivo da pesquisa. Danna e Matos (1982) consideram que definições
morfológicas são mais adequadas quando o comportamento não produz
mudanças perceptíveis no ambiente externo, como é o caso, por exemplo,
de mudanças de expressão facial e de postura. Consideram, ainda, que
tais definições são necessárias quando se pretende estudar o funciona-
mento de determinada parte do corpo e quando se visa ao treinamento,
como no caso da habilitação de pessoas com deficiência física. Já as
definições funcionais são suficientes quando a observação visa à seleção
ou avaliação de pessoas e preferíveis quando os aspectos morfológicos
consistirem basicamente de movimentos de difícil identificação e obser-
vação, como, por exemplo, as vocalizações.
Uma vez dividido o fluxo de eventos comportamentais em uni-
dades, é preciso agrupá-los em categorias, de acordo com as proprieda-
des comuns que os caracterizam, e em seguida defini-los. Apresentam-se,
a seguir, algumas regras para a definição de categorias de comporta-
mento:
a) A definição deve indicar aquelas propriedades que distinguem
uma categoria comportamental de outras categorias. Deve especificar
uma ou mais regras gerais que explicitem essas propriedades, demar-
cando os limites do que deve ser incluído naquela categoria ou excluído
da mesma (Michael, 1975).
b) A definição deve ser objetiva, referindo-se a comportamentos
observáveis tão explicitamente quanto possível (Michael, 1975). Não
deve conter inferência, interpretação ou finalismo (Cunha, 1974).
c) A definição deve ser clara, evitando-se a linguagem ambígua
(Michael, 1975). Diz-se que um termo é ambíguo quando tem dois signi-
ficados distintos e o contexto não esclarece qual dos dois está sendo
utilizado (Copi, 1974).
d) A definição não deve ser circular, ou seja, o termo a ser definido,
ou um sinônimo dele, não pode figurar no grupo de elocuções destina-
das a esclarecer o significado desse termo (Copi, 1974).
e) A definição deve apontar um referencial de comparação quando
utilizar um adjetivo sem significado absoluto, tal como largo, alto,
pequeno, etc.
f) A definição pode incluir alguns exemplos, especialmente de in-
clusões e exclusões difíceis de julgar (Michael, 1975).
g) A definição deve especificar o critério para delimitação de unida-
des, de modo a permitir a contagem.
Uma vez definida a categoria comportamental, deve-se atribuir-lhe
um nome que, para Cunha ( 1976), deve evocar a definição da categoria em
termos de observáveis, reduzindo a possibilidade de se atribuir à categoria
outros significados que não aqueles que determinaram sua criação. O
autor considera ser interessante atribuir um nome a uma categoria já
definida, pois desse modo podemos nos referir a ela sem precisar repetir
sua definição.
Elaboração do catálogo de categorias de comportamento
O termo "categoria de comportamento", como foi visto anteriormente,
designa o conjunto de unidades comportamentais agrupadas de acordo
com propriedades comuns. E o termo "catálogo" será empregado para
designar o conjunto de categorias empregadas num determinado estudo.
Em um catálogo se procura descrever, de modo completo e sistemático,
o repertório comportamental dos sujeitos observados, no que se refere ao
objetivo do estudo em questão. Pode também ser incluída no catálogo a
relação de circunstâncias em que as categorias são observadas.
Discutem-se, a seguir, alguns problemas e princípios de categori-
zação e de elaboração de um catálogo.
Uma categoria do catálogo não deve ser excessivamente ampla,
incluindo sob a mesma denominação um conjunto de eventos cuja unici-
dade ainda não se demonstrou. Uma crítica à inadequação metodológica
do uso de tais categorias ("variáveis resumidoras"), no estudo da interação
mãe-criança, foi feita por Marturano (1972). Ao se agruparem diferentes
eventos sob a mesma categoria, deve-se perguntar se se trata de uma
espécie de comportamento ou de mais de uma espécie. Em relação a esse
problema, Altmann (1965) sugere separá-los quando em dúvida, pois mais
tarde sempre se poderá juntar duas categorias em uma só, mas não se
poderá separar o que se juntou precocemente.
Certos cuidados durante a categorização justificam-se por suas
implicações para posterior análise de dados. Slater (1973), ao discutir
análise de dados, apresenta como exigências: a) que as categorias sejam
mutuamente exclusivas, e b) que o observador esteja preparado para tratar
todos os membros de uma dada categoria como equivalentes.
Um catálogo deve, também, permitir diferentes níveis de análise do
fenômeno, do mais molecular ao mais molar. Uma forma de atender a essa
exigência é elaborá-lo em termos de categorias mais amplas e de subca-
tegorias que as compõem. Os dados são coletados com base nas
subcategorias, mas podem também ser agrupados nas categorias mais
amplas, de modo a se ter uma visão de conjunto do fenômeno.
A habilidade na elaboração de categorias depende muito da expe-
riência prévia do pesquisador, tanto no que se refere ao treino anterior em
observação como na sua experiência específica com os comportamentos
sob análise. Uma vez elaboradas as categorias, é interessante que ele as
discuta com outros pesquisadores experientes. Dois critérios objetivos
foram propostos por Richards e Bernal (1972), para testar a adequação das
categorías: a) Fidedignidade e validade — diferentes pesquisadores
tendem a desenvolver categorias idênticas ou semelhantes, e uma
descrição da categoria permitirá que outro observador a registre e obtenha
um alto grau de concordância; b) Utilidade na análise — a ocorrência da
categoria deve estar correlacionada com outros eventos ou mostrar distin-
ções entre grupos pré-selecionados de sujeitos.
Muitas vezes, ao se elaborar um catálogo, agrupa-se uma série de
eventos considerados pouco relevantes sob uma categoria residual ou
indiferenciada. Weick (1968) lembra que é preciso evitar, entretanto, que
um número significativo de eventos incida nessa categoria, pois nesse
caso o sistema de classificação se tornaria difícil de interpretar.
Um exemplo de catálogo de comportamentos fundamentado no
critério morfológico é o de Vieira (1975). A autora observou pessoas em
diferentes situações e elaborou um catálogo com 146 itens, incluindo
unidades anatômicas (por exemplo, "íris", "pàlpebra") e de comportamento
(por exemplo, "abrir os olhos", "punho cerrado"), tomando como referencial
o próprio corpo e sua posição no espaço, num trabalho diretamente
derivado das proposições de Cunha (1974, 1975, 1976).
Um outro exemplo é o catálogo elaborado por Batista (1978, 1980),
a partir da observação de pais e filhos pré-escolares em situação de
refeição. O catálogo consta de 123 verbos definidos e de uma relação de
termos da oração que devem ser registrados quando da utilização de cada
um desses verbos (por exemplo: quando for empregado o verbo "abaixar",
indicar sujeito, objeto direto e adjunto adverbial que descreve até onde o
objeto foi abaixado). Cada definição está redigida sob a forma de uma
contingência de três termos — condição, resposta, produto. As relações
entre verbos definidos e definidores está representada em diagramas de
árvore, o que favorece a autocorreção de cada definição e do catálogo
como um todo, dificultando a ocorrência de categorias que não sejam
mutuamente exclusivas. Esse estudo representa um exemplo da influência
dupla de etologia e da análise do comportamento: elabora-se um extenso
catálogo de comportamentos, como nos estudos etológicos, ao mesmo
tempo que se formulam definições predominantemente funcionais.
Analisando-se o trabalho em retrospectiva, verifica-se que o catálogo teve
generalidade, tendo sido utilizado por outros autores em outras situações.
Entretanto, considera-se que a abordagem à situação que se pretendia
estudar poderia ter sido feita com a definição prévia de objetivos mais
específicos e menos exploratórios. Considera-se, agora, de duvidosa
utilidade a elaboração de catálogos genéricos de comportamentos, sem
que estejam pautados pelo mesmo enfoque teórico que leva à elaboração
de etogramas.
Descrição das circunstâncias em que os comportamentos ocorrem
Ao apresentar princípios de categorização e análise do comporta-
mento dentro de uma perspectiva etològica, Cunha (1976) fala sobre a
necessidade de especificação e descrição das circunstâncias em que
ocorre o comportamento, e afirma que elas podem ser encontradas entre
os aspectos do ambiente, do organismo e de seu comportamento.
Para ele, entre os aspectos do ambiente, interessam especialmente as
mudanças no ambiente imediato do organismo que se correlacionam com
seu comportamento. Entre os aspectos do organismo, incluem-se sua
espécie, o estágio de desenvolvimento em que se encontra, a condição
presente de seus vários órgãos, a postura do animal como um todo ou de
alguma de suas partes, mudanças que podem estar ocorrendo no interior
do organismo em virtude de ter sido exposto a determinadas circunstâncias
ambientais no passado. E entre os aspectos do comportamento, podem
ser mencionados os comportamentos concomitantes ao comportamento
observado, os comportamentos que o precedem imediatamente e os
comportamentos passados do animal diante de situações similares ou
mesmo diferentes da observada (Cunha, 1976).
No estudo observacional realizado em situação natural só é possível
estudar diretamente as circunstâncias que se referem a ambiente,
organismo e comportamento, na medida em que puderem ser observadas
sem o auxílio de instrumentos ou de contato físico com o organismo
estudado. Através de entrevista podem-se obter alguns outros dados, tais
como: idade; condição física passada e presente; condição de privação
alimentar, de atividade e de sono; história de influência ambiental, como,
por exemplo, separação prematura dos pais, o fato de ter sido submetido
a tratamentos referentes à saúde física e mental, escolaridade, nível sócio-
econômico, etc.
A questão da identificação das circunstâncias do comportamento
também é relevante para a análise do comportamento. Ao propor uma
análise funcional do comportamento em 1953, Skinner (1967) enfatiza as
condições externas das quais o comportamento é função e os experi-
mentos realizados segundo o paradigma operante envolvem a manipu-
lação de estímulos apresentados em estreita contigüidade temporal com
a resposta. Por outro lado, Staddon (1973) afirma que não se justifica a
tentativa de explicar o comportamento, limitando-se a apontar como
causas apenas estímulos temporalmente contíguos. O autor considera
que um comportamento poderá ter muitas causas, e que todas ou quase
todas poderão estar no passado. É possível que estejam ligadas umas
às outras e ao resultado final através de mecanismos de imensa
complexidade. O que falta é superar as dificuldades no estudo dessas
influências.
Um estudo observacional terá limitações na identificação de todos
os eventos ambientais que possivelmente estejam influindo no comporta-
mento. É importante lembrar que a identificação de eventos temporalmente
contíguos ao comportamento e a descrição do contexto ambiental,
sugerindo testes experimentais, se constituem soluções parciais para a
questão.
Escolha da técnica de registro
Os autores ligados à análise do comportamento aplicada definiram
uma série de técnicas de registro que permitissem a coleta de dados
relativas a classes de respostas predefinidas, sua quantificação e repre-
sentação gráfica. Hall, um autor clássico na área, distingue as seguintes
técnicas de mensuração: registro automático, mensuração direta de
produtos permanentes e registro de observação. O registro automático
envolve o uso de instrumentos nos quais "a resposta do organismo aciona
um dispositivo elétrico ou mecânico que, por sua vez, registra automatica-
mente cada resposta" (Hall, 1973, p.2). O autor destaca como vantagens de
seu uso a precisão e a facilidade de tradução do resultado em termos
numéricos e como desvantagens aspectos ligados a custo e manutenção,
bem como à falta de flexibilidade ou de capacidade de registrar muitos
comportamentos específicos de interesse do pesquisador. A mensuração
direta de produtos permanentes envolve a análise de resultados do
comportamento (por exemplo, respostas escritas a tarefas acadêmicas,
blocos empilhados, etc), sendo destacadas como vantagem a precisão e
a possibilidade de quantificação. Já o registro de observação ocorre
quando "um observador humano vê um comportamento e o registra na
forma como ocorre" (id. ibid., p.3). O autor destaca os seguintes tipos de
registro: contínuo, de evento, de duração, de intervalo, amostragem de
tempo e placheck, descritos a seguir:
— registro contínuo: caracterizado como aquele em que "o obser-
vador tenta escrever tudo o que está ocorrendo" (id. ibid, p.3), com a
vantagem de possibilitar a inclusão de muitas classes de comporta-
mento e a desvantagem de tomar muito tempo do observador, segundo
o autor.
registro de evento: envolve a "contagem da freqüência de eventos
na medida em que estes ocorrem" (id. ibid., p.3-4), através de marcas
no papel ou contadores de pulso, sendo indicado como vantagem o fato
de não interferir muito nas tarefas em andamento.
registro de duração: envolve o registro da "duração de determina-
do comportamento durante um dado período de observação" (id. ibid.,
p.4), geralmente através de cronômetro.
registro de intervalo: para esse tipo de registro, "cada sessão de
observação é dividida em períodos de tempo iguais. O observador re-
gistra então a ocorrência do comportamento durante esses intervalos"
(id. ibid., p.4). Assim, para cada intervalo, é feita uma marca correspon-
dente à ocorrência do comportamento, tenha sido ele de curta ou longa
duração ou tenha ocorrido uma ou mais vezes. Essas questões em geral
são resolvidas delimitando-se intervalos bastante pequenos, em torno
de 10 a 15 segundos. O autor aponta como vantagens o fato de a técnica
dar indicação tanto da freqüência quanto da duração do comportamento
observado, podendo-se registrar simultaneamente mais de um tipo de
comportamento. Aponta como desvantagem a exigência da atenção
ininterrupta do observador.
placheck: de Planned Activity Check, envolve a contagem, a
intervalos predeterminados, do total de indivíduos que estão desem-
penhando o comportamento alvo e do total de indivíduos presentes,
exprimindo-se o resultado em porcentagem.
Hall (1973) considera que os registros de observação em geral não
são tão precisos quanto os obtidos com instrumentos automáticos, mas
que são vantajosos para utilização em situações de aplicação de modifi-
cação de comportamento, como a escola e o lar.
Uma revisão mais recente de técnicas de registro foi realizada por
Fagundes (1981), em que o autor dá exemplos detalhados da aplicação de
cada técnica e introduz algumas técnicas mistas, além das tradicionalmen-
te utilizadas.
Embora autores norte-americanos da área de análise do comporta-
mento aplicada considerem que a técnica de registro contínuo só é útil nas
fases preliminares do estudo, esta tem sido bastante utilizada no Brasil
como técnica básica de coleta de dados. Os primeiros estudos da
interação mãe-criança são um exemplo disso. Sollitto (1972) estudou a
interação mãe-nenê durante o banho: as respostas verbais da mãe e do
nenê foram registradas pelo gravador, e as respostas motoras foram
anotadas por escrito, de modo contínuo, separadas por intervalos de 10
segundos. A gravação foi transcrita e elaborou-se um protocolo de cada
sessão de observação, unindo-se o registro das respostas motoras da
mãe e do nenê às transcrições das respostas verbais de ambos (do bebê,
através de transcrição fonética). A análise de dados envolveu o cómputo
de freqüências de respostas e a elaboração de gráficos de freqüência
acumulada das mesmas. Marturano (1972) estudou a interação mãe-
criança de três anos em três condições que envolviam a realização de uma
tarefa — refeição em casa, refeição no laboratório e resolução de quebra-
cabeças em laboratório — e utilizou técnica de registro e transcrição de
dados semelhante à de Sollitto (1972). A análise de dados consistiu no
computo de freqüências e na análise de seqüência, esta envolvendo a
tabulação das unidades verbais em matrizes de seqüências, análise
probabilistica das seqüências observadas e análise probabilistica dos
padrões de seqüência.
Esses estudos ilustram o emprego da técnica de registro cursivo
como base para a realização de análise quantitativa. Tem sido apontado
como vantagem da utilização dessa técnica o fato de se evitar a seleção
prévia de variáveis, como seria o caso se fosse adotado um catálogo de
categorias, bem como de preservar a seqüência dos eventos observados.
Por outro lado, há alguns cuidados a serem tomados. Altmann (1974), ao
discutir diferentes técnicas de amostragem para estudo do comportamento
social, com enfoque predominante em colônias de primatas, dá o nome de
"amostragem ad libitum" à situação em que o observador "registra tanto
quanto consegue" ou aquilo que é mais prontamente observável no
comportamento social de um grupo. Ela aponta algumas dificuldades
dessa forma de trabalho — segundo ela, diferentes comportamentos de
diferentes sujeitos não têm a mesma probabilidade de serem registrados.
Além disso, mesmo que a probabilidade de registro se mantivesse a
mesma, em muitas ocasiões o observador veria mais eventos do que
conseguiria registrar e, na ausência de critérios sistemáticos de seleção,
suas preferências pessoais governariam a escolha. A "amostragem ad
libitum" não é totalmente equivalente à técnica de registro cursivo, e, nos
estudos de interação acima citados, houve um cuidado das autoras na
padronização das condições de registro e da linguagem a ser utilizada,
antes da realização da coleta de dados. Fica, entretanto, a recomendação:
há necessidade de algumas definições sobre sujeitos e situações de
registro, bem como de padronização da linguagem, antes da realização de
uma coleta de dados empregando registro cursivo, principalmente se vai
se efetuar uma análise quantitativa dos dados.
Ainda sobre a técnica de registro cursivo, urna série de orientações
sobre como realizá-lo são apresentadas em Danna e Matos (1982). E, no
que se refere à elaboração de listas de assinalar (check-sheets), Hinde
(1973) apresenta uma série de sugestões e discute as vantagens e des-
vantagens de sua adoção.
Análise quantitativa de dados
A análise quantitativa mais elementar envolve contagens de
freqüência, geralmente convertidas em freqüência relativa ou porcenta-
gem. Autores ligados à análise do comportamento têm proposto preferen-
cialmente a representação dos dados em gráficos, que permitem visualizar
alterações de freqüência ao longo do tempo e envolvem um mínimo de
manipulação estatística dos dados.
Com relação à etologia, Slater (1973) afirma que a análise de
seqüência tem sido muito enfatizada por etólogos, especialmente os
interessados na causação do comportamento. Em geral, eles consideram
que a ocorrência de dois padrões de comportamento em proximidade
temporal indica que eles compartilham alguns fatores causais, ou porque
ambos os comportamentos dependem de um estado corporal particular (a
presença de um hormônio, por exemplo), ou porque eles podem ocorrer
como resposta ao mesmo estímulo externo ou a estímulos externos
relacionados. O autor destaca que a análise de seqüência não pode fazer
a distinção entre essas possibilidades, mas pode indicar de forma objetiva
os agrupamentos em que os comportamentos ocorrem e assim definir as
relações que precisam ser explicadas. O autor distingue métodos de
análise de seqüências de comportamento intraindividual do estudo de
seqüências de comportamento em situação de interação social.
Quanto aos métodos de análise de seqüência intraindividual, Slater
(1973) distingue dois tipos: a) análise de freqüências de transição de
probabilidades condicionais e b) comparação com um modelo randômico.
Quanto ao primeiro, o autor afirma que o tipo mais simples de seqüência
de eventos é a seqüência determinista, embora a maioria das seqüências
de comportamento sejam probabilísticas e não deterministas. Seqüências
probabilísticas bastante precisas são usualmente designadas como
"respostas encadeadas". Nesses casos, a probabilidade de um evento
particular é tão marcantemente alterada pela natureza do evento imediata-
mente precedente que um diagrama de fluxo indicando as freqüências com
que ocorrem as diferentes transições prove uma boa impressão da
organização do comportamento (por exemplo, as seqüências de cortejo em
vertebrados inferiores). Quando as seqüências não são tão ordenadas,
pode-se incluir apenas as transições que têm alta probabilidade de
ocorrência (probabilidade condicional da ocorrência de B, dado que A
acabou de ocorrer). O autor afirma que esse tipo de análise só é útil
quando a seqüência é forte e os diferentes comportamentos considerados
ocorrem com freqüências semelhantes.
O segundo método de análise de seqüência intraindividual,
comparação com um modelo randômico, envolve as cadeias de Markov.
"Uma seqüência de comportamento pode ser descrita como uma cadeia
de Markov se as probabilidades de diferentes atos dependerem apenas do
ato imediatamente precedente e não de nenhum ato anterior" (Slater, 1973,
p.135). Tal seqüência será referida como uma cadeia de Markov de l
8
ordem, sendo que "uma cadeia de Markov de rª ordem é aquela em que
um evento específico é afetado significativamente pelos r eventos prece-
dentes" (id. ibid., p. 135). Grande parte das análises de seqüência do
comportamento envolvem a identificação de dependências de 1ª ordem, a
partir da comparação da matriz de freqüências de transição observadas
com as freqüências esperadas, caso os atos fossem independentes um do
outro. O autor apresenta uma série de estratégias e cuidados a serem
tomados para a aplicação desse tipo de análise. Como métodos alternati-
vos, menciona a correlação e a análise fatorial e alerta para o fato de que
não se sabe claramente o que representam as variáveis hipotéticas
extraídas por esse último método.
Todas as considerações feitas até o momento por Slater (1973)
referem-se às seqüências de comportamento intraindividual que ocorrem
em contextos em que se supõe que o mundo externo permaneça relati-
vamente imutável. Isso é diferente do estudo de seqüências de comporta-
mento em situação de interação social, que tem um objetivo primário
diferente: demonstrar que o comportamento de um animal é afetado pelo
de outros e obter evidência do papel de diferentes padrões de comporta-
mento na comunicação. Uma dificuldade apontada para essa análise é o
fato de que os dados podem não ser estacionarios, uma vez que muitos
comportamentos interessantes na comunicação são aqueles cuja probabi-
lidade muda à medida que a interação prossegue. Uma outra dificuldade
é que o comportamento de um animal em situação social depende, em
parte, da seqüência de atos que ele já apresentou, bem como do compor-
tamento de outros. O modelo de análise de interação entre A e B deveria
levar em conta, segundo o autor, seqüência de comportamentos de A,
seqüência de comportamentos de B, seqüência de comportamentos de A
dirigidos a B e de B dirigidos a A, levando-se em conta que os eventos
imediatamente antecedentes não são os únicos a afetar um determinado
comportamento (Slater, 1973).
Verifica-se, assim, que o estudo de seqüências de comportamento
em situação de interação social demanda uma atenção especial, seja em
termos da própria abordagem ao fenômeno, seja em termos da análise quan-
titativa do mesmo. Alguns progressos recentes em relação à análise
quantitativa de dados são apresentados por Van Hoof (1982), Sato (1987)
e Lopes, Bueno e Barnabe (1992).
Avaliação da fidedignidade
O conceito de fidedignidade, de acordo com a teoria clássica dos
testes, é apresentado por Johnson e Bolstad (1973, p.26) como "a
consistência com que um teste mede um dado atributo ou fornece um
escore consistente em uma dada dimensão", sendo que "a exigência
clássica de fidedignidade envolve a consistência no instrumento de medida
ao longo do tempo (fidedignidade no teste-reteste) ou ao longo de
conjuntos de itens respondidos na mesma ocasião (fidedignidade split-
half)" (id. ibid., p.10). O autor discute a aplicação do conceito aos estudos
observacionais em análise do comportamento aplicada e argumenta que
o cálculo do acordo entre observadores não deve se constituir a única
forma de aferir a fidedignidade desses estudos.
Weick (1968) cita Medley e Mitzel, que sugerem três tipos de
fidedignidade, calculados através de diferentes índices: acordo entre
observadores (diferentes observadores observando ao mesmo tempo),
estabilidade (o mesmo observador observando em ocasiões diferentes) e
fidedignidade (observadores diferentes observando em ocasiões diferen-
tes). A medida de acordo entre observadores, mais comumente utilizada,
privilegia a intersubjetividade, enquanto as demais privilegiam a replicabili
dade. O autor também cita Dunnette, que argumenta que há várias fontes
de erros quando se faz observação, e que o tipo de fidedignidade
necessária para avaliar ou compensar cada um desses erros é diferente.
Os tipos de erros mencionados são: a) amostragem inadequada de con-
teúdo, quando observadores diferentes colhem amostras de apenas alguns
elementos de um comportamento complexo e essas amostras consistem de
elementos diferentes; b) tendências de respostas ao acaso, que provêm
de definições imprecisas de categorias ou de compreensão inadequada da
categoria por parte do observador, que o levam freqüentemente ao uso de
definições intuitivas informais, mais variáveis que as formalmente definidas;
c) mudanças no ambiente e d) mudanças na pessoa que está sendo
observada, duas alterações que podem ocorrer ao longo do período de
observação. Dadas essas várias fontes de erro, Weick (1968) sugere que a
fidedignidade seja medida de vários modos. Num estudo ideal de obser-
vação, seriam feitas quatro comparações: 1) as classificações de duas
pessoas observando o mesmo evento seriam correlacionadas, prevenindo
erros de mudanças na pessoa e no ambiente; 2) as classificações de um
mesmo observador observando um evento semelhante em duas ocasiões
diferentes seriam comparadas, evitando-se erro de amostragem de
conteúdo; 3) depois seria correlacionado o acordo de dois observadores
observando um evento em duas ocasiões diferentes, medida vulnerável às
quatro fontes de erro, da qual se pode esperar a fidedignidade mais baixa
dentre as quatro comparações; 4) finalmente, as observações de um único
observador observando um único evento seriam comparadas às outras
correlações, em uma verificação da consistência interna do observador. O
autor considera que é possível apenas aproximar-se deste ideal de
avaliação da fidedignidade, priorizando-se o acordo entre observadores em
relação a um único evento. Tendo em vista as atuais possibilidades de
gravação em vídeo, considera-se que seria bastante viável adaptar essas
propostas para avaliação da fidedignidade tanto durante o treino de
observadores como no teste de categorias de comportamento.
Uma revisão das variáveis que podem afetar o índice de concor-
dância foi realizada por Batista (1977). No que se refere ao acordo entre
observadores quando é utilizada a técnica de registro cursivo, Batista e
Matos (1984) discutem a questão e sugerem definições e medidas aplicá-
veis a essa técnica de registro.
Batista (1985) analisa as diferenças de abordagem à questão da
fidedignidade por autores ligados à etologia e à análise do comportamento
e conclui que o pesquisador deve adequar a avaliação de fidedignidade às
características específicas de seu projeto de trabalho. A autora faz
algumas sugestões específicas:
a) Estudos preliminares que visem à caracterização de um fenô-
meno podem se beneficiar mais de discussões informais entre pesqui-
sadores do que de testes formais de fidedignidade.
b) Estudos em que um único observador efetua todos os registros
de comportamento podem ter avaliações de fidedignidade de várias
formas, entre as quais 1) a aferição da estabilidade do observador
através de verificação de seu desempenho no registro de um mesmo
vídeo em duas situações diferentes e 2) a comparação de seu desem-
penho com o de um pesquisador experiente que tenha tido contato
prévio com as definições das categorias apenas por escrito.
c) Estudos em que diferentes observadores participem da coleta de
dados terão que contar necessariamente com um sistema de aferição
da precisão de cada um desses observadores. Um alto índice de
acordo, no entanto, não indicará necessariamente a adequação do
sistema de categorias utilizado, uma vez que estes poderão estar
reagindo a uma definição implícita da categoria.
d) O teste das definições de categorias poderá ser realizado, em
parte, através da análise dos desacordos constatados para categorias
específicas.
No que se refere à fidedignidade, o importante é reter o significado
mais amplo do termo e estabelecer formas de aferi-la que sejam compatí-
veis com os objetivos de cada estudo.
ESTUDOS OBSERVACIONAIS NO BRASIL — ANOS 80 E 90
Ao longo dos anos 80 e 90, foram criados vários centros de formação
de pesquisadores no País. Novas perspectivas teóricas vieram se juntar às
já existentes, norteando a realização de estudos observacionais. Esses
estudos têm sido apresentados e discutidos em reuniões científicas,
destacando-se a Reunião Anual da SBPC — Sociedade Brasileira para o
Progresso da Ciência — e a Reunião Anual da Sociedade Brasileira de
Psicologia (sucessora da Sociedade de Psicologia de Ribeirão Preto), e
publicados em revista como Psicologia, Psicologia: Teoria e Pesquisa,
Boletim de Psicologia e outras. Entre as publicações figuram também dois
livros didáticos sobre utilização de metodologia observacional (Fagundes,
1981; Danna, Matos, 1982), um livro com uma coletânea de estudos de
observação da interação professor-aluno (Morais, 1980) e um relato de
pesquisa sobre apego, combinando observação direta do comportamento
em situação planejada e dados obtidos através de entrevistas e visitas
domiciliares (Rossetti-Ferreira, 1986).
Em um workshop sobre questões metodológicas no estudo da
interação humana, um grupo de autoras (Alves, Carvalho, Marturano,
Mettel, Rossetti-Ferreira, 1987) apresentaram os resultados de um
levantamento dos estudos utilizando metodologia observacional ao longo
de quinze anos (levantamento dos resumos de pesquisas apresentadas à
Sociedade de Psicologia de Ribeirão Preto entre 1971 e 1986). Verificaram
que houve um aumento gradual no total de trabalhos e que esse aumento
ficou mais visível a partir de 1980. Nas primeiras reuniões houve um
predomínio de estudos com animais e, ao longo do tempo, verificou-se um
aumento e diversificação de estudos do comportamento humano. Atécnica
de registro mais utilizada foi a de registro contínuo (50%), seguida pelo de
categorias (23,9%) e de check-list{l0,2%). Os recursos mais utilizados para
registro foram papel e lápis (4ª,9%), seguidos de gravador (23,9%) e
videocassete (15,9 %).
Nesse workshop foram discutidas várias questões. A primeira delas
referiu-se ao conceito de interação, encarada como algo que ocorre entre
os sujeitos, de forma que a linguagem adequada à descrição do comporta-
mento de indivíduos não é adequada ao estudo da interação entre eles.
Quanto aos métodos de coleta de dados, enfatizou-se a necessidade de
definição e explicitação dos objetivos dos projetos, pois deles estariam
realmente dependendo todas as escolhas posteriores. Quanto ao uso de
hipóteses, entendidas como construto, conceituação do fenômeno,
considerou-se que, no Brasil, os pesquisadores nem sempre estabelecem
explicitamente o nexo entre sua hipótese e o recorte que vão fazer do
processo de interação. Lembrou-se, ainda, que o pesquisador deve estar
alerta para o fato de que esse recorte ocorre tanto na coleta como na
análise de dados. Constatou-se uma tendência na pesquisa da interação
caracterizada por: a) um deslocamento do enfoque molecular na direção
do enfoque molar; b) uma ênfase crescente no contexto onde a interação
se processa; c) o desenvolvimento de formas de recorte, a partir do recorte
antecedente-conseqüente, na direção de unidades mais amplas, como
episódio. Para alguns participantes do workshop, uma das questões
centrais referiu-se à sistematização das observações, de forma a poder
transformar seu produto em teoria ou generalizar os dados obtidos (Alves,
Carvalho, Marturano, Mettel, Rossetti-Ferreira, 1987, com redação de Alves
e Marturano).
Preocupação semelhante com o direcionamento da coleta e análise
de dados foi manifestada por Prado, criticando um certo tipo de estudo
observacional, para ela inadequadamente denominado "etològico", que
partiria da afirmação de que a Psicologia é uma ciência empírica, que deve
começar com fatos objetivos, ou seja, sobre os quais deve haver acordo
intersubjetivo, e que o acesso a eles se dá pela observação. A autora
apresenta sua concepção de "fato objetivo" como "aquele que é dito numa
determinada linguagem, construída para dar conta das relações supostas
pela teoria" (Prado, 1988, p.411), argumentando que eventos observados
só têm sentido quando compreendidos no contexto de uma teoria. A autora
se pergunta, a seguir, sobre qual seria o ponto de partida de uma
observação que se propusesse não ser guiada por nenhuma teoria. E
considera que tal empreendimento não seria possível, que o "dado puro"
é uma ilusão, e que todo pesquisador se baseia em uma "versão de
mundo", seja ela científica ou não e tenha sido explicitada ou não.
Uma consciência crescente da necessidade de vinculação da coleta
de dados a quadros de referência teóricos levou os pesquisadores a apri-
morarem a vinculação de seus estudos aos modelos teóricos existentes ou
a buscarem modelos teóricos alternativos. Essas buscas são apresentadas
a seguir.
O estudo da interação social: considerações teóricas e metodológicas
Grande parte dos estudos recentes de observação têm sido reali-
zados em situação de interação social, abordando a interação màe-
criança (Dessen, Mettel, 1984; Linhares, Marturano, 1984a, 1984b;
Rossetti-Ferreira, 1986; Lyra, 1988; Ramos Cerqueira, 1988a, 1988b;
Batista, 1989), a interação professor-aluno (Machado, 1979; Morais, 1980,
1987; Duran, 1981, 1987; Marturano, Bertoldo, Camelo, 1982; Marturano,
1984, 1986, 1987; Marturano, Maimoni, 1989; Linhares, 1988; Gil-Ceneviva,
1985; Gil, 1990, 1991), as interações entre crianças (Bussab, 1988;
Oliveira, 1988a, 1988b; Vieira, 1988a, 1988b; Pedrosa, 1989; Carvalho,
Beraldo, 1989; Carvalho, 1991, 1992; Pedrosa, Carvalho, 1991; Pedrosa,
1992), o comportamento pró-social nas interações criança-criança e
adulto-criança (Branco, Mettel, 1984; Branco, 1989, 1991; Bastos,
Carvalho, 1991; Bussab, 1991; Carvalho, 1991b; Melo, Branco, 1992) e
Interações em atendimento pediátrico (Crepaldi, Zannon, 1989;
Coutinho, Zannon, 1991).
Esses estudos, e muitos outros, têm levado à reflexão sobre
fundamentação teórica e propostas metodológicas na pesquisa da
interação social. Serão apresentados no presente item, bem como nos
itens seguintes, alguns dos desenvolvimentos recentes na área.
O conceito de interação social, segundo Carvalho
Carvalho considera que interação é o que ocorre entre indivíduos.
Para essa autora, "a essência do conceito de interação é o de influência
ou regulação recíproca, ou seja: cada um, ou a ação de cada um, é
diferente, pelo fato de se dar com o outro, do que seria isoladamente (e/ou
com um terceiro?); não se explica pelo que cada um é (ou faz), mas por
seus efeitos recíprocos. É evidente, portanto, que, segundo esse conceito,
a interação social não é o observável. O que se observa são os comporta-
mentos/ações/estados dos indivíduos (ou eventos) em interação. Interação
é um estado ou processo (hipotetizado) de regulação recíproca, inferido a
partir do comportamento dos interagentes" (Carvalho, 1988, p.512).
A autora discute que, para alguns autores, o termo interação só deve
ser usado quando o sujeito alvo responde ao comportamento do sujeito
iniciador, pois, caso contrário, não há evidência de que ocorreu interação
(efeito de um sobre o outro). A autora considera que, nesse caso, é
necessário definir um intervalo temporal dentro do qual a ocorrência de
uma resposta ainda será tomada como critério para se falar em interação,
sendo que a duração desse intervalo é arbitrária e, na maioria dos estudos,
bastante curta. Sua crítica à adoção desse critério é de que ele reflete a
suposição de que o processo de regulação sempre ocorre de forma imedi-
ata ou instantânea, o que considera pouco provável. Para ela, a contingên-
cia temporal entre respostas não é o único nem o principal indicador de
ocorrência de regulação mútua e pode nem mesmo ser um indicador
necessário. Um outro argumento da autora contra o uso desse critério
(contato reciprocado como unidade mínima para a análise da interação) é
o de que está implícita em sua adoção a hipótese de que a regulação entre
os parceiros se processa basicamente através de efeitos mútuos de seus
comportamentos. Cita outras formas de regulação que podem ser hipo-
tetizadas: a identidade do parceiro, suas características físicas, etc. Para
ela, a ausência de respostas explícitas não significa necessariamente
inexistência de interação, entendida no sentido teórico como processo de
regulação. Concluindo, a autora afirma que está implícita nessa discussão
a necessidade de estabelecer distinções entre dois usos do termo
"interação": como categoria teórica e como categoria descritiva, sendo que,
nesse último caso, qualquer critério de definição é arbitrário e igualmente
aceitável, desde que bem explicitado, tendo, porém, implicações para a
compreensão teórica do fenômeno abordado.
O estudo dos relacionamentos interpessoais, segundo Hinde
Hinde propõe a criação de uma ciência dos relacionamentos
interpessoais. O autor afirma que "estudos dos relacionamentos interpes-
soais devem levar em conta não apenas o fenômeno em níveis de
complexidade crescente (respectivamente, comportamento social,
interações sociais e relacionamentos sociais), cada um com aspectos
comportamentais e afetivo-cognitivos, mas também dois tipos de dialética:
de um lado, a dialética que se estabelece entre relacionamentos sociais e
as personalidades dos indivíduos participantes, e, de outro, a dialética
entre esses relacionamentos e as várias influências sociais que determi-
nam sua natureza" (Hinde, 1981, p.4). Cada um desses aspectos será
analisado a seguir.
No que se refere aos diferentes níveis de análise do fenômeno, o
autor considera como interação a ocorrência de uma ou mais trocas do
tipo: A faz x para B e B faz y em retorno para A. O termo relacionamento
é reservado para casos em que uma interação é afetada por interações
passadas ou pode afetar interações futuras. A descrição dos aspectos
comportamentais de uma interação deve especificar seu conteúdo (o que
os participantes estão fazendo) e a qualidade da interação (incluindo
aspectos relacionais como sincronia, existência de objetivo comum, etc).
Já a descrição dos aspectos comportamentais de um relacionamento
deve abranger tanto o conteúdo e a qualidade das interações componen-
tes como, também, a freqüência absoluta e relativa e a distribuição no
tempo dessas interações. Assim, observam-se propriedades emergentes
à medida que se progride nos níveis de análise, principalmente do nível
das interações para os dos "relacionamentos".
Além dos aspectos comportamentais de interações e relacionamen-
tos, Hinde considera que devem ser abordados seus aspectos cognitivos
e afetivos, baseando-se no argumento de que muitas vezes o que ocorreu
numa interação é menos importante do que aquilo que os participantes
pensam que ocorreu, como eles pensam ter se sentido e como o parceiro
foi percebido. Para o autor, o curso futuro do relacionamento depende das
avaliações que os indivíduos fazem das interações e relações de que
participam, em seus aspectos comportamentais, cognitivos e afetivos.
Quanto aos aspectos dialéticos, Hinde menciona em primeiro lugar
o fato de que relacionamentos influenciam os indivíduos e que a personali-
dade desses indivíduos influencia os relacionamentos em que eles se
inserem, criticando o fato de que a Psicologia tem devotado muito mais
esforços ao estudo dos aspectos individuais da personalidade do que ao
estudo dos relacionamentos. O segundo tipo de dialética surge do fato de
que cada relacionamento existe em um ambiente social, o que destaca
dois aspectos: por um lado, ambos os participantes de um relacionamento
influenciam e são influenciados pelo relacionamento em foco; de outro
lado, esse relacionamento é afetado pelas normas da cultura em que eles
vivem, ao mesmo tempo em que essas normas são alteradas ao longo do
tempo pelos relacionamentos diádicos e pelos de ordem mais elevada que
constituem a sociedade. Assim, é necessário levar em conta esses dois
tipos de dialética: entre personalidade e relacionamento, bem como entre
relacionamentos e sociedade.
Tipos de recorte do fluxo interativo, segundo Marturano
Entre as soluções para um estudo da interação social que levem em
conta a complexidade dos eventos envolvidos está a distinção entre tipos
de recorte do fluxo Interativo, apresentada por Marturano (1987). Ao
discutir estudos de interação professor-aluno, a autora examina quatro
formas de recorte do fluxo interativo, que representam niveis progressiva-
mente mais altos de complexidade e que são aplicáveis a outros tipos de
interação, além da interação professor-aluno.
O primeiro procedimento é o que apreende comportamentos
isolados da professora e do aluno, permitindo levantamentos de fre-
qüência e limitado a estudos correlacionáis.
O segundo refere-se à transição entre comportamentos da
professora e do aluno. Segundo a autora, as posições relativas das
respostas no fluxo temporal são tomadas como referência para a cons-
trução de matrizes de dupla entrada, tendo como antecedentes ora os
comportamentos do aluno, ora os do professor. Podem-se obter, assim,
informações de âmbito limitado sobre relações de reciprocidade e controle.
O terceiro procedimento propõe a divisão do fluxo interativo em
episódios, ou seja, segmentos delimitados por condições observáveis de
início, desenvolvimento e término. Além das análises realizadas pelo se-
gundo tipo de procedimento, é possível também investigar separadamente
as iniciativas do aluno e do professor. A autora destaca que esse recorte
permite a derivação de indicadores quantitativos de reciprocidade e con-
trole, bem como de centralidade e assimetria na organização do grupo.
A quarta modalidade de recorte localiza as relações entre episó-
dios adjacentes, levando em conta diferentes possibilidades de transição,
superposição ou interseção entre episódios, permitindo conceber a sala de
aula como grupo centralizado na professora e não apenas como conjunto
de episódios diádicos isolados, como é o caso do terceiro tipo de recorte.
Uma representação esquemática dos quatro tipos de recorte, bas-
tante elucidativa, é apresentada no texto original (Marturano, 1987).
Categorías intra e inte/individuáis na análise de interações, segundo Carvalho
Carvalho (1988) considera que, se a interação é um evento que
ocorre entre indivíduos, conforme discutido anteriormente, esta não
poderia ser adequadamente descrita com base em categorias referentes
ao comportamento de um dos parceiros, definidas independentemente do
comportamento do outro. O tipo de categoria adequado seria aquele cuja
definição envolvesse a consideração de ambos os parceiros e/ou de
relações entre seus comportamentos.
A autora faz a distinção entre sistemas de categorias baseadas
numa dimensão estrutural da interação, dos baseados nos conteúdos.
Entre as ligadas à dimensão estrutural, estão as que se fundam em
relações de qualquer tipo entre os comportamentos dos parceiros, por
exemplo, relações de semelhança, relações temporais, etc; esse é o caso
de categorias como "interação complementar", "interação simétrica", etc.
Já entre as categorias baseadas no "conteúdo", a autora menciona
exemplos que considera claramente interindividuais, como "imitação",
"brinquedo paralelo", "cooperação", bem como outros em que nem sempre
é claro se a categoria se refere ao comportamento de um indivíduo emissor
ou se depende da consideração de dois ou mais parceiros, como é o caso
de "agressão", "ajuda", etc.
Sistemas de categorias para análise do comportamento verbal,
segundo Marturano
Marturano (1988) tece considerações sobre a lógica do sistema de
categorias, aplicada à análise do comportamento verbal. Afirma que, na
abordagem do comportamento verbal através de sistemas de categorias,
surgem dificuldades na elaboração e na utilização do instrumento, que
dizem respeito principalmente aos requisitos de exclusão mútua e
coerência de critérios. Em relação ao primeiro requisito (ou seja, a
necessidade de que as categorias sejam mutuamente exclusivas), a autora
afirma que, algumas vezes, na prática, a inclusão de um segmento de fala
em uma ou outra categoria é muito mais uma questão de decisão do
categorizador que uma decorrência lógica das respectivas definições. E
com relação ao segundo requisito (ou seja, de que haja coerência na
utilização dos critérios de categorização), considera que as distorções
decorrem em geral de duas ordens de problema: a) categorias distintas
são definidas a partir de critérios diferentes; b) na aplicação do instrumen-
to, utilizam-se pistas adicionais não previstas nas definições e decorrentes
do conhecimento prévio do categorizador como usuário da linguagem.
A autora apresenta uma concepção do comportamento verbal como
"multidimensional, integrado a um sistema de comportamento mais amplo
e constituindo ele próprio uma cadeia de eventos interdependentes"
(Marturano, 1988, p.518). Para dar conta de toda essa complexidade, ela
sugere que se tomem os seguintes cuidados, quando diferentes dimensões
do comportamento verbal forem tratadas em um único sistema de
categorias: a) explicitar as dimensões cuja inclusão na análise o problema
de pesquisa requer; b) explicitar os critérios para identificação de variações
em cada dimensão; c) incluir em todas as definições de categorias a
referência ao status de cada dimensão e os respectivos indicadores, de
acordo com os critérios previamente estabelecidos.
Como alternativa, sugere a utilização de sistemas múltiplos, ou seja,
um sistema de categorias independentes para cada dimensão focalizada.
Nesse caso, são feitas várias leituras dos dados, e cada unidade de
verbalização recebe tantas classificações quantas sejam as dimensões
estudadas. A autora apresenta como uma das vantagens do procedimento
de sistemas múltiplos o fato de permitir uma resolução qualitativa mais
diferenciada no tratamento dos dados, uma vez que podem fornecer,
através da análise de dependência, configurações formadas pela asso-
ciação significativa entre categorias de diferentes sistemas; dessa forma,
as relações entre dimensões são extraídas empiricamente dos dados. A
autora aponta o trabalho de Ramos (1979) como um exemplo da realização
da proposta de leituras múltiplas do comportamento verbal.
A construção de Unidades de Análise Comportamental (UAC) para o
estudo do comportamento pró-social, segundo Branco e Mettel
Branco (1989) e Branco e Mettel (1989a, 1989b), visando ao estudo
do comportamento pró-social, realizaram gravações em vídeo e vários
outros tipos de registro em uma sala de maternal, com crianças cuja idade
estava em torno de cinco anos. Branco (1989) relata que, para transcrição
do vídeo, deu preferência à transcrição exclusiva dos episódios considera-
dos relevantes, ao invés da transcrição detalhada da fita toda. Para tanto,
o mesmo trecho da fita era observado repetidamente, até que fossem
identificados os episódios que pareciam apresentar alguma relação com
interações criança-criança e definidos os critérios de identificação desses
episódios.
Em seguida, os episódios foram decompostos em unidades de
análise, compreendendo três elementos básicos: um segmento do com-
portamento da professora, uma situação antecedente especificando a
natureza da relação entre as crianças com quem a professora interagiu e
uma situação conseqüente especificando a ocorrência ou não de altera-
ções referentes à relação criança-criança descrita como antecedente.
Cada unidade devia referir-se a um único padrão criança-criança,
excetuando-se aquelas que representassem verbalizações da professora
que não definiam um padrão criança-criança específico. Dessa forma,
cada um dos padrões criança-criança que se relacionavam no episódio ao
comportamento da professora geraram uma Unidade de Análise Compor-
tamental (UAC). Uma vez determinadas as UAC, passou-se à sua clas-
sificação através do desenvolvimento de dois sistemas de categorias
articulados, relacionando ações da professora aos diversos padrões
criança-criança. "Cada UAC é, portanto, composta por uma categoria
correspondente à ação da professora e outra ao padrão criança-criança
ao qual ela faz referência ou sobre o qual ela atua" (Branco, 1989, p.78). As
ações da professora, num total de 14, foram categorizadas em três classes:
estabelecimento, supressão e verbalização de regras, sempre referentes
a algum tipo de categoria de relacionamento criança-criança. E as 4ª
categorias específicas do relacionamento criança-criança foram classifica-
das em quatro tipos diferentes: atenção ao colega, interações sintónicas,
interações não-sintônicas e competição planejada. Além disso, as UAC
foram identificadas em cada uma das 12 categorias relativas às atividades
desenvolvidas na sala de aula. Das 488 UAC registradas, 419 foram contin-
gentes à ocorrência de algum tipo de relacionamento criança-criança,
sendo que, destas, 76% relacionaram-se ao estabelecimento, 17% à
supressão e 7% à verbalização de regras relacionadas aos diferentes
padrões criança-criança. Verificou-se, também, que a situação de roda foi
o principal contexto para a observação de UAC.
Um exemplo de análise funcional da interação professor-aluno,
segundo Gil
Gil (1990, 1991) estudou as relações entre o desempenho de uma
professora de primeira série do primeiro grau e o desempenho de seus
alunos, durante a realização de uma rotina de sala de aula, composta por
seqüências comportamentais simples e curtas (por exemplo: seqüências
rítmicas de batidas de palma ou de lápis na mesa, seqüências de movi-
mentos corporais, etc.). Levando em conta que deveriam ocorrer ajus-
tamentos recíprocos e contínuos nos repertórios da professora e dos
alunos, a autora buscou trabalhar também com estados transicionais, além
das classes de desempenho e sua freqüência. Nesse sentido, "as defini-
ções das classes foram amplas e/ou provisionais, isto é, foram classes
funcionais que mudavam à medida que suas funções, estabelecendo-se,
ensejavam novas funções. Assim, a necessidade de trabalhar com fluxos
de desempenho da professora e do aluno gerou a necessidade de regis-
trarem-se produtos específicos destes fluxos. Estes, algumas vezes,
seriam mudanças no ambiente físico do outro, mas, mais freqüentemente,
seriam mudanças no próprio repertório estudado, vistas não só como uma
classe, mas como uma série de comportamentos literalmente seriados"
(Gil, 1991, p.315).
A autora lembra que para fazer uma análise funcional dos desempe-
nhos da professora e dos alunos deveria medir o efeito de um evento
sobre o outro. Dessa forma, estabeleceu recortes nos momentos em que
produtos específicos puderam ser identificados. No fluxo de desempenho
dos alunos, foram considerados produtos os exemplos de desempenhos
recorrentes, posteriores aos desempenhos recorrentes da professora. E no
da professora, foram considerados produtos os exemplos recorrentes de
seu desempenho, posteriores aos desempenhos recorrentes dos alunos.
A autora considera que os limites dessa recorrência apresentaram-se
como um problema tanto empírico quanto conceptual.
A coleta de dados foi realizada através de gravações em vídeo e dos
registros transcritos, levando-se em conta as emissões vocais da
professora e dos alunos e parâmetros não-verbais de seus desempenhos.
Examinando-se a transcrição dos dados, foi selecionada para análise uma
das rotinas de sala de aula, caracterizada pelo fato de os alunos reprodu-
zirem de maneira formal e/ou literal modelos sonoros e/ou gestuais
apresentados pela professora, denominando-se essa rotina de "seqüên-
cia". A autora listou e descreveu as ocorrências das seqüências, cada uma
das quais sendo considerada um episódio.
Foi preenchido, a seguir, um protocolo, contendo descrição dos
desempenhos da professora e dos alunos durante as ocorrências da rotina
(seqüência) e durante as situações imediatamente anteriores e posteriores
a estas ocorrências. Indicou-se, ainda, a natureza das atividades desen-
volvidas em classe antes e depois das seqüências. A análise desses
protocolos permitiu identificar: a) quatro classes ou tipos de seqüências
(seqüência rítmica de sons e movimentos, seqüência de palavras ou frases
e movimentos, seqüência de instruções e movimentos, seqüência de
movimentos); b) três classes de atividades em sala (organização da classe,
ensino-aprendizagem de requisitos para leitura e escrita, ensino-
aprendizagem de leitura/escrita); c) duas classes de participação dos
alunos (cumprir tarefa, dispersão); d) seis classes para classificação do
tipo de barulho produzido pelos alunos (falas isoladas, falas em uníssono,
burburinho, gritaria, riso e silêncio). As classes apresentadas nos itens b,
e e d foram utilizadas para analisar as situações anteriores e posteriores
à apresentação das seqüências.
Foi analisada a freqüência de ocorrência das seqüências e sua rela-
ção com as atividades de classe anteriores e posteriores, considerando-se
relações de dependência através de probabilidades condicionais. Essa
análise indicou relações de dependência entre as ações da professora e
as dos alunos (por exemplo: uma "seqüência rítmica de sons e movimen-
tos" (SMR) tinha o efeito de reduzir totalmente "riso" e "gritaria" e de
reduzir acentuadamente "burburinho"; tinha, também, o efeito de produzir
um aumento de "cumprir tarefa" e uma redução de "dispersão". Por sua
vez, os antecedentes de ruído de classe mais freqüentes das seqüências
SMR eram "burburinho", "gritaria" e "riso", e nunca "silêncio", "falas
isoladas" ou "falas em uníssono". Dessa forma, os dados analisados
indicam "que o desempenho da professora e dos alunos são mútua e fina-
mente modulados" (Gil, 1991, p.318).
A perspectiva sociointeracionlsta-construtivista
de estudo do desenvolvimento
Trata-se de uma perspectiva que aborda a situação de interação
social como constitutiva dos sujeitos. Enfoca o diálogo como troca nego-
ciada constitutiva dos sujeitos e da própria troca (Lyra, 1988). Baseia-se,
em parte, em formulações referentes à aquisição da linguagem (Lemos,
1981), em que a autora considera que as situações de interação são um
espaço para a construção de relações semânticas, morfológicas e
sintáticas pela criança. Ela propõe uma continuidade entre o período pré-
verbal e o verbal na aquisição da linguagem e sugere que a criança deve
passar pelo processo de inserir-se numa estrutura diàdica com um
interlocutor para construir uma representação de si mesma e do outro
como interlocutores. Considera que sua proposição é semelhante à de
Vygotsky, citado por ela, de que as atividades da criança adquirem
significado em um sistema de relacionamento social, na medida em que o
caminho que vai do objeto para a criança e da criança para o objeto passa
pela relação com outra pessoa.
Dentro desse enfoque, Lyra e colaboradores (Lyra, 1988,1991; Lyra,
Galindo, Cipriano, 1990; Lyra, Cabral, Pantoja, 1991) têm desenvolvido um
programa de pesquisa das interações entre mãe e bebê, realizando
registros longitudinais em vídeo em situação natural. Têm sido analisadas
como atividades partilhadas as interações "face a face" e as interações
"mãe-objeto-bebê". Nas interações "face a face", têm sido estudadas a
produção vocal e o sorriso. Ao discutir aspectos referentes à transcrição e
análise de dados em vídeo, Lyra (1991) afirma a necessidade de uma
"filiação profunda" entre a posição teórico-epistemológica do pesquisador
e a metodologia de transcrição e análise de dados a ser adotada.
Esclarece alguns pontos acerca de sua concepção de estudo, destacando-
se: a) a necessidade de exploração de registros longitudinais; b) uma
concepção de causalidade como transformações e construções bidirecio-
nais e interdependentes; c) o enfoque em ambos os sujeitos bem como na
interação entre eles; d) a visão da diade como unidade de análise
indissociável. Nesse sentido, propõe como solução metodológica para uma
primeira fase do programa de pesquisa a descrição e análise de momentos
identificados como qualitativamente diferentes dos anteriores e posteriores,
"procurando relacionar as transformações e construções identificadas à
compreensão do dinamismo existente na história da diade, ou seja, aos
processos de troca negociada entre os parceiros, chamados de processos
dialógicos" (Lyra, 1991, p.294). Decorre daí a necessidade do registro
longitudinal em vídeo, cuja transcrição e análise são efetuadas a partir de
critérios derivados dessas concepções.
A partir dessa análise, de cunho qualitativo, a autora relata o
destaque de um elemento presente nas organizações face a face: as
trocas vocais, que ensejaram uma segunda fase de seu programa de
pesquisa, incluindo uma verificação quantitativa das modificações
identificadas na produção vocal do bebê. Reafirma, entretanto, que sua
posição teórica vê a quantidade como filiada à qualidade, sendo que a
compreensão do processo de transformação e construção continuam a
depender de uma análise qualitativa.
Outro exemplo de trabalho nessa perspectiva é o de Oliveira (1988a),
que realizou um estudo longitudinal em uma creche pública, usando a
noção de "jogo de papéis" como foco da análise dos dados, registrados em
vídeo. A análise das transcrições foi realizada com base na seleção de
trechos em que se evidenciava a construção de enredos de diferentes
papéis construídos pelas crianças no grupo e no faz-de-conta. A análise
mostrou a construção coletiva da brincadeira e uma crescente diferen-
ciação de papéis. A autora tem analisado também situações de interação
adulto-criança em creches e pré-escolas. Ela discute o conceito de papel
na análise do processo interacional, retomando postulados da Psicologia
sociointeracionista de base dialética do início do século, e propõe um
enfoque processual que concebe a interação "como constituindo os
sujeitos e não como influências, mesmo que recíprocas, entre sujeitos já
constituídos" (Oliveira, 1992).
Ainda um outro exemplo de pesquisa abordando a interação entre
crianças como um processo de construção mútua é o trabalho de Pedrosa
(1989), que fez gravações em vídeo na creche, em situação de recreação
livre. A autora apresenta seus dados na forma de descrição de onze
episódios, indicando para cada um: a) o nome do episódio; b) dados sobre
a data, horário, duração, crianças envolvidas; c) descrição da situação
(presente e imediatamente anterior); d) resumo do episódio e descrição
detalhada do mesmo. A análise dos dados evidencia: a) a ocorrência de
brincadeira compartilhada em grupo, sem a sugestão do adulto, em
crianças desde menos de dois anos de idade; b) o levantamento de
hipóteses sobre processos de regulação, tais como o "arranjo" da
brincadeira, ajustamentos rítmicos e posturais, regras, etc. Discutindo
questões referentes à transcrição e análise de registro em vídeo, Pedrosa
e Carvalho (1991, p.285) definem episódio interativo como "um segmento
de registro onde aparecem seqüências interativas claras e conspicuas ou
trechos do registro em que se pode circunscrever um grupo de crianças a
partir do arranjo que formam e/ou da atividade que realizam" e consideram
que o recorte em episódios corresponde a uma primeira forma de seleção
dos dados que parece útil para perseguir a estrutura interacional do grupo.
Afirmam que o início de um episódio pode ser delimitado por um fato a
partir do qual se articula uma seqüência interativa (por exemplo: uma
criança pega um apito e começa a soprá-lo) ou o episódio pode emergir
de uma situação em que vários elementos se combinam e se constituem
em uma seqüência, às vezes só reconhecida a posteriori, e cujo início é
algumas vezes arbitrado, o mesmo ocorrendo para a delimitação do
término de um episódio.
Os episódios são a seguir divididos em momentos, com critérios
bastante flexíveis. Em alguns casos, segue-se a composição social do
grupo; em outros, a configuração da seqüência em curso, seguindo pistas
como o conteúdo da brincadeira, a distribuição espacial, etc. As autoras
ressaltam que essa proposta de recorte decorre de sua concepção de
interação, concebida como "um processo de influências recíprocas entre
os parceiros" (id. ibid., p.286), admitindo que a estruturação desses arranjos
envolve processos de regulação entre as crianças.
As autoras destacam dois tipos de transcrição do episódio: um que
privilegia uma seqüência de interação identificada e descreve o comporta-
mento das outras crianças que também estão em cena, apenas se estiver
diretamente relacionado àquela seqüência — nesse caso, o interesse é
seguir a trama interacional específica; já o outro tipo de transcrição procura
incluir tanto as seqüências interacionais quanto informar sobre todos os
comportamentos das crianças que aparecem em cena, com um foco de
atenção mais abrangente, usado quando se deseja comentar as regu-
lações recíprocas entre as crianças presentes num registro.
Quanto ao nível de detalhamento na transcrição do episódio,
Pedrosa e Carvalho propõem como regra: o comportamento das crianças
deverá ser transcrito em detalhes apenas se essa descrição for esclarece-
dora para a compreensão do que se deseja demonstrar. Com base nesta
regra, só se descreve, por exemplo, a postura da criança em suas minúcias
morfológicas quando esta for o alvo de interesse do trabalho (por exemplo:
uma inclinação de tronco da criança pode interessar quando for seguida
de movimento semelhante por outra criança).
As autoras sugerem, ainda, o registro de impressões provocadas no
pesquisador pelas ações das crianças, distinguindo-as dos fatos observa-
dos, dando um "tom" à situação e favorecendo a compreensão do episódio.
A análise qualitativa é proposta a partir de perguntas que levam ao
exame e ao reexame dos episódios e à sua relação com as formulações
teóricas subjacentes.
Assim, dentro da perspectiva sociointeracionista-construtivista, têm
sido exploradas novas formas de análise e tratamento de dados, decorren-
tes das formulações teóricas adotadas pelos pesquisadores da área.
A perspectiva ecológica de estudo dos arranjos ambientais
A perspectiva ecológica de análise vem se delineando dentro da
Psicologia ambiental que, segundo Campos de Carvalho (1988, p.305), "se
propõe a estudar as relações entre ambiente e comportamento humano,
enfatizando a influência do ambiente físico no comportamento. Pela
abordagem ecológica, todo e qualquer contexto ambiental é visto como um
sistema de inter-relações, ou de interdependência, entre os vários compo-
nentes físicos e humanos que participam daquele contexto. Somente para
efeito de estudo e análise é que se abstrai deste sistema dinâmico um
componente; mas ele só pode ser compreendido em relação àquela situa-
ção da qual foi extraído. Cada componente é tanto causa como efeito —
ele atua sobre os outros componentes assim como esses atuam sobre ele".
Dentro dessa perspectiva, a autora realizou estudos em duas
creches que atendem crianças de nível sócio-econômico baixo, na região
de Ribeirão Preto, replicando estudos de Legendre sobre arranjos espa-
ciais em creches.
Legendre, citado pela autora, observou três tipos de arranjos espa-
ciais em creches: a) Arranjo espacial semi-aberto — caracterizado pela
presença de zonas circunscritas (ZC), que são áreas delimitadas pelo
menos em três lados por barreiras formadas por elementos do mobiliário,
parede, desnível do solo, etc. As crianças em geral ocupam as ZC, ficando
afastadas do adulto, porém com fácil acesso a ele, inclusive visual;
observa-se, nesse caso, um favorecimento da ocorrência de interações
afiliativas entre crianças e um tipo de interação menos freqüente e mais
intenso com o adulto (ou seja, evocando mais respostas deste), b) Arranjo
espacial aberto — caracterizado pela ausência de ZC, geralmente
havendo um espaço central vazio. Neste arranjo, decrescem as interações
entre crianças, as quais tendem a permanecer próximas ao adulto, embora
com pouca interação com ele. c) Arranjo fechado — caracterizado pela
presença de ZC, porém havendo barreiras físicas (por exemplo, um móvel
alto) dividindo a sala em duas ou mais áreas. Assim, as barreiras físicas
impedem uma fácil visão do adulto, embora permitam a circulação das
crianças pela sala. Neste arranjo, as crianças tendem a permanecer em
volta do adulto, ocorrendo pouca interação entre as crianças.
Campos de Carvalho (1988, 1990) replicou esse estudo em duas
creches, caracterizadas por uma proporção relativamente grande de
crianças por adulto, geralmente em espaços vazios e com pouca disponi-
bilidade de objetos. Uma vez que este tipo de ambiente não favorece a
interação criança-adulto, nem a interação entre crianças com idade inferior
a três anos, buscou-se verificar de que forma condições ambientais
favoráveis agiriam como suportes ou mediadores na interação entre
crianças pequenas. Nesse estudo, foi feita uma transformação do arranjo
espacial aberto para semi-aberto, na área utilizada pelas crianças da
creche para atividades livres. Os dados foram coletados nesses períodos,
por duas câmaras fotográficas, que funcionavam automaticamente e em
conjunto a cada 30 segundos, anotando-se, posteriormente, a posição de
cada criança e da pajem em cada foto. Os dados obtidos foram na mesma
direção dos de Legendre: a estruturação do espaço propiciou oportunida-
des de contato entre as crianças, permitindo, ao mesmo tempo, que o
adulto estivesse mais atento ao grupo de crianças. Esses aspectos foram
aproveitados no projeto de intervenção, realizado pela autora após a coleta
dos dados desta pesquisa.
Estudos posteriores, utilizando gravação em vídeo, têm permitido a
identificação de diferenças no comportamento das crianças, quando se
compara o que ocorre na área em torno da pajem com o que ocorre nas
zonas circunscritas, dando prosseguimento a essa linha de trabalho
(Rubiano, 1990, 1991; Chaguri, Rubiano, Silva, Rossetti-Ferreira, 1991).
O estudo dos movimentos expressivos
Nos primeiros estudos observacionais, era freqüente a orientação
para que o observador se ativesse aos elementos observáveis e definíveis
em termos físicos, evitando-se inferências e impressões subjetivas. Em
certos casos, essas recomendações levaram a uma deturpação, no sentido
de se evitar a abordagem a certos elementos sutis do comportamento, tais
como expressões faciais de curta duração e difíceis de definir (como, por
exemplo, uma expressão de nojo rapidamente substituída por uma
expressão mais neutra), posturas corporais que produzem impressão de
dominação ou submissão, verbalizações interpretáveis como "irônicas",
etc. Entretanto uma área de pesquisa designada por comunicação não-
verbal (Scherer, Ekman, 1982; Corraze, 1982), que tem abordado a face, o
olhar, a voz (entonação, ritmo, etc), a postura, o movimento corporal, o
olfato e o tato como meios de comunicação. São empregados dois méto-
dos básicos de investigação: o estudo através dos julgamentos e o
estudo através dos constituintes. Corraze (1982, p.69) descreve esses
métodos no contexto do estudo das expressões faciais. Ele diz que "partir
dos julgamentos consiste em apoiar-se em múltiplas expressões faciais
que se apresentem a observadores e em procurar saber se, entre eles, há
concordância quanto à sua significação afetiva. A face é então considerada
corno um estímulo suscetível de produzir uma resposta, um julgamento, em
observadores". O autor considera que o estudo pelos julgamentos pode
nos dizer que a informação está ali, mas não nos pode dizer que compor-
tamentos da face levam a essa informação precisa. Já o estudo pelos
constituintes tenta identificar os componentes da face que correspondem
à produção de determinadas emoções nos sujeitos que fizeram os
julgamentos. Esses dois métodos são extensivos ao estudo de outros
aspectos da comunicação não-verbal, além das expressões faciais.
Um estudo de julgamento de expressões faciais foi realizado por
Silva (1987a), utilizando estudantes universitários como sujeitos. O autor
verificou que os julgamentos das expressões faciais, mostradas através da
projeção de diapositivos, apresentavam fidedignidade intra-sujeito, entre
grupos e intercultural. O autor também apresentou evidências de que os
erros cometidos nos julgamentos de expressões faciais de emoções não
eram aleatórios, sendo os erros dos brasileiros praticamente idênticos aos
cometidos pelos sujeitos americanos.
Silva (1987b) destaca três questões principais que têm norteado a
maioria das pesquisas sobre expressões faciais de emoções. A primeira
diz respeito à existência de expressões faciais características dos dife-
rentes estados emocionais, a segunda, à universalidade dessas expres-
sões, e a terceira, aos sinais faciais típicos de cada uma dessas ex-
pressões. O autor considera que as três questões foram respondidas
positivamente, a partir das pesquisas realizadas pelas equipes de Paul
Ekman e de Carroll Izard. Considera, também, que restam várias questões
a serem melhor investigadas, entre as quais se incluem as seguintes: a)
que emoções possuem expressões faciais mais claramente reconhecíveis?
b) como distinguir as expressões faciais referentes a emoções genuínas
daquelas que aparecem devido à mentira facial ou devido a outros
motivos? c) como são os padrões temporais das expressões faciais de
emoções? d) qual a unidade "natural" de julgamento? (a emoção do outro,
em que condições, ou qualidades mais permanentes de quem sente tal
emoção?) e) em uma situação "natural", como a pessoa julga expressões
faciais de emoção? f) qual a proeminência das expressões faciais de
emoções em relação a outras informações, sobre emoções ou não, pre-
sentes em uma dada situação sob avaliação? O autor considera que os
estudos a serem propostos por estas questões provavelmente irão
envolver outras estratégias de pesquisa, além da análise de expressões
faciais em fotografias.
As expressões faciais também têm sido utilizadas como indicadores
de paladar e olfato em recém-nascidos, em estudos da ontogenèse da
quimiorrecepção (Bergamasco, 1991; Bergamasco, Lima, Krusnaukas,
1991; Bergamasco, 1992). O procedimento de registro consiste em filmar
em vídeo as respostas de recém-nascidos antes, durante e após a apre-
sentação de cada estímulo, gustativo ou olfativo. O material obtido é tra-
balhado por observadores não informados sobre o estímulo apresentado
ao bebê, através de uma ou mais das seguintes formas: levantamento de
categorias, análise temporal da resposta e avaliação por juizes. Os dados
obtidos têm permitido a identificação de respostas diferenciadas e caracte-
rísticas para diferentes tipos de estímulo.
Um outro tipo de estudo que tem sido realizado é o do sorriso, em
seus aspectos morfológicos e motivacionais (Fagundes, 1978; Otta, Sarra,
1988), como reação do bebê a diferentes estímulos (Obara, Akamine,
Pedrazzoli Neto, Bonilha, Bortoletto, Otta, 1990) e como influência na
percepção de pessoas, quando se variam as características do sujeito e do
modelo (Delevati, Lira, César, Pires, Otta, 1992).
Através destes e de muitos outros estudos, a área de estudo dos
movimentos expressivos tem permitido a identificação e análise de muitos
dos elementos sutis que levam à formação de impressões subjetivas ao
longo das relações interpessoais.
A pesquisa participante e a observação antropológica
A pesquisa participante tem sido proposta por sociólogos, antropó-
logos e educadores, como um meio de superar a dicotomia e o distan-
ciamento entre "sujeito" e "objeto" de pesquisa, de forma que pessoas,
anteriormente "objetos de pesquisa", passem a ser "o sujeito, tanto do ato
de conhecer de que têm sido o objeto, quanto do trabalho de transfor-
mar o conhecimento e o mundo que os transformaram em objetos" (Bran-
dão, 1981, p.11).
Thiollent (1984) estabelece uma distinção segundo a qual a "pes-
quisa participante" preocupa-se principalmente com o papel do investiga-
dor dentro da situação investigada, enquanto a "pesquisa-ação" é uma
modalidade de "pesquisa participante" centrada em projetos de ação social
ou de resolução de problemas coletivos. O autor afirma que a "pesquisa
participante" tem sido concebida como uma técnica de "observação partici-
pante", elaborada no contexto da pesquisa antropológica ou etnográfica.
Segundo ele, "trata-se de estabelecer uma adequada participação dos
pesquisadores dentro dos grupos observados de modo a reduzir a estra-
nheza recíproca. Os pesquisadores são levados a compartilhar, pelo
menos superficialmente, os papéis e os hábitos dos grupos observados
para estarem em condição de observar fatos, situações e comportamentos
que não ocorreriam ou que seriam alterados na presença de estranhos"
(Thiollent, 1984, p.83).
A observação "antropológica" tem sido considerada por alguns
autores como uma alternativa recomendável para o estudo de diferentes
situações sociais. É o caso, por exemplo, de Delamont, que critica o uso
de sistemas de categorías preestabelecidas, como, por exemplo, o FIAC
(Flanders Interaction Analysis Categories), para o estudo da interação
professor-aluno (Delamont, Hamilton, 1981; Patto, 1981). Delamont e
Hamilton (1981) consideram que a análise antropológica se vale de uma
abordagem mais etnográfica do que "psicométrica" e de uma estrutura
conceptual que considera a educação em termos socioculturais mais
amplos. Metodologicamente, esses estudos baseiam-se na observação
participante, que abrange a presença de um ou mais observadores durante
longos períodos, numa única sala de aula ou num pequeno número delas.
Durante esse tempo, o etnòlogo também conversa com os participantes,
referidos como "informantes", ao invés de "sujeitos". Ele pode conduzir
entrevistas formais e também aplicar questionários. Esses autores
consideram que o "antropólogo" tem um quadro de referência holístico, e
que não procura manipular, controlar ou eliminar variáveis. Sua seleção de
dados se faz através da concentração da atenção em aspectos emergen-
tes, e não através de categorias preestabelecidas.
Patto (1981) comenta um artigo de Delamont, em que esta autora
estabelece comparação entre dados coletados através do FIAC com dados
obtidos através de uma observação antropológica, conforme acima des-
crita. Para um caso em que duas professoras de Latim eram semelhantes
em relação a algumas categorias de Flanders e diferentes em outras, a
autora utilizou observações não-estruturadas e entrevistas formais e
informais com as alunas. Para a estruturação dos dados de observação,
a autora selecionou alguns temas unificadores, que emergiram das entre-
vistas com as alunas e das próprias observações e anotações de campo.
Entre os temas que se destacaram, incluem-se: o ambiente físico criado
pelas professoras (caracterizado, principalmente, pelas anotações de
campo), a aparência pessoal das professoras (através de conversas infor-
mais com as alunas), as opiniões das alunas sobre as professoras (por
meio de entrevistas formais com as alunas) e trechos de diálogos ocorridos
durante a aula (através de anotações detalhadas tomadas em sala de
aula). A partir desses dados e de considerações sobre a natureza da
matéria ensinada, a autora conseguiu entender várias das diferenças entre
as duas professoras acima referidas, enquanto o sistema de categorias
preestabelecidas apenas constatou algumas delas.
No mesmo texto, Patto cita outro estudo, de Walker e Adelman, que
aborda a complexidade dos significados comunicativos em sala de aula,
que aparecem nas relações informais que se estabelecem entre o pro-
fessor e os alunos, em especial nas piadas e brincadeiras que se dão em
determinados momentos. Para tanto, foi necessário reconstituir a história
da turma, inserindo os diálogos em seu contexto espacial e temporal mais
amplo. Entre as técnicas de observação utilizadas por esses autores,
incluíram-se: filmagem e gravação das aulas, observações intensivas
durante períodos curtos e longos de tempo, acompanhadas de anotações,
consultas às notas dos professores, seus planos de aula, entrevistas com
os professores e com os alunos. Patto considera que a percepção do
significado das comunicações nesse estudo foi possibilitada principalmente
pela pesquisa participante de longa duração, bem como pelas entrevistas
informais com professores e alunos. A autora afirma que o uso da obser-
vação antropológica pode enriquecer a compreensão das relações entre
professor e alunos na sala de aula.
O presente texto assemelha-se mais a um "menu de opções" do
que a "manual de instruções". Relata a evolução dos estudos observacio-
nais em nosso meio, a partir dos trabalhos iniciais influenciados pela
análise do comportamento e pela etologia animal, e apresenta alguns dos
desenvolvimentos recentes na área, na expectativa de que o aprimora-
mento dos métodos observacionais, utilizados em conjugação com outros
métodos de investigação em Psicologia, contribuam para a melhor
compreensão do ser humano, especialmente em sua dimensão social.
REFERÊNCIAS BIBLIOGRÁFICAS
ADES, C. A teia e a caça da aranha Argiope argentata. São Paulo, 1972. Tese (Doutorado)
Faculdade de Filosofia. Letras e Ciências Humanas, USP.
ALTMANN, J. Observational study of behavior: sampling methods. Behaviour, v.49, p.227-267,
1974.
ALTMANN, S.A. Sociobiology of rhesus monkeys: the stochastics of social communication.
Journal of Theoretical Biology, London, v.8, p.490-522, 1965.
ALVES, Z.M.B.A. Análise da interação máe-criança: um estudo longitudinal (dos dois ao seis
meses) da evolução de seqüências de interação. Ribeirão Preto, 1973. Tese (Doutorado)
Faculdade de Filosofia, Ciências e Letras, USP.
ALVES, Z.M.B.A., CARVALHO, A.M.A., MARTURANO, EM., METTEL. T.P.L. ROSSETTI-
FERREIRA, M.C. Questões metodológicas no estudo da interação humana. In: REUNIÃO
ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 17, 1987. Anais...
Ribeirão Preto, 1987. p.531-541.
BAER, D.M., WOLF, M.M., RISLEY, T. Some current dimensions of applied behavior analysis.
Journal of Applied Behavior Analysis, Lawrence (KS), v.1, n.l, p.91-97, 1968.
BASTOS, M.F., CARVALHO, A.M.A. Empatia entre crianças. In: REUNIÃO ANUAL DASOCI-
EDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 21,1991. Anais... Comportamento pro-
social: questões filogenéticas e ontogenéticas. Ribeirão Preto, 1991. p.l 14-116. «
BATISTA CG. Catálogo de comportamentos motores observados durante uma situação de
refeição. São Paulo, 1978. Dissertação (Mestrado) — Instituto de Psicologia, USP.
--------------. Concordância e fidedignidade na observação. Psicologia, v.3, n.2, p.39-49,1977.
--------------. Elaboração de um catálogo de comportamentos motores observados na interação
entre pais e filhos. Psicologia, v.6, n.3, p.47-81, 1980.
--------------. Mães e crianças brincando: um estudo de influências recíprocas. São Paulo, 1989.
Tese (Doutorado)— Instituto de Psicologia, USP.
BATISTA, CG. Objetivos da avaliação da fidedignidade em estudos observacionais. Psicolo-
gia: Teoria e Pesquisa, v.1, n.3. p.205-214, 1985.
BATISTA. CG., MATOS, MA. O acordo entre observadores em situação de registro cursivo:
definições e medidas. Psicologia, v.10, n.3, p.57-69, 1984.
BERGAMASCO, N.H.P. Expressões faciais de recém-nascidos em resposta a estímulos
gustativos e olfativos. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RI-
BEIRÃO PRETO. 21. 1991. Anais... Transcrição e análise de registro em vídeo. Ribeirão
Preto. 1991.p.291-292.
. . Percepção de estímulos químicos em recém-nascidos: discriminação e prefe
rências. In: REUNIÃO ANUAL DASOCIEDADE BRASILEIRA DE PSICOLOGIA, 22.1992.
Resumos de comunicações cientificas..., n.336.1. [S.I.], 1992.
BERGAMASCO, N.H.P, LIMA, A., KRUSNAUKAS, I. Valor de comunicação das respostas
faciais de recém-nascidos. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE
RIBEIRÃO PRETO, 21, 1991. Resumos..., n.211. Ribeirão Preto, 1991.
BIJOU, S.W., PETERSON, R.F., AULT, M.H. A method to Integrate descriptive and empirical
field studies at the level of data and empirical concepts. Journal of Applied Behavior
Analysis. Lawrence (KS), v.1, n.2, p.175-191. 1968.
BLURTON JONES, N. (Org.). Ethological studies of child behavior. Cambridge: Cambridge
University Press, 1972.
BRANCO, A.U. Ontogenèse e promoção do comportamento pró-social. In: REUNIÃO ANUAL
DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 21.1991. Anais... Comporta-
mento pró-social: questões filogenéticas e ontogenéticas. Ribeirão Preto, 1991. p.110-113.
. Socialização na pré-escola: o papel da professora e da organização das ativida
des no desenvolvimento das interações sociais entre as crianças. São Paulo, 1989. Tese
(Doutorado) — Instituto de Psicologia, USP.
BRANCO, A.U., METTEL, T.P.L Comportamento pró-social: um estudo com pré-escolares.
Psicologia, v.10, n.1. p.43-61, 1984.
-------------- . A interação professora-alunos na pré-escola: uma metodologia de análise. In:
REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 19,1989.
Resumos..., n. 222. Ribeirão Preto, 1989a.
. Socialização na pré-escola: fatores interativos e ambientais relacionados às intera
ções criança-criança. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE
RIBEIRÃO PRETO, 19,1989. Resumos..., n. 231. Ribeirão Preto, 1989b.
BRANDÃO, CR. Pesquisar-participar. In: BRANDÃO, CR. (Org.). Pesquisa participante. São
Paulo: Brasiliense. 1981.
BUSSAB, V.S.R. Comportamento pró-social: questões filogenéticas. In: REUNIÃO ANUAL
DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 21.1991. Anais... Comporta-
mento pró-social: questões filogenéticas e ontogenéticas. Ribeirão Preto, 1991. p.197-209.
-------------- . Processos de ritualização: aspectos filogenéticos e ontogenéticos. In: REUNIÃO
ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 18,1998. Resumos...,
n. 132. Ribeirão Preto, 1988.
CAMPOS DE CARVALHO, M.l. Arranjo espacial e distribuição de crianças de 2-3 anos pela
área de atividades livres em creche. São Paulo, 1990. Tese (Doutorado) — Instituto de
Psicologia, USP.
CAMPOS DE CARVALHO, M.l. Organização espacial da área de atividades livres em cre-
ches. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO,
18, 1988. Anais... Condições ambientais na educação do indivíduo especial. Ribeirão
Preto, 1988. p.305-310.
CARVALHO, A.M.A. Abordagem etològica: desenvolvimento, socialização. São Paulo, 1978.
Apostila utilizada no curso de Pós-Graduação do Departamento de Psicologia Expe-
rimental. Instituto de Psicologia, USP.
-------------- . Algumas reflexões sobre o uso da categoria "interação social". In: REUNIÃO
ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 18, 1988. Anais...
Avanços recentes em Psicologia do desenvolvimento. Ribeirão Preto, 1988. p.511-515.
-------------- . Alguns dados sobre a divisão de trabalho entre obreiras de Atta sexdens rubropi-
losa, Forel, 1908 (Hymenoptera-Formicidae), em colônias iniciais, mantidas em labo-
ratório. São Paulo, 1972. Tese (Doutorado) — Faculdade de Filosofia, Letras e Ciências
Humanas, USP.
--------------. Critérios para a descrição e análise de relações interindividuais: revisão crítica e
análise empírica. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO
PRETO, 21,1991. Resumos..., n. 202. Ribeirão Preto, 1991a.
-------------- . Questões conceituais. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA
DE RIBEIRÃO PRETO, 21, 1991. Anais... Comportamento pró-social: questões filoge-
néticas e ontogenéticas. Ribeirão Preto, 1991b. p.104-106.
. Relações interpessoais: o nível de recorte. In: REUNIÃO DA SOCIEDADE BRA
SILEIRA DE PSICOLOGIA, 22. 1992. Resumos de comunicações científicas..., n.342.2.
[S.I.], 1992.
CARVALHO, A.M.A., BERALDO, K.E.A. Interação criança-criança: ressurgimento de uma
área de pesquisa e suas perspectivas. Cadernos de Pesquisa, São Paulo, v.71, p.55-61,
1989.
CATANIA, A.C. The nature of learning. In: NEVIN, J.A., REYNOLDS, G.S. (Orgs.). The study
of behavior. Glenview: Scott, Foresman and Co, 1973.
CHAGURI, AC, RUBIANO, M.R.B., SILVA JR., V., ROSSETTI-FERREIRA, M.C. A organi-
zação de crianças em creches com diferentes enfoques pedagógicos. In: REUNIÃO
ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 21,1991. Resumos...,
n.205. Ribeirão Preto, 1991.
COPI, I.M. Introdução à lógica. Trad. por Álvaro Cabral. São Paulo: Mestre Jou, 1974.
CORRAZE, J. As comunicações não-verbais. Trad. por Roberto C. Lacerda. Rio de Janeiro:
Zahar, 1982.
COUTINHO. S.M.G.. ZANNON, C.M.L.C. Estudo exploratório de interações sociais em setor
de emergência pediátrica. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE
RIBEIRÃO PRETO, 21, 1991. Resumos.... n. 88. Ribeirão Preto, 1991.
CREPALDI, M.A., ZANNON, C.M.LC. Hospitalização infantil: estudo da interação equipe
família em unidade pediátrica. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA
DE RIBEIRÃO PRETO, 19, 1989. Resumos..., n. 40. Ribeirão Preto, 1989.
CUNHA, W.H.A. Acerca de um curso pós-graduado destinado ao treino da observação
científica no domínio das ciências do comportamento. Ciência e Cultura, São Paulo, v.27,
p.846-853, 1974.
CUNHA, W.H.A. Alguns princípios de categorização, descrição e análise do comportamento.
Ciência e Cultura, São Paulo, v.28, p.15-24, 1976.
------------- . O estudo etològico do comportamento animal. Ciência e Cultura. São Paulo, v.27
p.262-268, 1975.
------------- . Exploração no mundo psicológico das formigas: uma investigação de algumas
modificações de comportamento. São Paulo, 1967. Tese (Doutorado) — Faculdade de
Filosofia, Letras e Ciências Humanas, USP.
------------- . Introdução ao desenvolvimento histórico e aos princípios básicos da etologia.
Palestra apresentada no I Encontro de Etologia. Jaboticabal, 1983.
DANNA, M.F., MATOS, M.A. Ensinando observação: uma introdução. São Paulo: Edicon,
1982.
DELAMONT, S., HAMILTON, D.A. A pesquisa em sala de aula: uma crítica e uma nova
abordagem. In: PATTO, M.H.S. (Org.) Introdução à Psicologia Escolar. Sao Paulo: TA.
Queiroz, 1981.
DELEVATI, N.M., LIRA, B.B.P., CÉSAR, O.P., PIRES, S.G., OTTA, E. Influência do sorriso na
percepção de pessoas em função de características do sujeito e do modelo. In: REUNIÃO
ANUAL DA SOCIEDADE BRASILEIRA DE PSICOLOGIA, 22,1992. Resumos de comu-
nicações científicas..., n.30. [S.I.], 1992.
DESSEN, M.A.S.O, METTEL, T.P.L. Interação pais-primogênito quando da chegada de uma
segunda criança na família - um estudo de caso. Psicologia, v.10, n.2, p.27-39, 1984.
DURAN, A.P. O estudo da interação professor-aluno no Brasil: algumas tendências, algumas
questões. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO
PRETO, 17,1987. Anais... Perspectivas para estudo da relação professor-aluno. Ribeirão
Preto, 1987. p.77-85.
. Padrões de comunicação oral e compreensão da comunicação escrita na universi
dade: estudos no Nordeste. São Paulo, 1981. Tese (Doutorado) — Instituto de Psicologia,
USP.
FAGUNDES, A.J.F.M. Definição e análise da resposta de sorrir em situação de leitura de
textos humorísticos. Psicologia, v.4, n.3, p.53-108, 1978.
------------- . Descrição e registro de comportamento. São Paulo: Edicon, 1981.
GIL-CENEVIVA, M.S.A. Interação professor-aluno: estudo descritivo das perguntas dos
alunos em uma sala de aula de primeira série do Primeiro Grau. João Pessoa, 1985.
Dissertação (Mestrado)— Universidade Federal da Paraíba.
GIL, M.S.C.A. Análise funcional da interação professor-aluno: um exercício de identificação
de controles recíprocos. São Paulo, 1990. Tese (Doutorado) — Instituto de Psicologia,
USP.
. Análise funcional da interação professor-aluno: In: REUNIÃO ANUAL DA SOCIE
DADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 21,1991. Anais... Ciclo de estudos em
análise do comportamento IV: novos problemas e novas soluções. Ribeirão Preto, 1991.
p.315-321.
HALL, R.V. Manipulação de comportamento - parte 1: modificação de comportamento. Trad.
por Waldir Bettoi. São Paulo: EPU: EDUSP. 1973.
HINDE, R.A. Animal behaviors synthesis of ethology and comparative psychology. New York:
McGraw-Hill, 1966.
HINDE. R.A. The bases of a science of interpersonal relationships. In: DUCK, S., GILMOUR, R.
(Eds.). Personal relationships. Londres: Academic Press, 1981. v.1.
----------------. On the design of check-sheets. Primates, Aichi, v.14, p.393-406. 1973.
HUIT, S.J., HUTT, C. Observação direta e medida do comportamento. Trad. por Carolina M. Bori.
Sao Paulo: EPU: EDUSP, 1974.
JOHNSON, S.M., BOLSTAD, OD. Methodological issues in naturaliste observation: some
problems and solutions for field research. In: HAMERLYNCK, LA., HANDY, L.C., MADH, E.J.
(Eds.). Behavior change-, methology, concepts and practice. [S.I.]: Research Press, 1973.
KERBAUY, R.R. Autocontrôlé: manipulação de condições do comportamento alimentar. São
Paulo, 1972. Tese (Doutorado) — Faculdade de Filosofia, Letras e Ciências Humanas, USP.
LEMOS, C. de. Interactional processes in the child's construction of language. In: DEUTSCH, W.
(Ed.). The child's construction of language. Londres: Academic Press, 1981.
LI NHARES, M.B.M. Interação professora-aluno em uma classe de 1a. série com substituição de
professoras. São Paulo, 1988. Tese (Doutorado) — Instituto de Psicologia, USP.
LINHARES, M.B.M., MARTURANO, E.M. Um método de observação e análise das estratégias
maternas de ensino. Psicologia, v.10, n.l, p.l 1-25, 1984a.
----------------. Conteúdos verbais maternos em diferentes situações de ensino de resolução de
problemas. Psicologia, v.10, n.3, p.41-55, 1984b.
LOPES, M.F., BUENO, J.L.O., BARNABE. "OBS": uma ferramenta para análise seqüencial e de
freqüência e duração de varias categorias comportamentais. In: REUNIÃO ANUAL DA
SOCIEDADE BRASILEIRA DE PSICOLOGIA, 22, 1992. Resumos de comunicações
científicas, n.233. [S.I.], 1992.
LYRA, M.C. Transformações e construções do observador e dos dados na análise de interações
mãe-bebê. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 21,
1991. Anais... Transcrição e análise de registro em vídeo. Ribeirão Preto, 1991. p.293-297.
----------------. Transformação e construção na interação social: a diade mãe-bebê. São Paulo,
1988. Tese (Doutorado) — Instituto de Psicologia, USP.
LYRA, M.C., GALINDO, W.C.M., CIPRIANO, A.M. A mediação construída "face-a-face" na diade
mãe-bebê: a produção vocal e o sorriso. In: REUNIÃO ANUAL DA SOCIEDADE DE
PSICOLOGIA DE RIBEIRÃO PRETO,20,1990. Resumos..., n.16. Ribeirão Preto, 1990.
LYRA. M.O. CABRAL, EA, PANTOJA, A.P.F. A produção vocal do bebê: diferenciação das
interações "mãe-objeto-bebê". In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE
RIBEIRÃO PRETO, 21,1991. Resumos..., n.214. Ribeirão Preto, 1991.
MACHADO, V.L.S. Interação verbal professor-aluno, influência de disciplinas, de expectativas
do professor, da autopercepçáo do aluno e suas relações com rendimento acadêmico de
escolares de terceira série. São Paulo, 1979. Tese (Doutorado) — Instituto de Psicologia,
USP.
MARTURANO, E.M. Análise de componentes da interação professor-aluno. Cadernos de Análise
do Comportamento, v.6, p.15-24,1984.
----------------. Estudo da interação verbal criança-mãe. Sao Paulo, 1972. Tese (Doutorado) —
Faculdade de Filosofia, Letras e Ciências Humanas, USP.
MARTURANO, E.M. Interação professor-aluno: desafios à pesquisa. In: REUNIÃO ANUAL DA
SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 22,1987. Anais... Perspectivas para
estudo da relação professor-aluno. Ribeirão Preto, 1987. p.86-90.
---------. A lógica do sistema de categorias e a análise do comportamento verbal. In: REU
NIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 18, 1988.
Anais... Avanços recentes em Psicologia do desenvolvimento. Ribeirão Preto, 1988. p.517-
520.
-------------. Relação entre o julgamento da professora e o comportamento dos alunos — estudo
de um caso. Psicologia, v.12, n.3, p.47-58, 1986.
MARTURANO, EM., BERTOLDO, A.A., CAMELO, A.L.P. Estudo descritivo do intercâmbio verbal
em sala de aula através da análise de contingência — uma contribuição metodológica.
Psicologia, v.8, n.3, p.19-36, 1982.
MARTURANO, E.M., MAIMONI, E.H. Comportamento da professora frente a alunos com
dificuldade de aprendizagem. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE
RIBEIRÃO PRETO, 19, 1989. Resumos..., n.218. Ribeirão Preto, 1989.
McGREW, W.O An ethological study of children's behaviour. New York: Academic Press, 1972.
MEJIAS, N.P. Modificação de comportamento em situação escolar. São Paulo, 1973. Tese
(Doutorado) — Faculdade de Filosofia, Letras e Ciências Humanas, USP.
MELO, CS., BPiANCO, A.U. Adaptação à pré-escola: análise das negociações adulto-criança. In:
REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 22, 1992.
Resumo das comunicações científicas, n. 136. Ribeirão Preto, 1992.
MICHAEL, J. Characteristics of a good definition. Washington, DC, 1975. Apostila para distri-
buição interna na American University.
MORAIS, G.S. (Org.). Pesquisa e realidade no ensino de primeiro grau. São Paulo: Cortez, 1980.
---------------. Pesquisas sobre interação professor-aluno e intervenção na escola. In: REUNIÃO
ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 17, 1987. Anais...
Perspectivas para estudo da relação professor-aluno. Ribeirão Preto, 1987. p.94-98.
OBARA, CS.. AKAMINE, C, PEDRAZZOLI NETO. M„ BONILHA, R.S.A., BORTOLETTO, A.C.C.,
OTTA, E. Sorriso em bebês: reação à face humana e a vários tipos de degradações deste
estímulo. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO. 20.
1990. Resumos..., n.125. Ribeirão Preto, 1990.
OLIVEIRA, Z.M.R. Jogo de papéis-, uma perspectiva para análise do desenvolvimento humano.
São Paulo, 1988a. Tese (Doutorado) Instituto de Psicologia, USP.
--------------- . Análise de interações criança-criança a partir da perspectiva de jogo de papéis. In:
REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 18,1988.
Resumos..., n.133. Ribeirão Preto. 1988b.
--------------- . Conceito de papel na análise do processo interacional. In: REUNIÃO ANUAL DA
SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 22. 1992. Resumos de comunicações
científicas, n.342.3. Ribeirão Preto, 1992.
OTTA, E., SARRA, S. Uma análise motivacional do sorriso e do riso. In: REUNIÃO ANUAL DA
SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 18. 1988. Resumos..., n. 131. Ribeirão
Preto, 1988.
PATTO. M.H.S. A observação antropológica na interação professor-aluno: resumo de uma
proposta. In: PATTO. M.H.S. (Org.). Introdução à Psicologia Escolar. São Paulo: TA.
Queiroz, 1981.
PEDROSA. M.I.P.C. Interação criança-criança: um lugar de construção do sujeito. São Paulo,
1989. Tese (Doutorado) — Instituto de Psicologia, USP.
PEDROSA. M.I.P.C, CARVALHO, A.M.A. Análise qualitativa de interação entre crianças como
processo de construção mútua. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA
DE RIBEIRÃO PRETO, 21, 1991. Anais... Transcrição e análise de registro em vídeo.
Ribeirão Preto, 1991. p.285-290.
PEDROSA, G.B. Relações entre crianças pequenas de mesma idade: algumas características
da dinâmica das díades. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE
RIBEIRÃO PRETO, 22,1992. Resumos de comunicações científicas, n.146. Ribeirão Preto.
1992.
PRADO, L.E.S. Fato e significado. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA
DE RIBEIRÃO PRETO, 18, 1988. Anais... A questão da subjetividade em Psicologia. Ri-
beirão Preto, 1988. p.411-417.
RAMOS, A.T.A. Estudo descritivo das relações contingenciais no intercâmbio verbal de
criança com retardo no desenvolvimento da fala, com a professora e a mãe, em situação
natural. São Paulo, 1979. Dissertação (Mestrado)— Instituto de Psicologia, USP.
RAMOS CERQUEIRA, A.T.A. Análise de relações de contingência do repertório verbal de
mães e crianças num contexto Interativo. In: REUNIÃO ANUAL DA SOCIEDADE DE
PSICOLOGIA DE RIBEIRÃO PRETO, 18,1988. Resumos.... n. 196. Ribeirão Preto. 1988a.
. Estudo descritivo do repertório verbal de mães e crianças de baixo nível sócio-
econômico num contexto interativo. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICO
LOGIA DE RIBEIRÃO PRETO, 18, 1988. Resumos..., n.197. Ribeirão Preto, 1988b.
REBER, A.S. The Penguin dictionary of Psychology. London: Penguin, 1985.
RIBEIRO, F.L. Um estudo sobre o comportamento da fêmea durante a fecundação da colônia
em Atta sexdens rubropilosa, Porei, 1908 (Hymenoptera-Formicidae). São Paulo, 1972.
Tese (Doutorado) — Faculdade de Filosofia. Letras e Ciências Humanas, USP.
RICHARDS, M.P.M., BERNAL, J. An observational study of mother-infant interaction. In:
JONES, Blurton (Ed.). Ethological studies of child behaviour. Cambridge: Cambridge
University Press, 1972.
RODRIGUES, M.A.C. Psicologia infantil: a independência da criança pré-escolar. São Paulo:
Edicon, 1985.
ROSSETTI-FERREIRA. M.C. Development of a method for the study of mother-child inter-
action during meal-time. Londres, 1967. Tese (Doutorado).
--------------. Mãe e criança - separação e reencontro: observação em situação de grupo. São
Paulo: Edicon, 1986.
RUBIANO, M.R.B. Ocorrência de atividades lúdicas e compartilhadas em diferentes "settings".
In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 21,
1991. Anais... Transcrição e análise de registro em vídeo. Ribeirão Preto, 1991. p.281-284.
------------- . Suportes ambientais e organização social de crianças em creches. São Paulo, 1990.
Tese (Doutorado) — Instituto de Psicologia, USP.
SATO, T. Classificação numérica do comportamento I - a construção de matrizes métricas.
Psicologia, v.13, n.l, p.55-64, 1987.
SCHERER, K-, EKMAN, P. (Orgs.)- Handbook of methods in nonverbal behavior research.
Cambridge: Maison des Sciences de l'Homme: Cambridge University Press, 1982.
SIDMAN, M. Tactics of scientific research: evaluating experimental data in Psychology. New
York: Basic Books, 1960.
SILVA, A.A. Julgamento de expressões faciais de emoções: fidedignidade, erros mais fre-
qüentes e treinamento. São Paulo, 1987a. Tese (Doutorado) — Instituto de Psicologia,
USP.
-------------- . Expressões faciais de emoções: algumas questões centrais que ainda não foram
pesquisadas ou foram pesquisadas de uma forma insatisfatória. In: REUNIÃO ANUAL DA
SOCIEDADE DE PSICOLOGIA DE RIBEIRÃO PRETO, 17,1987. Anais... Pesquisas que
visam emoções. Ribeirão Preto, 1987b. p. 123-129.
SKINNER, B.F. Ciência e comportamento humano. Trad. por João Cláudio Todorov e Rodol-
pho Azzi. Brasília: Ed. UnB, 1967.
-------------- . Contingências do reforço. Trad. por Rachel Moreno. In: OS PENSADORES. São
Paulo: Abril Cultural, 1975. v.51.
-------------- . Verbal behavior. Englewood Cliffs (NJ): Prentice-Hall, 1957.
SLATER, P.J.B. Describing sequences of behavior. In: BATESON, P.P.G., KLOPFER. P.H.
(Eds.). Perspectives in ethology. Londres: Plenun Press, 1973.
SOLLITTO, N.A. Observação da interação mãe-nenê em uma situação natural. São Paulo,
1972. Tese (Doutorado) — PUC-SP.
STADDON, J.E.R. On the notion of cause, with applications to behaviorism. Behaviorism,
Reno (NV), v.1, p.25-63,1973.
STELLA, E.M. A field-descriptive and experimental study of verbal behavior in one year old
children. Londres, 1974. Tese (Doutorado).
THIOLLENT. M. Notas para o debate sobre pesquisa- ação. In: BRANDÃO, CR. (Org.).
Repensando a pesquisa participante. São Paulo: Brasiliense, 1984.
VAN HOOF, J.A.R.A.M. Categories and sequences of behavior: methods of description and
analysis. In: SHERER, K.R., EKMAN, P. (Eds.). Handbook of methods in nonverbal
behavior research. Cambridge: Maison des Sciences de l'Homme: Cambridge University
Press, 1982.
VIEIRA, T. Estudo observacional sobre modalidades de ações representativas em brinquedo
de faz-de-conta. In: REUNIÃO ANUAL DA SOCIEDADE DE PSICOLOGIA DE RIBEI-
RÃO PRETO, 18, 1988. Resumos...