Download PDF
ads:
UMA ANÁLISE DE ESTRATÉGIAS DE SUMARIZAÇÃO AUTOMÁTICA
Bruno Vilela Oliveira
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS
PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE
FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS
NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM
ENGENHARIA CIVIL.
Aprovada por:
________________________________________________
Prof. Nelson Francisco Favilla Ebecken, D.Sc.
________________________________________________
Profª. Beatriz de Souza Leite Pires Lima, D.Sc.
________________________________________________
Profª. Myrian Christina de Aragão Costa, D.Sc.
RIO DE JANEIRO, RJ - BRASIL
MARÇO DE 2008
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ii
OLIVEIRA, BRUNO VILELA
Uma Análise de Estratégias de Sumari-
zação Automática [Rio de Janeiro] 2008
VIII, 81 p. 29,7 cm (COPPE/UFRJ, M.Sc.,
Engenharia Civil, 2008)
Dissertação - Universidade Federal do
Rio de Janeiro, COPPE
1. Sumarização automática, 2. Mineração
de Textos, 3. Processamento de Linguagem
Natural
I. COPPE/UFRJ II. Título ( série )
ads:
iii
Agradecimentos
Agradeço ao meu pai Daniel e minha mãe Maria Célia (Maînha) pelo cuidado e
amor que têm por mim.
Meu padrasto Luiz Cláudio, meus avós e tios que sempre me tratam, e
continuam tratando, como um filho.
Ao Marquinho e a Juliana, os irmãos com quem cresci sempre estão por perto
para o que der e vier.
Minha noiva Renata, que com seu amor incondicional e imensurável faz
qualquer situação se tornar divertida; e também pelo incentivo e ajuda na elaboração
desta pesquisa.
Meu filho Daniel, que além de toda inspiração de amor, humor e
responsabilidade, motiva-me por ser a criatura mais inteligente ao meu redor.
Aos professores e amigos Custódio e Orestes, por todo o incentivo e apoio para
ingressar no programa de mestrado.
Ao meu orientador Nelson por toda a atenção fornecida ao longo dessa jornada.
O amigo Leandro, seus parentes e sua esposa Fabiana, que me ofereceram um lar
compatível com minhas restrições financeiras.
Minha sogra e meu sogro, que praticamente me adotaram e são pessoas
maravilhosas.
Todos os meus amigos, bem como aqueles que apoiaram essa idéia de continuar
meus estudos desde que concluí graduação até quando saí, em um ônibus, rumo ao Rio
de Janeiro, um lugar completamente desconhecido para mim!
Ao imprescindível apoio financeiro fornecido pela CAPES.
iv
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos
necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)
UMA ANÁLISE DE ESTRATÉGIAS DE SUMARIZAÇÃO AUTOMÁTICA
Bruno Vilela Oliveira
Março/2008
Orientador: Nelson Francisco Favilla Ebecken
Programa: Engenharia Civil
A sumarização automática é uma técnica na qual o computador simula a
atividade humana de elaboração de sumários de documentos de texto. A proposta deste
trabalho é apresentar uma análise das técnicas utilizadas pelas principais abordagens de
sumarização automática, a metodologia empírica e a fundamental. Serão apresentadas
ainda as estratégias mais representativas da complexa atividade de avaliação da
sumarização, assim como seus requisitos e limitações. Para ilustrar os avanços da
sumarização de textos em português do Brasil é realizada uma avaliação comparativa de
quatro sumarizadores utilizando textos científicos e jornalísticos neste idioma.
v
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Master of Science (M.Sc.)
AN ANALYSIS OF STRATEGIES OF AUTOMATIC SUMMARIZATION
Bruno Vilela Oliveira
March/2008
Advisor: Nelson Francisco Favilla Ebecken
Department: Civil Engineering
Automatic text summarization is a technique in which computer simulates the
human task of creating text summaries. This work presents a study of the techniques
used by the major approaches of automatic summarization, the empiric and the
fundamental approaches. The most representative strategies of the complex procedure
of summarization evaluation are also discussed, including its limitations and needs. To
illustrate the advances of automatic summarization applied to Brazilian Portuguese
texts, a comparative evaluation of four summarizers is conducted, using journalistic and
scientific texts.
vi
Índice
Índice de figuras .............................................................................................................vii
Índice de tabelas ............................................................................................................viii
1 Introdução...................................................................................................................... 1
1.1 Relevância .............................................................................................................. 3
1.2 Organização............................................................................................................ 4
2 Introdução às Tecnologias de processamento de textos e à Sumarização Automática. 5
2.1 Tecnologias de processamento de textos................................................................ 5
2.1.1 Principais funções............................................................................................ 6
2.2 Preparação dos dados.............................................................................................. 8
2.2.1 Tokenização..................................................................................................... 8
2.2.2 Case Folding ................................................................................................... 9
2.2.3 Remoção de Stopwords ................................................................................... 9
2.2.4 Stemming e substituição por palavras-base ................................................... 10
2.2.5 Representação por N-Gramas........................................................................ 11
2.2.6 Representação vetorial................................................................................... 11
2.3 Sumarização.......................................................................................................... 13
2.4 Sumarização automática....................................................................................... 18
2.4.1 Métodos Extrativos de SA............................................................................. 20
2.4.2 Métodos Fundamentais.................................................................................. 30
3 Avaliação da SA.......................................................................................................... 33
3.1. Avaliação Intrínseca............................................................................................ 36
3.1.1. Coerência e Coesão ...................................................................................... 36
3.1.2. Informatividade ............................................................................................ 39
3.2. Avaliação Extrínseca........................................................................................... 43
4 Sumarizadores automáticos......................................................................................... 45
4.1 GistSumm............................................................................................................. 45
4.2 NeuralSumm......................................................................................................... 49
4.3 AutoResumo......................................................................................................... 52
4.4 TextAnalyst .......................................................................................................... 55
5 Avaliação dos sumarizadores...................................................................................... 59
5.1 Textos jornalísticos............................................................................................... 59
5.2 Textos científicos.................................................................................................. 60
5.3 Metodologia.......................................................................................................... 61
5.3.1 Geração dos extratos...................................................................................... 61
5.3.2 Avaliação dos extratos................................................................................... 63
5.4 Estudo de caso 1: extratos de textos jornalísticos ................................................ 64
5.5 Estudo de caso 2: extratos de textos científicos ................................................... 66
6 Conclusões................................................................................................................... 69
6.1 Limitações e trabalhos futuros.............................................................................. 71
Referências ..................................................................................................................... 72
ANEXO A. Lista de Stopwords do Gistsumm............................................................... 79
ANEXO B. Lista de Stopwords utilizada pelo sistema TextAnalyst ............................. 80
vii
Índice de figuras
Figura 2.1 – Representação vetorial de dois documentos .............................................. 12
Figura 2.2 – Arquitetura geral de um sumarizador automático...................................... 19
Figura 2.3 – Arquitetura de um sumarizador automático empírico................................ 21
Figura 2.4 – Arquitetura de um sumarizador automático fundamental.......................... 31
Figura 4.1 – Interface gráfica para configuração do GistSumm..................................... 49
Figura 4.2 – Interface do NeuralSumm.......................................................................... 52
Figura 4.3 – Janela de configuração do AutoResumo.................................................... 54
Figura 4.4 – Barra para configuração do tamanho do sumário ...................................... 54
Figura 4.5 – Editor de vocabulário................................................................................. 56
Figura 4.6 – Tela principal do TextAnalyst - Sumarização............................................ 57
viii
Índice de tabelas
Tabela 4.1 – Características das versões do GistSumm ................................................. 48
Tabela 5.1 – Relação dos textos jornalísticos dos experimentos e os arquivos associados
no corpus TeMário ......................................................................................................... 60
Tabela 5.2 – Ralação dos textos científicos compilados para os experimentos e suas
obras originais ................................................................................................................ 60
Tabela 5.3 – Escala de pontuação dos extratos .............................................................. 63
Tabela 5.4 – Pontuação dos sistemas para os extratos dos textos jornalísticos.............. 64
Tabela 5.5 – Pontuação dos sistemas para os extratos dos textos científicos................. 66
Tabela A.1 – Lista de Stopwords utilizada pelo GistSumm........................................... 79
Tabela B.1 – Lista de stopwords utilizada pelo sistema TextAnalyst............................ 80
1
1 Introdução
Os avanços da área de Tecnologia da Informação possibilitaram o
armazenamento em meio digital de um número muito grande de textos de diversas
naturezas. A presença da Internet como meio de comunicação tornou ainda maior o
volume de textos acessíveis on-line. Surgiu assim um ambiente universal onde a
informação textual pode ser heterogênea, transmitida em grandes volumes em curtos
períodos de tempo e pode estar em constante atualização.
A rede mundial de computadores também mudou o conceito do que se considera
informação: o mais informado não é aquele que possui a maior quantidade de
informação, mas aquele que dispõe dos melhores recursos para obter, analisar e
empregar eficientemente a informação disponível.
A sobrecarga da informação textual compromete sensivelmente a eficácia do
tratamento exclusivamente humano da enorme massa de textos disponível, podendo
acarretar grandes perdas de precisão nos resultados desejados, maior tempo necessário
para a realização das tarefas e, freqüentemente, elevado custo com os procedimentos.
Recuperar, manipular e consumir informações em linguagem natural são tarefas
complexas e importantes. Este cenário promove grande estímulo à pesquisa e ao
desenvolvimento de aplicações para análise e processamento automático de coleções de
textos.
A Sumarização Automática (SA) é a tarefa de criação de um resumo (ou
sumário) a partir de um texto em língua natural por meio de sistemas computacionais,
comumente chamados sumarizadores automáticos.
A SA tornou-se uma tarefa de grande relevância na sociedade moderna em
função dos problemas promovidos pela sobrecarga da informação. Os indivíduos têm
dificuldade não só para selecionar como também para consumir grandes quantidades de
informação textual com o tempo que dispõem. O uso intenso de manchetes dos jornais,
sinopses das principais notícias, revistas especializadas que trazem diversos temas
condensados, evidencia a necessidade de se resumir textos. No meio acadêmico,
estudantes podem se beneficiar de versões abreviadas de obras literárias para assimilar
em períodos reduzidos de tempo os principais aspectos de determinado tema visando
realizar provas de concursos e vestibulares. Ao navegar pela Web, um usuário pode
2
reduzir o tempo e o esforço necessários para localizar e assimilar o que é essencial
(PARDO; RINO, 2003a).
A SA pode ser analisada sob a ótica de duas abordagens principais: a empírica,
ou superficial, e a fundamental, ou profunda, que embora compreendam métodos
distintos de sumarização, não competem e podem ser utilizados de forma combinada.
A linha empírica baseia-se principalmente em métodos experimentais e
estatísticos. A abordagem profunda apóia-se nas teorias formais e lingüísticas,
constituindo uma abordagem relativamente mais complexa. A abordagem empírica tem
por objetivo a geração de sumários através da seleção e cópia de material contido no
texto-fonte. Já a abordagem fundamental incorpora modelos lingüísticos e/ou
discursivos de interpretação e reescrita textual (MARTINS et al., 2001; PARDO; RINO
2003a).
Os métodos de avaliação da SA podem ser classificados em duas categorias
(MANI et al., 1999): intrínseca e extrínseca. Em uma avaliação intrínseca, a qualidade
de um sumarizador é avaliada pela análise da própria qualidade dos sumários. Isto pode
ser feito por meio de um conjunto de diretrizes ou normas como o julgamento humano
da fluência do sumário e/ou retenção da idéia essencial presente na fonte textual
(PARDO; RINO 2003a), ou através da comparação da similaridade entre o sumário
automático e um sumário de referência, denominado sumário ideal, para a mesma fonte
textual (EDMUNDSON, 1969; JING et al., 1998; KUPIEC et al. 1995; RINO et al.,
2004). A avaliação extrínseca tem por objetivo verificar a qualidade da SA em função
dos resultados obtidos para a realização de outras tarefas, tais como: categorização,
recuperação de informação, compreensibilidade do assunto através da leitura dos
sumários e uma atividade denominada question-answering, a qual tem por objetivo
verificar se os sumários retêm informação suficiente para que os participantes
respondam uma série de perguntas sobre o tema apresentado no texto original (JING et
al., 1998; MANI et al., 1999).
Os estudos pioneiros que mais se destacaram na SA iniciaram-se ao final da
década de 1950. Embora os esforços nesta área contemplem quase meio século de
história, os atuais pesquisadores sugerem que o desenvolvimento e a avaliação de
sistemas de SA constituem um tema ainda promissor. Não existe um modelo genérico
para a geração automática de sumários ou mesmo para a avaliação da SA (PARDO;
RINO, 2003a; SPARCK JONES, 1997).
3
1.1 Relevância
O volume de textos disponíveis cresce de forma desmedida. A World Wide Web
tornou-se um ambiente onde esse tipo de informação aumenta, se modifica e é
disseminada de forma muito rápida.
Empresas, entidades governamentais, instituições acadêmicas e indivíduos se
vêem diante do desafio de utilizarem seus repositórios de informação textual para tomar
decisões em curtos períodos de tempo, que produzam os melhores resultados em suas
atividades. No entanto, a análise e compreensão de toda informação disponível nesses
repositórios é uma tarefa difícil.
A sumarização de textos é uma das técnicas amplamente utilizadas para
gerenciamento de documentos. Seu principal objetivo é reduzir a complexidade e o
volume das informações, sem que se percam as qualidades essenciais originais
(KUPIEC et al., 1995). Dessa forma, constitui uma proposta atraente ao problema da
sobrecarga de informação textual.
No entanto, a tarefa manual de sumarização envolve esforço intelectual e
familiaridade com o assunto. Apontar precisamente as questões importantes contidas
nos argumentos do autor de um documento exige habilidades refinadas e experiência.
Além disso, o produto de um sumarizador humano pode ser influenciado por sua
fundamentação intelectual, postura e disposição (LUHN, 1958).
A técnica de Sumarização Automática tornou-se uma das tarefas mais
pesquisadas em Processamento de Língua Natural (PLN), Recuperação de Informação
(RI) e Mineração de Textos devido à sua vasta aplicabilidade para lidar com as
dificuldades humanas de gerenciar o conhecimento disponível em grandes repositórios
de informação textual.
Os estudos na área de SA para textos em português só tiveram início mais de
uma década após as pesquisas voltadas para outros idiomas como o inglês (PARDO;
RINO, 2006). Atualmente existem vários sumarizadores para a língua portuguesa do
Brasil, porém em estágio de aprimoramento.
A avaliação da SA, que constitui uma tarefa complexa, é de fundamental
importância para se constatar o mérito e progressos dessa tecnologia. Apesar disso,
ainda há pouco consenso sobre a melhor forma de se avaliar a SA (JING et al., 1998;
MANI et al., 1999; PARDO; RINO, 2003a).
4
A proposta do presente trabalho é apresentar uma análise das técnicas utilizadas
pelas principais abordagens de geração automática de sumários, discutir as dificuldades
e os aspectos envolvidos na avaliação de sumários gerados automaticamente e
investigar os avanços das pesquisas sobre SA voltadas ao processamento da língua
portuguesa do Brasil. Para ilustrar esses avanços, são realizados dois estudos de casos
envolvendo quatro sumarizadores automáticos preparados para lidar com textos em
português. Dessa forma, a relevância deste trabalho está em sua contribuição para a
evolução de pesquisas correlatas. Entre os trabalhos relacionados a este podem ser
citados os de (BALAGE FILHO et al., 2007a, 2007c), (HASSEL, 2004), (MARTINS et
al. 2001), (PARDO; RINO 2003a) e (RINO et al. 2004).
1.2 Organização
O capítulo 2, que constitui a fundamentação teórica desta pesquisa, introduz o
processamento computacional de textos, apresenta conceitos básicos de PLN, RI,
Mineração de Textos e de SA, referenciando trabalhos pioneiros e recentes considerados
relevantes ao assunto, sendo destacados os principais aspectos envolvidos na geração,
uso e avaliação de sumários.
No terceiro capítulo, as principais estratégias de avaliação da SA e seus aspectos
mais importantes são discutidos.
O capítulo 4 apresenta os quatro sistemas de SA utilizados nos experimentos,
descrevendo suas características e funcionalidades.
O quinto capítulo descreve a metodologia adotada para a avaliação dos
sumarizadores e compara os resultados obtidos.
Por fim são apresentadas no capítulo 6 as conclusões deste trabalho, suas
limitações e propostas de pesquisas futuras.
5
2 Introdução às Tecnologias de processamento
de textos e à Sumarização Automática
Neste capítulo são introduzidos conceitos e definições básicas de Processamento
de Língua Natural (PLN), Recuperação de Informação (RI), Mineração de Textos e
Sumarização Automática (SA). São apresentados também os estudos pioneiros que se
destacaram por suas contribuições e algumas pesquisas recentes que sugerem as
tendências desta área, permitindo assim estabelecer um esboço das principais
estratégias, limitações e do estado da arte em SA.
2.1 Tecnologias de processamento de textos
A informação textual acompanha a humanidade há muitos séculos e tornou-se
indispensável para a manutenção das principais atividades pessoais, educacionais,
comerciais e governamentais.
Os problemas de se gerenciar manualmente o crescente volume de textos e o
surgimento dos primeiros computadores eletrônicos impulsionaram um grande número
de pesquisas sobre o processamento automático de informação textual, que nas
disciplinas da área de Tecnologia de Informação (TI) é freqüentemente chamada de
informação não estruturada. Os interesses em processar automaticamente esse tipo de
informação eram percebidos em diversos ramos da sociedade e os estudos de maior
repercussão tiveram seu início aproximadamente ao final da década de 1950.
Os principais assuntos abordados nessas pesquisas eram: gerenciamento de
informação não estruturada (Recuperação de Informação), desenvolvimento de
linguagens artificiais para a programação de computadores (Linguagens de
Programação de Alto Nível), sistemas de tradução automática e comunicação com
máquinas através de língua natural (Processamento de Língua Natural), e Sumarização
Automática (SA) (BAXENDALE, 1958; KONCHADY, 2006; LUHN, 1958).
A área de RI lidava inicialmente com os problemas de se gerenciar
eficientemente coleções de textos. A criação automática de índices era uma questão de
interesse (BAXENDALE, 1958): a elaboração de resumos e índices dos documentos
6
representava aproximadamente 80% dos esforços em sistemas de consultas, os outros
20% eram associados ao desenvolvimento dos mecanismos de recuperação de
informação.
A origem da área de PLN pode ser atribuída às primeiras investigações,
realizadas durante a década de 1950, sobre o processamento de línguas naturais em
computadores: a tradução automática de textos (DIAS-DA-SILVA et al., 2007). Entre
os principais problemas pesquisados em PLN destacam-se os de compreensão e geração
de língua natural. O termo PLN passou a ser associado às tarefas de análise e síntese de
textos em língua natural e não somente à compreensão de textos, indicando, dessa
forma, o crescimento das aplicações pesquisadas nesta área (KONCHADY, 2006).
Mineração de Textos (Text Mining) define um conjunto de técnicas
computacionais inspiradas na tecnologia de Data Mining que têm por objetivo a
descoberta de conhecimento em bases de informação não estruturada em língua natural
(BASTOS, 2006).
A tecnologia de SA, devido à sua grande aplicabilidade para resolução de
problemas de processamento de línguas naturais, tornou-se objeto de estudos das áreas
de RI, PLN e mineração de textos. Alguns autores chegam a referenciar a SA não só
como uma tarefa, ou função de PLN, mas como uma disciplina envolvendo vários
aspectos (PARDO; RINO, 2003a). Porém, o fato interessante é que mesmo após
aproximadamente meio século de estudos, trata-se ainda de um tema proeminente e
promissor. A seguir são apresentadas algumas das funcionalidades mais relevantes das
áreas de mineração de textos, PLN e RI.
2.1.1 Principais funções
Dentre as funções mais destacadas nos estudos de Mineração de Textos, PLN e
RI podem ser citadas a Busca, Extração de Informação, o Agrupamento de textos,
Categorização, Monitoramento, Sumarização e Perguntas e Respostas (Question and
Answer) (KONCHADY, 2006).
A busca de informações promove uma interface onde é possível realizar
consultas a uma coleção de documentos. Espera-se que o resultado da consulta seja um
conjunto de textos relevantes às pistas fornecidas pelo solicitante da busca. Como
exemplo pode-se citar as máquinas de busca disponíveis para a Web.
7
Na extração de informação o objetivo principal é explorar padrões de uso de
palavras presentes no texto de forma a associar atributos semânticos às palavras, tais
como datas e nomes próprios.
No agrupamento, o objetivo é reunir os documentos em grupos baseando-se em
alguma função de similaridade. Os resultados de uma busca por textos em grandes
coleções podem ser mais facilmente analisados se estes forem organizados em grupos.
A tarefa de categorização indica a classificação de documentos em categorias
previamente definidas, como ocorre nos sistemas de detecção de Spam para e-mails.
A SA é a técnica onde um computador simula a tarefa humana de criar uma
versão condensada de um texto através da seleção ou generalização do seu conteúdo
mais importante. Não se limitando apenas às finalidades dos seguintes exemplos, um
sumário, aqui definido como resumo, pode ser utilizado para a transmissão da essência
de um documento utilizando-se o mínimo de conteúdo textual possível. Em outra
circunstância, um leitor pode decidir se um documento deve, ou não, ser completamente
lido analisando previamente o correspondente sumário.
O monitoramento de informação é importante para rastrear conteúdos
dinâmicos, tais como os disponibilizados em diferentes fontes de notícias. Para se
estabelecer consultas em linguagem natural, a tarefa de perguntas e respostas classifica
as perguntas fornecidas e recupera do texto as passagens consideradas respostas àquela
categoria de pergunta.
É pertinente ressaltar que a SA de textos pode ser aplicada com o objetivo de
tornar mais eficientes outras tarefas que envolvem o tratamento de informação textual
como, por exemplo, as supracitadas. Tomando como exemplo sistemas de recuperação
de informação, estudos mostram que é possível obter melhores resultados ao utilizar
índices elaborados a partir de sumários em vez de índices produzidos a partir de
documentos completos. Outro exemplo de aplicação da SA é a redução dos custos com
tempo de processamento e transmissão de dados. Neste caso, espera-se que ao utilizar o
sumário em vez de sua fonte textual completa o tempo de processamento e/ou o volume
de dados a serem transmitidos em redes de computadores sejam menores. Em qualquer
situação onde os sumários são utilizados como substitutos é importante que não haja
degradação na qualidade dos resultados Por outro lado, técnicas de agrupamento e
classificação podem ser utilizadas para a geração de sumários.
8
2.2 Preparação dos dados
É comum associar-se o termo documento a uma unidade de informação textual
em língua natural. Um texto, por sua vez, pode ser visto como um conjunto de
caracteres com várias finalidades. Estes caracteres podem ser símbolos de pontuação,
números, letras ou símbolos especiais. Os caracteres podem ser alinhados em uma
seqüência para compor uma palavra ou outros termos da língua natural. As palavras
podem compor sentenças e, estas, organizadas em parágrafos.
Existem idiomas, como o japonês e o chinês, que utilizam símbolos e regras
gramaticais completamente distintas do português brasileiro para a expressão de seus
textos, porém estão fora do escopo deste trabalho.
Como um primeiro passo a ser efetuado no processamento de textos, as
tecnologias disponíveis geralmente realizam uma série de passos preliminares, antes de
realizar a tarefa objetivada de processamento das informações. Os procedimentos desse
estágio preliminar, denominado pré-processamento, buscam filtrar as informações e
convertê-las em uma representação compatível com os métodos computacionais
utilizados. As principais realizações dessa fase são descritas a seguir.
2.2.1 Tokenização
Como uma das primeiras tarefas da fase de pré-processamento, a tokenização
consiste em percorrer todo o texto identificando cada “palavra” entre as seqüências de
caracteres. Em uma definição mais precisa, trata-se de identificar tokens que são as
menores unidades de informação presentes no texto que possuem significado quando
analisados de forma isolada. Desse modo, um token pode ser uma palavra, um número
representado por um caractere numérico, um número de telefone, o nome de uma
empresa formado pela combinação de uma ou mais palavras, um endereço da Web ou
de e-mail e assim por diante (BASTOS, 2006; WEISS et al., 2005).
O problema principal consiste em como delimitar cada token dentro do texto
devido aos diferentes tipos de informação que pode estar contida no documento. Para
um leitor humano familiarizado com a estrutura da linguagem utilizada no texto, isto é
9
uma tarefa relativamente simples. Para um computador, no entanto, pode constituir uma
tarefa mais difícil. O problema é que nem sempre os caracteres são utilizados com a
mesma finalidade. Os caracteres “espaço em branco”, tabulação, e “quebra de linha”
sempre são utilizados como delimitadores e nunca são tratados como tokens. Outros
caracteres, como ! ? “ em geral são considerados delimitadores, mas também podem
representar tokens e, em alguns, casos parte de um nome, como acontece com
“Yahoo!”. Problemas semelhantes ocorrem com os caracteres . , : - ‘, que podem ou não
ser utilizados como delimitadores de acordo com o contexto. O caractere de ponto final
é muito utilizado em abreviações, em outros casos ele indica o final de uma sentença.
Identificar corretamente os tokens dentro de um texto constitui uma tarefa importante
para aumentar a qualidade da análise dos elementos textuais.
2.2.2 Case Folding
Este processo de homogeneização dos dados consiste em converter todos os
caracteres alfabéticos para a mesma caixa, isto é, todas as letras são convertidas em
maiúsculas ou minúsculas. Com isto, as palavras GÁS, GÁs, GáS, Gás, gÁS e gáS
seriam todas representadas pela única forma padronizada GÁS, ou gás, de acordo com a
estratégia adotada. É importante lembrar que o processo de case folding deve ser
utilizado em etapas do processamento textual onde a diferença entre maiúsculas e
minúsculas não é relevante, pois algumas tarefas baseiam-se justamente na distinção de
caixa para identificar determinados padrões na superfície textual de documentos.
2.2.3 Remoção de Stopwords
As stopwords constituem palavras que geralmente não agregam conhecimento
útil para a análise do texto. Em geral, elas são constituídas por artigos, conjunções,
verbos auxiliares, abreviaturas muito comuns, erros de digitação entre outras. O
domínio do texto em análise pode determinar diferentes conjuntos de palavras
irrelevantes. É importante eliminar estas palavras, pois elas podem não só prejudicar o
desempenho computacional do processamento, como também distorcer os resultados
obtidos.
10
2.2.4 Stemming e substituição por palavras-base
Em um texto, muitas vezes as variações morfológicas das palavras remetem a
um mesmo significado semântico e em algumas tarefas como, por exemplo, buscas por
palavras chave devem ser consideradas equivalentes (BASTOS, 2006). O processo de
redução à raiz, stemming ou mesmo lemmatization, é realizado para converter essas
diferentes manifestações a uma forma básica denominada raiz ou stem. As variações
podem ocorrer em função de sufixos inseridos para indicar o plural, gênero, conjugação
verbal. Em outros casos, processos mais radicais de stemming podem tratar da
eliminação de prefixos e outras variações menos freqüentes do idioma em questão.
Portanto, esta atividade é dependente de língua. Um algoritmo muito utilizado para o
stemming é o de Porter (1980 apud BASTOS, 2006).
Esta técnica pode resultar em alguns problemas, como é o caso do overstemming
e/ou understemming. No primeiro caso, ao remover um sufixo pode-se eventualmente
remover parte do radical da palavra e resultar em uma cadeia que não representa o stem
daquela palavra. Por exemplo, a palavra "atacado“ pode ser reduzida para “ata”, que não
é o stem correto, “atac”. A outra situação problemática é quando o processo de
stemming não descarta um número suficiente de caracteres, e a palavra resultante não
constitui a forma raiz. Como exemplo, caso o algoritmo de stemming reduzir a palavra
“pestanejava” à raiz “pestaneja”, o stemming não foi corretamente realizado: o sufixo
“ava” não foi completamente removido.
Um processo de efeito semelhante ao stemming é denominado substituição das
palavras por suas formas canônicas ou palavras-base. Isto é feito com o uso de um
repositório lingüístico denominado léxico.
Os léxicos podem ser construídos de diversas maneiras. O tipo e quantidade de
informação armazenada para cada entrada, denominada item lexical, desse repositório
dependem das características da tarefa para a qual o léxico será utilizado. Os léxicos
podem apresentar diferentes níveis de complexidade em relação ao tipo de conteúdo que
armazenam. Como exemplo de léxicos mais simples, pode-se citar aqueles que
armazenam apenas formas básicas de palavras, denominadas formas canônicas. Nestes
11
léxicos, as formas variantes
1
de uma palavra podem ser obtidas por processos de
derivação. O processo inverso também pode ser realizado, isto é, obter-se as formas
básicas das palavras a partir de suas variações (SPECIA; RINO 2002). Assim como o
stemming é um recurso dependente de língua.
2.2.5 Representação por N-Gramas
Trata-se de uma estratégia atrativa para a representação de documentos
principalmente por não depender de língua natural, já que não necessita de processos
como stemming e de remoção de stopwords (CAVNAR, 1994). Um n-grama é uma sub-
cadeia contendo n caracteres, de uma cadeia maior. Por exemplo, a cadeia, ou token,
TAIGA pode ser representada pelos trigramas _TA, TAI, AIG, IGA e GA_ ou pelos
quadrigramas _TAI, TAIG, AIGA, IGA_. O caractere traço baixo é um marcador
especial de início e fim de cadeia. Variações morfológicas de uma mesma raiz, também
irão compartilhar muitos de seus n-gramas, como é o caso das palavras ABRAÇAR e
ABRAÇANDO, que possuem os seguintes bi-gramas coincidentes: _A, AB, BR, RA,
AÇ e ÇA. O mesmo fato pode ser observado com palavras escritas incorretamente como
pode ser exemplificado com ADMIRAR e uma forma errônea ADIMIRAR, que
possuem a maioria de seus n-gramas coincidente.
2.2.6 Representação vetorial
As técnicas de processamento de textos mais recentes se fundamentam em vários
métodos de processamentos de dados numéricos. Torna-se necessária uma
representação dos documentos de texto dentro de um domínio numérico para que seja
possível aplicar essas técnicas. Assim, é comum utilizar a representação vetorial
apresentada por Salton (1988). Nesta técnica cada documento da coleção é considerado
como um vetor multidimensional, onde cada dimensão do vetor representa uma palavra.
O conjunto de todas as palavras presentes nos documentos em análise
normalmente é chamado dicionário. Este dicionário forma a base para a representação
1
Flexões de gênero, número, grau, modo, tempo, etc.
12
do conjunto de documentos como uma matriz, onde as colunas representam as palavras
do dicionário e cada linha é um documento em sua forma vetorial.
Dessa forma, para uma determinada célula da matriz, o valor que ela armazena
está relacionado à palavra correspondente à coluna desta célula, para o documento
representado na linha desta mesma célula. Existem diferentes estratégias para se
calcular o valor a ser armazenado nas células.
Na estratégia mais simples, também conhecida como representação binária,
verifica-se simplesmente a presença ou ausência das palavras, e a entrada para cada
célula pode ser 0 (zero) ou 1 (um) indicando, respectivamente, que uma palavra ocorre
ou não em um documento.
Considerando uma coleção contendo apenas dois documentos, e que estes
contêm respectivamente sentenças abaixo:
Documento 1: “sumarizar significa reduzir em complexidade.”
Documento 2: “ao sumarizar um documento, reduz-se sua complexidade.”
Dessa forma, o dicionário desta coleção será constituído pelas palavras (tokens)
“ao”, “complexidade”, “documento”, “em”, “sua”, “significa”, “sumarizar”, “reduzir“ e
“reduz-se”. A matriz representando os vetores dos dois documentos é ilustrada na figura
2.1, onde D1 refere-se ao documento 1 e D2 ao documento 2.
Ao complexidade documento em sua significa sumarizar reduzir reduz-se
D1
0 1 0 1 0 1 1 1 0
D2
1 1 1 0 1 0 1 0 1
Figura 2.1 – Representação vetorial de dois documentos
Uma outra estratégia, denominada TF (Term Frequency), o valor das células é
calculado com base na freqüência de ocorrência de cada palavra do dicionário. Neste
modelo, a medida TF
(j,d)
é calculada como o número de vezes que o termo j ocorre em
um documento d. Uma das características atrativas dessa estratégia, é que pode-se
utilizar os valores TF para verificar a importância dos termos nos documentos. Termos
mais freqüentes podem representar conceitos importantes associados ao tema principal
do texto (BLACK; JOHNSON, 1988 apud MARTINS, 2001).
Através da métrica TF-IDF
(i,d)
(SALTON, 1988) a pontuação de um termo é
feita levando-se em conta a sua freqüência no documento e em todos os outros
documentos da coleção de documentos em análise. A interpretação simplificada dessa
estratégia é que quando uma palavra ocorre com elevada freqüência na coleção, ela é
considerada menos importante e quando ocorre freqüentemente em poucos documentos,
sua medida TF-IDF tende a ser maior e, conseqüentemente, pode representar um termo
importante. A medida TF-IDF é calculada de acordo com a equação 2.1.
)1.2(IDFTFIDFTF
)(),(),( jdjdj
×
=
Onde TF
(j,d)
é a freqüência da palavra j no documento d e o parâmetro IDF
(j)
(Inverse Document Frequency), associado à palavra j, é dado pela equação 2.2, onde
DF
(j)
(Document Frequency) é o número de documentos em que a palavra j ocorre ao
menos uma vez e |N| representa a cardinalidade da coleção de documentos.
(2.2)
DF
N
logIDF
)(
)(
=
j
j
Um problema que pode ocorrer ao se representar documentos como vetores, é
que se as variações morfológicas de uma palavra, quando utilizadas com um mesmo
significado semântico, forem consideradas termos distintos, a dimensão do espaço
vetorial pode se tornar muito grande. Para lidar com este problema, aplicam-se em geral
técnicas como remoção de stopwords e redução dos tokens à suas raízes (stemming).
2.3 Sumarização
A sumarização é uma das tarefas mais comuns na comunicação através de
linguagem natural. Quando um indivíduo conta o que ocorreu em uma reunião, os
comentários que alguém fez de uma outra pessoa, o tema principal de um filme ou livro,
ou quais são as últimas notícias de acontecimentos no mundo ele certamente expressará
de forma condensada as partes básicas dessas informações (HUTCHINS, 1987).
Segundo o padrão de documentação ISO 215:1986 (1986 apud HASSEL, 2004),
um sumário é uma breve reafirmação contida em documentos (geralmente ao final) de
suas descobertas e conclusões relevantes e destina-se a completar a orientação do leitor
que estudou o texto antecedente ao sumário. Um abstract é, de acordo com esse mesmo
padrão, uma representação curta do conteúdo de um documento sem interpretação ou
crítica.
No contexto deste trabalho o termo sumário é utilizado de forma genérica para
se fazer referência a qualquer tipo de resumo de um ou mais documentos. Dessa forma,
13
14
sumarizar significa gerar uma versão reduzida de uma expressão textual, mantendo o
conteúdo relevante e seu efeito pretendido em relação à determinada tarefa ou aos
objetivos comunicativos do documento original. Como sumarizar envolve a redução em
tamanho, outra característica de fundamental importância a ser considerada é o tamanho
desejado para o sumário. A taxa de compressão é uma medida que determina o tamanho
do sumário em relação ao tamanho do texto-fonte. Os textos podem ser medidos em
termos de número de bytes, caracteres, palavras, sentenças etc.
Um sumário pode ser utilizado com várias finalidades como:
Reduzir tempo necessário para a leitura e compreensão de documentos, servindo
como substitutos dos textos-fonte associados;
Facilitar a busca e seleção de documentos, indicando seus conteúdo, sendo
portanto muito útil em ambientes com excessiva quantidade de textos;
Aumentar a eficiência de um sistema de indexação;
Facilitar o preparo de revisões;
Economizar recursos computacionais e reduzir o tráfego em transmissões de
dados (de SMEDT et al., 2005; HASSEL, 2004) etc.
Os exemplos mais comuns de sumários podem ser identificados nas manchetes
de jornais, revistas especializadas que apresentam resumos dos principais assuntos da
atualidade, abstracts de artigos e outros trabalhos acadêmicos, previsões
meteorológicas, nas breves descrições anexadas aos resultados de uma consulta na Web
etc.
Pardo e Rino (2003a) argumentam que para a criação de um sumário é preciso
que se verifiquem algumas características referentes à fonte textual, as quais são
denominadas por estes autores como “premissas da sumarização”:
Deve haver uma fonte textual a ser sumarizada;
Por ser um texto o objeto a ser sumarizado, também é importante a existência de:
a) uma idéia, ou tópico, central a partir da qual é construída a trama textual;
b) um conjunto de unidades de informação que possui relação nítida com a
idéia central do texto-fonte;
c) um objetivo comunicativo central que orienta tanto a seleção de unidades
de informação quanto a escolha da estrutura textual, para estabelecer a
idéia pretendida;
15
d) um enredo, elaborado em função das escolhas supracitadas, que tem por
objetivo transmitir coerentemente a idéia central, para que os objetivos
comunicativos pretendidos sejam atingidos;
Em função dos conceitos mencionados, a principal premissa da sumarização de
textos pode ser apresentada como a tarefa de identificar o conteúdo relevante de
um texto e utilizar esta informação para construir um novo enredo, utilizando o
conteúdo disponível e preservando a idéia central no sumário correspondente.
Além disso, não se deve transgredir o significado originalmente proposto.
Essas premissas determinarão diversos aspectos envolvidos no desenvolvimento
e avaliação de sumarizadores automáticos. Para que se possa capturar a idéia central de
um texto a ser sumarizado é preciso primeiramente compreender a estrutura discursiva
do texto. Neste caso, a relação entre seqüências de sentenças, conjuntos de sentenças e a
organização global do texto devem ser identificados (MARTINS et al., 2001).
Hutchins (1987) define uma organização estrutural dos textos em
microestruturas e macroestruturas. As microestruturas são representadas pelas relações
entre seqüências de sentenças no texto tais como relações anafóricas, ligações lexicais e
semânticas, coesão e progressão temática. A macroestrutura é definida em função de
blocos de sentenças e da organização global dos textos.
Em função dessa organização estrutural, Hutchins (1987) sugere quatro regras
que podem ser empregadas na generalização e condensação:
Delição: constitui a exclusão de atributos, propriedades ou segmentos
completos, considerados descartáveis.
Exemplo: “O rapaz comprou um carro amarelo”. A sumarização pode
ocorrer com a exclusão da palavra qualificativa “amarelo”, para produzir a
sentença: “O rapaz comprou um carro”.
Generalização: permite a abstração de propriedades necessárias, através da
substituição de hipônimos por seus hiperônimos, deixando-as implícitas nas
sentenças produzidas.
Exemplo: As sentenças “Daniel viu um pardal. Daniel viu um canário” e
“Daniel viu um pardal e um canário” podem ser generalizadas pela sentença
“Daniel viu aves”.
Construção: é semelhante à generalização. A proposição resultante é produzida a
partir de uma seqüência de proposições.
16
Exemplo (HUTCHINS, 1987): a seqüência “Pedro comprou tijolos, areia,
cimento, preparou os alicerces, ergueu paredes...” pode ser utilizada para gerar a
sentença “Pedro construiu uma casa”.
Combinação de Delição-construção: consiste em excluir sentenças que
expressam pré-condições de ações ou motivações de objetivos.
Exemplo: No segmento “O garoto queria fazer uma pipa... O garoto fez
uma pipa”, a primeira sentença pode ser eliminada sem prejudicar o significado
original.
A estratégia e os objetivos da sumarização de documentos permitem definir o
tipo de sumário que é gerado. Em função desses fatores, os sumários podem ser
classificados com os seguintes critérios (MANI, 2001a apud GANAPATHIRAJU,
2002; PARDO; RINO, 2003a):
Detalhes apresentados: indicativos/informativos/críticos
Granularidade da informação contida: eventos específicos/visão geral
Técnica de sumarização: extração/abstração
Conteúdo: genéricos/orientados a tópicos
Abrangência: domínio ou gênero específicos/independentes
Número de documentos a sumarizar: multi-documento/mono documento
Os sumários indicativos oferecem uma idéia sobre o tema principal do texto,
porém, sem detalhar o conteúdo essencial de sua fonte. Por isso, esse tipo de sumário
não serve como substituto do texto original. Sumários informativos devem preservar as
informações específicas mais relevantes como objetivos, metodologias, resultados e
conclusões, porém abreviadas, de forma que se possa, em certas situações, dispensar a
consulta aos textos completos associados. Esta característica permite denominá-los
como autocontidos. Os sumários críticos podem ser gerados para avaliação ou
simplesmente para comentar o conteúdo do texto fonte (HUTCHINS, 1987 apud
MARTINS, 2001; PARDO; RINO, 2003a).
Embora os sumários indicativos possam ser utilizados como indexadores em
sistemas de recuperação de informação, Sparck Jones (1993) tenta descrever as
diferenças entre índices e sumários. Para a autora, sumários devem ser vistos como
textos que podem, inclusive, substituir o documento original. Já os sumários
indexadores não preservariam necessariamente o conteúdo informativo essencial
presente em sua fonte original, apresentando apenas uma vaga idéia dos mesmos,
17
muitas vezes na forma de listas de termos-chave. Com isto, um sumário indexador não
constituiria um texto e também não poderia atuar como substituto ao documento
original.
Outra diferença apontada por Sparck Jones (1993) diz respeito à forma de
avaliação. Devido a sua função mais clara e sua aplicação mais limitada, a avaliação de
um índice pode ser mais facilmente modelada e realizada de forma eficiente. Um
sumário é um elemento com aspectos mais complexos, assumindo uma relação mais
sofisticada com suas fontes textuais, se comparado aos sumários indexadores,
implicando em uma maior variabilidade, e dificuldade em se estabelecer como, e se, ele
atende as necessidades do usuário e/ou tarefa para a qual ele foi produzido.
A elaboração de sumários informativos e de sumários críticos é uma tarefa mais
complexa que a de sumários indicativos devido à complexidade das relações que os dois
primeiros devem manter com suas fontes (MARTINS, 2001). Em termos de
granularidade, os sumários podem apresentar o assunto de forma geral ou apenas o que
o texto acrescenta de novo sobre o tema.
Sumários elaborados a partir de técnicas extrativas podem ser denominados
extratos. Um extrato é construído através da simples justaposição de sentenças
cuidadosamente selecionadas a partir do texto-fonte. Nesta estratégia, raramente as
sentenças escolhidas sofrem algum tipo de modificação. Os sumários do tipo abstract
são elaborados por processos de reescrita textual que possibilitam a síntese de novas
sentenças para a representação da informação relevante do texto-fonte. Dessa forma, os
abstracts podem conter informações não necessariamente existentes no documento
original. Sumários podem abordar de forma geral o conteúdo de um documento,
adotando a perspectiva do autor, ou abordarem apenas tópicos específicos de acordo
com os interesses do usuário (query-specific summary).
A fonte textual pode ser constituída por um ou mais documentos, caracterizando
respectivamente a sumarização mono ou multi-documento. Além disso, o conteúdo
textual pode estar relacionado a domínios e/ou gêneros específicos ou ser independente
desses aspectos (HOVY; LIN, 1998; PARDO; RINO, 2003a). Nesta dissertação, o
termo sumário é utilizado de forma genérica, podendo fazer referência a qualquer tipo
de sumário e, quando necessário, as devidas distinções serão destacadas.
Independente do tipo de sumário é importante ressaltar que por serem também
expressões lingüísticas na forma textual, os sumários devem apresentar as mesmas
características que promovem a textualidade aos textos como coerência e coesão, boa
18
progressão temática, gramaticalidade, legibilidade e informatividade. Estes fatores
podem ser utilizados para a avaliação dos sumários, conforme será discutido no capítulo
3.
Outra característica importante da sumarização é que para um mesmo texto-
fonte podem-se criar diversos sumários, seja para atender a diferentes tipos de público
alvo ou por questões subjetivas de seu escritor. Isso aumenta a complexidade da
avaliação de sumários, já que não existe um único resultado que possa ser considerado
correto. A compreensão dos diferentes tipos de sumários e das estratégias particulares a
cada um ainda não foi completamente alcançada e, assim, o desenvolvimento de
estratégias de SA ainda se apresenta como uma área que atrai o interesse de diversos
pesquisadores (EDMUNDSON, 1969; HOVY; LIN, 1998; JING et al., 1998).
2.4 Sumarização automática
O esforço intelectual e a experiência necessários à preparação dos sumários são
considerados há muitos anos um problema para o qual, a principal solução remete-se ao
desenvolvimento de mecanismos de geração automática de sumários (LUHN, 1958).
Com a digitalização dos documentos é possível aplicar transformações antes
impossíveis aos documentos em papel. A idéia de se utilizar os computadores para
realizar a tarefa de sumarização despertou o interesse de vários setores da sociedade
como o acadêmico, o governamental e o comercial (PARDO, 2002b).
Mani e Maybury (1999 apud PARDO; RINO, 2003a) destacam que a
sumarização automática pode ser vista de forma genérica como uma tarefa composta
por três processos: análise, transformação e síntese. Na análise, deve-se elaborar uma
representação computacional do texto-fonte. O processo de transformação modifica o
resultado produzido na análise para gerar a representação do sumário. Na síntese, a
estrutura representativa do sumário é convertida em uma expressão lingüística, o
sumário. Essa arquitetura é ilustrada na figura 2.2 (PARDO; RINO, 2003a).
Figura 2.2 – Arquitetura geral de um sumarizador automático (PARDO; RINO, 2003a)
A SA pode ser analisada sob a perspectiva de duas abordagens do PLN: a
abordagem fundamental (ou profunda) e a abordagem empírica (ou superficial). Ambas
procuram identificar a idéia central dos textos-fonte para posteriormente estabelecer os
elementos que constituirão o sumário. A diferença principal está na proposta de
construção do sumário. Na abordagem fundamental são investigadas e desenvolvidas
estratégias destinadas à produção de sumários do tipo abstract. A abordagem a empírica
lida com métodos destinados principalmente à produção de extratos.
Dessa forma, a abordagem fundamental simula a reescrita integral do sumário e
explora diversas características lingüísticas e extralingüísticas tais como os objetivos
comunicativos do autor ao escrever o texto, relações semânticas e retóricas. A escolha
de uma linguagem eficaz para representar o conhecimento contido nos textos é
fundamental nesta abordagem. Sem uma representação adequada do significado do
texto dificilmente serão produzidos bons sumários.
Na abordagem empírica métodos estatísticos ou superficiais são empregados
para identificar os segmentos importantes da fonte textual e produzir os extratos através
da justaposição, sem qualquer modificação, desses segmentos. Por se basear na extração
de material a partir do texto-fonte, as técnicas adotadas na abordagem empírica também
são denominadas técnicas extrativas (PARDO; RINO, 2003a).
Apesar de ser um tema relativamente antigo, a sumarização automática é ainda
hoje um problema difícil de PLN, pois para se produzir um sumário de qualidade é
preciso que se compreenda o tema da fonte textual. Isto requer uma análise semântica,
processamento do discurso e a reunião do conteúdo utilizando conhecimentos
abrangentes da língua natural. Não se tem notícia de sistemas capazes de resolver todas
19
20
essas questões de forma eficaz. Dessa forma, as tentativas conduzidas até o momento de
simular fielmente o processo humano de sumarização, produzindo sumários do tipo
abstract, não demonstraram muito sucesso.
O uso de características lingüísticas para a SA constitui uma questão ainda em
discussão (LEITE et al., 2007). Os avanços mais relevantes na área de SA são voltados
ao tratamento de textos em inglês. No entanto, existem sistemas que operam de forma
independente (ou quase independente) de língua natural, deixando de lado maior parte
dos fatores lingüísticos específicos ao idioma e assumindo modelos estatísticos. A
preocupação em relação aos sistemas que não levam em consideração o conhecimento
lingüístico é que ao ignorar o conjunto de especificidades do idioma, os sumários
gerados podem não ser adequados aos objetivos para os quais serão utilizados (LEITE
et al., 2007).
Em relação à abordagem de SA, percebe-se que a maioria dos sumarizadores
automáticos disponíveis atualmente produzem apenas extratos. Embora esse tipo de
sumário freqüentemente não seja coerente ou coeso, o usuário pode utilizá-lo para
formar uma opinião sobre o conteúdo do texto original (SUMMARIST, 2008). Os
principais métodos que fundamentam as abordagens empírica e fundamental serão
apresentados a seguir.
2.4.1 Métodos Extrativos de SA
Em meados da década de 1960 as primeiras investigações sobre sumarização
automática já haviam sido apresentadas e as aplicações eram voltadas, sobretudo à área
acadêmica. Porém, devido aos resultados insatisfatórios e às limitações de software e
hardware, bem como a inexistência de repositórios lingüísticos digitais especializados
para a sumarização, os avanços não foram sensíveis até a década de 1980, quando o uso
dos computadores e a capacidade de processamento aumentaram consideravelmente.
Além disso, recursos como grandes corpora, léxicos e gramáticas tornaram-se
disponíveis possibilitando investigações mais abrangentes sobre SA (PARDO et al.,
2002). Atualmente o tema de SA cresceu em importância, sobretudo em função da
abundância de informação textual em formato digital (DALAINIS, 2007) e da presença
de recursos computacionais eficientes para o processamento automático de textos.
Os métodos extrativos de SA privilegiam o tratamento estatístico ou relacional
de informações textuais. Essa abordagem faz pouco, ou nenhum, uso de conhecimento
lingüístico e extralingüístico profundos para a elaboração dos sumários (PARDO;
RINO, 2006). A SA extrativa basicamente utiliza técnicas que identificam a relevância
de segmentos textuais com o objetivo de realizar a seleção e justaposição dos mais
importantes levando em conta as restrições de sumarização pretendidas, para finalmente
produzir o sumário (MARTINS et al., 2001). A etapa de pré-processamento dos dados,
descrita na seção 2.2, deve sempre ser considerada para a obtenção de resultados mais
satisfatórios (MARTINS et al., 2001). Uma arquitetura genérica de sumarizadores da
abordagem empírica apresentada por Pardo e Rino (2003a) é ilustrada na figura (2.3).
Figura 2.3 – Arquitetura de um sumarizador automático empírico (PARDO; RINO, 2003a)
Nesta arquitetura, as fases de transformação e de síntese são substituídas por
uma etapa de seleção, já que os métodos empíricos baseiam-se principalmente na
extração de sentenças literais do texto. Na fase de análise é que se concentram as
técnicas extrativas que apuram a relevância dos segmentos textuais, tais como as que
serão apresentadas em seguida.
As primeiras investigações sobre SA, como os apresentados por Luhn (1958) e
por Edmundson (1969), são tão simples quanto antigas. Na proposta de Luhn (1958) os
sumários são gerados por uma técnica extrativa na qual a seleção das sentenças baseia-
se na freqüência das palavras. Sua estratégia busca sentenças que possuem
agrupamentos de palavras-chave e, a partir de informações estatísticas derivadas da
freqüência e da distribuição das “palavras significativas”, calcula o que ele chama de
21
22
“fator de significância“ das sentenças. Segundo Luhn (1958), sua estratégia é suportada
pela idéia de que quanto maior o número de palavras-chave distintas encontradas
fisicamente próximas entre si, maior é a probabilidade de que a informação por elas
expressadas é mais representativa do tema principal do texto-fonte.
Embora a pesquisa de Baxendale (1958) não lidasse diretamente com estratégias
de SA
2
, ela destacou a relação existente entre a posição das sentenças no parágrafo e a
importância das mesmas. Os resultados de um experimento envolvendo 200 parágrafos
revelaram que em 85% dos parágrafos as sentenças mais representativas do assunto
principal eram as primeiras e em 7%, estas ocorriam no final dos parágrafos
(BAXENDALE, 1958).
Edmundson (1969) propôs princípios para o projeto de sumarizadores
automáticos e explorou a combinação de características subjetivamente ponderadas para
a construção de sumários. Além de explorar as idéias de Luhn (1958) (método Key), sua
pesquisa avaliou a seleção das sentenças considerando outras características como a
presença de palavras pragmáticas (método Cue Words), a ocorrência de palavras de
títulos e cabeçalhos (método Title) e a posição das sentenças no texto e nos parágrafos
(estratégia da Localização).
O método Key adota o mesmo princípio da proposta de Luhn (1958), porém
utiliza um algoritmo distinto. Neste método, as pistas utilizadas para revelar a
importância das sentenças são características específicas da superfície textual. As
palavras de classe aberta, que não ocorrem no dicionário de palavras pragmáticas, cujas
freqüências no documento sejam superiores a um valor mínimo são utilizadas para a
criação de uma lista (Key glossary) de palavras-chave. Nesta lista, as palavras-chave
(Key words) são armazenadas juntamente com seus pesos (Key weight), sendo estes
calculados como a freqüência dessas palavras. A pontuação Key weight total de uma
sentença é a soma dos pesos de cada uma de suas palavras-chave constituintes.
No método Cue Words, as pistas empregadas são características do corpus em
uso. Sentenças em que ocorrem palavras como “significante”, “impossível” ou
“dificilmente” recebem um maior peso (Cue Weight) (EDMUNDSON, 1969).
O método utiliza um dicionário (cue dictionary) previamente elaborado com
uma seleção de palavras pragmáticas (ou palavras sinalizadoras), isto é, palavras
2
A pesquisa de Baxendale (1958) aborda a geração automática de índices para sistemas de RI.
23
consideradas relevantes no domínio do texto. Este dicionário é composto por três sub-
dicionários:
Bonus words: armazena palavras que pontuam positivamente a medida de
relevância das sentenças (cue weight);
Stigma words: este dicionário possui palavras cuja ocorrência pontua de forma
negativa (penaliza) a medida cue weight das sentenças;
Null words: palavras que não influenciam a medida de relevância das sentenças.
O valor cue weight final de cada sentença é a soma dos pesos cue weight de suas
palavras.
O método Título (Title method) utiliza características estruturais dos textos tais
como título, cabeçalhos e formatação (EDMUNDSON, 1969). Este método baseia-se na
hipótese que um autor elabora um título bem formado que, por si só, indica o assunto
abordado no documento. O mesmo princípio é aproveitado quando o autor divide o
texto em várias seções e escolhe os cabeçalhos que sumarizam as mesmas.
Em função disto o método do Título baseia-se na possibilidade de que as
palavras dos títulos e cabeçalhos constituam informações importantes sobre o texto e
sua ocorrência nas sentenças deve pontuá-las de forma positiva. Um glossário
denominado Title glossary é elaborado para cada documento consistindo de todas as
palavras não irrelevantes dos títulos, subtítulos e cabeçalhos. Para cada sentença, a
medida de importância (Title weight) é a soma dos pesos Title weights de suas palavras.
As pistas utilizadas no método da Localização (Location method) são também
baseadas em características estruturais do texto como cabeçalhos e formatação. Este
método baseia-se na hipótese de que sentenças que ocorrem imediatamente após
determinados cabeçalhos podem ser relevantes. Além disso, outra consideração deste
método é que sentenças tópicas tendem a ocorrer na parte inicial ou final dos
documentos e de seus parágrafos.
Este método utiliza um dicionário pré-armazenado (Heading dictionary) de
palavras selecionadas a partir do corpus que ocorrem nos cabeçalhos dos documentos,
tais como “Introdução”, “Objetivo” e “Conclusões” para associar pesos positivos
(Heading weight) às sentenças. Além disso, as sentenças também recebem uma nota em
função de suas posições ordinais no texto (Ordinal weight), isto é, quando ocorrem no
primeiro ou último parágrafo e como primeira ou última sentença dos parágrafos. A
métrica de relevância final de uma sentença (Location weight) é obtida a partir da soma
de seus pesos Heading e Ordinal.
24
Após avaliar estes métodos em diferentes combinações, verificou-se que os
melhores resultados foram obtidos utilizando-se conjugadamente as estratégias
Localização, Cue Words e Título. O método Key configurado por Edmundson (1969)
apresentou o pior desempenho quando empregado de forma isolada.
Uma idéia derivada do método originalmente proposto por Luhn (1958) foi
apresentada por Earl (1970). Sua proposta assume como premissa básica o fato de que
os substantivos mais freqüentes de um texto geralmente podem ser considerados como
palavras-chave desse texto. De acordo com Earl (1970), os substantivos poderiam
indicar a progressão temática do texto, permitindo selecionar de forma mais precisa os
segmentos de maior relevância para a composição de um sumário.
Skorokhod’ko (1972 apud PAICE, 1981) destacou a dificuldade de se
estabelecer uma única estratégia eficiente para lidar com qualquer cenário de
sumarização. Para alcançar bons resultados, o método de sumarização deve variar, de
acordo com a estrutura do texto. A organização das seções e das subseções e o fluxo
lógico das idéias variam de texto para texto. Em função disto, ele descreve uma
estratégia adaptativa que utiliza os relacionamentos entre as sentenças, verificados
através da relação semântica das palavras dessas sentenças, para gerar uma
representação gráfica do texto. Sentenças semanticamente relacionadas a muitas outras
sentenças recebem pesos maiores e são as candidatas mais prováveis para extração e
formação do sumário.
Outro trabalho de grande importância foi desenvolvido por Pollock e Zamora
(1975 apud PARDO; RINO, 2003a). Eles destacam a necessidade de se restringir
domínios (ou assuntos) para aprimorar os resultados de métodos extrativos de SA. Eles
propuseram, em adição aos trabalhos anteriores, o cruzamento de sentenças com o título
da obra, para determinar as sentenças significativas para o extrato. Neste caso, o texto-
fonte deveria possuir um título associado para a implementação deste método.
Paice (1981) apresenta um método pragmático que verifica a presença de
estruturas freqüentemente encontradas no texto que possam indicar a importância das
sentenças. A ocorrência dessas estruturas, denominadas frases auto-indicativas (self-
indicating phrases), revela que a sentença referencia algo importante sobre o assunto do
texto. Exemplos de frases auto-indicativas são “O principal objetivo deste trabalho é
investigar...”; “No presente artigo, é descrito um método para...” etc. De acordo com
Paice (1981), o objetivo principal de seu método das frases auto-indicativas é a geração
de sumários indicativos, isto é, sumários que indicam o assunto de um documento, sem
25
apresentar detalhes sobre a essência do texto original. Paice não descarta a possibilidade
de que os sumários produzidos por sua estratégia apresentem conteúdo informativo, no
entanto ele qualifica essas informações, a princípio inesperadas, como um “bônus”.
O principal problema com os métodos extrativos descritos anteriormente é que
freqüentemente produziam sumários com muitos problemas de coesão e coerência
devido à justaposição de sentenças extraídas do texto-fonte e apresentadas fora de seu
contexto nos sumários.
De acordo com Martins et al. (2001) a resolução anafórica constitui um grande
desafio às primeiras estratégias extrativas da SA:
Por serem métodos “cegos”, sem qualquer resolução analítica, os processos
automáticos não distinguiam quando era necessário recuperar o contexto e os
possíveis pares referentes/referenciados de sentenças inter-relacionadas
anaforicamente, antes de isolar algumas delas de seu contexto. Desse modo,
tais referências se perdiam, com reflexos altamente prejudiciais para os
sumários resultantes. (MARTINS et al., 2001, p. 12).
As tentativas de resolver os problemas mencionados acima não foram bem
sucedidas (MARTINS et al., 2001).
Kupiec et al. (1995) apresentam um sistema de sumarização treinável, onde a
seleção das sentenças para compor o extrato é tratada como um problema estatístico de
classificação. O treinamento do sistema cria uma função de classificação para estimar a
probabilidade de uma sentença pertencer ao extrato. Isto é feito a partir de um conjunto
de treino contendo documentos e os extratos associados, manualmente elaborados.
A classificação é feita a partir de um conjunto de características das sentenças:
Tamanho das sentenças: sentenças pequenas tendem a não serem incluídas no
sumário;
Frases predefinidas: sentenças contendo determinadas frases (frases fixas)
como “Este artigo” ou “As conclusões”, ou que ocorrem imediatamente após o
cabeçalho de seções como “conclusões”, “sumário”, “resultados” e “discussão”
possuem maior probabilidade de serem selecionadas para o extrato;
Localização nos parágrafos: as sentenças são diferenciadas em relação à suas
posições nos parágrafos, podendo ocorrer no início, meio ou final;
Palavras temáticas: as palavras de classe aberta (substantivos, adjetivos, verbos
e advérbios) de mais alta freqüência são consideradas palavras temáticas. Um
conjunto reduzido de palavras temáticas é selecionado e cada sentença é
pontuada em função da freqüência de suas palavras temáticas. A presença de
26
uma sentença no conjunto das sentenças de maior pontuação é indicada por um
valor binário.
Nomes próprios: verificados através da ocorrência de letras maiúsculas.
Para a geração do extrato, as sentenças são ranqueadas em função de suas
probabilidades e selecionam-se as de maior pontuação, levando-se em conta o tamanho
desejado para o sumário.
A proposta de Kupiec et al. (1995) pode ser considerada como o marco
responsável por despertar grande interesse na exploração de técnicas extrativas mais
eficientes, definindo uma nova área, hoje conhecida como SA baseada em corpus, em
que métodos estatísticos de extração são utilizados com sumarizadores treináveis a
partir de corpora robustos de texto (PARDO; RINO, 2003a).
Teufel e Moens (1997) desenvolveram uma pesquisa similar à de Kupiec et al.
(1995) na qual a extração de sentenças é realizada como uma tarefa de classificação. A
principal diferença em relação ao trabalho de Kupiec et al. (1995) está nas
características do corpus adotado. Os sumários empregados no treinamento do sistema
de Telfel e Moens (1997) foram escritos pelos próprios autores dos textos, já os
utilizados por Kupiec et al. (1995) foram escritos por profissionais de sumarização.
Hovy e Lin (1998), atraídos pelas possibilidades de combinar técnicas que
utilizam informações semânticas com técnicas estatísticas, descrevem um sumarizador
denominado SUMMARIST (HOVY; LIN, 1998). Este sistema fundamenta-se em três
estágios, os quais de acordo com Hovy e Lin descrevem uma formulação da sumarização:
O SUMMARIST é uma tentativa de criar um sistema automatizado robusto
de sumarização de textos, baseado na ‘equação’: sumarização= identificação
do tópico + interpretação + geração.
(HOVY; LIN, 1998, p. 1, nossa
tradução).
Quando apresentado, o SUMMARIST ainda estava em fase de desenvolvimento,
com esforços focalizados apenas para os módulos que desempenhariam o estágio de
identificação do tópico. Com isto, este sistema seria capaz de produzir apenas extratos.
Hovy e Lin destacam que com a implementação dos módulos responsáveis pela
realização dos estágios de interpretação e de geração, o sistema seria capaz de produzir
sumários mais elaborados, do tipo abstract.
Barzilay e Elhadad (1997) descrevem um método que explora o encadeamento
de itens lexicais ao longo do texto, isto é, as cadeias lexicais. As cadeias com conexão
27
mais forte são utilizadas para a seleção das sentenças relevantes para composição do
sumário.
De acordo com Barzilay e Elhadad (1997), essa proposta permite realizar a
sumarização sem a necessidade de se estabelecer uma interpretação semântica completa
da fonte textual. A estratégia baseia-se apenas na progressão dos tópicos ao longo do
texto, que pode ser observada através do encadeamento de itens lexicais. Os itens
considerados para a composição das cadeias são apenas os substantivos e compostos
nominais.
Para o cálculo da força das cadeias lexicais Barzilay e Elhadad (1997) tiveram
que se basear em uma metodologia empírica, devido à inexistência de métodos formais
com tal finalidade. Eles organizaram um conjunto de textos científicos extraídos de
revistas populares e ranquearam, para cada texto, as cadeias em função de sua
relevância aos tópicos centrais. Em seguida, calcularam diferentes medidas formais
para as cadeias: o comprimento das cadeias, distribuição no texto, densidade e topologia
do grafo das palavras, espaço coberto pela cadeia no texto e número de repetições. Os
resultados revelaram que apenas dois parâmetros descreviam adequadamente a força de
uma cadeia lexical: o comprimento das cadeias (número de ocorrência dos membros da
cadeia) e o índice de homogeneidade (calculado como 1 - número de ocorrências
distintas dividido pelo comprimento da cadeia).
Os métodos baseados em grafos atraíram o interesse de vários pesquisadores,
sobretudo por serem independentes de recursos lingüísticos e apresentarem bom
desempenho computacional. Exemplos de sumarizadores que se baseiam em grafos são
o LexRank (ERKAN; RADEV, 2004) e o TextRank (MIHALCEA; TARAU, 2004).
Uma proposta que utiliza técnicas de mineração de textos para a clusterização e
sumarização de documentos foi desenvolvida por Larocca Neto et al. (2000). No
sistema apresentado, a medida de significância das sentenças é calculada em função da
freqüência de suas palavras.
Por se basear na freqüência das palavras para a representação dos documentos, o
pré-processamento para a uniformização do texto e eliminação de palavras irrelevantes
é realizado através das técnicas de: case folding, stemming e remoção de stopwords,
sendo as duas últimas técnicas configuradas originalmente para o idioma inglês. No
caso de textos em outros idiomas de origem latina, como o português, o algoritmo de
stemming e a remoção de stopwords podem ser substituídos por uma representação dos
termos pelo método de n-gramas.
Para a sumarização, o sistema de Larocca Neto et al. (2000) representa cada
sentença do documento como um vetor de valores TF-ISF (Term Frequency – Inverse
Sentence Frequency) de suas palavras. A TF-ISF é uma variação da medida estatística
TF-IDF de Salton (1988). Na TF-ISF a noção de documento, existente para a TF-IDF, é
substituída pela noção de sentença. Dessa forma, a expressão de importância das
palavras em uma sentença é dada pelos seus valores de TF-ISF. Sendo w uma palavra
que ocorre em uma sentença s, seu valor TF-ISF representado por TF-ISF
(w,s)
é
calculado conforme a equação (2.3):
)3.2(ISFTFISFTF
)(),(),( wswsw
×
=
onde TF
(w,s)
representa o número de ocorrências da palavra w na sentença s e
ISF
(w)
é a freqüência inversa da palavra w, calculada de acordo com a equação (2.4)
(2.4)
SF
S
logISF
)(
)(
=
w
w
em que |S| representa o número total de sentenças da fonte textual a ser
sumarizada e SF
(w)
é o número de sentenças nas quais a palavra w ocorre.
A importância de cada sentença, denominada Avg-TF-ISF
(s),
é calculada como a
média aritmética dos valores TF-ISF
(w,s)
de todas as palavras w que constituem a
sentença s
)5.2(
W
ISFTF
ISFTFAvg
)(
W
1i
),(
)(
(s)
s
si
s
=
=
onde W
(s)
é o número de palavras da sentença s.
A interpretação da métrica TF-ISF é análoga à da TF-IDF. Palavras que ocorrem
freqüentemente na coleção de sentenças tendem a apresentar baixa medida de TF-ISF e
constituem um termo menos importante. Por outro lado, os termos que ocorrem com
maior freqüência em poucas sentenças tendem a apresentar maiores valores de TF-ISF
podendo, dessa forma, expressar conceitos mais importantes. Por fim, o método
seleciona todas as sentenças com valores Avg-TF-ISF
(s)
maiores que um valor mínimo
configurado pelo usuário.
São sistemas representativos das pesquisas acadêmicas voltadas à sumarização
de textos em português do Brasil os sistemas GistSumm (GIST SUMMarizer) (PARDO,
2002b, 2005; PARDO et al., 2003a) e o NeuralSumm (NEURAL network for
28
29
SUMMarization) (PARDO et al., 2003b). A metodologia empregada pelo GistSumm
simula de acordo com Pardo (2002b) o próprio comportamento humano de
sumarização. O sistema determina a sentença que melhor representa o tema central (o
gist) do texto-fonte e a utiliza, juntamente com métodos estatísticos simples, para
selecionar as outras sentenças que irão compor o sumário.
O NeuralSumm é considerado por Pardo et al. (2003b) o primeiro sistema de
sumarização automática que adota uma rede neural do tipo SOM (self-organizing map)
(KOHONEN, 1982 apud PARDO et al., 2003a) para produzir extratos. Após o
treinamento da rede neural, o NeuralSumm pode gerar os sumários selecionando
sentenças consideradas essenciais e, eventualmente, sentenças complementares. A
classificação de sentenças para a seleção é feita com base em um conjunto de atributos
obtidos a partir de técnicas estatísticas e extraídos de cada sentença do documento
original.
Entre os trabalhos relacionados à sumarização multi-documento, Radev et. al,
(2000) apresentam uma proposta de sumarizador para múltiplos documentos e
descrevem duas novas técnicas de avaliação para a sumarização mono e multi-
documento baseadas na utilidade e redundância das sentenças. O sumarizador MEAD
(Radev et al., 2000) realiza a sumarização de clusters de documentos agrupados
automaticamente por um sistema de detecção de tópicos. Utilizando um conjunto de
informações dos centróides desses clusters, o sistema MEAD seleciona as sentenças que
provavelmente melhor descrevam o tópico do cluster. A análise de redundância é feita
através de um algoritmo que verifica a similaridade entre sentenças, penalizando
sentenças muito semelhantes à outras com maior métrica de relevância.
Enquanto a evolução da SA extrativa mono documento baseada somente em
características superficiais dos textos aparentemente aproxima de seu limite, a
sumarização multi-documento representa um tema de grande interesse entre as
pesquisas atuais. A exploração de técnicas que processem adequadamente vários
documentos para a geração de sumários impõe desafios como a eliminação de
redundância e questões de escalabilidade dos sistemas. Os problemas de coesão e
coerência são muito comuns nos sumários produzidos por técnicas extrativas. Isto
ocorre em função da seleção e justaposição de sentenças fora de seu contexto e falta de
resolução de referências anafóricas. Tais problemas ainda não foram solucionados de
maneira eficiente. Apesar disso, os sumários criados com técnicas extrativas podem ser
de grande utilidade em muitas aplicações, desde que ao menos preservem a idéia central
30
dos documentos originais. Isso torna a abordagem empírica mais atrativa atualmente
(MARTINS et al., 2001).
As pesquisas apresentadas nesta seção constituem algumas das principais obras
de SA extrativa. Embora algumas dessas técnicas baseiam-se em formulações
relativamente simples, introduzidas há quase meio século, elas ainda são utilizadas ou
serviram de inspiração para o que há de mais moderno na abordagem empírica de SA
atualmente.
2.4.2 Métodos Fundamentais
No período em que as pesquisas sobre a abordagem extrativa permaneceram sem
grandes avanços, observou-se um aumento no interesse em investigações de técnicas da
abordagem fundamental de SA, elaboradas principalmente a partir das idéias de
Chomsky (1965 apud PARDO; RINO, 2003a, p. 12):
A modelagem computacional dos processos de compreensão e apreensão da
estrutura textual, a fim de reescrever o texto-fonte de forma condensada,
pôde ser formalizada a partir de gramáticas livres de contexto, responsáveis
por analisar sintaticamente (parsing) os textos-fonte (de um domínio
particular), para produzir sua representação conceitual. (PARDO; RINO,
2003a, p. 12).
A abordagem fundamental de SA utiliza informações lingüísticas de nível
profundo para simular a reescrita integral de um sumário a partir de processos de
geração textual, preservando o tema principal da fonte textual e respeitando restrições
impostas para a condensação de textos. Devido aos mecanismos complexos que
manipulam o conhecimento lingüístico profundo através de métodos simbólicos e de
modelos computacionais de geração textual, os sumários dessa abordagem podem
conter informações não presentes no texto-fonte, portanto caracterizam-se como
sumários do tipo abstracts.
As principais questões da abordagem fundamental estão relacionadas à forma
como é identificado e sintetizado o conteúdo relevante de um texto. A arquitetura de um
sumarizador automático fundamental, apresentada em (PARDO; RINO, 2003a), sugere
que esta abordagem simula o processo humano de sumarizar, que contempla a
compreensão do enunciado do texto-fonte, condensação de conteúdo e a reescrita
textual (Figura 2.4).
Figura 2.4 – Arquitetura de um sumarizador automático fundamental (PARDO; RINO, 2003a)
Os sumários produzidos por sistemas que seguem esta arquitetura (figura 2.4),
estariam de acordo com as idéias apresentadas por Hovy e Lin (1998). Segundo eles,
um abstract é elaborado através da fusão de vários conceitos de um texto em um
número menor de conceitos. Para a produção de sumários do tipo abstracts geralmente
são necessários estágios de fusão de tópicos e geração textual, não empregados na
elaboração de extratos (HOVY; LIN 1998).
A arquitetura apresentada na figura 2.4 também é compatível com o processo de
sumarização apresentado por Sparck Jones (1993), em que três estágios principais são
destacados: a construção de uma representação do significado a partir do texto-fonte, a
geração da representação do sumário correspondente e a sua síntese, ou realização
lingüística, que resulta no abstract. Segundo Pardo e Rino (2003a), “Essa última etapa é
responsável pelas escolhas morfossintáticas da língua natural em foco, as quais não
necessariamente coincidem com as apresentadas no texto-fonte.”. Dessa forma, existem
três tipos de informação a serem tratados pelo sumarizador automático: o lingüístico, o
informativo e o comunicativo. Estes por sua vez acarretam a necessidade de se modelar
aspectos pragmáticos e semânticos, o que torna os sistemas dessa abordagem mais
complexos.
Neste contexto, deve haver uma linguagem de representação que promova o
inter-relacionamento entre as proposições e mecanismos de inferência que possam
interpretar o texto-fonte e produzir o sumário correspondente.
31
32
No uso de conhecimentos profundos os métodos adotados para verificar a
relevância das informações que irão compor os sumários empregam conhecimentos
lingüísticos e extralingüísticos relacionados à fonte textual. Tais conhecimentos devem
ser mapeados no modelo lingüístico e computacional, na maioria das vezes envolvendo
a manipulação simbólica.
Entre as estratégias que empregam esses conhecimentos podem ser citadas
aquelas que se baseiam na identificação dos interesses do escritor, que por sua vez são
dependentes dos objetivos comunicativos e de modelos de estruturação do discurso. Em
função da necessidade de se analisar a estruturação do discurso, alguns métodos são
conhecidos como métodos baseados em estruturação de discurso (PARDO; RINO,
2003a).
Pardo e Rino (2003a) argumentam que existem várias estratégias da abordagem
fundamental que buscam determinar a relevância das informações de um texto a partir
da modelagem de seu discurso. A métrica de saliência apresentada por Boguraev e
Kennedy (1997) é uma medida da importância relativa de objetos no discurso. Quanto
maior a saliência de um objeto, maior é a chance de que ele seja o foco da atenção.
Objetos com baixa saliência são periféricos e provavelmente constituem informações
descartáveis para a caracterização dos textos em análise (BOGURAEV; KENNEDY,
1997). Esta medida de saliência equivale ao que se define como medida de relevância
na SA, utilizada para a seleção de segmentos para a composição dos sumários.
Pardo e Rino (2003a) sugerem que entre as pesquisas mais relevantes na linha de
modelagem discursiva está a de Marcu (1997a, 1997b, 2000), onde são propostas
técnicas de segmentação do discurso para a identificação do tema central, utilizado no
cálculo da saliência das unidades de informação. Marcu se baseia na determinação da
estrutura retórica
3
do texto para determinar as informações importantes (salientes).
Dessa forma, primeiro deve-se elaborar a estrutura retórica do texto para posteriormente
determinar o conteúdo e o aspecto dos possíveis sumários.
3
A estrutura retórica de textos é fundamentada pela teoria Rhetorical Structure Theory (RST) (Mann e
Thompson, 1988 apud Pardo e Rino, 2003a, p. 13), e constitui uma forma de se descrever um texto.
33
3 Avaliação da SA
A evolução da SA depende de métodos eficientes para a avaliação tanto da
qualidade dos sumários quanto do desempenho dos sumarizadores. Através da avaliação
pode-se verificar a utilidade de um sistema de SA, sua adequação a tarefas específicas,
comparar os resultados de diferentes sumarizadores etc. A avaliação da SA em geral é
um processo que consome tempo e pode demandar grandes esforços manuais. No
desenvolvimento de sistemas de sumarização, quando se modifica alguma característica
arquitetural do sistema, é necessário reavaliar todo o processo de SA elaborado.
A preocupação com a avaliação da SA impulsionou a criação de conferências
internacionais destinadas exclusivamente à avaliação de sumarizadores automáticos. A
TIPSTER SUMMAC
4
(Text Summarization Evaluation) (MANi et al.,1998) foi
realizada em 1998 e é considerado o primeiro esforço em larga escala, independente de
desenvolvedores para a avaliação de sistemas de SA. Seguindo objetivos similares aos
da TIPSTER SUMMAC, a DUC
5
(Document Understanding Conferences) (DUC,
2002) é realizada regularmente e está entre as iniciativas mais destacadas sobre
avaliação de sistemas de SA atuais (PARDO; RINO, 2003a).
Embora a avaliação seja há muito tempo uma questão de interesse na SA, com
procedimentos e preocupações abordados já na década de 1960 (EDMUNDSON, 1964,
1969), os principais aspectos e estratégias envolvidos ainda não constituem um
consenso entre os principais pesquisadores dessa área (JING et al., 1998; MANI,
2001b).
Percebe-se em muitos trabalhos a falta de padronização entre as métricas de
qualidade empregadas. Ao elaborar um sistema os pesquisadores também criavam suas
próprias formulações para medir a qualidade dos sumários, tornando impossível realizar
a comparação direta dos resultados entre diferentes pesquisas publicadas.
Mani e Maybury (1999 apud PARDO; RINO, 2003a) e Mani (2001b) enfatizam
algumas das principais dificuldades da avaliação de sistemas sumarizadores, destacando
algumas características do processo de SA:
4
http://www-nlpir.nist.gov/related_projects/tipster_summac/index.html <Acesso em Dez. 2007>
5
http://duc.nist.gov/
34
Na SA tem-se uma máquina produzindo uma saída que é uma comunicação em
linguagem natural. Quando a saída é uma resposta a uma questão, pode-se
estabelecer o que seria uma resposta correta, mas em outros casos é difícil
estabelecer a noção do que seria uma saída correta. Há sempre a possibilidade de
um sistema gerar um bom sumário que é bem diferente de qualquer sumário
produzido por humanos considerado aproximação da saída correta, tal problema
também atinge a tradução automática, síntese de fala e outras tecnologias
relacionadas;
Dado que juízes humanos podem ser necessários:
o O custo da avaliação pode ser sensivelmente aumentado;
o A identificação da situação e da forma de se utilizar o julgamento
humano não é sempre trivial;
o Nem sempre se dispõe de indivíduos com o perfil adequado em
quantidade suficiente;
o Para uma avaliação robusta e abrangente, esse tipo de julgamento pode
se tornar muito lento e complexo;
o O alto grau de subjetividade do julgamento humano também torna difícil
o estabelecimento de conclusões definitivas. Em algumas circunstâncias
o grau de concordância entre os juízes sobre a relevância das sentenças é
muito baixo e não permite o estabelecimento de conclusões definitivas e,
conseqüentemente, não se consegue uma avaliação adequada;
o Um processo de avaliação no qual seja possível utilizar um sistema que
atribui notas automaticamente em vez do julgamento humano é
preferível, já que pode ser facilmente repetido. Porém, não há referências
de sistemas automáticos robustos que substituam completamente o
julgamento humano em todas as circunstâncias para a avaliação da SA
(PARDO; RINO, 2003a).
A sumarização envolve compressão, assim, é importante avaliar os sumários sob
diferentes taxas de compressão. Mas isto aumenta consideravelmente a
complexidade da avaliação. Em geral, quanto mais alta a taxa de compressão,
menos informativo será o sumário e vice-versa. No entanto, essa relação de
dependência não pode ser explicitamente associada a um modelo particular já
que a informatividade depende também do nível de conhecimento do usuário
35
para o qual se destina o sumário, do tempo disponível para a leitura e do tipo de
tarefa objetivada;
Como a sumarização envolve a apresentação da informação em uma forma
sensível às necessidades de um usuário ou de uma aplicação, isto deve ser
levado em consideração. Por outro lado, torna mais difícil o projeto da estratégia
de avaliação;
Ainda não se estabeleceu um padrão sobre as formas como a qualidade e a
informatividade de sumários automáticos podem ser avaliados. Geralmente
utilizam-se juízes humanos, que são leitores falantes da língua natural
considerada. Estes devem dizer se os sumários automáticos são bons sumários,
quando comparados a seus textos-fonte;
Dentre as diretrizes atuais para a avaliação da sumarização automática, Sparck
Jones e Galliers (1996 apud Mani, 2001b) esclareceram algumas distinções e
características gerais da avaliação. A primeira distinção apresentada diz respeito à forma
de avaliação, que pode ser classificada em duas categorias: intrínseca e extrínseca. Em
uma avaliação intrínseca avalia-se o desempenho do próprio sumarizador, levando-se
em conta parâmetros tais como coerência e informatividade dos sumários produzidos.
Neste caso, podem ser utilizados métodos automáticos de atribuição de notas ou o
julgamento humano (PARDO; RINO, 2003a). Na avaliação extrínseca, o sistema de
sumarização é avaliado em função de como este influencia a realização de alguma outra
tarefa que utiliza os sumários produzidos automaticamente. Assim, em uma avaliação
extrínseca, o impacto da SA é avaliado em tarefas como as de categorização de
documentos, de perguntas e respostas, de recuperação de informação, de verificação de
relevância e de compreensão da leitura (MANI, 2001b).
Em relação ao uso do julgamento humano, a avaliação pode ser denominada on-
line, quando juízes humanos devem avaliar os sumários, ou off-line quando são
utilizados métodos automatizados. Embora as avaliações off-line sejam preferíveis,
ainda não foi definido um método automático que permita descartar completamente a
avaliação humana (PARDO; RINO, 2003a).
A avaliação pode ser classificada em relação ao que se avalia: se apenas a saída
dos sistemas é verificada, a avaliação é dita black-box. Neste caso, os processos
intermediários da sumarização e seus resultados não são analisados. A comparação entre
um sumário produzido automaticamente e o respectivo documento original é um
exemplo desse tipo de avaliação. Quando se consideram os resultados intermediários do
36
sistema, a avaliação é chamada glass-box. Como exemplo desse tipo de avaliação, caso
ela seja conduzida em um sistema que adota a arquitetura geral da figura 2.2, uma
avaliação glass-box verificaria os resultados intermediários gerados pela execução de
cada uma das fases desse sistema equivalentes aos estágios dessa arquitetura.
Uma avaliação pode ser considerada ainda autônoma, quando se avalia de forma
isolada os resultados de um sumarizador, ou comparativa, quando os resultados de um
sumarizador são comparados aos resultados de outros sistemas de sumarização. A
avaliação comparativa geralmente é feita através da atribuição de notas aos sistemas em
função de seus resultados para posteriormente compará-los em função de suas notas.
3.1. Avaliação Intrínseca
Na avaliação intrínseca a textualidade e a informatividade são as principais
métricas de verificação da SA. O objetivo desse tipo de avaliação é verificar os
resultados em função do próprio desempenho do sumarizador, por meio da verificação
dos sumários produzidos. Parâmetros lingüísticos tais como coerência e coesão,
geralmente são considerados nesse tipo de avaliação. Além disso, pode-se também
comparar os sumários produzidos com sumários de referência, denominados sumários
ideais. A seguir são destacados os principais aspectos e parâmetros considerados em
avaliações intrínsecas da SA.
3.1.1. Coerência e Coesão
Um dos aspectos importantes de um sumário é sua legibilidade. Tal
característica pode ser avaliada através de notas atribuídas à sua coerência com base em
algum critério.
De acordo com (GRAUDEZ, 2008):
Coesão - harmonia interna entre as partes de um texto. É garantida por
ligações, de natureza gramatical e lexical, entre os elementos de uma frase ou
de um texto.
Coerência - relação lógica entre idéias, situações ou acontecimentos. Pode
apoiar-se em mecanismos formais, de natureza gramatical ou lexical, e no
conhecimento partilhado entre os usuários da língua (GRAUDEZ, 2008).
37
A falta de coerência, geralmente ocorre devido a mudanças radicais de assunto,
erroneamente não sinalizadas e pode ser detectada por um falante de uma língua,
quando este não encontra sentido lógico entre as proposições de um enunciado oral ou
escrito.
Um texto coeso possui ligações semânticas válidas entre suas sentenças. Tais
ligações se manifestam na forma de pronomes e outros recursos da linguagem. Dessa
forma, é interessante discutir alguns aspectos lingüísticos que promovem a coerência e
coesão textual.
Geralmente, leitores humanos reconhecem um texto como sentença ou coleção
de sentenças por serem capazes de identificar claramente um relacionamento entre as
idéias que são progressivamente apresentadas. Conseqüentemente, nas pesquisas de SA
e outros estudos de PLN, é importante identificar as características que tornam um texto
coerente, e quais as formas de se distinguir uma unidade gramatical coesa de um
conjunto de sentenças aleatoriamente reunidas.
Por ser uma unidade semântica, a textualidade deve ser interpretada dentro de
um contexto ou ambiente específico. Os textos podem ser apresentados em variados
tamanhos.
Um exemplo de manifestação textual coerente poderia ser:
[3.1]: Lave e descasque 11 batatas. Coloque-as em uma panela com água.
Essa seqüência de sentenças é coerente, pois o pronome oblíquo átono “as” na
segunda sentença claramente refere-se ao objeto direto “batatas” apresentado na
primeira sentença. Se interpretadas de forma isolada, ambas as sentenças não
apresentariam o mesmo significado que carregam quando analisadas conjuntamente. A
segunda sentença, sem sua referência contextual não poderia ser considerada uma
construção textual adequada.
Embora documentos de texto geralmente possuam mais que uma sentença,
algumas expressões da língua natural podem ser constituídas apenas por pequenas
frases, como placas de aviso e slogans como, por exemplo:
[3.2]:
a) Proibido pescar.
b) Bicho de goiaba, goiaba é.
As relações de coesão entre palavras e sentenças podem ser reconhecidas por
meio de algumas características semânticas e superficiais presentes na expressão
38
textual. Como exemplos dessas características podem ser citados: referência,
substituição, elipse e conjunção.
As relações referenciais podem ser expressas por endóforas como as anáforas e
catáforas. AURÉLIO (2004) define uma anáfora como: “elemento lingüístico cuja
referência não é independente, mas ligada à de um termo antecedente”. Uma catáfora é
definida por este mesmo autor como: “unidade lingüística que se refere a outra,
enunciada mais adiante”.
No exemplo 3.1 observa-se uma referência endofórica (em particular uma
anáfora) na segunda sentença, onde o pronome “as” faz referência à “batatas”. A
referência sugere ao leitor o tipo de informação que deve ser recuperada. Desse modo, a
manifestação “as” do pronome pessoal “elas” obriga o leitor buscar o significado desse
pronome em alguma passagem anterior do texto.
Existem referências cuja resolução não pode ser encontrada explicitamente nos
textos em que ocorrem. Estas são denominadas referências exofóricas e sua
compreensão depende do conhecimento do ambiente em que são utilizadas. Portanto, a
resolução desse tipo de referência não depende apenas de fatores lingüísticos, mas do
conhecimento do mundo exterior e do contexto no qual elas são utilizadas.
A substituição é uma variação de referência na qual uma palavra passa a
representar outra no contexto em que aparecem. Enquanto uma referência é uma relação
de significados, a substituição é um relacionamento gramatical. As substituições podem
ser realizadas entre diferentes elementos gramaticais como nomes (substantivos),
verbos, ou até mesmo orações. No exemplo 3.3 é ilustrado esse relacionamento
lingüístico:
[3.3] Vamos ver os peixinhos. Os alaranjados vieram do Japão.
Na segunda sentença “alaranjados” assume o lugar de “peixinhos”, que ocorre
na sentença anterior. A substituição nominal e a verbal ocorrem da mesma forma,
substituindo-se um verbo ou uma oração da sentença anterior.
Uma elipse ocorre quando uma palavra é omitida no texto embora o efeito
comunicativo pretendido por ela deva ser identificado no texto. Para identificar o
conteúdo omitido, o leitor deve recuperar informação específica nas passagens
anteriores do texto. No exemplo 3.4 é ilustrada uma situação onde ocorre esse tipo de
construção lingüística.
[3.4]: Sebastião comprou maçãs e Joana alguns legumes.
A única interpretação possível é que “Joana comprou alguns legumes”.
39
Por fim, o relacionamento de conjunção atua de forma distinta dos outros três
relacionamentos discutidos anteriormente. A conjunção não é um relacionamento
estritamente semântico ou anafórico, ela depende do ambiente completo do texto. Os
elementos conjuntivos pressupõem a existência de outros componentes no discurso e
são responsáveis por estabelecer uma ligação de coerência entre duas sentenças.
Exemplos desses elementos são: “assim”, “portanto”, “e”, “desse modo”,
“conseqüentemente”, “além disso“ etc. O exemplo 3.5 ilustra a conjunção entre
sentenças. Apesar de haver uma mudança notável no conteúdo informativo das
sentenças elas ainda constituem uma expressão textual coerente.
[3.5]: O barbeiro disse à mulher: “Sente-se e relaxe enquanto pego os
instrumentos”. Então ele dirigiu-se a um armário e pegou uma tesoura.
As questões de coerência e coesão discutidas anteriormente devem ser
investigadas tanto na avaliação quanto no desenvolvimento de sumarizadores
automáticos. Sumários gerados por extração podem ser compostos de material extraído
fora de contexto, e neste caso problemas de coerência podem ocorrer: referências
anafóricas não resolvidas, perda de integridade em estruturas como listas e tabelas,
presença de tautologias (um vício de linguagem que consiste em repetir o mesmo
pensamento com palavras diferentes) etc.
3.1.2. Informatividade
A informatividade diz respeito à informação contida no sumário. Essa
característica é profundamente influenciada pela a taxa de compressão do sumário.
Quanto menor for um sumário (alta taxa de compressão) menos informação da fonte é
preservada no sumário. Assim, a avaliação da informatividade de sumários verifica
quanto da informação do texto original é preservado no sumário. A informatividade
pode ser avaliada comparando-se o conteúdo do sumário gerado automaticamente com
o conteúdo de um ou mais sumário(s) de referência(s).
Pardo e Rino (2003a) destacam três tipos de sumários de referência:
Sumários autênticos: aqueles produzidos pelo próprio autor do texto-fonte;
Sumários profissionais: produzidos a partir do texto-fonte por um escritor
especialista em técnicas de sumarização;
Extratos ideais: sumários compostos somente pelas sentenças mais
representativas do texto fonte.
As formas de se construir um sumário de referência são diversas. Os sumários de
referência escritos por humanos refletem toda a subjetividade do indivíduo e os
elaborados por ferramentas automatizadas terão seu conteúdo influenciado pelas
características da arquitetura do sistema que os gerou. Costuma-se elaborar os extratos
ideais a partir da medida do co-seno (SALTON, 1989 apud PARDO et al., 2003b)
buscando-se no texto fonte as sentenças mais similares às sentenças do sumário
autêntico.
O uso de sumários autênticos e sumários profissionais como dados de referência
pode dificultar a comparação entre os extratos e os sumários de referência, pois estes
últimos geralmente não preservam as sentenças dos textos-fonte da forma que elas
ocorrem.
Dessa forma, nas avaliações de sumarizadores extrativos baseadas em
comparação com dados de referência é preferível utilizar extratos ideais, pois estes são
compostos apenas por sentenças do texto-fonte, possibilitando a comparação entre as
sentenças do extrato ideal e sentenças do extrato automático. Além disso, a comparação
pode ser automatizada adotando as métricas Precisão e Cobertura, amplamente
utilizadas em tarefas de Recuperação de Informação, e métricas derivadas de
combinações dessas duas como, por exemplo, a f-measure (PARDO et al., 2003b;
PARDO; RINO 2003a). A precisão (P), a cobertura (C) e a f-measure (F) são dadas
pelas seguintes fórmulas:
(3.1)
Nsa
Nsasr
P =
(3.2)
Ns
r
Nsasr
C =
(3.3)
CP
C P 2
F
+
×
×
=
onde Nsasr é o número de sentenças do sumário automático presentes no
sumário de referência, Nsa é o número de sentenças do sumário automático e Nsr é o
número de sentenças do sumário de referência.
De acordo com essa formulação, a precisão é a razão entre o número de
sentenças do sumário automático coincidentes com as do sumário ideal e o número total
40
41
de sentenças do sumário. A cobertura é a proporção de sentenças do sumário automático
que coincidem com as do sumário ideal.
Jing et al. (1998) conduziram dois grandes experimentos de avaliação com
sumarizadores extrativos para investigar os métodos baseados em comparação com
sumários de referência e os baseados na realização de tarefas (avaliações extrínsecas).
Seus resultados demonstraram que os diferentes parâmetros dos experimentos
podem influenciar profundamente a pontuação dos sistemas de sumarização. Alguns dos
parâmetros investigados foram:
Concordância entre os juízes para a elaboração de sumários de referência;
Tamanho do sumário automático
A influência da formulação das métricas de precisão e cobertura
Nível de dificuldade das perguntas para avaliações do tipo perguntas-e-
respostas
Características dos documentos.
Jing et al. (1998) observaram que para a avaliação baseada em sumários ideais, a
validade da avaliação diminui na medida em que se aumenta o tamanho dos sumários.
Eles destacam também que a comparação das medidas de precisão e cobertura entre
diferentes sistemas pode não ser válida, em função da estrutura dos textos utilizados e
das diferentes estratégias utilizadas para calcular o tamanho dos sumários em função da
taxa de compressão especificada. Alguns sistemas podem utilizar a noção de palavras
enquanto outros se baseiam em sentenças para medir os documentos.
Um problema apontado por Jing et al. (1998) em relação as medidas de precisão
e cobertura é que devido à natureza binária dessas métricas, elas não são apropriadas
para se avaliar a sumarização. Esta observação é justificada pelo fato de que não existe
um único sumário correto para um documento. Por esse motivo, uma pequena variação
no extrato produzido (caso o sistema troque uma sentença por outra igualmente
relevante, mas que não foi indicada pela maioria dos juizes para compor o extrato ideal)
pode influenciar profundamente a pontuação do sistema de sumarização.
Neste caso, eles sugerem o uso de versões fracionadas de precisão e cobertura
que levem em consideração a pontuação geral de todas as sentenças consideradas
relevantes além daquelas selecionadas para o sumário ideal.
Na avaliação por meio de tarefas, os resultados apontaram os impactos do
tamanho dos sumários, tipo de perguntas utilizadas e o tipo de documento. Eles sugerem
42
que tamanho do sumário deveria ser escolhido pelo próprio sistema visto que não
encontraram uma relação direta entre tamanho do sumário e desempenho das tarefas.
Devem-se evitar perguntas que permitam facilmente determinar a relevância dos
documentos bem como documentos cujas palavras-chave caracterizam precisamente o
texto (JING et al.,1998).
Em uma pesquisa sobre sumarização multi-documento e avaliação de sumários
automáticos, Radev et al. (2000) propõem um sumarizador chamado MEAD, baseado
na clusterização de documentos, e um processo de avaliação de sumários que adota uma
nova métrica calculada em função da utilidade e redundância das sentenças. Para o
cálculo da medida de utilidade, eles pediram a juizes que dessem notas, em uma escada
de 0 a 10, para todas as sentenças do texto fonte. A pontuação geral do sumário
automático é então calculada em função das notas de suas sentenças.
Pardo e Rino (2002 apud PARDO; RINO, 2003a), numa forma alternativa de
avaliação, pedem a juizes humanos que dêem notas a sumários automáticos de acordo
com a preservação da idéia principal dos textos-fonte correspondentes. As notas, nesse
caso, indicam se o sumário preserva, preserva parcialmente ou mesmo não preserva a
idéia principal. Eles se baseiam na hipótese de que um sumário com o mínimo de
informação, deve transmitir ao menos a idéia principal do texto-fonte.
Conforme já mencionado, um grande desafio na utilização de juízes humanos
constitui a subjetividade e a concordância dos julgamentos: a baixa concordância entre
os juízes pode tornar a avaliação inadequada ou inválida. O problema da subjetividade
pode ser atenuado por meio de especificações claras dos critérios empregados na
avaliação.
Siegel e Castellan (1988 apud PARDO; RINO, 2003a) descrevem uma métrica
que pode ser utilizada para verificar o nível de concordância entre julgamentos
humanos: a medida Kappa.
Apesar da falta de métricas e procedimentos padronizados nas pesquisas que
envolviam a avaliação de sumarizadores até o ano de 2003, atualmente há uma proposta
que é cada vez mais utilizada, e pode vir a se estabelecer como uma referência
internacional para a avaliação da SA. Trata-se do pacote de avaliação de sumarização
ROUGE
6
(Recall-Oriented Understudy for Gisting Evaluation) (LIN, 2004) que permite
6
http://berouge.com/default.aspx
43
avaliar a qualidade de sumários através de procedimentos automatizados. Este sistema
tem sido utilizado tanto em pesquisas isoladas quanto nas atividades de avaliação em
larga escala da conferência internacional DUC desde 2004 (BALAGE FILHO et al.,
2007a, 2007c; ROUGE, 2008).
O pacote ROUGE disponibiliza métricas estatísticas que descrevem a qualidade
de um sumário automático comparando-o com outro sumário (um sumário de
referência) elaborado manualmente. As métricas são calculadas através da contagem de
unidades textuais coincidentes entre o sumário automático a ser avaliado e o sumário
ideal escrito por humanos. Tais unidades são n-gramas, seqüências de palavras e pares
de palavras. Em sua versão 1.5.5, a ferramenta disponibiliza as métricas: ROUGE-N,
ROUGE-L, ROUGE-W e ROUGE-S. Segundo os autores o desempenho do processo de
avaliação baseada na co-ocorrência de n-gramas entre pares de sumários, adotado pela
ROUGE, aproxima-se muito das avaliações humanas (ROUGE, 2008). O problema é
que esse tipo de avaliação ainda requer a construção de sumários manuais, o que
demanda uma equipe de profissionais competentes.
3.2. Avaliação Extrínseca
A avaliação extrínseca tem por objetivo avaliar um sumarizador através da
realização de alguma tarefa específica. Dentre as tarefas freqüentemente utilizadas para
esse tipo de avaliação podem ser citadas (MANI, 2001):
Categorização de documentos: leitores humanos devem, após a leitura dos
sumários, atribuir uma categoria ou classe aos documentos. Na situação ideal,
espera-se que a taxa de acertos não degrade e que o tempo necessário para a
classificação diminua;
Recuperação de informação: é realizada uma busca numa base de documentos.
Dado um tópico deve-se retornar como resultado os documentos da base cujo
tópico coincida com o tópico solicitado. Nessa avaliação, a busca, que pode ser
automática ou manual, é realizada utilizando-se os sumários em lugar das
versões completas dos documentos. O sucesso da busca é analisado por juízes
humanos e verifica-se então a taxa de acertos e o tempo da busca. De forma
semelhante à categorização, espera-se manter a taxa de acertos e reduzir o tempo
de busca;
44
Perguntas e respostas: na avaliação extrínseca de perguntas e respostas a
informatividade dos sumários é avaliada. A partir de uma base de documentos,
são elaboradas perguntas de múltipla escolha para cada documento. A seguir, o
sumarizador é utilizado para gerar os sumários correspondentes e a seguir os
juizes humanos deverão responder as mesmas perguntas em três situações: sem a
leitura dos textos originais nem os sumários, lendo apenas os sumários e, por
fim, lendo os documentos completos. Se os sumários forem suficientemente
informativos, espera-se que os juizes sejam capazes de responder as perguntas
lendo apenas os sumários.
Assim como ocorre com as avaliações intrínsecas, a realização de uma avaliação
extrínseca não é livre de dificuldades:
Em geral são custosas, por dependerem de juízes humanos;
É difícil utilizar documentos longos, pois eles deverão ser lidos pelos juizes em
tempo hábil, e sendo muito curtos não há necessidade de sumários;
Esse tipo de avaliação não fornece qualquer indício sobre que tipo de
aprimoramento pode ser realizado nos sumarizadores, já que os sistemas de SA
são avaliados indiretamente, por meio de tarefas nas quais estão inseridos;
Pode ser difícil modelar tarefas extrínsecas que reflitam as situações do mundo
real;
45
4 Sumarizadores automáticos
Os experimentos conduzidos no presente trabalho foram realizados com base em
quatro sistemas de SA que geram sumários através da metodologia empírica, isto é,
utilizam técnicas extrativas. O GistSumm (PARDO, 2002b, 2005; PARDO et al.,
2003a) e o NeuralSumm (PARDO et al., 2003b), distribuídos
7
gratuitamente, foram
desenvolvidos por pesquisadores de lingüística computacional do meio acadêmico e
destinam-se exclusivamente à tarefa de sumarização. Os outros dois sumarizadores
estão disponíveis como funções integradas a ferramentas comerciais de tratamento de
textos. O AutoResumo é a ferramenta de SA disponível no Microsoft Office Word. O
sistema de mineração de textos TextAnalyst, oferece várias funções para a análise de
textos ou coleções de textos. A seguir, as principais características de cada sumarizador
serão apresentadas.
4.1 GistSumm
Desenvolvido como projeto acadêmico, o GistSumm (GIST SUMMarizer) se
baseia em um método extrativo inédito para a geração dos sumários (PARDO, 2002b).
Através de técnicas estatísticas, ele tenta determinar a sentença que melhor representa a
idéia central, o gist, do texto a sumarizar. Com base nesta sentença, denominada
sentença-gist, outras sentenças são identificadas e selecionadas para compor o extrato,
de forma que requisitos da sumarização como textualidade e restrições de compressão
sejam satisfeitos (PARDO; RINO, 2003a). Conseqüentemente, a extração de sentenças
no GistSumm é realizada em função de dois parâmetros: a sentença-gist, que direciona o
processo, e a taxa de compressão desejada, que determina o número de sentenças
adicionais que devem ser incluídas no extrato.
Pardo (2002b) relata que o método descrito acima simula a forma humana de
sumarizar: “quando uma pessoa sumariza um texto, ela procura identificar a idéia
7
Disponíveis em: <http://www.icmc.usp.br/~taspardo/GistSumm.htm> e
http://www.icmc.usp.br/~taspardo/NeuralSumm.htm
46
principal deste (que, em inglês, é o gist do texto) e as informações do texto que a
complementem.” (PARDO, 2002b, p.1). Como o GistSumm baseia-se na identificação
da idéia principal do texto, deve-se considerar, adicionalmente às premissas básicas da
SA apresentadas na seção 2.3 deste trabalho, que sempre é possível identificar no texto
a sentença-gist. Em função dessas premissas as seguintes hipóteses para o
desenvolvimento do GistSumm foram definidas para validar a estratégia de sumarização
desse sistema (PARDO, 2002b):
1. é possível identificar a sentença-gist, ou uma sentença que melhor se aproxime
desta, por meio de métodos estatísticos;
2. conhecendo-se a sentença-gist, é possível produzir extratos coerentes por meio
da justaposição de sentenças do texto-fonte relacionadas à sentença-gist, sendo
estas complementares à idéia principal do texto- fonte.
O processo de sumarização no GistSumm, fundamentado em uma metodologia
empírica sem treinamento, pode ser dividido em três etapas (PARDO, 2002b):
1. Delimitação sentencial;
2. Ranqueamento das sentenças;
3. Seleção das sentenças.
Após delimitar todas as sentenças do texto fonte, o GistSumm inicia o processo
de ranqueamento, que consiste em ordená-las por suas pontuações. As sentenças serão
pontuadas em função do método de ranqueamento selecionado.
A versão do GistSumm utilizada neste trabalho permite o uso de duas métricas
para a determinação da sentença-gist: keywords (BLACK; JOHNSON, 1988 apud
PARDO, 2002b) e average keywords, que é uma variação do método keywords. Ambas
baseiam-se na distribuição de freqüência das palavras no texto-fonte. Por padrão, o
sistema adota o método keywords quando o usuário não indica que método deve ser
utilizado. A sentença que obtém a maior pontuação é escolhida como a sentença-gist.
Através do método keywords (ou método das palavras-chave), a nota de cada
sentença é a soma do número de ocorrências de cada uma de suas palavras no texto-
fonte. A hipótese sustentada por este método é que palavras mais freqüentes (palavras-
chave) indicam o assunto principal de um texto. Pelo método average keywords, a nota
é o valor calculado pelo método keywords normalizado em função do tamanho da
sentença (medido em número de palavras) (PARDO, 2005).
Para ranquear as sentenças o GistSumm cria uma representação vetorial de cada
sentença do texto fonte e realiza os seguintes processos (PARDO, 2002b): case folding,
47
troca por canônicas, remoção de stopwords, pontuação das sentenças e finalmente o
ranqueamento propriamente dito dos vetores em função da pontuação obtida pelo
método escolhido.
De acordo com (PARDO, 2002b), na etapa de troca por canônicas GistSumm
utiliza um léxico que foi elaborado a partir do léxico do NILC
8
(Núcleo
Interinstitucional de Lingüística Computacional), que segundo este mesmo autor, seria
até então o maior léxico para a língua portuguesa.
Na seleção das sentenças para construir o extrato, o GistSumm calcula a média
das pontuações das sentenças e utiliza esse valor como um limiar para a seleção das
possíveis sentenças complementares para o sumário. Juntamente com a sentença-gist,
são selecionadas todas as sentenças do texto-fonte que contiverem ao menos uma
palavra presente na sentença-gist, e aquelas que possuírem pontuação maior que o valor
limiar definido anteriormente.
Além disso, quando o usuário especifica uma taxa de compressão, a seleção das
sentenças complementares à sentença-gist é realizada sempre respeitando o tamanho
desejado para o sumário.
Por utilizar técnicas estatísticas para a determinação da idéia principal e para a
seleção das sentenças complementares, o GistSumm é um sistema capaz de sumarizar
textos de qualquer gênero, domínio ou língua ocidental. Para tanto é preciso que sejam
configuradas a lista de stopwords e sua estratégia de substituição das palavras por
formas canônicas em função da língua desejada. (PARDO, 2002b; PARDO et al.,
2003a).
A primeira versão do GistSumm, detalhada em (PARDO, 2002b), sofreu
modificações de forma a incorporar extensões ao sistema e acrescentar novas
funcionalidades. A versão atual do GistSumm possui as seguintes características
(PARDO, 2002b, 2005):
sumarização extrativa, isto é, geração do sumário a partir da seleção e
justaposição de sentenças inteiras;
sumarização mono e multi-documento: para a sumarização multi-documento, o
GistSumm simplesmente justapõe todos os textos-fonte, compondo um novo
documento no qual é aplicado o seu processo tradicional de sumarização. No
8
http://www.nilc.icmc.usp.br/nilc/index.html
48
entanto, o sistema atual não trata questões complexas da sumarização multi-
documento, como por exemplo, a eliminação de informações redundantes;
realização de sumarização intra-sentencial, ou seja, sumarização no interior das
sentenças, onde o processo de sumarização ocorre normalmente, porém, ao final
são removidas as stopwords de todas as sentenças do sumário produzido;
geração de sumários genéricos: o tema principal do sumário estará relacionado à
informação transmitida pela sentença-gist;
geração de sumários focados nos interesses do usuário: os sumários são
construídos dando ênfase a tópicos específicos, que podem constituir perguntas
ou fatos de interesse do usuário. Neste caso, procura-se pela sentença que mais
se assemelhe à informação fornecida pelo usuário em vez da sentença de maior
pontuação utilizando-se como parâmetro de similaridade a medida do cosseno
(SALTON, 1989 apud PARDO, 2005);
o ranqueamento das sentenças pode ser feito através do método keywords ou do
método average keywords. O método TF-ISF (LAROCCA NETO et al., 2000),
presente na primeira versão, foi removido devido ao seu baixo desempenho
neste sistema.
Além disso, existem duas implementações do GistSumm, uma para sumarizar
textos em português do Brasil e outra destinada a documentos em inglês. A tabela 4.1
permite uma comparação das principais características presentes nas duas versões do
GistSumm.
Tabela 4.1 – Características das versões do GistSumm
Características Versão inicial Versão nova
Sumarização mono documento
Sim Sim
Sumarização multi-documento
Não Sim
Sumarização Intersentencial
Sim Sim
Sumarização Intra-sentencial
Não Sim
Tipo de sumário
Genérico
Genérico ou focado em
interesse do usuário
Métodos de ranqueamento
Keywords, average
keywords e TF-ISF
Keywords e average keywords
Idioma da fonte textual
Português Português e inglês
Linguagem de desenvolvimento
Object Pascal/
Borland Delphi
C
Sistema operacional
MS Windows MS Windows, Unix/Linux
Fonte: Adaptado de (PARDO, 2005)
Balage Filho et al. (2006b) apresentam um estudo no qual são observadas
algumas limitações do GistSumm e sugeridos alguns aprimoramentos à nova versão.
Uma das propostas desses autores foi a substituição do método de segmentação
sentencial do GistSumm pela estratégia adotada no SENTER (PARDO, 2006), um
sistema de delimitação de sentenças desenvolvido no NILC, para a realização desta
tarefa de pré-processamento. Dessa forma, o texto que será processado pelo GistSumm
será a saída produzida pelo SENTER.
Embora o componente principal de sumarização do GistSumm não ofereça uma
ambiente gráfico para sua manipulação, a versão atual dispõe de um utilitário auxiliar
com interface gráfica para a especificação dos parâmetros exigidos pelo sistema (figura
4.1). O GistSumm suporta somente arquivos no formato texto plano. No anexo A,
encontra-se a lista stopwords utilizada pelo GistSumm.
Figura 4.1 – Interface gráfica para configuração do GistSumm
4.2 NeuralSumm
O NeuralSumm (NEURAL network for SUMMarization) (PARDO et al.,
2003b) representa uma abordagem conexionista de SA, que utiliza uma rede neural do
tipo SOM (self-organizing map) (KOHONEN, 1982 apud PARDO et al., 2003a) para
produzir um sumário do tipo extrato. A rede é treinada para identificar as sentenças
importantes do texto-fonte que deverão compor o sumário. As sentenças são associadas
49
50
a um conjunto de atributos que são extraídos do texto-fonte durante o processo de
sumarização. É com base neste conjunto de atributos que o grau de importância de cada
sentença é definido.
Pardo et al. (2003b) relatam que este foi o primeiro sistema a utilizar uma rede
neural do tipo SOM, embora já existissem outros trabalhos fundamentados em técnicas
de aprendizagem de máquina para a sumarização.
A rede neural do NeuralSumm foi configurada para classificar as sentenças
como: essenciais, complementares ou supérfluas. As sentenças essenciais indicam a
idéia central de um texto. Sentenças complementares têm por objetivo acrescentar
conteúdo à idéia central. Já as sentenças supérfluas são aquelas que não transmitem
conteúdo, portanto descartáveis na construção do sumário.
Os atributos utilizados pelo NeuralSumm para a classificação das sentenças
representam um subconjunto de características introduzidas em outras pesquisas sobre
SA e, com a exceção de um (presença de palavras indicativas nas sentenças), são
independentes de gênero textual e domínio. Trata-se, portanto de uma metodologia que
pode ser ajustada para vários tipos de textos. Seguem abaixo os atributos utilizados para
a classificação das sentenças com as respectivas referências aos pesquisadores que
introduziram ou discutiram sua utilização na SA (PARDO et al., 2003b):
1. Tamanho da sentença (KUPIEC et al., 1995);
2. Posição da sentença no texto (BAXENDALE, 1958);
3. Posição da sentença no parágrafo a que pertence (BAXENDALE, 1958);
4. Presença de palavras-chave na sentença (LUHN, 1958);
5. Presença de palavras da “gist sentence” na sentença (PARDO, 2002b);
6. Pontuação da sentença com base na distribuição das palavras do texto (BLACK;
JOHNSON, 1988 apud PARDO et al., 2003b);
7. TF-ISF da sentença (LAROCCA NETO et al., 2000);
8. Presença de palavras indicativas na sentença (EDMUNDSON, 1969; PAICE,
1981);
51
A sumarização deste sistema pode ser dividida em quatro estágios (PARDO et
al., 2003b):
1. Delimitação das sentenças;
2. Extração do conjunto de características das sentenças;
3. Classificação das sentenças como essenciais, complementares ou supérfluas, em
função do cluster definido pela rede neural para cada conjunto de características
associado às sentenças;
4. Produção do extrato.
Na etapa 2, é realizado um pré-processamento do texto-fonte de modo a
aprimorar os resultados. O pré-processamento consiste de: remoção de stopwords, troca
de palavras por suas formas canônicas através de um léxico, e case folding.
No estágio final, a seleção das sentenças para a criação do sumário se dá em
função da classificação atribuída ao seu conjunto de atributos e pelas restrições de
compressão da seguinte forma (PARDO et al., 2003b):
são selecionadas somente as sentenças classificadas como essenciais ou como
complementares;
caso todas as sentenças tiverem sido classificadas como supérfluas, elas serão
ordenadas em função do valor calculado para a distribuição de palavras (atributo
6) e as com maior pontuação serão selecionadas.
Quando a taxa de compressão limita o número de sentenças selecionadas, as
essenciais têm prioridade sobre as complementares. Para fazer a seleção de sentenças
complementares, as sentenças dessa classe são ordenadas em função da distribuição de
palavras (atributo 6) e aquelas com maiores pontuações têm prioridade sobre as demais.
Por se basear em aprendizagem de máquina, o NeuralSumm é um sistema cujo
desempenho é influenciado pelo procedimento de treinamento da rede neural. A versão
utilizada neste trabalho está configurada para a sumarização de textos em português do
Brasil, em função de seu léxico, sua lista de stopwords e o seu dicionário de palavras
indicativas serem específicos para esta língua.
A versão mais recente do NeuralSumm é compatível apenas com os sistemas
operacionais Microsoft Windows e sua interface é exibida na figura 4.2. O formato de
arquivo de texto suportado é apenas o de texto plano.
Figura 4.2 – Interface do NeuralSumm
4.3 AutoResumo
O AutoResumo (MICROSOFT, 2003) é o recurso de SA disponibilizado pelo
processador de textos Microsoft Office Word. De acordo com MICROSOFT (2003),
este sumarizador automático apresenta melhor funcionamento em documentos bem
estruturados, como relatórios, artigos e documentos científicos.
A determinação das sentenças importantes no AutoResumo baseia-se na
freqüência das palavras. Dessa forma, as sentenças que contêm palavras que ocorrem
com mais freqüência no texto recebem uma pontuação mais alta. O sumário é
construído selecionando-se uma percentagem das sentenças mais importantes ao tema
principal do texto-fonte. Esta percentagem é ajustada pelo usuário.
O AutoResumo pode sumarizar textos no idioma definido na instalação do
Microsoft Office Word. Caso o idioma do documento for diferente do escolhido para a
instalação do Microsoft Office Word, ele automaticamente gera o sumário baseando-se
no idioma do texto-fonte, desde que este os recursos lingüísticos para o idioma do texto
a sumarizar estejam instalados.
Neste trabalho foi utilizado o Microsoft Office Word 2003, sistema capaz de
sumarizar documentos escritos em chinês simplificado e tradicional, inglês, francês,
alemão, italiano, japonês, coreano, português (Brasil), espanhol ou sueco.
52
53
Na interface do Microsoft Office Word 2003 o AutoResumo pode ser acionado a
partir do menu “Ferramentas” escolhendo-se a opção “AutoResumo”. Quando acionado,
o AutoResumo realiza a identificação das sentenças importantes e apresenta uma tela a
partir da qual pode-se:
escolher entre quatro opções para a geração do sumário:
o Gerar sumário através do realce das sentenças relevantes selecionadas;
o Acrescentar o sumário como uma sinopse ou síntese no início do
documento;
o Criar o resumo em um novo documento;
o Ocultar as sentenças que não fizerem parte do sumário mantendo-as no
mesmo arquivo que armazena o documento original. Neste caso, as
informações não selecionadas, embora não exibidas, continuam
armazenadas no arquivo.
definir o tamanho do sumário, que pode ser feito através da especificação de um
valor percentual qualquer entre 0 e 100 ou por quatro opções não fixadas:
o 10 ou 20 sentenças;
o 100 palavras ou menos;
o 500 palavras ou menos;
pré-visualizar informações estatísticas do documento original e do sumário, sendo
estas medidas o número de palavras e de sentenças.
A tela do AutoResumo é apresentada na figura 4.3. Nesta janela, cabe ao usuário
escolher a forma como o sumário será criado e o percentual (ou número de sentenças)
para o sumário.
Figura 4.3 – Janela de configuração do AutoResumo
As opções de criação de resumo por realce ou por omissão de sentenças não
selecionadas para o sumário apresentam o sumário na janela de conteúdo do Microsoft
Word e exibe uma barra para que o usuário possa redefinir o percentual de sentenças do
resumo a qualquer momento, como ilustrado na figura 4.4.
Figura 4.4 – Barra para configuração do tamanho do sumário
O AutoResumo pode sumarizar qualquer documento de texto que estiver em um
formato suportado pelo Microsoft Office Word. A seguir é apresentado o sistema
TextAnalyst.
54
55
4.4 TextAnalyst
O TextAnalyst é um sistema de mineração de textos em língua natural que, de
acordo com (TEXTANALYST, 2003), utiliza técnicas robustas de análise e de
processamento capazes de lidar com textos de assuntos variados. Resultado de vinte
anos de pesquisas (TEXTANALYST, 2003), o TextAnalyst pode manipular textos que
utilizem caracteres alfanuméricos em qualquer idioma. Para isto, basta ajustar os
recursos dependentes de língua no estágio de pré-processamento: a lista de palavras
comuns que devem ser consideradas irrelevantes na análise do texto.
O método de processamento utilizado pelo TextAnalyst se baseia no uso de
redes neurais para a criação de grafos que descrevem a organização e inter-
relacionamentos das informações no texto.
O sistema trata os textos como uma seqüência de símbolos constituindo palavras
e sentenças, a partir dos quais uma rede neural hierárquica é construída inserindo-se
símbolos adicionais obtidos pela varredura do texto. Esta rede neural hierárquica possui
vários níveis ou camadas de forma que os elementos que ocorrem com maior freqüência
no texto-fonte são inseridos nos níveis hierárquicos mais altos. Os elementos
operacionais básicos utilizados durante a análise são as palavras.
A partir de transformações realizadas na arquitetura da rede, é gerado um grafo,
denominado rede semântica que representa a lista das palavras mais importantes e
combinações dessas palavras do texto e o relacionamento entre elas. As palavras e
combinações de palavras são denominadas conceitos semânticos. A rede semântica é
uma representação lingüisticamente precisa e concisa do texto em análise. Os elementos
que compõem este grafo recebem pesos semânticos de acordo com sua importância no
texto.
Na análise de um texto, o TextAnalyst primeiramente realiza um pré-
processamento para a remoção de stopwords. O usuário pode utilizar dicionários
personalizados para incluir palavras que devem ser analisadas ou não pelo TextAnalyst.
O uso de dicionários personalizados é particularmente útil para se obter melhores
resultados na análise de textos pertencentes a um domínio específico. Através de um
editor fornecido juntamente com este sistema, o usuário pode criar e editar dicionários
personalizados. A tela desse módulo, denominado editor de vocabulário, é apresentada
na figura 4.5. Além de definir o nível de relevância de palavras é possível estabelecer
relações de dependência entre elas.
Figura 4.5 – Editor de vocabulário
No dicionário, as palavras podem ser definidas como (TEXTANALYST, 2003):
palavras de usuário: palavras que, o usuário deseja que sejam inseridas na rede
semântica caso o TextAnalyst as julgar importantes;
palavras comuns: palavras às quais o sistema deve atribuir pouca importância
semântica quando analisadas de forma isolada; estas palavras são geralmente
utilizadas como modificadoras de outras palavras semanticamente mais
importantes. O TextAnalyst não as analisa, a menos que estejam combinadas
com outras palavras formando um conceito semântico importante;
palavras não analisadas: representam artigos e outras palavras que não devem ser
analisadas em qualquer circunstância pelo TextAnalyst;
palavras excepcionais: constituem palavras que não seguem as regras gerais do
processo de stemming.
A partir dos textos fornecidos como entrada, o TextAnalyst monta uma base de
conhecimentos na qual é possível realizar tarefas como:
56
Visualização da estrutura dos tópicos
Filtragem do significado do texto
Sumarização automática (mono e multi-documento)
Recuperação de informações semânticas
Buscas semânticas e por palavras
Agrupamento
A tela principal do TextAnalyst, após realizar a sumarização de um texto em
português, é mostrada na figura 4.6. As subdivisões na janela são as seguintes: a
superior esquerda permite gerenciar os arquivos e acessar os conceitos semânticos
identificados pelo sistema, além de outras funções. O texto na subdivisão inferior (onde
ocorrem passagens grifadas em verde) representa o documento em análise. O sumário
produzido encontra-se na subdivisão superior direita (com segmentos grifados em
vermelho).
Figura 4.6 – Tela principal do TextAnalyst - Sumarização
O TextAnalyst utiliza uma técnica extrativa de SA. Durante a sumarização, ele
calcula para cada sentença uma nota denominada peso semântico em função dos pesos
dos conceitos semânticos presentes na sentença e dos relacionamentos entre eles. Em
57
58
seguida, todas as sentenças com valores maiores ou iguais a um limiar de peso
semântico, são selecionadas para compor o extrato.
O valor padrão do limiar é 90. Neste caso, todas as sentenças com peso
semântico igual ou maior a 90 serão exibidas no sumário. Este valor pode ser ajustado a
qualquer momento pelo usuário.
O conceito de taxa de compressão torna-se um pouco confuso no contexto desse
sistema. No TextAnalyst, o tamanho do sumário irá depender unicamente do número de
sentenças com pesos semânticos maiores que o limiar. Em outras palavras, o usuário
não tem como especificar o tamanho desejado para o sumário em função de conceitos
de compressão comumente disponibilizados em outros sistemas que realizam SA, tais
como percentual relativo ao documento original, número máximo de sentenças, número
máximo de palavras etc. Para atingir um tamanho desejado, deve-se variar o limiar que
limita a seleção de sentenças até obter-se o número de sentenças próximo do desejado.
O sistema apresenta as seguintes informações sobre o sumário:
Tamanho do sumário;
O tamanho percentual do sumário em função do tamanho do documento
original;
Número de sentenças contidas no sumário
Uma outra observação diz respeito ao tamanho percentual do sumário em
relação ao documento original apresentado pelo sistema. Este valor considera o tamanho
do sumário e do documento original em termos de bytes e não de número de sentenças,
palavras ou mesmo letras. Em sua versão atual, o TextAnalyst aceita como entrada
arquivos de texto plano ou arquivos RTF (Rich Text Format).
59
5 Avaliação dos sumarizadores
Este capítulo descreve os experimentos conduzidos para a avaliação intrínseca
dos quatro sumarizadores automáticos apresentados no capítulo 4: GistSumm,
NeuralSumm, AutoResumo e TextAnalyst. Para a avaliação foram realizados 2 estudos.
O primeiro envolveu 10 textos jornalísticos e o segundo 10 textos científicos. A
qualidade dos sumários for analisada em função de sua informatividade e sua
textualidade. A seguir serão apresentados detalhes sobre as fontes textuais, a
configuração dos experimentos, a metodologia adotada para a avaliação e a comparação
do desempenho dos sumarizadores.
5.1 Textos jornalísticos
A partir do corpus TeMário
9
(PARDO; RINO, 2003b) foram selecionados 10
textos jornalísticos, todos contendo títulos. Essa coleção foi construída especialmente
para avaliação de sistemas de SA com textos do gênero jornalístico. Segundo Pardo e
Rino (2003b), o estilo adotado para a escrita desses textos torna-os mais fáceis de serem
lidos, compreendidos e analisados, tornando maiores as chances de sucesso da atividade
de avaliação da SA, ao contrário do que geralmente acontece com textos de estilo mais
rebuscado. Além disso, é comum nesse gênero textual que as idéias principais sejam
apresentadas logo no início dos textos. Para evidenciar seus argumentos, eles citam
exemplos dos concursos internacionais de avaliação em larga escala da SA como a
SUMMAC e a DUC que têm utilizado textos jornalísticos.
O TeMário contém 100 textos jornalísticos em português do Brasil, com
tamanho médio de 613 palavras. Ele também possui sumários manuais e extratos ideais,
como dados de referência. Assim, pode-se dizer que o TeMário constitui uma coleção
completa para estudos diversos de avaliação da SA, possibilitando a realização de
treinamento e/ou teste de sumarizadores automáticos (PARDO; RINO, 2003b, 2006). A
9
http://www.linguateca.pt/Repositorio/TeMario
60
tabela 5.1 relaciona os textos utilizados no estudo de caso de textos jornalísticos com os
arquivos de seus textos-fonte no corpus TeMário.
Tabela 5.1 – Relação dos textos jornalísticos dos experimentos e os arquivos associados no corpus
TeMário
Texto Compilado Texto Fonte
Texto1: mu94ab02-b.txt
Texto2: op94ab02-a.txt
Texto3: in96fe15-a.txt
Texto4: in96fe13-a.txt
Texto5: ce94ab17-a.txt
Texto6: ce94jl11-b.txt
Texto7: ce94jl31-e.txt
Texto8: in96fe08-a.txt
Texto9: mu94ag06-a.txt
Texto10: ce94jl10-a.txt
5.2 Textos científicos
Foram elaborados dez documentos com texto de gênero científico a partir de
artigos e seções introdutórias de monografias, relacionados à área da computação. Os
documentos compilados foram armazenados como arquivos de texto plano. Naqueles
que continham imagens ou gráficos foram mantidas apenas as referências e/ou
descrições destes elementos. Informações como título e autoria foram mantidas,
enquanto que as partes explicitamente identificadas através de seus títulos como
resumos elaborados pelos autores não foram incluídas nas compilações. A tabela 5.2
relaciona os documentos elaborados para os experimentos com suas fontes originais.
Tabela 5.2 – Ralação dos textos científicos compilados para os experimentos e suas obras originais
Texto Compilado Texto Fonte
Texto 1 (MARTINS, 2001b)
Texto 2 (PARDO; NUNES, 2002)
Texto 3 (BASTOS, 2006)
Texto 4 (UZÊDA et al., 2007)
Texto 5 (BALAGE FILHO et al., 2006a)
Texto 6 (VILELA, 2008)
Texto 7 (BALAGE FILHO et al., 2007b)
Texto 8 (MAZIERO et al., 2007)
Texto 9 (CAPUTO, 2006)
Texto 10 (VINHAES, 2005)
61
5.3 Metodologia
Os sumarizadores foram avaliados em função da informatividade e textualidade
dos extratos produzidos quando submetidos à sumarização de textos de gênero
jornalístico e científico em duas avaliações isoladas.
Na primeira avaliação foram utilizados os 10 textos jornalísticos selecionados a
partir do corpus temário, apresentados na seção 5.1. Na segunda avaliação, os 10
documentos compilados a partir de textos científicos (descritos na seção 5.2) foram
utilizados como textos-fonte para a sumarização. Nos dois estudos de caso foram
adotadas as mesmas configurações para a geração dos textos e julgamento dos extratos.
As subseções seguintes descrevem a forma como os extratos foram gerados e avaliados
nos dois estudos de caso.
5.3.1 Geração dos extratos
Nas atividades de sumarização, um importante fator é a taxa de compressão, que
define o tamanho dos extratos em relação à fonte original. Em razão dos textos
científicos utilizados nos experimentos serem em geral maiores que os textos
jornalísticos adotados, a taxa de compressão não foi igual nos dois estudos de casos. Os
textos jornalísticos e científicos foram sumarizados respectivamente com 70% e 85% de
compressão.
Os quatro sistemas utilizados permitem medir os textos em função do número
de sentenças. Dessa forma, na geração dos extratos para as duas avaliações realizadas, a
taxa de compressão foi definida de forma conveniente em termos de número de
sentenças. Os parâmetros de cada sistema foram ajustados para que eles gerassem
extratos de acordo com a taxa de compressão utilizada em cada estudo de caso.
Exceto no TextAnalyst, os outros três sumarizadores utilizados permitem
especificar a taxa de compressão em função do número de sentenças dos documentos
originais, tornando compatível a definição da taxa de compressão entre estes sistemas.
Embora no sistema TextAnalyst o número de sentenças do extrato e dos textos
fonte sejam apresentados em sua interface, a informação de compressão dos extratos
exibida é calculada em função do tamanho em múltiplos de bytes da fonte textual. Além
disso, o TextAnalyst não permite configurar o tamanho do extrato em função de uma
62
taxa de compressão. Conforme apresentado na seção 4.4, a seleção de sentenças para o
extrato é controlada por um parâmetro que especifica o peso mínimo de uma sentença
para que ela seja incluída no extrato. Assim, apenas sentenças cuja pontuação de
relevância supere ou se iguale ao valor de peso mínimo definido farão parte dos extratos
produzidos pelo TextAnalyst.
Em função dessa característica, nem sempre é possível configurar o TextAnalyst
para gerar extratos com determinadas taxas de compressão. Por exemplo, para um texto
com 10 sentenças, das quais 8 receberam um peso igual a 60 e 2 sentenças foram
pontuadas com o valor 30, o TextAnalyst só será capaz de gerar dois extratos distintos:
um com 20% de taxa de compressão: quando o valor de peso mínimo for
especificado entre 31 e 60;
outro contendo todas as sentenças: quando o valor de peso mínimo for
menor ou igual a 30, pois dessa forma tanto as sentenças com nota 60
quanto as com nota 30 serão incluídas no extrato.
Por isso, para gerar extratos com a taxa de compressão desejada no TextAnalyst
para os experimentos foi necessário um procedimento menos intuitivo em relação à
configuração dos outros três sumarizadores. Para cada documento calculou-se
manualmente o número aproximado de sentenças que cada extrato deveria conter, em
função do número total de sentenças identificado pelo TextAnalyst e da taxa de
compressão particular à cada estudo de caso. Em seguida, o valor de peso mínimo para
que as sentenças fossem incluídas nos extratos foi ajustado de forma que o número de
sentenças com pesos maiores ou iguais a este se aproximasse do número de sentenças
desejado.
A ferramenta GistSumm foi configurada para produzir os extratos através do
método de ranqueamento keywords. No NeuralSumm e no AutoResumo, o único ajuste
relevante para os experimentos foi a taxa de compressão desejada. No TextAnalyst além
da configuração dos pesos de forma a se obter uma taxa de compressão próxima da
desejada para cada estudo de caso e para cada texto-fonte, foi utilizada uma lista de
stopwords personalizada com 361 palavras do idioma português do Brasil. Entre as
palavras dessa lista foram incluídas algumas formas que constituem erros de grafia. A
lista de stopwords utilizada pelo TextAnalyst é apresentada no anexo B.
63
5.3.2 Avaliação dos extratos
Para avaliar os quatro sistemas foi adotada uma estratégia semelhante à de Pardo
e Rino (2003a). Os extratos produzidos por cada sistema receberam notas de um juiz
humano, falante nativo do português do Brasil, quanto a sua informatividade e sua
textualidade. Nesta avaliação, a informatividade (seção 3.1.2) está relacionada a quanto
do conteúdo informativo original o extrato retém. O juiz verificou se os extratos
continham sentenças que permitissem identificar a idéia principal do texto fonte, isto é,
se os extratos preservavam a idéia principal.
Em relação à textualidade, o juiz verificou se os extratos apresentavam as
características mínimas que promovem a fluência durante a leitura dos extratos, isto é,
os atributos que promovem a coerência e a coesão textual (discutidas na seção 3.1.1).
Após a leitura e avaliação dos critérios adotados, o juiz atribuiu notas de acordo
com a escala apresentada na tabela 5.3. Por exemplo, quando o juiz considera que um
extrato preservou a idéia principal do texto fonte, mas apresentou textualidade mediana,
ele deve atribuir a nota 8 ao extrato.
Tabela 5.3 – Escala de pontuação dos extratos
Idéia principal Textualidade Nota
Preservada Ok 9
Preservada ± 8
Preservada Sem 7
Parcialmente preservada Ok 6
Parcialmente preservada ± 5
Parcialmente preservada Sem 4
Não preservada Ok 3
Não preservada ± 2
Não preservada Sem 1
Fonte: (PARDO; RINO, 2003b)
Levando em consideração as características da metodologia de avaliação
utilizada neste trabalho, pode-se classificá-la como: intrínseca (observou-se o
desempenho dos sistemas no contexto da própria sumarização), black-box (não foram
verificados resultados de processos intermediários da geração de extratos), comparativa
(quatro sistemas tiveram seus resultados comparados) e on-line (a qualidade dos
extratos foi avaliada por um juiz humano).
64
5.4 Estudo de caso 1: extratos de textos jornalísticos
Neste estudo de caso os sumarizadores foram configurados para gerar os extratos
com aproximadamente 30% das sentenças dos documentos originais, isto é, especificou-
se uma taxa de compressão de 70%. Essa taxa de compressão foi escolhida por ser
também a taxa de compressão aproximada utilizada para a criação dos extratos de
referência do corpus TeMário. Isto permitirá que em trabalhos futuros os extratos
gerados possam ser comparados de forma adequada aos dados de referência desse
corpus. A tabela 5.4 apresenta a pontuação dos sistemas no estudo de casos com textos
jornalísticos.
Tabela 5.4 – Pontuação dos sistemas para os extratos dos textos jornalísticos
Texto GistSumm NeuralSumm AutoResumo TextAnalyst
Texto 1 8 4 9 9
Texto 2 6 4 9 9
Texto 3 9 4 9 9
Texto 4 5 9 8 8
Texto 5 5 8 8 9
Texto 6 4 5 9 8
Texto 7 9 3 9 9
Texto 8 9 4 9 9
Texto 9 2 1 8 9
Texto 10 6 4 9 9
Total 63 46 87 88
Média 6,3 4,6 8,7 8,8
Fonte: dados do autor
Conforme a tabela 5.4, 40% dos extratos gerados pelo sistema GistSumm
preservaram a idéia central e 50% preservaram parcialmente. Apenas para o texto 9 o
GistSumm não conseguiu determinar sequer de forma parcial a idéia central do
documento original; 50% dos extratos apresentaram textualidade total e 40%
apresentaram textualidade parcial. Dessa forma, 90% dos extratos preservaram
totalmente ou parcialmente a idéia central e 90% dos extratos apresentaram textualidade
total ou parcial.
O NeuralSumm apresentou os resultados menos satisfatórios em termos de
textualidade neste estudo de casos: 60% de seus extratos constituíam textos sem
textualidade. 20% dos extratos desse sistema apresentaram textualidade total e 20%
apresentaram textualidade parcial, somando um total de 40% os textos nos quais a
textualidade era total ou parcial. Quanto a informatividade o NeuralSumm também não
65
apresentou melhores resultados em relação aos sistemas concorrentes: 20% dos extratos
preservaram completamente a idéia central de suas fontes textuais e 60% dos extratos
preservaram parcialmente. Dessa forma, 80% dos extratos do NeuralSumm preservaram
totalmente ou parcialmente a idéia central. Percebeu-se que o texto 9 representou uma
situação problemática tanto para o GistSumm quanto para o NeuralSumm.
Os dois sistemas comerciais foram bem sucedidos na sumarização dos textos
jornalísticos do presente estudo de caso. Todos os extratos gerados por estes sistemas
preservaram completamente a idéia central dos textos-fonte e constituíam extratos
satisfatoriamente coerentes e coesos.
Conforme os resultados (tabela 5.4), o AutoResumo incluiu em todos os seus
extratos os títulos e os parágrafos iniciais dos textos-fonte. Uma característica dos textos
jornalísticos é que estes geralmente apresentam o conteúdo essencial nos primeiros
parágrafos. A seleção de sentenças consecutivas nos documentos originais, quando estes
são textos coesos e coerentes, para compor os extratos pode melhorar a legibilidade dos
mesmos. Assim, o AutoResumo obteve bons resultados ao selecionar os títulos e os
parágrafos iniciais dos documentos completos tanto em termos da textualidade quanto
de informatividade: 70% dos extratos desse sumarizador obtiveram nota máxima, isto é,
tanto preservaram completamente a essência do texto quanto constituíam extratos
coerentes e coesos. 30% dos extratos do AutoResumo preservaram totalmente a idéia
central e ao mesmo tempo apresentaram textualidade parcial.
Nesta avaliação, o sistema TextAnalyst apresentou os melhores resultados: 80%
dos extratos preservaram completamente a idéia central e simultaneamente
apresentaram uma combinação de sentenças que formaram textos sem problemas de
coerência e coesão. Embora 20% dos extratos apresentaram textualidade parcial, eles
continham sentenças que permitiam determinar de forma clara a idéia central.
Os resultados obtidos sugerem que tanto o TextAnalyst quanto o AutoResumo
demonstram bom potencial para a sumarização de textos não divididos em seções e que
seguem o estilo de redação tipicamente utilizado em matérias jornalísticas.
O NeuralSumm deve ser investigado após sua adaptação para as características
dos textos com temas mais genéricos e um treinamento envolvendo um corpus
adequado, já que segundo Pardo et al. (2003b) a versão utilizada neste estudo é
otimizada para textos científicos. A ferramenta GistSumm, embora baseada em um
método bastante simples e independente de características profundas, apresentou
resultados satisfatórios para os textos jornalísticos ao preservar parcial ou
66
completamente a idéia central das fontes textuais em 90% de seus extratos. Para tarefas
em que a textualidade não seja a característica principal, os extratos do GistSumm
podem representar uma boa solução, principalmente em função de se tratar de um
sistema de uso livre para utilização sem fins lucrativos e facilmente adaptável para
outras línguas de origem latina.
5.5 Estudo de caso 2: extratos de textos científicos
Para a avaliação dos extratos dos textos científicos compilados para este estudo
de caso, os sistemas foram configurados para uma taxa de compressão de 85%. O
motivo da taxa de compressão maior é que os textos científicos compilados
apresentavam, em geral, um número bem maior de sentenças que os textos jornalísticos
do estudo de casos da seção 5.4. A tabela 5.5 apresenta a pontuação dos sistemas no
estudo de casos com textos científicos.
Tabela 5.5 – Pontuação dos sistemas para os extratos dos textos científicos
Texto GistSumm NeuralSumm AutoResumo TextAnalyst
Texto 1 8 8 7 8
Texto 2 1 5 8 4
Texto 3 8 5 8 8
Texto 4 3 1 3 1
Texto 5 8 2 1 5
Texto 6 2 5 8 8
Texto 7 6 9 2 8
Texto 8 3 3 8 9
Texto 9 2 1 5 3
Texto 10 3 9 9 5
Total
44 48 59 59
Média
4,4 4,8 5,9 5,9
Fonte: dados do autor
Os textos científicos geralmente são divididos em várias seções para organizar
idéias que embora distintas sejam necessárias para fundamentar o assunto abordado.
Dessa forma, um problema que pode ocorrer na SA extrativa desse tipo de texto é que a
justaposição de sentenças extraídas de seções diferentes pode resultar em extratos com
falhas de progressão temática ou falta de coesão. Além disso, em textos escritos de
acordo com o estilo científico mais comum, algumas pistas pragmáticas podem indicar a
idéia central. Dessa forma, para sumarizar esse tipo de texto são preferíveis sistemas
67
cuidadosamente projetados que levem em consideração as características acima para se
obter melhores resultados.
O GistSumm preservou completamente a idéia central em 30% dos extratos e
parcialmente em 10%. Deste modo, 40% dos extratos do GistSumm continham
sentenças que permitiam determinar totalmente ou parcialmente a idéia central dos
textos-fonte. Quanto à textualidade, 40% dos extratos do GistSumm apresentaram
textualidade total e 50% apresentaram textualidade parcial, somando um total de 90%
de extratos com textualidade total ou parcial. Dessa forma, o GistSumm não apresentou
resultados satisfatórios para a sumarização dos textos científicos utilizados neste estudo
de caso, já que a preservação da idéia central constitui um fator mais relevante para a
avaliação conduzida.
Para os extratos do NeuralSumm os resultados foram: 30% dos extratos
preservaram totalmente a idéia central e 30% preservaram parcialmente. Dessa forma,
60% dos extratos desse sumarizador preservaram totalmente ou parcialmente a idéia
central. 30% dos extratos apresentaram textualidade total e 50% apresentaram
textualidade parcial. Assim, 80% dos extratos apresentaram textualidade total ou
parcial. Os sistemas comerciais também tiveram menor desempenho na sumarização
dos textos jornalísticos utilizados.
Dos extratos do AutoResumo, 60% preservaram totalmente a idéia central e 10%
preservaram parcialmente, ou seja, 70% dos extratos preservaram totalmente ou
parcialmente a idéia central. Ainda em relação aos extratos do AutoResumo, 20%
apresentaram textualidade total 60% apresentaram textualidade parcial resultando num
total de 80% de extratos com textualidade total ou parcial.
Os resultados do TextAnalyst foram novamente similares aos do AutoResumo.
Entre os extratos do TextAnalyst, 50% preservaram totalmente a idéia central e 20%
preservaram de forma parcial. Desse modo, 70% dos extratos preservaram totalmente
ou parcialmente a idéia central. Para o critério de textualidade, 20% dos extratos desse
sistema apresentaram textualidade total e 60% apresentaram textualidade parcial.
Assim, 80% dos extratos do TextAnalyst apresentaram textualidade total ou parcial.
Exceto para o sistema NeuralSumm, a média dos outros três sistemas foi menor
em relação à avaliação com os textos jornalísticos. Além das características particulares
dos textos jornalísticos, um outro aspecto que merece destaque nas atividades de
sumarização automática é a segmentação automática dos textos em sentenças, também
referenciada por segmentação textual, que consiste na identificação de cada sentença
68
componente do texto fonte. Este procedimento geralmente é conduzido na fase de pré-
processamento e, apesar de parecer uma tarefa simples, existem problemas de difícil
resolução para que ela seja conduzida automaticamente de forma correta. Entre os
problemas mais comuns estão aqueles onde os símbolos de pontuação não são
empregados para determinar o final de uma sentença.
Nos textos científicos, por exemplo, o uso do sinal de pontuação pode ser
diverso. Os títulos numerados de seções podem utilizar o símbolo “.” para destacar
subseções como por exemplo no caso de “1.1 Motivação”. Dessa forma, o que o sistema
considera como uma sentença, a relevância atribuída a cada uma e o número de
sentenças selecionadas para compor os extratos pode variar. O problema da
segmentação textual se manifestou mais claramente neste estudo de caso envolvendo
textos científicos. Percebeu-se que o número de sentenças identificadas foi diferente
para cada sistema. Isto foi verificado através do número de sentenças presentes nos
extratos produzidos no caso dos sistemas GistSumm e NeuralSumm, que não
apresentam informações sobre o número de sentenças detectadas. Já para os sistemas
AutoResumo e TextAnalyst a informação sobre o número de sentenças do texto e dos
extratos são disponibilizadas em suas interfaces.
Essa diferença não só influencia a geração dos extratos pelos sistemas como
também torna mais difícil a comparação dos resultados, já que o número de sentenças
dos extratos gerados por cada sistema para um mesmo texto pode ser muito distinto.
69
6 Conclusões
O processamento da língua natural (PLN) é um problema antigo e complexo da
área de Inteligência Artificial (JISC, 2006). O papel do PLN na área de Text Mining é
alimentar com dados lingüísticos os sistemas na etapa de extração de informação para o
desempenho de alguma tarefa. Freqüentemente esses dados são informações sobre o
início e fim de sentenças (segmentação sentencial), indicadores de classe gramatical das
palavras etc.
A sumarização automática (SA) é uma das tarefas mais pesquisadas desde a
década de 1960 em PLN. Os estudos de SA descrevem o desenvolvimento e avaliação
de sistemas destinados à geração automática de resumos de textos, os sumários.
Destacam-se duas abordagens principais de sumarização: a fundamental, ou
profunda, e a empírica, ou superficial. A abordagem fundamental utiliza conhecimentos
lingüísticos e extralingüísticos a criação de sumários do tipo abstract. A abordagem
empírica apóia-se em técnicas estatísticas para determinar a relevância de fragmentos
textuais e utilizá-los para seleção de conteúdo e criação de sumários do tipo extrato.
Embora a abordagem fundamental constitua uma proposta mais interessante, a
programação dos componentes para a geração automática de abstracts ainda representa
um grande desafio para os pesquisadores dessa abordagem, tornando mais viável a
exploração dos métodos extrativos. É importante ressaltar que qualquer estratégia de
sumarização automática deve levar em consideração a finalidade dos sumários.
A avaliação é um tema de grande importância para a SA. É através dela que se
pode verificar o estado da arte e definir novas técnicas de sumarização ou
aprimoramentos para as existentes. Conferências internacionais como a TIPSTER
SUMMAC e a DUC demonstram o grande interesse em pesquisas sobre avaliação da
SA. As avaliações da sumarização podem ser do tipo intrínsecas ou extrínsecas. A
avaliação intrínseca possui o foco na qualidade e informatividade dos sumários. Na
avaliação extrínseca, o sumarizador é avaliado mediante a realização de outras tarefas,
como categorização de documentos, recuperação de informação e perguntas e respostas.
Assim como ocorre na produção dos sumários, o processo de avaliação deve
levar em consideração as necessidades e características dos usuários ou tarefas para os
quais o sumário foi produzido. Nem sempre um sumário com baixa qualidade em sua
70
textualidade deve ser tomado como insucesso. Em alguns casos pode ser necessário
apenas que os sumários preservem as informações essenciais do texto-fonte.
Este trabalho apresentou as principais técnicas de SA e discutiu a difícil tarefa de
avaliação. Além disso, para verificar a potencialidade de sumarizadores para o idioma
português do Brasil, foram apresentados dois estudos de caso nos quais realizou-se a
avaliação intrínseca comparativa de quatro sistemas extrativos de sumarização
utilizando textos escritos no referido idioma: GistSumm, NeuralSumm, AutoResumo e
TextAnalyst.
Nos experimentos, os sumários, do tipo extrato, foram avaliados por juízes
humanos em função da textualidade e da preservação do conteúdo essencial dos
documentos originais. A primeira avaliação verificou as potencialidades dos sistemas
para a sumarização de textos jornalísticos com uma taxa de compressão de 70%. Na
outra avaliação, os sistemas foram utilizados para sumarizar textos do gênero científico,
gerando extratos com aproximadamente 15% (compressão de 85%) das sentenças dos
textos-fonte.
Os sistemas comerciais TextAnalyst e o AutoResumo apresentaram, além de
resultados muito semelhantes, os melhores resultados em ambos os estudos de caso. Os
pontos negativos do TextAnalyst foram a necessidade de se configurar uma lista de
Stopwords e os problemas acarretados por utilizar uma forma distinta para a
determinação das sentenças que deverão compor seus extratos: sua configuração é
menos intuitiva e nem sempre é possível gerar extratos com determinadas taxas de
compressão. Além disso, o TextAnalyst apresentou a maior oscilação no número de
sentenças detectadas para determinados textos científicos, e conseqüentemente gerou
alguns extratos com um número bastante distinto de sentenças em relação aos outros
três sumarizadores.
O NeuralSumm não demonstrou bons resultados para a sumarização dos textos
jornalísticos adotados. Seus extratos além de apresentarem problemas de textualidade,
só preservaram completamente a idéia central dos textos-fonte em apenas dois dos
extratos gerados. Apesar do treinamento original do NeuralSumm ter sido realizado
com textos do gênero científico, este sistema também não apresentou resultados
satisfatórios em função da informatividade de seus extratos nos experimentos
conduzidos com textos científicos. Outro ponto negativo para o uso do NeuralSumm é
que para seu treinamento, deve-se avaliar e classificar manualmente todas as sentenças
dos extratos fornecidos juntamente com os dados do conjunto treino, o que torna esse
71
processo razoavelmente trabalhoso e sujeito à subjetividade humana. A ferramenta
GistSumm apresentou resultados satisfatórios para os textos jornalísticos. Porém seu
desempenho foi o menor entre os sistemas no estudo de caso com textos científicos.
A facilidade de utilização do sistema AutoResumo e seu desempenho
satisfatório permitem concluir que este sistema é a melhor opção para a sumarização de
textos com características similares às dos textos utilizados nos estudos de caso.
A avaliação da SA constitui um grande desafio. No entanto, com o uso de
corpora adequados, de métricas e procedimentos bem definidos e de profissionais bem
preparados, é possível se conduzir uma avaliação eficaz que revela a utilidade de um
sistema de SA.
6.1 Limitações e trabalhos futuros
Duas maiores limitações podem ser identificadas nesse trabalho: o número de
textos utilizados na avaliação e o julgamento humano. Além disso, a personalização do
NeuralSumm para textos científicos torna problemática a avaliação desse sistema com
textos de outros gêneros. Como trabalhos futuros, sugere-se que a comparação dos
sumários automáticos de textos jornalísticos seja realizada em condições adequadas para
todos os sistemas, realizando novo treinamento da rede utilizada pelo NeuralSumm.
Além disso, sugere-se a utilização de uma equipe maior e que a metodologia de
avaliação seja substituída, adotando-se, por exemplo, as métricas ROUGE como fator
de qualidade dos extratos. Dessa forma, além de se avaliar os sumários sem a influência
da subjetividade humana, será possível utilizar um número muito maior de textos e
comparar os resultados com outras pesquisas que já utilizam o pacote de avaliação
ROUGE. Para o caso de textos jornalísticos essa adaptação é perfeitamente viável já que
o corpus TeMário dispõe de sumários de referência escritos por humanos para todos os
seus textos.
72
Referências
BALAGE FILHO et al. 2006a, Sumarização Automática de Textos Estruturados. In
Anais do 14º Simpósio Internacional de Iniciação Científica da Universidade de São
Paulo - SIICUSP. 6 a 17 de Novembro.
BALAGE FILHO et al. 2006b, Estrutura Textual e Multiplicidade de Tópicos na
Sumarização Automática: o Caso do Sistema GistSumm. Série de Relatórios Técnicos
do Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, no.
283. São Carlos-SP, Novembro, 18p.
BALAGE FILHO, P. P.; PARDO, T. A. S.; NUNES, M G. V. 2007a, Sumarização
Automática de Textos Científicos: Estudo de Caso com o Sistema GistSumm. Série de
Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação,
Universidade de São Paulo, no. 304. São Carlos-SP, Agosto, 23p.
BALAGE FILHO, P. P.; PARDO, T. A. S.; NUNES, M. G. V. 2007b, Experimentos
com Sumarização Automática Extrativa de Textos Científicos. I Workshop de Iniciação
Científica e Tecnológica da Computação - WICT Comp. 1 a 5 de Outubro.
BALAGE FILHO, P. P.; PARDO, T. A. S.; NUNES, M. G. V. 2007c, Summarizing
Scientific Texts: Experiments with Extractive Summarizers. In the Proceedings of the
Seventh International Conference on Intelligent Systems Design and Applications –
ISDA, pp. 520-524. Rio de Janeiro-RJ, Brazil. October, 22-24.
BASTOS, V. M. 2006, Ambiente de Descoberta de Conhecimento na Web para a
Língua Portuguesa, Tese de Doutorado do Programa de Engenharia Civil da
COPPE/UFRJ, Outubro de 2006.
BAXENDALE, P. B. 1958, Machine-made index for technical literature – an
experiment. IBM Journal of Research and Development, Vol. 2, pp. 354-365.
BLACK, W. J.; JOHNSON, F. C. 1988, A Practical Evaluation of Two Rule-Based
Automatic Abstraction Techniques. Expert Systems for Information Management, Vol.
1, N. 3. Department of Computation. University of Manchester Institute of Science and
Technology.
CAPUTO, G. M. 2006, Sistema Computacional para o Processamento Textual de
Patentes Industriais, Dissertação de Mestrado do Programa de Engenharia Civil da
COPPE/UFRJ, Abril de 2006.
CAVNAR, W. B. 1994, Using An N-Gram-Based Document Representation With a
Vector Processing Retrieval Model. Proc. TREC-3 (Third Text Retrieval Conf.).
Gaithersburg, USA.
CHOMSKY, N. 1965, Aspects of the Theory of Syntax. MIT Press, Cambridge, MA.
73
DALIANIS, H. What is automatic text summarization. Disponível em
<http://people.dsv.su.se/~hercules/textsammanfattningeng.html>. Acesso em: 05 dez.
2007.
de SMEDT, K.; LISETH, A.; HASSEL, M.; DALIANIS, H. 2005, How short is good?
An evaluation of automatic summarization. In Holmboe, H. (ed.) Nordisk
Sprogteknologi 2004. Årbog for Nordisk Språkteknologisk Forskningsprogram 2000-
2004, pp 267-287, Museum Tusculanums Forlag.
DIAS-DA-SILVA, B. C. et al. 2007, Introdução ao Processamento das Línguas Naturais
e Algumas Aplicações. Série de Relatórios do NILC. NILC-TR-07-10. São Carlos-SP,
Agosto, 121p.
DUC. 2002, The Document Understanding Conference. http://duc.nist.gov.
EARL, L. L. 1970, Experiments in automatic extracting and indexing, Information
Storage and Retrieval, 6, 313-334.
EDMUNDSON, H. P. 1964, Problems in automatic abstracting. Comm. ACM, Vol. 7,
No.4 259-263. Apr.
EDMUNDSON, H. P. 1969, New Methods in Automatic Extracting. Journal of the
ACM, 16, pp. 264-285.
ERKAN, G.; RADEV, D. R. 2004, LexRank: Graph-based Lexical Centrality as
Salience in Text Summarization. Journal of Artificial Intelligence Research (JAIR),
Vol. 22, pp. 457-479.
FELTRIM, V. D.; NUNES, M. G. V.; ALUÍSIO, S. M. 2001, Um corpus de textos
científicos em Português para a análise da Estrutura Esquemática. Série de Relatórios do
NILC. NILC-TR-01-4. Disponível em:
<http://www.nilc.icmc.usp.br/nilc/pessoas/valeria.htm> Acesso em out. 2007.
GANAPATHIRAJU, M. K. 2002, Relevance of Cluster size in MMR based
Summarizer: A Report 11-742: Self-paced lab in Information Retrieval, November 26.
GRAUDEZ. 2008, Coerência e Coesão. Disponível em:
<http://www.graudez.com.br/portugues/ch11s03.html>. Acesso em: 28 jan. 2008.
HASSEL, M. 2004, Evaluation of automatic text summarization - a practical
implementation. Licentiate thesis, Stockholm, NADA-KTH.
HOVY, E. H.; LIN, C-Y. 1998, Automated Text Summarization in SUMMARIST. In
Mani, I.; Maybury, M. (eds), Advances in Automatic Text Summarization. Cambridge:
MIT Press.
HUTCHINS, J. 1987, Summarization: Some problems and Methods . In: Jones.
Meaning: The frontier of informatics. Cambridge. London, pp. 151-173.
ISO 215:1986. 1986, Documentation – Presentation of Contribuitions to Periodicals and
Other Serials. ISO 215:1986. Technical report, International Organisation of
Standardisation.
74
JING, H.; BARZILAY, R.; MCKEOWN, K.; ELHADAD, M. 1998, Summarization
evaluation methods: Experiments and analysis. In the Working Notes of the AAAI
Spring Symposium on Intelligent Text Summarization.
JISC. 2006, Text Mining briefing paper. Disponível em:
<http://www.jisc.ac.uk/publications/publications/pub_textmining.aspx> Acesso em: 13
dez. 2007.
KOHONEN, T. 1982, Self-organized formation of topologically correct feature maps.
Biological Cybernetics, Vol. 43, pp. 59-69.
KONCHADY M. 2006, Text Mining Applications Programming, Charles River Media,
Boston, Massachusetts.
KUPIEC, J.; PETERSEN, J.; CHEN, F. 1995, A trainable document summarizer. In
Edward Fox, Peter Ingwersen, & Raya Fidel (eds.), Proceedings of the 18th Annual
International ACM-SIGIR Conference on Research & Development in Information
Retrieval, pp. 68-73, Seattle, WA, EUA. July.
LAROCCA NETO, J.; SANTOS, A. D.; KAESTNER, A. A.; FREITAS, A. A. 2000,
Generating Text Summaries through the Relative Importance of Topics. In the
Proceedings of the International Joint Conference IBERAMIA/SBIA, Atibaia, SP.
LEITE, D. S.; RINO, L. H. M.; PARDO, T. A. S.; NUNES, M. G. V. 2007, Extractive
Automatic Summarization: Does more linguistic knowledge make a difference? In C.
Biemann, I. Matveeva, R. Mihalcea, and D. Radev (eds.), Proceedings of the
HLT/NAACL Workshop on TextGraphs-2: Graph-Based Algorithms for Natural
Language Processing, pp.17-24. 26 April, Rochester, NY, USA.
LIN, C-Y. 2004, ROUGE: a Package for Automatic Evaluation of Summaries. In
Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004),
Barcelona, Spain, July 25 - 26, 2004.
LIN, C-Y.; HOVY, E. H. 2003, Automatic Evaluation of Summaries Using N-gram Co-
occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-
NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003. pp. 71-78.
LUHN, H. P. 1958, The automatic creation of literature abstracts. IBM Journal of
Research and Development, Vol. 2, pp. 159-165.
MANI, I. 2001a, Automatic Summarization. John Benjamins Publishing Co.,
Amsterdam.
MANI, I. et al. 1999, The TIPSTER SUMMAC text summarization evaluation. In Proc.
of EACL’99.
MANI, I.; MAYBURY, M. T. 1999, eds. Advances in automatic text summarization.
MIT Press, Cambridge, MA.
MANI, I. 2001b, Summarization Evaluation: An Overview. In the Proceedings of the
Workshop on Automatic Summarization. Pittsburgh, Pennsylvania.
75
MANN, W. C.; THOMPSON, S. A. 1988, Rhetorical Structure Theory: Toward a
Functional Theory of Text Organization. Text, 8 (3), pp. 243-281.
MARCU, D. 1997a, From Discourse Structures to Text Summaries. In I. Mani and M.
Maybury (eds.), Proc. of the Intelligent Scalable Text Summarization Workshop, pp.
82-88. ACL/EACL’97 Joint Conference. Madrid, Spain.
MARCU, D. 1997b, The Rhetorical Parsing of Natural Language Texts. In the Proc. of
the ACL/EACL’97 Joint Conference, pp. 96-103. Madrid, Spain.
MARCU, D. 2000, The Theory and Practice of Discourse Parsing and Summarization.
The MIT Press. Cambridge, Massachusetts.
MARTINS, C. B. 2001, A Sumarização de Textos UNL. Anais do Congresso de Pós-
Graduação da UFSCar. São Carlos, SP.
MARTINS, C. B.; PARDO, T. A. S.; ESPINA, A. P.; RINO, L. H. M. 2001, Introdução
à Sumarização Automática. Relatório Técnico RT-DC 002/2001, Departamento de
Computação, Universidade Federal de São Carlos.
MAZIERO, E. G.; PARDO, T. A. S.; NUNES, M. G. V. 2007, Identificação automática
de segmentos discursivos por meio do analisador sintático PALAVRAS. n Anais do 15o
Simpósio Internacional de Iniciação Científica da Universidade de São Paulo -
SIICUSP. 26 a 28 de Novembro.
MICROSOFT. 2003, Microsoft Office Word – AutoResumo. Disponível em:
<http://office.microsoft.com/pt-br/word/HP052334521046.aspx>. Acesso em: 20 jan.
2008.
MIHALCEA, R.; TARAU, P. 2004, TextRank: Bringing Order into Texts. In: Proc. of
the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004),
pp. 404–411. Barcelona, Spain, July.
PAICE, C. D. 1981, The automatic generation of literature abstracts: an approach based
on the identification of self-indicating phrases. Information Retrieval Research.
Butterworth & Co. (Publishers).
PARDO, T. A. S. 2002a, DMSumm: Um Gerador Automático de Sumários. Dissertação
de Mestrado. Departamento de Computação. Universidade Federal de São Carlos. São
Carlos - SP.
PARDO, T. A. S. 2002b, GistSumm: Um Sumarizador Automático Baseado na Idéia
Principal de Textos. Série de Relatórios do NILC. NILC-TR-02-13. São Carlos-SP,
Setembro, 25p.
PARDO, T. A. S. 2005, GistSumm - GIST SUMMarizer: Extensões e Novas
Funcionalidades. Série de Relatórios do NILC. NILC-TR-05-05. São Carlos-SP,
Fevereiro, 8p.
PARDO, T. A. S. 2006, SENTER: Um Segmentador Sentencial Automático para o
Português do Brasil. Série de Relatórios do NILC. NILC-TR-06-01. São Carlos-SP,
Janeiro, 6p.
76
PARDO, T. A. S.; NUNES, M. G. V. 2002, Segmentação Textual Automática: Uma
Revisão Bibliográfica. Série de Relatórios Técnicos do Instituto de Ciências
Matemáticas e de Computação, Universidade de São Paulo, no. 185. São Carlos-SP,
Fevereiro, 21p.
PARDO, T. A. S.; RINO, L. H. M. 2003a, A Sumarização Automática de Textos:
Principais Características e Metodologias. Anais do XXIII Congresso da Sociedade
Brasileira de Computação, Vol. VIII: III Jornada de Mini-cursos de Inteligência
Artificial (III MCIA), pp. 203-245. Campinas-SP.
PARDO, T. A. S.; RINO, L. H. M. 2003b, TeMário: Um corpus para sumarização
automática de textos. Série de Relatórios do NILC. NILC-TR-03-09, Núcleo
Interinstitucional de Lingüística Computacional (NILC), São Carlos-SP, 11 p.
PARDO, T. A. S.; RINO, L. H. M. 2006, A Coleção TeMário e a Avaliação de
Sumarização Automática. Série de Relatórios do NILC. NILC-TR-06-04. São Carlos-
SP, Janeiro, 17p.
PARDO, T. A. S.; RINO, L. H. M.; NUNES, M. G. V. 2002, Extractive summarization:
how to identify the gist of a text. In the Proceedings of the 1st International Information
Technology Symposium – I2TS, pp. 1-6. Florianópolis-SC, Brazil. October 1-5.
PARDO, T. A. S.; RINO, L. H. M.; NUNES, M. G. V. 2003a, GistSumm: A
Summarization Tool Based on a New Extractive Method. In N.J. MAMEDE, J.
BAPTISTA, I. TRANCOSO, M.G.V. NUNES (eds.), 6th Workshop on Computational
Processing of the Portuguese Language - Written and Spoken – PROPOR (Lecture
Notes in Artificial Intelligence 2721), pp. 210-218. Faro, Portugal. June 26-27.
PARDO, T. A. S.; RINO, L. H. M.; NUNES, M. G. V. 2003b, NeuralSumm: Uma
Abordagem Conexionista para a Sumarização Automática de Textos. In Anais do IV
Encontro Nacional de Inteligência Artificial – ENIA, pp. 1-10. Campinas-SP, Brasil. 2 a
8 de Agosto.
POLLOCK, J. J.; ZAMORA, A. 1975, Automatic Abstracting Research at Chemical
Abstracts Service. Journal of Chemical Information and Compute Sciences 15(4): 226-
232.
PORTER, M. F. 1980, “An Algorithm for Suffix Stripping. Program”, vol.14, n. 3, pp.
130-137.
RADEV, D. R.; JING, H.; BUDZIKOWSKA, M. 2000, Centroid-based Summarization
of Multiple Documents: Sentence Extraction, Utility-based Evaluation, and User
Studies. In: Proceedings of the ANLP/NAACL Automatic Summarization Workshop,
pp. 21-30. Seattle, Washington.
RINO, L. H. M. 1996, Modelagem de Discurso para o Tratamento da Concisão e
Preservação da Idéia Central na Geração de Textos. Tese de Doutorado. IFSC-USP. São
Carlos – SP.
77
RINO, L. H. M. et al. 2004, A Comparison of Automatic Summarization Systems for
Brazilian Portuguese Texts. In the Proceedings of the 17th Brazilian Symposium on
Artificial Intelligence – SBIA (Lecture Notes in Artificial Intelligence 3171), pp. 235-
244. São Luis-MA, Bazil. September, 29 - October, 1.
SALTON, G.; MCGILL, M. J. 1983, Introduction to Modern Information Retrieval.
McGraw-Hill.
SALTON, G. 1988, Automatic Text Processing. Reading, MA: Addison-Wesley.
SALTON, G. 1989, Automatic Text Processing. The Transformation, Analysis and
Retrieval of Information by Computer. Addison-Wesley.
SIEGEL, S.; CASTELLAN, N. J. 1988, Nonparametric Statistics for the Behavioral
Sciences. McGraw-Hill.
SKOROKHOD'KO, E. F. 1972, Adaptive method of automatic abstracting and
indexing, in IFIP Congress 71, Ljubljana, Jugoslavia, pp. 1179--1182, North-Holland,
Amsterdam.
SPARCK JONES, K. 1993, What might be in a summary? In Krause Knorz and
Womser-Hacker (eds.), Information Retrieval 93, pp. 9-26. Universitatsverlag
Konstanz. Jun.
SPARCK JONES, K. 1997, “Summarising: Where are we now? Where should we go?”
Proc. of the Intelligent Scalable Text Summarization Workshop, ACL/EACL’97 Joint
Conference. Madrid, Spain, p. 1.
SPARCK JONES, K. 1998, Automatic Summarizing: factors and directions. In Mani, I.
and Maybury, M. (eds.), Advances in automatic text summarization, pp. 1-12, The MIT
Press.
SPARCK JONES, K.; GALLIERS, J.R. 1996, Evaluating Natural Language Processing
Systems. Lecture Notes in Artificial Intelligence, Vol. 1083.
SPECIA, L.; RINO, L. H. M. 2002, O desenvolvimento de um léxico para a geração de
estruturas conceituais UNL. Série de Relatórios Técnicos do NILC, NILC-TR-02-14.
São Carlos, Setembro, 25p.
SUMMARIST. 2008, SUMMARIST Automated Text Summarization.
<http://www.isi.edu/natural-language/projects/SUMMARIST.html> Acesso em: 20 Jan.
2008.
TEUFEL, S.; MOENS, M. 1997, Sentence extraction as a classification task. In
ACL/EACL-97 Workshop on Intelligent Scalable Text Summarization, 58–65. Madrid:
Association for Computational Linguistics and the European Chapter of the Association
for Computational Linguistics.
TEXTANALYST. 2003, Megaputer Inteligence inc. TextAnalyst software. Disponível
em <http://www.megaputer.com/textanalyst.php>. Acesso em: 15 dez. 2007.
78
UZÊDA, V. R.; PARDO, T. A. S.; NUNES, M. G. V. 2007, Avaliação Comparativa de
Métodos de Sumarização Automática Baseados na Teoria de Estruturação Discursiva. I
Workshop de Iniciação Científica e Tecnológica da Computação - WICT Comp. 1 a 5
de Outubro.
VILELA, B. O. 2008, Uma Análise de Estratégias de Sumarização Automática.
Dissertação de mestrado do Programa de Engenharia Civil da COPPE/UFRJ, Março de
2008.
VINHAES, R. F. Estudo da Utilização de Técnica de Processamento de Linguagem
Natural para Otimização de Tradutores Automáticos. 2005. 57f. Monografia (Curso de
Ciência da Computação) – Universidade de Rio Verde, Rio Verde. 2005
WEISS, S. M.; INDURKHYA, N.; ZHANG, T.; DAMERAU, F. J. 2005, TEXT
MINING - Predictive Mhetods for Analysing Unstructured Information. 1 ed. New
York, Springer.
79
ANEXO A. Lista de Stopwords do Gistsumm
A stoplist foi montada manualmente e contém 196 palavras, chamadas, neste
caso, de stopwords. Ela é composta por artigos, pronomes, preposições, conjunções e
interjeições do português do Brasil que não acrescentam informação ao texto e podem
até mesmo distorcer os resultados, conforme já discutido no capítulo 2.
Tabela A.1 – Lista de Stopwords utilizada pelo GistSumm
- cujo me os sua
a cujos mesmos ou suas
à da meu outra tanta
ah das meus outras tantas
ai de mim outrem tanto
algo dela minha outro tantos
alguém delas minhas outros te
algum dele muita para teu
alguma deles muitas per teus
algumas desde muito perante ti
alguns do muitos pois toda
alô dos na por todas
ambos e nada porém todo
ante eia nas porque todos
ao ela nela portanto trás
após elas nelas pouca tu
aquela ele nele poucas tua
aquelas eles neles pouco tuas
aquele em nem poucos tudo
aqueles embora nenhum próprios
aquilo enquanto nenhuma psit uh
as entre nenhumas psiu ui
até essa nenhuns quais um
bis essas ninguém quaisquer uma
cada esse no qual umas
certa esses nos qualquer uns
certas esta nós quando vária
certo estas nossa quanta várias
certos este nossas quantas vário
chi estes nosso quanto vários
com eu nossos quantos você
comigo hem o que vós
conforme hum ó quem vossa
conosco ih ô se vossas
consigo isso oba sem vosso
contigo isto oh seu vossos
contra lhe olá seus
convosco lhes onde si
cuja logo opa sob
cujas mas ora sobre
Fonte: (PARDO, 2002b)
80
ANEXO B. Lista de Stopwords utilizada pelo
sistema TextAnalyst
A presente lista de Stopwords foi elaborada com palavras da lista de stopwords
utilizada pelo GistSumm (PARDO, 2002b) e outras palavras escolhidas pelo autor do
presente trabalho. Entre estas palavras estão incluídas algumas formas que constituem
erros de sintaxe e o caractere hífen.
O uso de uma lista de stopwords maior para o TextAnalyst é uma tentativa de
aprimorar a etapa de pré-processamento desse sistema, já que o mesmo não possui um
algoritmo de stemming para textos em português (Brasil), ao contrário dos outros
sistemas utilizados nos estudos de casos descritos nesta dissertação.
Tabela B.1 – Lista de stopwords utilizada pelo sistema TextAnalyst
- cujos estivermos lembro num próprios tém várias
a da estivessem lhe numa psit têm vario
à daquela estivéssemos lhes o psiu temos vário
agora daquelas estou logo ó quais tenha vários
agradeço daqui eu mas ô quaisquer tenham você
ah das farão mais oba qual tenhamos vos
ai de faz me ocorre qualquer tenho vós
algo dela fazem mesma ocorrer quando ter vossa
alguém delas fazendo mesmas ocupa quanta terá vossas
algum dele fazer mesmos ocupada quantas terão vosso
alguma deles feita meu oh quanto terei vossos
algumas desde feitas meus olá quantos tereis
alguns desse feito mim onde quase teremos
alô desses feitos minha opa que teria
ambos desta fique minhas ora quem teriamos
ante destas fiquei muita os quer teríamos
ao do fizer muitas ou querer teu
após dos foi muito outra quero teus
aquela e fomos muitos outras recebi teve
aquelas é fora na outrem são ti
aquele eia foram nada outro se tiver
aqueles ela fôramos não outros seguinte tivera
aquilo elas fosse naquela para seguir tiveram
as ele fôssemos naquelas parece seja tivéramos
às eles fui naquele parte sejam tiverem
aspectos em gostei naqueles passa sejamos tivermos
até embora nas passar sem tivesse
através enquanto haverá nela pela ser tivessem
bis então haverão nelas pelas será tivéssemos
cada entendo havia nele pelo serão toda
certa entre hei neles pelos serei todas
81
certas entretanto hem nem per seremos todo
certo eram houve nenhum perante seria todos
certos éramos houver nenhuma percebi seriam trás
chi essa houvera nenhumas pois seríamos traz
cita essas houverá nenhuns por seu trazem
citado esse houveram nessa porém seus trazer
com esses houvéramos nessas porque si tu
comigo esta houvesse nesse portanto tua
como está hum nesses possam sob tuas
comumente estamos ih neste possamos sobre tudo
conforme estão invéz nestes posso sou
conosco estas ir ninguém pouca sua uh
consigo estavam irá no poucas suas ui
contigo este irão nos pouco tanta um
contra esteja isso nós poucos tantas uma
convosco estejamos isto nossa prezada tanto umas
cuja estes nossas prezadas tantos uns
cujas esteve junto nosso prezado tão varia
cujo estiveram lembrar nossos prezados te vária
Fonte: (dados do autor; PARDO, 2002b)
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo