( PDF ) Uma análise de estratégias de sumarização automática

Download PDF

ads:

UMA ANÁLISE DE ESTRATÉGIAS DE SUMARIZAÇÃO AUTOMÁTICA

Bruno Vilela Oliveira

DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS

PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE

FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS

NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM

ENGENHARIA CIVIL.

Aprovada por:

________________________________________________

Prof. Nelson Francisco Favilla Ebecken, D.Sc.

________________________________________________

Profª. Beatriz de Souza Leite Pires Lima, D.Sc.

________________________________________________

Profª. Myrian Christina de Aragão Costa, D.Sc.

RIO DE JANEIRO, RJ - BRASIL

MARÇO DE 2008

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

OLIVEIRA, BRUNO VILELA

Uma Análise de Estratégias de Sumari-

zação Automática [Rio de Janeiro] 2008

VIII, 81 p. 29,7 cm (COPPE/UFRJ, M.Sc.,

Engenharia Civil, 2008)

Dissertação - Universidade Federal do

Rio de Janeiro, COPPE

1. Sumarização automática, 2. Mineração

de Textos, 3. Processamento de Linguagem

Natural

I. COPPE/UFRJ II. Título ( série )

ads:

iii

Agradecimentos

Agradeço ao meu pai Daniel e minha mãe Maria Célia (Maînha) pelo cuidado e

amor que têm por mim.

Meu padrasto Luiz Cláudio, meus avós e tios que sempre me tratam, e

continuam tratando, como um filho.

Ao Marquinho e a Juliana, os irmãos com quem cresci sempre estão por perto

para o que der e vier.

Minha noiva Renata, que com seu amor incondicional e imensurável faz

qualquer situação se tornar divertida; e também pelo incentivo e ajuda na elaboração

desta pesquisa.

Meu filho Daniel, que além de toda inspiração de amor, humor e

responsabilidade, motiva-me por ser a criatura mais inteligente ao meu redor.

Aos professores e amigos Custódio e Orestes, por todo o incentivo e apoio para

ingressar no programa de mestrado.

Ao meu orientador Nelson por toda a atenção fornecida ao longo dessa jornada.

O amigo Leandro, seus parentes e sua esposa Fabiana, que me ofereceram um lar

compatível com minhas restrições financeiras.

Minha sogra e meu sogro, que praticamente me adotaram e são pessoas

maravilhosas.

Todos os meus amigos, bem como aqueles que apoiaram essa idéia de continuar

meus estudos desde que concluí graduação até quando saí, em um ônibus, rumo ao Rio

de Janeiro, um lugar completamente desconhecido para mim!

Ao imprescindível apoio financeiro fornecido pela CAPES.

Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos

necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)

UMA ANÁLISE DE ESTRATÉGIAS DE SUMARIZAÇÃO AUTOMÁTICA

Bruno Vilela Oliveira

Março/2008

Orientador: Nelson Francisco Favilla Ebecken

Programa: Engenharia Civil

A sumarização automática é uma técnica na qual o computador simula a

atividade humana de elaboração de sumários de documentos de texto. A proposta deste

trabalho é apresentar uma análise das técnicas utilizadas pelas principais abordagens de

sumarização automática, a metodologia empírica e a fundamental. Serão apresentadas

ainda as estratégias mais representativas da complexa atividade de avaliação da

sumarização, assim como seus requisitos e limitações. Para ilustrar os avanços da

sumarização de textos em português do Brasil é realizada uma avaliação comparativa de

quatro sumarizadores utilizando textos científicos e jornalísticos neste idioma.

Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the

requirements for the degree of Master of Science (M.Sc.)

AN ANALYSIS OF STRATEGIES OF AUTOMATIC SUMMARIZATION

Bruno Vilela Oliveira

March/2008

Advisor: Nelson Francisco Favilla Ebecken

Department: Civil Engineering

Automatic text summarization is a technique in which computer simulates the

human task of creating text summaries. This work presents a study of the techniques

used by the major approaches of automatic summarization, the empiric and the

fundamental approaches. The most representative strategies of the complex procedure

of summarization evaluation are also discussed, including its limitations and needs. To

illustrate the advances of automatic summarization applied to Brazilian Portuguese

texts, a comparative evaluation of four summarizers is conducted, using journalistic and

scientific texts.

Índice

Índice de figuras .............................................................................................................vii

Índice de tabelas ............................................................................................................viii

1 Introdução...................................................................................................................... 1

1.1 Relevância .............................................................................................................. 3

1.2 Organização............................................................................................................ 4

2 Introdução às Tecnologias de processamento de textos e à Sumarização Automática. 5

2.1 Tecnologias de processamento de textos................................................................ 5

2.1.1 Principais funções............................................................................................ 6

2.2 Preparação dos dados.............................................................................................. 8

2.2.1 Tokenização..................................................................................................... 8

2.2.2 Case Folding ................................................................................................... 9

2.2.3 Remoção de Stopwords ................................................................................... 9

2.2.4 Stemming e substituição por palavras-base ................................................... 10

2.2.5 Representação por N-Gramas........................................................................ 11

2.2.6 Representação vetorial................................................................................... 11

2.3 Sumarização.......................................................................................................... 13

2.4 Sumarização automática....................................................................................... 18

2.4.1 Métodos Extrativos de SA............................................................................. 20

2.4.2 Métodos Fundamentais.................................................................................. 30

3 Avaliação da SA.......................................................................................................... 33

3.1. Avaliação Intrínseca............................................................................................ 36

3.1.1. Coerência e Coesão ...................................................................................... 36

3.1.2. Informatividade ............................................................................................ 39

3.2. Avaliação Extrínseca........................................................................................... 43

4 Sumarizadores automáticos......................................................................................... 45

4.1 GistSumm............................................................................................................. 45

4.2 NeuralSumm......................................................................................................... 49

4.3 AutoResumo......................................................................................................... 52

4.4 TextAnalyst .......................................................................................................... 55

5 Avaliação dos sumarizadores...................................................................................... 59

5.1 Textos jornalísticos............................................................................................... 59

5.2 Textos científicos.................................................................................................. 60

5.3 Metodologia.......................................................................................................... 61

5.3.1 Geração dos extratos...................................................................................... 61

5.3.2 Avaliação dos extratos................................................................................... 63

5.4 Estudo de caso 1: extratos de textos jornalísticos ................................................ 64

5.5 Estudo de caso 2: extratos de textos científicos ................................................... 66

6 Conclusões................................................................................................................... 69

6.1 Limitações e trabalhos futuros.............................................................................. 71

Referências ..................................................................................................................... 72

ANEXO A. Lista de Stopwords do Gistsumm............................................................... 79

ANEXO B. Lista de Stopwords utilizada pelo sistema TextAnalyst ............................. 80

vii

Índice de figuras

Figura 2.1 – Representação vetorial de dois documentos .............................................. 12

Figura 2.2 – Arquitetura geral de um sumarizador automático...................................... 19

Figura 2.3 – Arquitetura de um sumarizador automático empírico................................ 21

Figura 2.4 – Arquitetura de um sumarizador automático fundamental.......................... 31

Figura 4.1 – Interface gráfica para configuração do GistSumm..................................... 49

Figura 4.2 – Interface do NeuralSumm.......................................................................... 52

Figura 4.3 – Janela de configuração do AutoResumo.................................................... 54

Figura 4.4 – Barra para configuração do tamanho do sumário ...................................... 54

Figura 4.5 – Editor de vocabulário................................................................................. 56

Figura 4.6 – Tela principal do TextAnalyst - Sumarização............................................ 57

viii

Índice de tabelas

Tabela 4.1 – Características das versões do GistSumm ................................................. 48

Tabela 5.1 – Relação dos textos jornalísticos dos experimentos e os arquivos associados

no corpus TeMário ......................................................................................................... 60

Tabela 5.2 – Ralação dos textos científicos compilados para os experimentos e suas

obras originais ................................................................................................................ 60

Tabela 5.3 – Escala de pontuação dos extratos .............................................................. 63

Tabela 5.4 – Pontuação dos sistemas para os extratos dos textos jornalísticos.............. 64

Tabela 5.5 – Pontuação dos sistemas para os extratos dos textos científicos................. 66

Tabela A.1 – Lista de Stopwords utilizada pelo GistSumm........................................... 79

Tabela B.1 – Lista de stopwords utilizada pelo sistema TextAnalyst............................ 80

1 Introdução

Os avanços da área de Tecnologia da Informação possibilitaram o

armazenamento em meio digital de um número muito grande de textos de diversas

naturezas. A presença da Internet como meio de comunicação tornou ainda maior o

volume de textos acessíveis on-line. Surgiu assim um ambiente universal onde a

informação textual pode ser heterogênea, transmitida em grandes volumes em curtos

períodos de tempo e pode estar em constante atualização.

A rede mundial de computadores também mudou o conceito do que se considera

informação: o mais informado não é aquele que possui a maior quantidade de

informação, mas aquele que dispõe dos melhores recursos para obter, analisar e

empregar eficientemente a informação disponível.

A sobrecarga da informação textual compromete sensivelmente a eficácia do

tratamento exclusivamente humano da enorme massa de textos disponível, podendo

acarretar grandes perdas de precisão nos resultados desejados, maior tempo necessário

para a realização das tarefas e, freqüentemente, elevado custo com os procedimentos.

Recuperar, manipular e consumir informações em linguagem natural são tarefas

complexas e importantes. Este cenário promove grande estímulo à pesquisa e ao

desenvolvimento de aplicações para análise e processamento automático de coleções de

textos.

A Sumarização Automática (SA) é a tarefa de criação de um resumo (ou

sumário) a partir de um texto em língua natural por meio de sistemas computacionais,

comumente chamados sumarizadores automáticos.

A SA tornou-se uma tarefa de grande relevância na sociedade moderna em

função dos problemas promovidos pela sobrecarga da informação. Os indivíduos têm

dificuldade não só para selecionar como também para consumir grandes quantidades de

informação textual com o tempo que dispõem. O uso intenso de manchetes dos jornais,

sinopses das principais notícias, revistas especializadas que trazem diversos temas

condensados, evidencia a necessidade de se resumir textos. No meio acadêmico,

estudantes podem se beneficiar de versões abreviadas de obras literárias para assimilar

em períodos reduzidos de tempo os principais aspectos de determinado tema visando

realizar provas de concursos e vestibulares. Ao navegar pela Web, um usuário pode

reduzir o tempo e o esforço necessários para localizar e assimilar o que é essencial

(PARDO; RINO, 2003a).

A SA pode ser analisada sob a ótica de duas abordagens principais: a empírica,

ou superficial, e a fundamental, ou profunda, que embora compreendam métodos

distintos de sumarização, não competem e podem ser utilizados de forma combinada.

A linha empírica baseia-se principalmente em métodos experimentais e

estatísticos. A abordagem profunda apóia-se nas teorias formais e lingüísticas,

constituindo uma abordagem relativamente mais complexa. A abordagem empírica tem

por objetivo a geração de sumários através da seleção e cópia de material contido no

texto-fonte. Já a abordagem fundamental incorpora modelos lingüísticos e/ou

discursivos de interpretação e reescrita textual (MARTINS et al., 2001; PARDO; RINO

2003a).

Os métodos de avaliação da SA podem ser classificados em duas categorias

(MANI et al., 1999): intrínseca e extrínseca. Em uma avaliação intrínseca, a qualidade

de um sumarizador é avaliada pela análise da própria qualidade dos sumários. Isto pode

ser feito por meio de um conjunto de diretrizes ou normas como o julgamento humano

da fluência do sumário e/ou retenção da idéia essencial presente na fonte textual

(PARDO; RINO 2003a), ou através da comparação da similaridade entre o sumário

automático e um sumário de referência, denominado sumário ideal, para a mesma fonte

textual (EDMUNDSON, 1969; JING et al., 1998; KUPIEC et al. 1995; RINO et al.,

2004). A avaliação extrínseca tem por objetivo verificar a qualidade da SA em função

dos resultados obtidos para a realização de outras tarefas, tais como: categorização,

recuperação de informação, compreensibilidade do assunto através da leitura dos

sumários e uma atividade denominada question-answering, a qual tem por objetivo

verificar se os sumários retêm informação suficiente para que os participantes

respondam uma série de perguntas sobre o tema apresentado no texto original (JING et

al., 1998; MANI et al., 1999).

Os estudos pioneiros que mais se destacaram na SA iniciaram-se ao final da

década de 1950. Embora os esforços nesta área contemplem quase meio século de

história, os atuais pesquisadores sugerem que o desenvolvimento e a avaliação de

sistemas de SA constituem um tema ainda promissor. Não existe um modelo genérico

para a geração automática de sumários ou mesmo para a avaliação da SA (PARDO;

RINO, 2003a; SPARCK JONES, 1997).

1.1 Relevância

O volume de textos disponíveis cresce de forma desmedida. A World Wide Web

tornou-se um ambiente onde esse tipo de informação aumenta, se modifica e é

disseminada de forma muito rápida.

Empresas, entidades governamentais, instituições acadêmicas e indivíduos se

vêem diante do desafio de utilizarem seus repositórios de informação textual para tomar

decisões em curtos períodos de tempo, que produzam os melhores resultados em suas

atividades. No entanto, a análise e compreensão de toda informação disponível nesses

repositórios é uma tarefa difícil.

A sumarização de textos é uma das técnicas amplamente utilizadas para

gerenciamento de documentos. Seu principal objetivo é reduzir a complexidade e o

volume das informações, sem que se percam as qualidades essenciais originais

(KUPIEC et al., 1995). Dessa forma, constitui uma proposta atraente ao problema da

sobrecarga de informação textual.

No entanto, a tarefa manual de sumarização envolve esforço intelectual e

familiaridade com o assunto. Apontar precisamente as questões importantes contidas

nos argumentos do autor de um documento exige habilidades refinadas e experiência.

Além disso, o produto de um sumarizador humano pode ser influenciado por sua

fundamentação intelectual, postura e disposição (LUHN, 1958).

A técnica de Sumarização Automática tornou-se uma das tarefas mais

pesquisadas em Processamento de Língua Natural (PLN), Recuperação de Informação

(RI) e Mineração de Textos devido à sua vasta aplicabilidade para lidar com as

dificuldades humanas de gerenciar o conhecimento disponível em grandes repositórios

de informação textual.

Os estudos na área de SA para textos em português só tiveram início mais de

uma década após as pesquisas voltadas para outros idiomas como o inglês (PARDO;

RINO, 2006). Atualmente existem vários sumarizadores para a língua portuguesa do

Brasil, porém em estágio de aprimoramento.

A avaliação da SA, que constitui uma tarefa complexa, é de fundamental

importância para se constatar o mérito e progressos dessa tecnologia. Apesar disso,

ainda há pouco consenso sobre a melhor forma de se avaliar a SA (JING et al., 1998;

MANI et al., 1999; PARDO; RINO, 2003a).

A proposta do presente trabalho é apresentar uma análise das técnicas utilizadas

pelas principais abordagens de geração automática de sumários, discutir as dificuldades

e os aspectos envolvidos na avaliação de sumários gerados automaticamente e

investigar os avanços das pesquisas sobre SA voltadas ao processamento da língua

portuguesa do Brasil. Para ilustrar esses avanços, são realizados dois estudos de casos

envolvendo quatro sumarizadores automáticos preparados para lidar com textos em

português. Dessa forma, a relevância deste trabalho está em sua contribuição para a

evolução de pesquisas correlatas. Entre os trabalhos relacionados a este podem ser

citados os de (BALAGE FILHO et al., 2007a, 2007c), (HASSEL, 2004), (MARTINS et

al. 2001), (PARDO; RINO 2003a) e (RINO et al. 2004).

1.2 Organização

O capítulo 2, que constitui a fundamentação teórica desta pesquisa, introduz o

processamento computacional de textos, apresenta conceitos básicos de PLN, RI,

Mineração de Textos e de SA, referenciando trabalhos pioneiros e recentes considerados

relevantes ao assunto, sendo destacados os principais aspectos envolvidos na geração,

uso e avaliação de sumários.

No terceiro capítulo, as principais estratégias de avaliação da SA e seus aspectos

mais importantes são discutidos.

O capítulo 4 apresenta os quatro sistemas de SA utilizados nos experimentos,

descrevendo suas características e funcionalidades.

O quinto capítulo descreve a metodologia adotada para a avaliação dos

sumarizadores e compara os resultados obtidos.

Por fim são apresentadas no capítulo 6 as conclusões deste trabalho, suas

limitações e propostas de pesquisas futuras.

2 Introdução às Tecnologias de processamento

de textos e à Sumarização Automática

Neste capítulo são introduzidos conceitos e definições básicas de Processamento

de Língua Natural (PLN), Recuperação de Informação (RI), Mineração de Textos e

Sumarização Automática (SA). São apresentados também os estudos pioneiros que se

destacaram por suas contribuições e algumas pesquisas recentes que sugerem as

tendências desta área, permitindo assim estabelecer um esboço das principais

estratégias, limitações e do estado da arte em SA.

2.1 Tecnologias de processamento de textos

A informação textual acompanha a humanidade há muitos séculos e tornou-se

indispensável para a manutenção das principais atividades pessoais, educacionais,

comerciais e governamentais.

Os problemas de se gerenciar manualmente o crescente volume de textos e o

surgimento dos primeiros computadores eletrônicos impulsionaram um grande número

de pesquisas sobre o processamento automático de informação textual, que nas

disciplinas da área de Tecnologia de Informação (TI) é freqüentemente chamada de

informação não estruturada. Os interesses em processar automaticamente esse tipo de

informação eram percebidos em diversos ramos da sociedade e os estudos de maior

repercussão tiveram seu início aproximadamente ao final da década de 1950.

Os principais assuntos abordados nessas pesquisas eram: gerenciamento de

informação não estruturada (Recuperação de Informação), desenvolvimento de

linguagens artificiais para a programação de computadores (Linguagens de

Programação de Alto Nível), sistemas de tradução automática e comunicação com

máquinas através de língua natural (Processamento de Língua Natural), e Sumarização

Automática (SA) (BAXENDALE, 1958; KONCHADY, 2006; LUHN, 1958).

A área de RI lidava inicialmente com os problemas de se gerenciar

eficientemente coleções de textos. A criação automática de índices era uma questão de

interesse (BAXENDALE, 1958): a elaboração de resumos e índices dos documentos

representava aproximadamente 80% dos esforços em sistemas de consultas, os outros

20% eram associados ao desenvolvimento dos mecanismos de recuperação de

informação.

A origem da área de PLN pode ser atribuída às primeiras investigações,

realizadas durante a década de 1950, sobre o processamento de línguas naturais em

computadores: a tradução automática de textos (DIAS-DA-SILVA et al., 2007). Entre

os principais problemas pesquisados em PLN destacam-se os de compreensão e geração

de língua natural. O termo PLN passou a ser associado às tarefas de análise e síntese de

textos em língua natural e não somente à compreensão de textos, indicando, dessa

forma, o crescimento das aplicações pesquisadas nesta área (KONCHADY, 2006).

Mineração de Textos (Text Mining) define um conjunto de técnicas

computacionais inspiradas na tecnologia de Data Mining que têm por objetivo a

descoberta de conhecimento em bases de informação não estruturada em língua natural

(BASTOS, 2006).

A tecnologia de SA, devido à sua grande aplicabilidade para resolução de

problemas de processamento de línguas naturais, tornou-se objeto de estudos das áreas

de RI, PLN e mineração de textos. Alguns autores chegam a referenciar a SA não só

como uma tarefa, ou função de PLN, mas como uma disciplina envolvendo vários

aspectos (PARDO; RINO, 2003a). Porém, o fato interessante é que mesmo após

aproximadamente meio século de estudos, trata-se ainda de um tema proeminente e

promissor. A seguir são apresentadas algumas das funcionalidades mais relevantes das

áreas de mineração de textos, PLN e RI.

2.1.1 Principais funções

Dentre as funções mais destacadas nos estudos de Mineração de Textos, PLN e

RI podem ser citadas a Busca, Extração de Informação, o Agrupamento de textos,

Categorização, Monitoramento, Sumarização e Perguntas e Respostas (Question and

Answer) (KONCHADY, 2006).

A busca de informações promove uma interface onde é possível realizar

consultas a uma coleção de documentos. Espera-se que o resultado da consulta seja um

conjunto de textos relevantes às pistas fornecidas pelo solicitante da busca. Como

exemplo pode-se citar as máquinas de busca disponíveis para a Web.

Na extração de informação o objetivo principal é explorar padrões de uso de

palavras presentes no texto de forma a associar atributos semânticos às palavras, tais

como datas e nomes próprios.

No agrupamento, o objetivo é reunir os documentos em grupos baseando-se em

alguma função de similaridade. Os resultados de uma busca por textos em grandes

coleções podem ser mais facilmente analisados se estes forem organizados em grupos.

A tarefa de categorização indica a classificação de documentos em categorias

previamente definidas, como ocorre nos sistemas de detecção de Spam para e-mails.

A SA é a técnica onde um computador simula a tarefa humana de criar uma

versão condensada de um texto através da seleção ou generalização do seu conteúdo

mais importante. Não se limitando apenas às finalidades dos seguintes exemplos, um

sumário, aqui definido como resumo, pode ser utilizado para a transmissão da essência

de um documento utilizando-se o mínimo de conteúdo textual possível. Em outra

circunstância, um leitor pode decidir se um documento deve, ou não, ser completamente

lido analisando previamente o correspondente sumário.

O monitoramento de informação é importante para rastrear conteúdos

dinâmicos, tais como os disponibilizados em diferentes fontes de notícias. Para se

estabelecer consultas em linguagem natural, a tarefa de perguntas e respostas classifica

as perguntas fornecidas e recupera do texto as passagens consideradas respostas àquela

categoria de pergunta.

É pertinente ressaltar que a SA de textos pode ser aplicada com o objetivo de

tornar mais eficientes outras tarefas que envolvem o tratamento de informação textual

como, por exemplo, as supracitadas. Tomando como exemplo sistemas de recuperação

de informação, estudos mostram que é possível obter melhores resultados ao utilizar

índices elaborados a partir de sumários em vez de índices produzidos a partir de

documentos completos. Outro exemplo de aplicação da SA é a redução dos custos com

tempo de processamento e transmissão de dados. Neste caso, espera-se que ao utilizar o

sumário em vez de sua fonte textual completa o tempo de processamento e/ou o volume

de dados a serem transmitidos em redes de computadores sejam menores. Em qualquer

situação onde os sumários são utilizados como substitutos é importante que não haja

degradação na qualidade dos resultados Por outro lado, técnicas de agrupamento e

classificação podem ser utilizadas para a geração de sumários.

2.2 Preparação dos dados

É comum associar-se o termo documento a uma unidade de informação textual

em língua natural. Um texto, por sua vez, pode ser visto como um conjunto de

caracteres com várias finalidades. Estes caracteres podem ser símbolos de pontuação,

números, letras ou símbolos especiais. Os caracteres podem ser alinhados em uma

seqüência para compor uma palavra ou outros termos da língua natural. As palavras

podem compor sentenças e, estas, organizadas em parágrafos.

Existem idiomas, como o japonês e o chinês, que utilizam símbolos e regras

gramaticais completamente distintas do português brasileiro para a expressão de seus

textos, porém estão fora do escopo deste trabalho.

Como um primeiro passo a ser efetuado no processamento de textos, as

tecnologias disponíveis geralmente realizam uma série de passos preliminares, antes de

realizar a tarefa objetivada de processamento das informações. Os procedimentos desse

estágio preliminar, denominado pré-processamento, buscam filtrar as informações e

convertê-las em uma representação compatível com os métodos computacionais

utilizados. As principais realizações dessa fase são descritas a seguir.

2.2.1 Tokenização

Como uma das primeiras tarefas da fase de pré-processamento, a tokenização

consiste em percorrer todo o texto identificando cada “palavra” entre as seqüências de

caracteres. Em uma definição mais precisa, trata-se de identificar tokens que são as

menores unidades de informação presentes no texto que possuem significado quando

analisados de forma isolada. Desse modo, um token pode ser uma palavra, um número

representado por um caractere numérico, um número de telefone, o nome de uma

empresa formado pela combinação de uma ou mais palavras, um endereço da Web ou

de e-mail e assim por diante (BASTOS, 2006; WEISS et al., 2005).

O problema principal consiste em como delimitar cada token dentro do texto

devido aos diferentes tipos de informação que pode estar contida no documento. Para

um leitor humano familiarizado com a estrutura da linguagem utilizada no texto, isto é

uma tarefa relativamente simples. Para um computador, no entanto, pode constituir uma

tarefa mais difícil. O problema é que nem sempre os caracteres são utilizados com a

mesma finalidade. Os caracteres “espaço em branco”, tabulação, e “quebra de linha”

sempre são utilizados como delimitadores e nunca são tratados como tokens. Outros

caracteres, como ! ? “ em geral são considerados delimitadores, mas também podem

representar tokens e, em alguns, casos parte de um nome, como acontece com

“Yahoo!”. Problemas semelhantes ocorrem com os caracteres . , : - ‘, que podem ou não

ser utilizados como delimitadores de acordo com o contexto. O caractere de ponto final

é muito utilizado em abreviações, em outros casos ele indica o final de uma sentença.

Identificar corretamente os tokens dentro de um texto constitui uma tarefa importante

para aumentar a qualidade da análise dos elementos textuais.

2.2.2 Case Folding

Este processo de homogeneização dos dados consiste em converter todos os

caracteres alfabéticos para a mesma caixa, isto é, todas as letras são convertidas em

maiúsculas ou minúsculas. Com isto, as palavras GÁS, GÁs, GáS, Gás, gÁS e gáS

seriam todas representadas pela única forma padronizada GÁS, ou gás, de acordo com a

estratégia adotada. É importante lembrar que o processo de case folding deve ser

utilizado em etapas do processamento textual onde a diferença entre maiúsculas e

minúsculas não é relevante, pois algumas tarefas baseiam-se justamente na distinção de

caixa para identificar determinados padrões na superfície textual de documentos.

2.2.3 Remoção de Stopwords

As stopwords constituem palavras que geralmente não agregam conhecimento

útil para a análise do texto. Em geral, elas são constituídas por artigos, conjunções,

verbos auxiliares, abreviaturas muito comuns, erros de digitação entre outras. O

domínio do texto em análise pode determinar diferentes conjuntos de palavras

irrelevantes. É importante eliminar estas palavras, pois elas podem não só prejudicar o

desempenho computacional do processamento, como também distorcer os resultados

obtidos.

2.2.4 Stemming e substituição por palavras-base

Em um texto, muitas vezes as variações morfológicas das palavras remetem a

um mesmo significado semântico e em algumas tarefas como, por exemplo, buscas por

palavras chave devem ser consideradas equivalentes (BASTOS, 2006). O processo de

redução à raiz, stemming ou mesmo lemmatization, é realizado para converter essas

diferentes manifestações a uma forma básica denominada raiz ou stem. As variações

podem ocorrer em função de sufixos inseridos para indicar o plural, gênero, conjugação

verbal. Em outros casos, processos mais radicais de stemming podem tratar da

eliminação de prefixos e outras variações menos freqüentes do idioma em questão.

Portanto, esta atividade é dependente de língua. Um algoritmo muito utilizado para o

stemming é o de Porter (1980 apud BASTOS, 2006).

Esta técnica pode resultar em alguns problemas, como é o caso do overstemming

e/ou understemming. No primeiro caso, ao remover um sufixo pode-se eventualmente

remover parte do radical da palavra e resultar em uma cadeia que não representa o stem

daquela palavra. Por exemplo, a palavra "atacado“ pode ser reduzida para “ata”, que não

é o stem correto, “atac”. A outra situação problemática é quando o processo de

stemming não descarta um número suficiente de caracteres, e a palavra resultante não

constitui a forma raiz. Como exemplo, caso o algoritmo de stemming reduzir a palavra

“pestanejava” à raiz “pestaneja”, o stemming não foi corretamente realizado: o sufixo

“ava” não foi completamente removido.

Um processo de efeito semelhante ao stemming é denominado substituição das

palavras por suas formas canônicas ou palavras-base. Isto é feito com o uso de um

repositório lingüístico denominado léxico.

Os léxicos podem ser construídos de diversas maneiras. O tipo e quantidade de

informação armazenada para cada entrada, denominada item lexical, desse repositório

dependem das características da tarefa para a qual o léxico será utilizado. Os léxicos

podem apresentar diferentes níveis de complexidade em relação ao tipo de conteúdo que

armazenam. Como exemplo de léxicos mais simples, pode-se citar aqueles que

armazenam apenas formas básicas de palavras, denominadas formas canônicas. Nestes

léxicos, as formas variantes

de uma palavra podem ser obtidas por processos de

derivação. O processo inverso também pode ser realizado, isto é, obter-se as formas

básicas das palavras a partir de suas variações (SPECIA; RINO 2002). Assim como o

stemming é um recurso dependente de língua.

2.2.5 Representação por N-Gramas

Trata-se de uma estratégia atrativa para a representação de documentos

principalmente por não depender de língua natural, já que não necessita de processos

como stemming e de remoção de stopwords (CAVNAR, 1994). Um n-grama é uma sub-

cadeia contendo n caracteres, de uma cadeia maior. Por exemplo, a cadeia, ou token,

TAIGA pode ser representada pelos trigramas _TA, TAI, AIG, IGA e GA_ ou pelos

quadrigramas _TAI, TAIG, AIGA, IGA_. O caractere traço baixo é um marcador

especial de início e fim de cadeia. Variações morfológicas de uma mesma raiz, também

irão compartilhar muitos de seus n-gramas, como é o caso das palavras ABRAÇAR e

ABRAÇANDO, que possuem os seguintes bi-gramas coincidentes: _A, AB, BR, RA,

AÇ e ÇA. O mesmo fato pode ser observado com palavras escritas incorretamente como

pode ser exemplificado com ADMIRAR e uma forma errônea ADIMIRAR, que

possuem a maioria de seus n-gramas coincidente.

2.2.6 Representação vetorial

As técnicas de processamento de textos mais recentes se fundamentam em vários

métodos de processamentos de dados numéricos. Torna-se necessária uma

representação dos documentos de texto dentro de um domínio numérico para que seja

possível aplicar essas técnicas. Assim, é comum utilizar a representação vetorial

apresentada por Salton (1988). Nesta técnica cada documento da coleção é considerado

como um vetor multidimensional, onde cada dimensão do vetor representa uma palavra.

O conjunto de todas as palavras presentes nos documentos em análise

normalmente é chamado dicionário. Este dicionário forma a base para a representação

Flexões de gênero, número, grau, modo, tempo, etc.

do conjunto de documentos como uma matriz, onde as colunas representam as palavras

do dicionário e cada linha é um documento em sua forma vetorial.

Dessa forma, para uma determinada célula da matriz, o valor que ela armazena

está relacionado à palavra correspondente à coluna desta célula, para o documento

representado na linha desta mesma célula. Existem diferentes estratégias para se

calcular o valor a ser armazenado nas células.

Na estratégia mais simples, também conhecida como representação binária,

verifica-se simplesmente a presença ou ausência das palavras, e a entrada para cada

célula pode ser 0 (zero) ou 1 (um) indicando, respectivamente, que uma palavra ocorre

ou não em um documento.

Considerando uma coleção contendo apenas dois documentos, e que estes

contêm respectivamente sentenças abaixo:

• Documento 1: “sumarizar significa reduzir em complexidade.”

• Documento 2: “ao sumarizar um documento, reduz-se sua complexidade.”

Dessa forma, o dicionário desta coleção será constituído pelas palavras (tokens)

“ao”, “complexidade”, “documento”, “em”, “sua”, “significa”, “sumarizar”, “reduzir“ e

“reduz-se”. A matriz representando os vetores dos dois documentos é ilustrada na figura

2.1, onde D1 refere-se ao documento 1 e D2 ao documento 2.

Ao complexidade documento em sua significa sumarizar reduzir reduz-se

0 1 0 1 0 1 1 1 0

1 1 1 0 1 0 1 0 1

Figura 2.1 – Representação vetorial de dois documentos

Uma outra estratégia, denominada TF (Term Frequency), o valor das células é

calculado com base na freqüência de ocorrência de cada palavra do dicionário. Neste

modelo, a medida TF

(j,d)

é calculada como o número de vezes que o termo j ocorre em

um documento d. Uma das características atrativas dessa estratégia, é que pode-se

utilizar os valores TF para verificar a importância dos termos nos documentos. Termos

mais freqüentes podem representar conceitos importantes associados ao tema principal

do texto (BLACK; JOHNSON, 1988 apud MARTINS, 2001).

Através da métrica TF-IDF

(i,d)

(SALTON, 1988) a pontuação de um termo é

feita levando-se em conta a sua freqüência no documento e em todos os outros

documentos da coleção de documentos em análise. A interpretação simplificada dessa

estratégia é que quando uma palavra ocorre com elevada freqüência na coleção, ela é

considerada menos importante e quando ocorre freqüentemente em poucos documentos,

sua medida TF-IDF tende a ser maior e, conseqüentemente, pode representar um termo

importante. A medida TF-IDF é calculada de acordo com a equação 2.1.

)1.2(IDFTFIDFTF

)(),(),( jdjdj

−

Onde TF

(j,d)

é a freqüência da palavra j no documento d e o parâmetro IDF

(j)

(Inverse Document Frequency), associado à palavra j, é dado pela equação 2.2, onde

(j)

(Document Frequency) é o número de documentos em que a palavra j ocorre ao

menos uma vez e |N| representa a cardinalidade da coleção de documentos.

(2.2)

logIDF

)(

⎟

⎠

⎞

⎜

⎝

⎛

Um problema que pode ocorrer ao se representar documentos como vetores, é

que se as variações morfológicas de uma palavra, quando utilizadas com um mesmo

significado semântico, forem consideradas termos distintos, a dimensão do espaço

vetorial pode se tornar muito grande. Para lidar com este problema, aplicam-se em geral

técnicas como remoção de stopwords e redução dos tokens à suas raízes (stemming).

2.3 Sumarização

A sumarização é uma das tarefas mais comuns na comunicação através de

linguagem natural. Quando um indivíduo conta o que ocorreu em uma reunião, os

comentários que alguém fez de uma outra pessoa, o tema principal de um filme ou livro,

ou quais são as últimas notícias de acontecimentos no mundo ele certamente expressará

de forma condensada as partes básicas dessas informações (HUTCHINS, 1987).

Segundo o padrão de documentação ISO 215:1986 (1986 apud HASSEL, 2004),

um sumário é uma breve reafirmação contida em documentos (geralmente ao final) de

suas descobertas e conclusões relevantes e destina-se a completar a orientação do leitor

que estudou o texto antecedente ao sumário. Um abstract é, de acordo com esse mesmo

padrão, uma representação curta do conteúdo de um documento sem interpretação ou

crítica.

No contexto deste trabalho o termo sumário é utilizado de forma genérica para

se fazer referência a qualquer tipo de resumo de um ou mais documentos. Dessa forma,

sumarizar significa gerar uma versão reduzida de uma expressão textual, mantendo o

conteúdo relevante e seu efeito pretendido em relação à determinada tarefa ou aos

objetivos comunicativos do documento original. Como sumarizar envolve a redução em

tamanho, outra característica de fundamental importância a ser considerada é o tamanho

desejado para o sumário. A taxa de compressão é uma medida que determina o tamanho

do sumário em relação ao tamanho do texto-fonte. Os textos podem ser medidos em

termos de número de bytes, caracteres, palavras, sentenças etc.

Um sumário pode ser utilizado com várias finalidades como:

• Reduzir tempo necessário para a leitura e compreensão de documentos, servindo

como substitutos dos textos-fonte associados;

• Facilitar a busca e seleção de documentos, indicando seus conteúdo, sendo

portanto muito útil em ambientes com excessiva quantidade de textos;

• Aumentar a eficiência de um sistema de indexação;

• Facilitar o preparo de revisões;

• Economizar recursos computacionais e reduzir o tráfego em transmissões de

dados (de SMEDT et al., 2005; HASSEL, 2004) etc.

Os exemplos mais comuns de sumários podem ser identificados nas manchetes

de jornais, revistas especializadas que apresentam resumos dos principais assuntos da

atualidade, abstracts de artigos e outros trabalhos acadêmicos, previsões

meteorológicas, nas breves descrições anexadas aos resultados de uma consulta na Web

etc.

Pardo e Rino (2003a) argumentam que para a criação de um sumário é preciso

que se verifiquem algumas características referentes à fonte textual, as quais são

denominadas por estes autores como “premissas da sumarização”:

• Deve haver uma fonte textual a ser sumarizada;

• Por ser um texto o objeto a ser sumarizado, também é importante a existência de:

a) uma idéia, ou tópico, central a partir da qual é construída a trama textual;

b) um conjunto de unidades de informação que possui relação nítida com a

idéia central do texto-fonte;

c) um objetivo comunicativo central que orienta tanto a seleção de unidades

de informação quanto a escolha da estrutura textual, para estabelecer a

idéia pretendida;

d) um enredo, elaborado em função das escolhas supracitadas, que tem por

objetivo transmitir coerentemente a idéia central, para que os objetivos

comunicativos pretendidos sejam atingidos;

• Em função dos conceitos mencionados, a principal premissa da sumarização de

textos pode ser apresentada como a tarefa de identificar o conteúdo relevante de

um texto e utilizar esta informação para construir um novo enredo, utilizando o

conteúdo disponível e preservando a idéia central no sumário correspondente.

Além disso, não se deve transgredir o significado originalmente proposto.

Essas premissas determinarão diversos aspectos envolvidos no desenvolvimento

e avaliação de sumarizadores automáticos. Para que se possa capturar a idéia central de

um texto a ser sumarizado é preciso primeiramente compreender a estrutura discursiva

do texto. Neste caso, a relação entre seqüências de sentenças, conjuntos de sentenças e a

organização global do texto devem ser identificados (MARTINS et al., 2001).

Hutchins (1987) define uma organização estrutural dos textos em

microestruturas e macroestruturas. As microestruturas são representadas pelas relações

entre seqüências de sentenças no texto tais como relações anafóricas, ligações lexicais e

semânticas, coesão e progressão temática. A macroestrutura é definida em função de

blocos de sentenças e da organização global dos textos.

Em função dessa organização estrutural, Hutchins (1987) sugere quatro regras

que podem ser empregadas na generalização e condensação:

• Delição: constitui a exclusão de atributos, propriedades ou segmentos

completos, considerados descartáveis.

Exemplo: “O rapaz comprou um carro amarelo”. A sumarização pode

ocorrer com a exclusão da palavra qualificativa “amarelo”, para produzir a

sentença: “O rapaz comprou um carro”.

• Generalização: permite a abstração de propriedades necessárias, através da

substituição de hipônimos por seus hiperônimos, deixando-as implícitas nas

sentenças produzidas.

Exemplo: As sentenças “Daniel viu um pardal. Daniel viu um canário” e

“Daniel viu um pardal e um canário” podem ser generalizadas pela sentença

“Daniel viu aves”.

• Construção: é semelhante à generalização. A proposição resultante é produzida a

partir de uma seqüência de proposições.

Exemplo (HUTCHINS, 1987): a seqüência “Pedro comprou tijolos, areia,

cimento, preparou os alicerces, ergueu paredes...” pode ser utilizada para gerar a

sentença “Pedro construiu uma casa”.

• Combinação de Delição-construção: consiste em excluir sentenças que

expressam pré-condições de ações ou motivações de objetivos.

Exemplo: No segmento “O garoto queria fazer uma pipa... O garoto fez

uma pipa”, a primeira sentença pode ser eliminada sem prejudicar o significado

original.

A estratégia e os objetivos da sumarização de documentos permitem definir o

tipo de sumário que é gerado. Em função desses fatores, os sumários podem ser

classificados com os seguintes critérios (MANI, 2001a apud GANAPATHIRAJU,

2002; PARDO; RINO, 2003a):

• Detalhes apresentados: indicativos/informativos/críticos

• Granularidade da informação contida: eventos específicos/visão geral

• Técnica de sumarização: extração/abstração

• Conteúdo: genéricos/orientados a tópicos

• Abrangência: domínio ou gênero específicos/independentes

• Número de documentos a sumarizar: multi-documento/mono documento

Os sumários indicativos oferecem uma idéia sobre o tema principal do texto,

porém, sem detalhar o conteúdo essencial de sua fonte. Por isso, esse tipo de sumário

não serve como substituto do texto original. Sumários informativos devem preservar as

informações específicas mais relevantes como objetivos, metodologias, resultados e

conclusões, porém abreviadas, de forma que se possa, em certas situações, dispensar a

consulta aos textos completos associados. Esta característica permite denominá-los

como autocontidos. Os sumários críticos podem ser gerados para avaliação ou

simplesmente para comentar o conteúdo do texto fonte (HUTCHINS, 1987 apud

MARTINS, 2001; PARDO; RINO, 2003a).

Embora os sumários indicativos possam ser utilizados como indexadores em

sistemas de recuperação de informação, Sparck Jones (1993) tenta descrever as

diferenças entre índices e sumários. Para a autora, sumários devem ser vistos como

textos que podem, inclusive, substituir o documento original. Já os sumários

indexadores não preservariam necessariamente o conteúdo informativo essencial

presente em sua fonte original, apresentando apenas uma vaga idéia dos mesmos,

muitas vezes na forma de listas de termos-chave. Com isto, um sumário indexador não

constituiria um texto e também não poderia atuar como substituto ao documento

original.

Outra diferença apontada por Sparck Jones (1993) diz respeito à forma de

avaliação. Devido a sua função mais clara e sua aplicação mais limitada, a avaliação de

um índice pode ser mais facilmente modelada e realizada de forma eficiente. Um

sumário é um elemento com aspectos mais complexos, assumindo uma relação mais

sofisticada com suas fontes textuais, se comparado aos sumários indexadores,

implicando em uma maior variabilidade, e dificuldade em se estabelecer como, e se, ele

atende as necessidades do usuário e/ou tarefa para a qual ele foi produzido.

A elaboração de sumários informativos e de sumários críticos é uma tarefa mais

complexa que a de sumários indicativos devido à complexidade das relações que os dois

primeiros devem manter com suas fontes (MARTINS, 2001). Em termos de

granularidade, os sumários podem apresentar o assunto de forma geral ou apenas o que

o texto acrescenta de novo sobre o tema.

Sumários elaborados a partir de técnicas extrativas podem ser denominados

extratos. Um extrato é construído através da simples justaposição de sentenças

cuidadosamente selecionadas a partir do texto-fonte. Nesta estratégia, raramente as

sentenças escolhidas sofrem algum tipo de modificação. Os sumários do tipo abstract

são elaborados por processos de reescrita textual que possibilitam a síntese de novas

sentenças para a representação da informação relevante do texto-fonte. Dessa forma, os

abstracts podem conter informações não necessariamente existentes no documento

original. Sumários podem abordar de forma geral o conteúdo de um documento,

adotando a perspectiva do autor, ou abordarem apenas tópicos específicos de acordo

com os interesses do usuário (query-specific summary).

A fonte textual pode ser constituída por um ou mais documentos, caracterizando

respectivamente a sumarização mono ou multi-documento. Além disso, o conteúdo

textual pode estar relacionado a domínios e/ou gêneros específicos ou ser independente

desses aspectos (HOVY; LIN, 1998; PARDO; RINO, 2003a). Nesta dissertação, o

termo sumário é utilizado de forma genérica, podendo fazer referência a qualquer tipo

de sumário e, quando necessário, as devidas distinções serão destacadas.

Independente do tipo de sumário é importante ressaltar que por serem também

expressões lingüísticas na forma textual, os sumários devem apresentar as mesmas

características que promovem a textualidade aos textos como coerência e coesão, boa

progressão temática, gramaticalidade, legibilidade e informatividade. Estes fatores

podem ser utilizados para a avaliação dos sumários, conforme será discutido no capítulo

Outra característica importante da sumarização é que para um mesmo texto-

fonte podem-se criar diversos sumários, seja para atender a diferentes tipos de público

alvo ou por questões subjetivas de seu escritor. Isso aumenta a complexidade da

avaliação de sumários, já que não existe um único resultado que possa ser considerado

correto. A compreensão dos diferentes tipos de sumários e das estratégias particulares a

cada um ainda não foi completamente alcançada e, assim, o desenvolvimento de

estratégias de SA ainda se apresenta como uma área que atrai o interesse de diversos

pesquisadores (EDMUNDSON, 1969; HOVY; LIN, 1998; JING et al., 1998).

2.4 Sumarização automática

O esforço intelectual e a experiência necessários à preparação dos sumários são

considerados há muitos anos um problema para o qual, a principal solução remete-se ao

desenvolvimento de mecanismos de geração automática de sumários (LUHN, 1958).

Com a digitalização dos documentos é possível aplicar transformações antes

impossíveis aos documentos em papel. A idéia de se utilizar os computadores para

realizar a tarefa de sumarização despertou o interesse de vários setores da sociedade

como o acadêmico, o governamental e o comercial (PARDO, 2002b).

Mani e Maybury (1999 apud PARDO; RINO, 2003a) destacam que a

sumarização automática pode ser vista de forma genérica como uma tarefa composta

por três processos: análise, transformação e síntese. Na análise, deve-se elaborar uma

representação computacional do texto-fonte. O processo de transformação modifica o

resultado produzido na análise para gerar a representação do sumário. Na síntese, a

estrutura representativa do sumário é convertida em uma expressão lingüística, o

sumário. Essa arquitetura é ilustrada na figura 2.2 (PARDO; RINO, 2003a).

Figura 2.2 – Arquitetura geral de um sumarizador automático (PARDO; RINO, 2003a)

A SA pode ser analisada sob a perspectiva de duas abordagens do PLN: a

abordagem fundamental (ou profunda) e a abordagem empírica (ou superficial). Ambas

procuram identificar a idéia central dos textos-fonte para posteriormente estabelecer os

elementos que constituirão o sumário. A diferença principal está na proposta de

construção do sumário. Na abordagem fundamental são investigadas e desenvolvidas

estratégias destinadas à produção de sumários do tipo abstract. A abordagem a empírica

lida com métodos destinados principalmente à produção de extratos.

Dessa forma, a abordagem fundamental simula a reescrita integral do sumário e

explora diversas características lingüísticas e extralingüísticas tais como os objetivos

comunicativos do autor ao escrever o texto, relações semânticas e retóricas. A escolha

de uma linguagem eficaz para representar o conhecimento contido nos textos é

fundamental nesta abordagem. Sem uma representação adequada do significado do

texto dificilmente serão produzidos bons sumários.

Na abordagem empírica métodos estatísticos ou superficiais são empregados

para identificar os segmentos importantes da fonte textual e produzir os extratos através

da justaposição, sem qualquer modificação, desses segmentos. Por se basear na extração

de material a partir do texto-fonte, as técnicas adotadas na abordagem empírica também

são denominadas técnicas extrativas (PARDO; RINO, 2003a).

Apesar de ser um tema relativamente antigo, a sumarização automática é ainda

hoje um problema difícil de PLN, pois para se produzir um sumário de qualidade é

preciso que se compreenda o tema da fonte textual. Isto requer uma análise semântica,

processamento do discurso e a reunião do conteúdo utilizando conhecimentos

abrangentes da língua natural. Não se tem notícia de sistemas capazes de resolver todas

essas questões de forma eficaz. Dessa forma, as tentativas conduzidas até o momento de

simular fielmente o processo humano de sumarização, produzindo sumários do tipo

abstract, não demonstraram muito sucesso.

O uso de características lingüísticas para a SA constitui uma questão ainda em

discussão (LEITE et al., 2007). Os avanços mais relevantes na área de SA são voltados

ao tratamento de textos em inglês. No entanto, existem sistemas que operam de forma

independente (ou quase independente) de língua natural, deixando de lado maior parte

dos fatores lingüísticos específicos ao idioma e assumindo modelos estatísticos. A

preocupação em relação aos sistemas que não levam em consideração o conhecimento

lingüístico é que ao ignorar o conjunto de especificidades do idioma, os sumários

gerados podem não ser adequados aos objetivos para os quais serão utilizados (LEITE

et al., 2007).

Em relação à abordagem de SA, percebe-se que a maioria dos sumarizadores

automáticos disponíveis atualmente produzem apenas extratos. Embora esse tipo de

sumário freqüentemente não seja coerente ou coeso, o usuário pode utilizá-lo para

formar uma opinião sobre o conteúdo do texto original (SUMMARIST, 2008). Os

principais métodos que fundamentam as abordagens empírica e fundamental serão

apresentados a seguir.

2.4.1 Métodos Extrativos de SA

Em meados da década de 1960 as primeiras investigações sobre sumarização

automática já haviam sido apresentadas e as aplicações eram voltadas, sobretudo à área

acadêmica. Porém, devido aos resultados insatisfatórios e às limitações de software e

hardware, bem como a inexistência de repositórios lingüísticos digitais especializados

para a sumarização, os avanços não foram sensíveis até a década de 1980, quando o uso

dos computadores e a capacidade de processamento aumentaram consideravelmente.

Além disso, recursos como grandes corpora, léxicos e gramáticas tornaram-se

disponíveis possibilitando investigações mais abrangentes sobre SA (PARDO et al.,

2002). Atualmente o tema de SA cresceu em importância, sobretudo em função da

abundância de informação textual em formato digital (DALAINIS, 2007) e da presença

de recursos computacionais eficientes para o processamento automático de textos.

Os métodos extrativos de SA privilegiam o tratamento estatístico ou relacional

de informações textuais. Essa abordagem faz pouco, ou nenhum, uso de conhecimento

lingüístico e extralingüístico profundos para a elaboração dos sumários (PARDO;

RINO, 2006). A SA extrativa basicamente utiliza técnicas que identificam a relevância

de segmentos textuais com o objetivo de realizar a seleção e justaposição dos mais

importantes levando em conta as restrições de sumarização pretendidas, para finalmente

produzir o sumário (MARTINS et al., 2001). A etapa de pré-processamento dos dados,

descrita na seção 2.2, deve sempre ser considerada para a obtenção de resultados mais

satisfatórios (MARTINS et al., 2001). Uma arquitetura genérica de sumarizadores da

abordagem empírica apresentada por Pardo e Rino (2003a) é ilustrada na figura (2.3).

Figura 2.3 – Arquitetura de um sumarizador automático empírico (PARDO; RINO, 2003a)

Nesta arquitetura, as fases de transformação e de síntese são substituídas por

uma etapa de seleção, já que os métodos empíricos baseiam-se principalmente na

extração de sentenças literais do texto. Na fase de análise é que se concentram as

técnicas extrativas que apuram a relevância dos segmentos textuais, tais como as que

serão apresentadas em seguida.

As primeiras investigações sobre SA, como os apresentados por Luhn (1958) e

por Edmundson (1969), são tão simples quanto antigas. Na proposta de Luhn (1958) os

sumários são gerados por uma técnica extrativa na qual a seleção das sentenças baseia-

se na freqüência das palavras. Sua estratégia busca sentenças que possuem

agrupamentos de palavras-chave e, a partir de informações estatísticas derivadas da

freqüência e da distribuição das “palavras significativas”, calcula o que ele chama de

“fator de significância“ das sentenças. Segundo Luhn (1958), sua estratégia é suportada

pela idéia de que quanto maior o número de palavras-chave distintas encontradas

fisicamente próximas entre si, maior é a probabilidade de que a informação por elas

expressadas é mais representativa do tema principal do texto-fonte.

Embora a pesquisa de Baxendale (1958) não lidasse diretamente com estratégias

de SA

, ela destacou a relação existente entre a posição das sentenças no parágrafo e a

importância das mesmas. Os resultados de um experimento envolvendo 200 parágrafos

revelaram que em 85% dos parágrafos as sentenças mais representativas do assunto

principal eram as primeiras e em 7%, estas ocorriam no final dos parágrafos

(BAXENDALE, 1958).

Edmundson (1969) propôs princípios para o projeto de sumarizadores

automáticos e explorou a combinação de características subjetivamente ponderadas para

a construção de sumários. Além de explorar as idéias de Luhn (1958) (método Key), sua

pesquisa avaliou a seleção das sentenças considerando outras características como a

presença de palavras pragmáticas (método Cue Words), a ocorrência de palavras de

títulos e cabeçalhos (método Title) e a posição das sentenças no texto e nos parágrafos

(estratégia da Localização).

O método Key adota o mesmo princípio da proposta de Luhn (1958), porém

utiliza um algoritmo distinto. Neste método, as pistas utilizadas para revelar a

importância das sentenças são características específicas da superfície textual. As

palavras de classe aberta, que não ocorrem no dicionário de palavras pragmáticas, cujas

freqüências no documento sejam superiores a um valor mínimo são utilizadas para a

criação de uma lista (Key glossary) de palavras-chave. Nesta lista, as palavras-chave

(Key words) são armazenadas juntamente com seus pesos (Key weight), sendo estes

calculados como a freqüência dessas palavras. A pontuação Key weight total de uma

sentença é a soma dos pesos de cada uma de suas palavras-chave constituintes.

No método Cue Words, as pistas empregadas são características do corpus em

uso. Sentenças em que ocorrem palavras como “significante”, “impossível” ou

“dificilmente” recebem um maior peso (Cue Weight) (EDMUNDSON, 1969).

O método utiliza um dicionário (cue dictionary) previamente elaborado com

uma seleção de palavras pragmáticas (ou palavras sinalizadoras), isto é, palavras

A pesquisa de Baxendale (1958) aborda a geração automática de índices para sistemas de RI.

consideradas relevantes no domínio do texto. Este dicionário é composto por três sub-

dicionários:

• Bonus words: armazena palavras que pontuam positivamente a medida de

relevância das sentenças (cue weight);

• Stigma words: este dicionário possui palavras cuja ocorrência pontua de forma

negativa (penaliza) a medida cue weight das sentenças;

• Null words: palavras que não influenciam a medida de relevância das sentenças.

O valor cue weight final de cada sentença é a soma dos pesos cue weight de suas

palavras.

O método Título (Title method) utiliza características estruturais dos textos tais

como título, cabeçalhos e formatação (EDMUNDSON, 1969). Este método baseia-se na

hipótese que um autor elabora um título bem formado que, por si só, indica o assunto

abordado no documento. O mesmo princípio é aproveitado quando o autor divide o

texto em várias seções e escolhe os cabeçalhos que sumarizam as mesmas.

Em função disto o método do Título baseia-se na possibilidade de que as

palavras dos títulos e cabeçalhos constituam informações importantes sobre o texto e

sua ocorrência nas sentenças deve pontuá-las de forma positiva. Um glossário

denominado Title glossary é elaborado para cada documento consistindo de todas as

palavras não irrelevantes dos títulos, subtítulos e cabeçalhos. Para cada sentença, a

medida de importância (Title weight) é a soma dos pesos Title weights de suas palavras.

As pistas utilizadas no método da Localização (Location method) são também

baseadas em características estruturais do texto como cabeçalhos e formatação. Este

método baseia-se na hipótese de que sentenças que ocorrem imediatamente após

determinados cabeçalhos podem ser relevantes. Além disso, outra consideração deste

método é que sentenças tópicas tendem a ocorrer na parte inicial ou final dos

documentos e de seus parágrafos.

Este método utiliza um dicionário pré-armazenado (Heading dictionary) de

palavras selecionadas a partir do corpus que ocorrem nos cabeçalhos dos documentos,

tais como “Introdução”, “Objetivo” e “Conclusões” para associar pesos positivos

(Heading weight) às sentenças. Além disso, as sentenças também recebem uma nota em

função de suas posições ordinais no texto (Ordinal weight), isto é, quando ocorrem no

primeiro ou último parágrafo e como primeira ou última sentença dos parágrafos. A

métrica de relevância final de uma sentença (Location weight) é obtida a partir da soma

de seus pesos Heading e Ordinal.

Após avaliar estes métodos em diferentes combinações, verificou-se que os

melhores resultados foram obtidos utilizando-se conjugadamente as estratégias

Localização, Cue Words e Título. O método Key configurado por Edmundson (1969)

apresentou o pior desempenho quando empregado de forma isolada.

Uma idéia derivada do método originalmente proposto por Luhn (1958) foi

apresentada por Earl (1970). Sua proposta assume como premissa básica o fato de que

os substantivos mais freqüentes de um texto geralmente podem ser considerados como

palavras-chave desse texto. De acordo com Earl (1970), os substantivos poderiam

indicar a progressão temática do texto, permitindo selecionar de forma mais precisa os

segmentos de maior relevância para a composição de um sumário.

Skorokhod’ko (1972 apud PAICE, 1981) destacou a dificuldade de se

estabelecer uma única estratégia eficiente para lidar com qualquer cenário de

sumarização. Para alcançar bons resultados, o método de sumarização deve variar, de

acordo com a estrutura do texto. A organização das seções e das subseções e o fluxo

lógico das idéias variam de texto para texto. Em função disto, ele descreve uma

estratégia adaptativa que utiliza os relacionamentos entre as sentenças, verificados

através da relação semântica das palavras dessas sentenças, para gerar uma

representação gráfica do texto. Sentenças semanticamente relacionadas a muitas outras

sentenças recebem pesos maiores e são as candidatas mais prováveis para extração e

formação do sumário.

Outro trabalho de grande importância foi desenvolvido por Pollock e Zamora

(1975 apud PARDO; RINO, 2003a). Eles destacam a necessidade de se restringir

domínios (ou assuntos) para aprimorar os resultados de métodos extrativos de SA. Eles

propuseram, em adição aos trabalhos anteriores, o cruzamento de sentenças com o título

da obra, para determinar as sentenças significativas para o extrato. Neste caso, o texto-

fonte deveria possuir um título associado para a implementação deste método.

Paice (1981) apresenta um método pragmático que verifica a presença de

estruturas freqüentemente encontradas no texto que possam indicar a importância das

sentenças. A ocorrência dessas estruturas, denominadas frases auto-indicativas (self-

indicating phrases), revela que a sentença referencia algo importante sobre o assunto do

texto. Exemplos de frases auto-indicativas são “O principal objetivo deste trabalho é

investigar...”; “No presente artigo, é descrito um método para...” etc. De acordo com

Paice (1981), o objetivo principal de seu método das frases auto-indicativas é a geração

de sumários indicativos, isto é, sumários que indicam o assunto de um documento, sem

apresentar detalhes sobre a essência do texto original. Paice não descarta a possibilidade

de que os sumários produzidos por sua estratégia apresentem conteúdo informativo, no

entanto ele qualifica essas informações, a princípio inesperadas, como um “bônus”.

O principal problema com os métodos extrativos descritos anteriormente é que

freqüentemente produziam sumários com muitos problemas de coesão e coerência

devido à justaposição de sentenças extraídas do texto-fonte e apresentadas fora de seu

contexto nos sumários.

De acordo com Martins et al. (2001) a resolução anafórica constitui um grande

desafio às primeiras estratégias extrativas da SA:

Por serem métodos “cegos”, sem qualquer resolução analítica, os processos

automáticos não distinguiam quando era necessário recuperar o contexto e os

possíveis pares referentes/referenciados de sentenças inter-relacionadas

anaforicamente, antes de isolar algumas delas de seu contexto. Desse modo,

tais referências se perdiam, com reflexos altamente prejudiciais para os

sumários resultantes. (MARTINS et al., 2001, p. 12).

As tentativas de resolver os problemas mencionados acima não foram bem

sucedidas (MARTINS et al., 2001).

Kupiec et al. (1995) apresentam um sistema de sumarização treinável, onde a

seleção das sentenças para compor o extrato é tratada como um problema estatístico de

classificação. O treinamento do sistema cria uma função de classificação para estimar a

probabilidade de uma sentença pertencer ao extrato. Isto é feito a partir de um conjunto

de treino contendo documentos e os extratos associados, manualmente elaborados.

A classificação é feita a partir de um conjunto de características das sentenças:

• Tamanho das sentenças: sentenças pequenas tendem a não serem incluídas no

sumário;

• Frases predefinidas: sentenças contendo determinadas frases (frases fixas)

como “Este artigo” ou “As conclusões”, ou que ocorrem imediatamente após o

cabeçalho de seções como “conclusões”, “sumário”, “resultados” e “discussão”

possuem maior probabilidade de serem selecionadas para o extrato;

• Localização nos parágrafos: as sentenças são diferenciadas em relação à suas

posições nos parágrafos, podendo ocorrer no início, meio ou final;

• Palavras temáticas: as palavras de classe aberta (substantivos, adjetivos, verbos

e advérbios) de mais alta freqüência são consideradas palavras temáticas. Um

conjunto reduzido de palavras temáticas é selecionado e cada sentença é

pontuada em função da freqüência de suas palavras temáticas. A presença de

uma sentença no conjunto das sentenças de maior pontuação é indicada por um

valor binário.

• Nomes próprios: verificados através da ocorrência de letras maiúsculas.

Para a geração do extrato, as sentenças são ranqueadas em função de suas

probabilidades e selecionam-se as de maior pontuação, levando-se em conta o tamanho

desejado para o sumário.

A proposta de Kupiec et al. (1995) pode ser considerada como o marco

responsável por despertar grande interesse na exploração de técnicas extrativas mais

eficientes, definindo uma nova área, hoje conhecida como SA baseada em corpus, em

que métodos estatísticos de extração são utilizados com sumarizadores treináveis a

partir de corpora robustos de texto (PARDO; RINO, 2003a).

Teufel e Moens (1997) desenvolveram uma pesquisa similar à de Kupiec et al.

(1995) na qual a extração de sentenças é realizada como uma tarefa de classificação. A

principal diferença em relação ao trabalho de Kupiec et al. (1995) está nas

características do corpus adotado. Os sumários empregados no treinamento do sistema

de Telfel e Moens (1997) foram escritos pelos próprios autores dos textos, já os

utilizados por Kupiec et al. (1995) foram escritos por profissionais de sumarização.

Hovy e Lin (1998), atraídos pelas possibilidades de combinar técnicas que

utilizam informações semânticas com técnicas estatísticas, descrevem um sumarizador

denominado SUMMARIST (HOVY; LIN, 1998). Este sistema fundamenta-se em três

estágios, os quais de acordo com Hovy e Lin descrevem uma formulação da sumarização:

O SUMMARIST é uma tentativa de criar um sistema automatizado robusto

de sumarização de textos, baseado na ‘equação’: sumarização= identificação

do tópico + interpretação + geração.

(HOVY; LIN, 1998, p. 1, nossa

tradução).

Quando apresentado, o SUMMARIST ainda estava em fase de desenvolvimento,

com esforços focalizados apenas para os módulos que desempenhariam o estágio de

identificação do tópico. Com isto, este sistema seria capaz de produzir apenas extratos.

Hovy e Lin destacam que com a implementação dos módulos responsáveis pela

realização dos estágios de interpretação e de geração, o sistema seria capaz de produzir

sumários mais elaborados, do tipo abstract.

Barzilay e Elhadad (1997) descrevem um método que explora o encadeamento

de itens lexicais ao longo do texto, isto é, as cadeias lexicais. As cadeias com conexão

mais forte são utilizadas para a seleção das sentenças relevantes para composição do

sumário.

De acordo com Barzilay e Elhadad (1997), essa proposta permite realizar a

sumarização sem a necessidade de se estabelecer uma interpretação semântica completa

da fonte textual. A estratégia baseia-se apenas na progressão dos tópicos ao longo do

texto, que pode ser observada através do encadeamento de itens lexicais. Os itens

considerados para a composição das cadeias são apenas os substantivos e compostos

nominais.

Para o cálculo da força das cadeias lexicais Barzilay e Elhadad (1997) tiveram

que se basear em uma metodologia empírica, devido à inexistência de métodos formais

com tal finalidade. Eles organizaram um conjunto de textos científicos extraídos de

revistas populares e ranquearam, para cada texto, as cadeias em função de sua

relevância aos tópicos centrais. Em seguida, calcularam diferentes medidas formais

para as cadeias: o comprimento das cadeias, distribuição no texto, densidade e topologia

do grafo das palavras, espaço coberto pela cadeia no texto e número de repetições. Os

resultados revelaram que apenas dois parâmetros descreviam adequadamente a força de

uma cadeia lexical: o comprimento das cadeias (número de ocorrência dos membros da

cadeia) e o índice de homogeneidade (calculado como 1 - número de ocorrências

distintas dividido pelo comprimento da cadeia).

Os métodos baseados em grafos atraíram o interesse de vários pesquisadores,

sobretudo por serem independentes de recursos lingüísticos e apresentarem bom

desempenho computacional. Exemplos de sumarizadores que se baseiam em grafos são

o LexRank (ERKAN; RADEV, 2004) e o TextRank (MIHALCEA; TARAU, 2004).

Uma proposta que utiliza técnicas de mineração de textos para a clusterização e

sumarização de documentos foi desenvolvida por Larocca Neto et al. (2000). No

sistema apresentado, a medida de significância das sentenças é calculada em função da

freqüência de suas palavras.

Por se basear na freqüência das palavras para a representação dos documentos, o

pré-processamento para a uniformização do texto e eliminação de palavras irrelevantes

é realizado através das técnicas de: case folding, stemming e remoção de stopwords,

sendo as duas últimas técnicas configuradas originalmente para o idioma inglês. No

caso de textos em outros idiomas de origem latina, como o português, o algoritmo de

stemming e a remoção de stopwords podem ser substituídos por uma representação dos

termos pelo método de n-gramas.

Para a sumarização, o sistema de Larocca Neto et al. (2000) representa cada

sentença do documento como um vetor de valores TF-ISF (Term Frequency – Inverse

Sentence Frequency) de suas palavras. A TF-ISF é uma variação da medida estatística

TF-IDF de Salton (1988). Na TF-ISF a noção de documento, existente para a TF-IDF, é

substituída pela noção de sentença. Dessa forma, a expressão de importância das

palavras em uma sentença é dada pelos seus valores de TF-ISF. Sendo w uma palavra

que ocorre em uma sentença s, seu valor TF-ISF representado por TF-ISF

(w,s)

calculado conforme a equação (2.3):

)3.2(ISFTFISFTF

)(),(),( wswsw

−

onde TF

(w,s)

representa o número de ocorrências da palavra w na sentença s e

ISF

(w)

é a freqüência inversa da palavra w, calculada de acordo com a equação (2.4)

(2.4)

logISF

)(

⎟

⎠

⎞

⎜

⎝

⎛

em que |S| representa o número total de sentenças da fonte textual a ser

sumarizada e SF

(w)

é o número de sentenças nas quais a palavra w ocorre.

A importância de cada sentença, denominada Avg-TF-ISF

(s),

é calculada como a

média aritmética dos valores TF-ISF

(w,s)

de todas as palavras w que constituem a

sentença s

)5.2(

ISFTF

ISFTFAvg

)(

),(

)(

(s)

∑

−

=−−

onde W

(s)

é o número de palavras da sentença s.

A interpretação da métrica TF-ISF é análoga à da TF-IDF. Palavras que ocorrem

freqüentemente na coleção de sentenças tendem a apresentar baixa medida de TF-ISF e

constituem um termo menos importante. Por outro lado, os termos que ocorrem com

maior freqüência em poucas sentenças tendem a apresentar maiores valores de TF-ISF

podendo, dessa forma, expressar conceitos mais importantes. Por fim, o método

seleciona todas as sentenças com valores Avg-TF-ISF

(s)

maiores que um valor mínimo

configurado pelo usuário.

São sistemas representativos das pesquisas acadêmicas voltadas à sumarização

de textos em português do Brasil os sistemas GistSumm (GIST SUMMarizer) (PARDO,

2002b, 2005; PARDO et al., 2003a) e o NeuralSumm (NEURAL network for

SUMMarization) (PARDO et al., 2003b). A metodologia empregada pelo GistSumm

simula de acordo com Pardo (2002b) o próprio comportamento humano de

sumarização. O sistema determina a sentença que melhor representa o tema central (o

gist) do texto-fonte e a utiliza, juntamente com métodos estatísticos simples, para

selecionar as outras sentenças que irão compor o sumário.

O NeuralSumm é considerado por Pardo et al. (2003b) o primeiro sistema de

sumarização automática que adota uma rede neural do tipo SOM (self-organizing map)

(KOHONEN, 1982 apud PARDO et al., 2003a) para produzir extratos. Após o

treinamento da rede neural, o NeuralSumm pode gerar os sumários selecionando

sentenças consideradas essenciais e, eventualmente, sentenças complementares. A

classificação de sentenças para a seleção é feita com base em um conjunto de atributos

obtidos a partir de técnicas estatísticas e extraídos de cada sentença do documento

original.

Entre os trabalhos relacionados à sumarização multi-documento, Radev et. al,

(2000) apresentam uma proposta de sumarizador para múltiplos documentos e

descrevem duas novas técnicas de avaliação para a sumarização mono e multi-

documento baseadas na utilidade e redundância das sentenças. O sumarizador MEAD

(Radev et al., 2000) realiza a sumarização de clusters de documentos agrupados

automaticamente por um sistema de detecção de tópicos. Utilizando um conjunto de

informações dos centróides desses clusters, o sistema MEAD seleciona as sentenças que

provavelmente melhor descrevam o tópico do cluster. A análise de redundância é feita

através de um algoritmo que verifica a similaridade entre sentenças, penalizando

sentenças muito semelhantes à outras com maior métrica de relevância.

Enquanto a evolução da SA extrativa mono documento baseada somente em

características superficiais dos textos aparentemente aproxima de seu limite, a

sumarização multi-documento representa um tema de grande interesse entre as

pesquisas atuais. A exploração de técnicas que processem adequadamente vários

documentos para a geração de sumários impõe desafios como a eliminação de

redundância e questões de escalabilidade dos sistemas. Os problemas de coesão e

coerência são muito comuns nos sumários produzidos por técnicas extrativas. Isto

ocorre em função da seleção e justaposição de sentenças fora de seu contexto e falta de

resolução de referências anafóricas. Tais problemas ainda não foram solucionados de

maneira eficiente. Apesar disso, os sumários criados com técnicas extrativas podem ser

de grande utilidade em muitas aplicações, desde que ao menos preservem a idéia central

dos documentos originais. Isso torna a abordagem empírica mais atrativa atualmente

(MARTINS et al., 2001).

As pesquisas apresentadas nesta seção constituem algumas das principais obras

de SA extrativa. Embora algumas dessas técnicas baseiam-se em formulações

relativamente simples, introduzidas há quase meio século, elas ainda são utilizadas ou

serviram de inspiração para o que há de mais moderno na abordagem empírica de SA

atualmente.

2.4.2 Métodos Fundamentais

No período em que as pesquisas sobre a abordagem extrativa permaneceram sem

grandes avanços, observou-se um aumento no interesse em investigações de técnicas da

abordagem fundamental de SA, elaboradas principalmente a partir das idéias de

Chomsky (1965 apud PARDO; RINO, 2003a, p. 12):

A modelagem computacional dos processos de compreensão e apreensão da

estrutura textual, a fim de reescrever o texto-fonte de forma condensada,

pôde ser formalizada a partir de gramáticas livres de contexto, responsáveis

por analisar sintaticamente (parsing) os textos-fonte (de um domínio

particular), para produzir sua representação conceitual. (PARDO; RINO,

2003a, p. 12).

A abordagem fundamental de SA utiliza informações lingüísticas de nível

profundo para simular a reescrita integral de um sumário a partir de processos de

geração textual, preservando o tema principal da fonte textual e respeitando restrições

impostas para a condensação de textos. Devido aos mecanismos complexos que

manipulam o conhecimento lingüístico profundo através de métodos simbólicos e de

modelos computacionais de geração textual, os sumários dessa abordagem podem

conter informações não presentes no texto-fonte, portanto caracterizam-se como

sumários do tipo abstracts.

As principais questões da abordagem fundamental estão relacionadas à forma

como é identificado e sintetizado o conteúdo relevante de um texto. A arquitetura de um

sumarizador automático fundamental, apresentada em (PARDO; RINO, 2003a), sugere

que esta abordagem simula o processo humano de sumarizar, que contempla a

compreensão do enunciado do texto-fonte, condensação de conteúdo e a reescrita

textual (Figura 2.4).

Figura 2.4 – Arquitetura de um sumarizador automático fundamental (PARDO; RINO, 2003a)

Os sumários produzidos por sistemas que seguem esta arquitetura (figura 2.4),

estariam de acordo com as idéias apresentadas por Hovy e Lin (1998). Segundo eles,

um abstract é elaborado através da fusão de vários conceitos de um texto em um

número menor de conceitos. Para a produção de sumários do tipo abstracts geralmente

são necessários estágios de fusão de tópicos e geração textual, não empregados na

elaboração de extratos (HOVY; LIN 1998).

A arquitetura apresentada na figura 2.4 também é compatível com o processo de

sumarização apresentado por Sparck Jones (1993), em que três estágios principais são

destacados: a construção de uma representação do significado a partir do texto-fonte, a

geração da representação do sumário correspondente e a sua síntese, ou realização

lingüística, que resulta no abstract. Segundo Pardo e Rino (2003a), “Essa última etapa é

responsável pelas escolhas morfossintáticas da língua natural em foco, as quais não

necessariamente coincidem com as apresentadas no texto-fonte.”. Dessa forma, existem

três tipos de informação a serem tratados pelo sumarizador automático: o lingüístico, o

informativo e o comunicativo. Estes por sua vez acarretam a necessidade de se modelar

aspectos pragmáticos e semânticos, o que torna os sistemas dessa abordagem mais

complexos.

Neste contexto, deve haver uma linguagem de representação que promova o

inter-relacionamento entre as proposições e mecanismos de inferência que possam

interpretar o texto-fonte e produzir o sumário correspondente.

No uso de conhecimentos profundos os métodos adotados para verificar a

relevância das informações que irão compor os sumários empregam conhecimentos

lingüísticos e extralingüísticos relacionados à fonte textual. Tais conhecimentos devem

ser mapeados no modelo lingüístico e computacional, na maioria das vezes envolvendo

a manipulação simbólica.

Entre as estratégias que empregam esses conhecimentos podem ser citadas

aquelas que se baseiam na identificação dos interesses do escritor, que por sua vez são

dependentes dos objetivos comunicativos e de modelos de estruturação do discurso. Em

função da necessidade de se analisar a estruturação do discurso, alguns métodos são

conhecidos como métodos baseados em estruturação de discurso (PARDO; RINO,

2003a).

Pardo e Rino (2003a) argumentam que existem várias estratégias da abordagem

fundamental que buscam determinar a relevância das informações de um texto a partir

da modelagem de seu discurso. A métrica de saliência apresentada por Boguraev e

Kennedy (1997) é uma medida da importância relativa de objetos no discurso. Quanto

maior a saliência de um objeto, maior é a chance de que ele seja o foco da atenção.

Objetos com baixa saliência são periféricos e provavelmente constituem informações

descartáveis para a caracterização dos textos em análise (BOGURAEV; KENNEDY,

1997). Esta medida de saliência equivale ao que se define como medida de relevância

na SA, utilizada para a seleção de segmentos para a composição dos sumários.

Pardo e Rino (2003a) sugerem que entre as pesquisas mais relevantes na linha de

modelagem discursiva está a de Marcu (1997a, 1997b, 2000), onde são propostas

técnicas de segmentação do discurso para a identificação do tema central, utilizado no

cálculo da saliência das unidades de informação. Marcu se baseia na determinação da

estrutura retórica

do texto para determinar as informações importantes (salientes).

Dessa forma, primeiro deve-se elaborar a estrutura retórica do texto para posteriormente

determinar o conteúdo e o aspecto dos possíveis sumários.

A estrutura retórica de textos é fundamentada pela teoria Rhetorical Structure Theory (RST) (Mann e

Thompson, 1988 apud Pardo e Rino, 2003a, p. 13), e constitui uma forma de se descrever um texto.

3 Avaliação da SA

A evolução da SA depende de métodos eficientes para a avaliação tanto da

qualidade dos sumários quanto do desempenho dos sumarizadores. Através da avaliação

pode-se verificar a utilidade de um sistema de SA, sua adequação a tarefas específicas,

comparar os resultados de diferentes sumarizadores etc. A avaliação da SA em geral é

um processo que consome tempo e pode demandar grandes esforços manuais. No

desenvolvimento de sistemas de sumarização, quando se modifica alguma característica

arquitetural do sistema, é necessário reavaliar todo o processo de SA elaborado.

A preocupação com a avaliação da SA impulsionou a criação de conferências

internacionais destinadas exclusivamente à avaliação de sumarizadores automáticos. A

TIPSTER SUMMAC

(Text Summarization Evaluation) (MANi et al.,1998) foi

realizada em 1998 e é considerado o primeiro esforço em larga escala, independente de

desenvolvedores para a avaliação de sistemas de SA. Seguindo objetivos similares aos

da TIPSTER SUMMAC, a DUC

(Document Understanding Conferences) (DUC,

2002) é realizada regularmente e está entre as iniciativas mais destacadas sobre

avaliação de sistemas de SA atuais (PARDO; RINO, 2003a).

Embora a avaliação seja há muito tempo uma questão de interesse na SA, com

procedimentos e preocupações abordados já na década de 1960 (EDMUNDSON, 1964,

1969), os principais aspectos e estratégias envolvidos ainda não constituem um

consenso entre os principais pesquisadores dessa área (JING et al., 1998; MANI,

2001b).

Percebe-se em muitos trabalhos a falta de padronização entre as métricas de

qualidade empregadas. Ao elaborar um sistema os pesquisadores também criavam suas

próprias formulações para medir a qualidade dos sumários, tornando impossível realizar

a comparação direta dos resultados entre diferentes pesquisas publicadas.

Mani e Maybury (1999 apud PARDO; RINO, 2003a) e Mani (2001b) enfatizam

algumas das principais dificuldades da avaliação de sistemas sumarizadores, destacando

algumas características do processo de SA:

http://www-nlpir.nist.gov/related_projects/tipster_summac/index.html <Acesso em Dez. 2007>

http://duc.nist.gov/

• Na SA tem-se uma máquina produzindo uma saída que é uma comunicação em

linguagem natural. Quando a saída é uma resposta a uma questão, pode-se

estabelecer o que seria uma resposta correta, mas em outros casos é difícil

estabelecer a noção do que seria uma saída correta. Há sempre a possibilidade de

um sistema gerar um bom sumário que é bem diferente de qualquer sumário

produzido por humanos considerado aproximação da saída correta, tal problema

também atinge a tradução automática, síntese de fala e outras tecnologias

relacionadas;

• Dado que juízes humanos podem ser necessários:

o O custo da avaliação pode ser sensivelmente aumentado;

o A identificação da situação e da forma de se utilizar o julgamento

humano não é sempre trivial;

o Nem sempre se dispõe de indivíduos com o perfil adequado em

quantidade suficiente;

o Para uma avaliação robusta e abrangente, esse tipo de julgamento pode

se tornar muito lento e complexo;

o O alto grau de subjetividade do julgamento humano também torna difícil

o estabelecimento de conclusões definitivas. Em algumas circunstâncias

o grau de concordância entre os juízes sobre a relevância das sentenças é

muito baixo e não permite o estabelecimento de conclusões definitivas e,

conseqüentemente, não se consegue uma avaliação adequada;

o Um processo de avaliação no qual seja possível utilizar um sistema que

atribui notas automaticamente em vez do julgamento humano é

preferível, já que pode ser facilmente repetido. Porém, não há referências

de sistemas automáticos robustos que substituam completamente o

julgamento humano em todas as circunstâncias para a avaliação da SA

(PARDO; RINO, 2003a).

• A sumarização envolve compressão, assim, é importante avaliar os sumários sob

diferentes taxas de compressão. Mas isto aumenta consideravelmente a

complexidade da avaliação. Em geral, quanto mais alta a taxa de compressão,

menos informativo será o sumário e vice-versa. No entanto, essa relação de

dependência não pode ser explicitamente associada a um modelo particular já

que a informatividade depende também do nível de conhecimento do usuário

para o qual se destina o sumário, do tempo disponível para a leitura e do tipo de

tarefa objetivada;

• Como a sumarização envolve a apresentação da informação em uma forma

sensível às necessidades de um usuário ou de uma aplicação, isto deve ser

levado em consideração. Por outro lado, torna mais difícil o projeto da estratégia

de avaliação;

• Ainda não se estabeleceu um padrão sobre as formas como a qualidade e a

informatividade de sumários automáticos podem ser avaliados. Geralmente

utilizam-se juízes humanos, que são leitores falantes da língua natural

considerada. Estes devem dizer se os sumários automáticos são bons sumários,

quando comparados a seus textos-fonte;

Dentre as diretrizes atuais para a avaliação da sumarização automática, Sparck

Jones e Galliers (1996 apud Mani, 2001b) esclareceram algumas distinções e

características gerais da avaliação. A primeira distinção apresentada diz respeito à forma

de avaliação, que pode ser classificada em duas categorias: intrínseca e extrínseca. Em

uma avaliação intrínseca avalia-se o desempenho do próprio sumarizador, levando-se

em conta parâmetros tais como coerência e informatividade dos sumários produzidos.

Neste caso, podem ser utilizados métodos automáticos de atribuição de notas ou o

julgamento humano (PARDO; RINO, 2003a). Na avaliação extrínseca, o sistema de

sumarização é avaliado em função de como este influencia a realização de alguma outra

tarefa que utiliza os sumários produzidos automaticamente. Assim, em uma avaliação

extrínseca, o impacto da SA é avaliado em tarefas como as de categorização de

documentos, de perguntas e respostas, de recuperação de informação, de verificação de

relevância e de compreensão da leitura (MANI, 2001b).

Em relação ao uso do julgamento humano, a avaliação pode ser denominada on-

line, quando juízes humanos devem avaliar os sumários, ou off-line quando são

utilizados métodos automatizados. Embora as avaliações off-line sejam preferíveis,

ainda não foi definido um método automático que permita descartar completamente a

avaliação humana (PARDO; RINO, 2003a).

A avaliação pode ser classificada em relação ao que se avalia: se apenas a saída

dos sistemas é verificada, a avaliação é dita black-box. Neste caso, os processos

intermediários da sumarização e seus resultados não são analisados. A comparação entre

um sumário produzido automaticamente e o respectivo documento original é um

exemplo desse tipo de avaliação. Quando se consideram os resultados intermediários do

sistema, a avaliação é chamada glass-box. Como exemplo desse tipo de avaliação, caso

ela seja conduzida em um sistema que adota a arquitetura geral da figura 2.2, uma

avaliação glass-box verificaria os resultados intermediários gerados pela execução de

cada uma das fases desse sistema equivalentes aos estágios dessa arquitetura.

Uma avaliação pode ser considerada ainda autônoma, quando se avalia de forma

isolada os resultados de um sumarizador, ou comparativa, quando os resultados de um

sumarizador são comparados aos resultados de outros sistemas de sumarização. A

avaliação comparativa geralmente é feita através da atribuição de notas aos sistemas em

função de seus resultados para posteriormente compará-los em função de suas notas.

3.1. Avaliação Intrínseca

Na avaliação intrínseca a textualidade e a informatividade são as principais

métricas de verificação da SA. O objetivo desse tipo de avaliação é verificar os

resultados em função do próprio desempenho do sumarizador, por meio da verificação

dos sumários produzidos. Parâmetros lingüísticos tais como coerência e coesão,

geralmente são considerados nesse tipo de avaliação. Além disso, pode-se também

comparar os sumários produzidos com sumários de referência, denominados sumários

ideais. A seguir são destacados os principais aspectos e parâmetros considerados em

avaliações intrínsecas da SA.

3.1.1. Coerência e Coesão

Um dos aspectos importantes de um sumário é sua legibilidade. Tal

característica pode ser avaliada através de notas atribuídas à sua coerência com base em

algum critério.

De acordo com (GRAUDEZ, 2008):

Coesão - harmonia interna entre as partes de um texto. É garantida por

ligações, de natureza gramatical e lexical, entre os elementos de uma frase ou

de um texto.

Coerência - relação lógica entre idéias, situações ou acontecimentos. Pode

apoiar-se em mecanismos formais, de natureza gramatical ou lexical, e no

conhecimento partilhado entre os usuários da língua (GRAUDEZ, 2008).

A falta de coerência, geralmente ocorre devido a mudanças radicais de assunto,

erroneamente não sinalizadas e pode ser detectada por um falante de uma língua,

quando este não encontra sentido lógico entre as proposições de um enunciado oral ou

escrito.

Um texto coeso possui ligações semânticas válidas entre suas sentenças. Tais

ligações se manifestam na forma de pronomes e outros recursos da linguagem. Dessa

forma, é interessante discutir alguns aspectos lingüísticos que promovem a coerência e

coesão textual.

Geralmente, leitores humanos reconhecem um texto como sentença ou coleção

de sentenças por serem capazes de identificar claramente um relacionamento entre as

idéias que são progressivamente apresentadas. Conseqüentemente, nas pesquisas de SA

e outros estudos de PLN, é importante identificar as características que tornam um texto

coerente, e quais as formas de se distinguir uma unidade gramatical coesa de um

conjunto de sentenças aleatoriamente reunidas.

Por ser uma unidade semântica, a textualidade deve ser interpretada dentro de

um contexto ou ambiente específico. Os textos podem ser apresentados em variados

tamanhos.

Um exemplo de manifestação textual coerente poderia ser:

• [3.1]: Lave e descasque 11 batatas. Coloque-as em uma panela com água.

Essa seqüência de sentenças é coerente, pois o pronome oblíquo átono “as” na

segunda sentença claramente refere-se ao objeto direto “batatas” apresentado na

primeira sentença. Se interpretadas de forma isolada, ambas as sentenças não

apresentariam o mesmo significado que carregam quando analisadas conjuntamente. A

segunda sentença, sem sua referência contextual não poderia ser considerada uma

construção textual adequada.

Embora documentos de texto geralmente possuam mais que uma sentença,

algumas expressões da língua natural podem ser constituídas apenas por pequenas

frases, como placas de aviso e slogans como, por exemplo:

• [3.2]:

a) Proibido pescar.

b) Bicho de goiaba, goiaba é.

As relações de coesão entre palavras e sentenças podem ser reconhecidas por

meio de algumas características semânticas e superficiais presentes na expressão

textual. Como exemplos dessas características podem ser citados: referência,

substituição, elipse e conjunção.

As relações referenciais podem ser expressas por endóforas como as anáforas e

catáforas. AURÉLIO (2004) define uma anáfora como: “elemento lingüístico cuja

referência não é independente, mas ligada à de um termo antecedente”. Uma catáfora é

definida por este mesmo autor como: “unidade lingüística que se refere a outra,

enunciada mais adiante”.

No exemplo 3.1 observa-se uma referência endofórica (em particular uma

anáfora) na segunda sentença, onde o pronome “as” faz referência à “batatas”. A

referência sugere ao leitor o tipo de informação que deve ser recuperada. Desse modo, a

manifestação “as” do pronome pessoal “elas” obriga o leitor buscar o significado desse

pronome em alguma passagem anterior do texto.

Existem referências cuja resolução não pode ser encontrada explicitamente nos

textos em que ocorrem. Estas são denominadas referências exofóricas e sua

compreensão depende do conhecimento do ambiente em que são utilizadas. Portanto, a

resolução desse tipo de referência não depende apenas de fatores lingüísticos, mas do

conhecimento do mundo exterior e do contexto no qual elas são utilizadas.

A substituição é uma variação de referência na qual uma palavra passa a

representar outra no contexto em que aparecem. Enquanto uma referência é uma relação

de significados, a substituição é um relacionamento gramatical. As substituições podem

ser realizadas entre diferentes elementos gramaticais como nomes (substantivos),

verbos, ou até mesmo orações. No exemplo 3.3 é ilustrado esse relacionamento

lingüístico:

• [3.3] Vamos ver os peixinhos. Os alaranjados vieram do Japão.

Na segunda sentença “alaranjados” assume o lugar de “peixinhos”, que ocorre

na sentença anterior. A substituição nominal e a verbal ocorrem da mesma forma,

substituindo-se um verbo ou uma oração da sentença anterior.

Uma elipse ocorre quando uma palavra é omitida no texto embora o efeito

comunicativo pretendido por ela deva ser identificado no texto. Para identificar o

conteúdo omitido, o leitor deve recuperar informação específica nas passagens

anteriores do texto. No exemplo 3.4 é ilustrada uma situação onde ocorre esse tipo de

construção lingüística.

• [3.4]: Sebastião comprou maçãs e Joana alguns legumes.

A única interpretação possível é que “Joana comprou alguns legumes”.

Por fim, o relacionamento de conjunção atua de forma distinta dos outros três

relacionamentos discutidos anteriormente. A conjunção não é um relacionamento

estritamente semântico ou anafórico, ela depende do ambiente completo do texto. Os

elementos conjuntivos pressupõem a existência de outros componentes no discurso e

são responsáveis por estabelecer uma ligação de coerência entre duas sentenças.

Exemplos desses elementos são: “assim”, “portanto”, “e”, “desse modo”,

“conseqüentemente”, “além disso“ etc. O exemplo 3.5 ilustra a conjunção entre

sentenças. Apesar de haver uma mudança notável no conteúdo informativo das

sentenças elas ainda constituem uma expressão textual coerente.

• [3.5]: O barbeiro disse à mulher: “Sente-se e relaxe enquanto pego os

instrumentos”. Então ele dirigiu-se a um armário e pegou uma tesoura.

As questões de coerência e coesão discutidas anteriormente devem ser

investigadas tanto na avaliação quanto no desenvolvimento de sumarizadores

automáticos. Sumários gerados por extração podem ser compostos de material extraído

fora de contexto, e neste caso problemas de coerência podem ocorrer: referências

anafóricas não resolvidas, perda de integridade em estruturas como listas e tabelas,

presença de tautologias (um vício de linguagem que consiste em repetir o mesmo

pensamento com palavras diferentes) etc.

3.1.2. Informatividade

A informatividade diz respeito à informação contida no sumário. Essa

característica é profundamente influenciada pela a taxa de compressão do sumário.

Quanto menor for um sumário (alta taxa de compressão) menos informação da fonte é

preservada no sumário. Assim, a avaliação da informatividade de sumários verifica

quanto da informação do texto original é preservado no sumário. A informatividade

pode ser avaliada comparando-se o conteúdo do sumário gerado automaticamente com

o conteúdo de um ou mais sumário(s) de referência(s).

Pardo e Rino (2003a) destacam três tipos de sumários de referência:

• Sumários autênticos: aqueles produzidos pelo próprio autor do texto-fonte;

• Sumários profissionais: produzidos a partir do texto-fonte por um escritor

especialista em técnicas de sumarização;

• Extratos ideais: sumários compostos somente pelas sentenças mais

representativas do texto fonte.

As formas de se construir um sumário de referência são diversas. Os sumários de

referência escritos por humanos refletem toda a subjetividade do indivíduo e os

elaborados por ferramentas automatizadas terão seu conteúdo influenciado pelas

características da arquitetura do sistema que os gerou. Costuma-se elaborar os extratos

ideais a partir da medida do co-seno (SALTON, 1989 apud PARDO et al., 2003b)

buscando-se no texto fonte as sentenças mais similares às sentenças do sumário

autêntico.

O uso de sumários autênticos e sumários profissionais como dados de referência

pode dificultar a comparação entre os extratos e os sumários de referência, pois estes

últimos geralmente não preservam as sentenças dos textos-fonte da forma que elas

ocorrem.

Dessa forma, nas avaliações de sumarizadores extrativos baseadas em

comparação com dados de referência é preferível utilizar extratos ideais, pois estes são

compostos apenas por sentenças do texto-fonte, possibilitando a comparação entre as

sentenças do extrato ideal e sentenças do extrato automático. Além disso, a comparação

pode ser automatizada adotando as métricas Precisão e Cobertura, amplamente

utilizadas em tarefas de Recuperação de Informação, e métricas derivadas de

combinações dessas duas como, por exemplo, a f-measure (PARDO et al., 2003b;

PARDO; RINO 2003a). A precisão (P), a cobertura (C) e a f-measure (F) são dadas

pelas seguintes fórmulas:

(3.1)

Nsa

Nsasr

P =

(3.2)

Nsasr

C =

(3.3)

C P 2

onde Nsasr é o número de sentenças do sumário automático presentes no

sumário de referência, Nsa é o número de sentenças do sumário automático e Nsr é o

número de sentenças do sumário de referência.

De acordo com essa formulação, a precisão é a razão entre o número de

sentenças do sumário automático coincidentes com as do sumário ideal e o número total

de sentenças do sumário. A cobertura é a proporção de sentenças do sumário automático

que coincidem com as do sumário ideal.

Jing et al. (1998) conduziram dois grandes experimentos de avaliação com

sumarizadores extrativos para investigar os métodos baseados em comparação com

sumários de referência e os baseados na realização de tarefas (avaliações extrínsecas).

Seus resultados demonstraram que os diferentes parâmetros dos experimentos

podem influenciar profundamente a pontuação dos sistemas de sumarização. Alguns dos

parâmetros investigados foram:

• Concordância entre os juízes para a elaboração de sumários de referência;

• Tamanho do sumário automático

• A influência da formulação das métricas de precisão e cobertura

• Nível de dificuldade das perguntas para avaliações do tipo perguntas-e-

respostas

• Características dos documentos.

Jing et al. (1998) observaram que para a avaliação baseada em sumários ideais, a

validade da avaliação diminui na medida em que se aumenta o tamanho dos sumários.

Eles destacam também que a comparação das medidas de precisão e cobertura entre

diferentes sistemas pode não ser válida, em função da estrutura dos textos utilizados e

das diferentes estratégias utilizadas para calcular o tamanho dos sumários em função da

taxa de compressão especificada. Alguns sistemas podem utilizar a noção de palavras

enquanto outros se baseiam em sentenças para medir os documentos.

Um problema apontado por Jing et al. (1998) em relação as medidas de precisão

e cobertura é que devido à natureza binária dessas métricas, elas não são apropriadas

para se avaliar a sumarização. Esta observação é justificada pelo fato de que não existe

um único sumário correto para um documento. Por esse motivo, uma pequena variação

no extrato produzido (caso o sistema troque uma sentença por outra igualmente

relevante, mas que não foi indicada pela maioria dos juizes para compor o extrato ideal)

pode influenciar profundamente a pontuação do sistema de sumarização.

Neste caso, eles sugerem o uso de versões fracionadas de precisão e cobertura

que levem em consideração a pontuação geral de todas as sentenças consideradas

relevantes além daquelas selecionadas para o sumário ideal.

Na avaliação por meio de tarefas, os resultados apontaram os impactos do

tamanho dos sumários, tipo de perguntas utilizadas e o tipo de documento. Eles sugerem

que tamanho do sumário deveria ser escolhido pelo próprio sistema visto que não

encontraram uma relação direta entre tamanho do sumário e desempenho das tarefas.

Devem-se evitar perguntas que permitam facilmente determinar a relevância dos

documentos bem como documentos cujas palavras-chave caracterizam precisamente o

texto (JING et al.,1998).

Em uma pesquisa sobre sumarização multi-documento e avaliação de sumários

automáticos, Radev et al. (2000) propõem um sumarizador chamado MEAD, baseado

na clusterização de documentos, e um processo de avaliação de sumários que adota uma

nova métrica calculada em função da utilidade e redundância das sentenças. Para o

cálculo da medida de utilidade, eles pediram a juizes que dessem notas, em uma escada

de 0 a 10, para todas as sentenças do texto fonte. A pontuação geral do sumário

automático é então calculada em função das notas de suas sentenças.

Pardo e Rino (2002 apud PARDO; RINO, 2003a), numa forma alternativa de

avaliação, pedem a juizes humanos que dêem notas a sumários automáticos de acordo

com a preservação da idéia principal dos textos-fonte correspondentes. As notas, nesse

caso, indicam se o sumário preserva, preserva parcialmente ou mesmo não preserva a

idéia principal. Eles se baseiam na hipótese de que um sumário com o mínimo de

informação, deve transmitir ao menos a idéia principal do texto-fonte.

Conforme já mencionado, um grande desafio na utilização de juízes humanos

constitui a subjetividade e a concordância dos julgamentos: a baixa concordância entre

os juízes pode tornar a avaliação inadequada ou inválida. O problema da subjetividade

pode ser atenuado por meio de especificações claras dos critérios empregados na

avaliação.

Siegel e Castellan (1988 apud PARDO; RINO, 2003a) descrevem uma métrica

que pode ser utilizada para verificar o nível de concordância entre julgamentos

humanos: a medida Kappa.

Apesar da falta de métricas e procedimentos padronizados nas pesquisas que

envolviam a avaliação de sumarizadores até o ano de 2003, atualmente há uma proposta

que é cada vez mais utilizada, e pode vir a se estabelecer como uma referência

internacional para a avaliação da SA. Trata-se do pacote de avaliação de sumarização

ROUGE

(Recall-Oriented Understudy for Gisting Evaluation) (LIN, 2004) que permite

http://berouge.com/default.aspx

avaliar a qualidade de sumários através de procedimentos automatizados. Este sistema

tem sido utilizado tanto em pesquisas isoladas quanto nas atividades de avaliação em

larga escala da conferência internacional DUC desde 2004 (BALAGE FILHO et al.,

2007a, 2007c; ROUGE, 2008).

O pacote ROUGE disponibiliza métricas estatísticas que descrevem a qualidade

de um sumário automático comparando-o com outro sumário (um sumário de

referência) elaborado manualmente. As métricas são calculadas através da contagem de

unidades textuais coincidentes entre o sumário automático a ser avaliado e o sumário

ideal escrito por humanos. Tais unidades são n-gramas, seqüências de palavras e pares

de palavras. Em sua versão 1.5.5, a ferramenta disponibiliza as métricas: ROUGE-N,

ROUGE-L, ROUGE-W e ROUGE-S. Segundo os autores o desempenho do processo de

avaliação baseada na co-ocorrência de n-gramas entre pares de sumários, adotado pela

ROUGE, aproxima-se muito das avaliações humanas (ROUGE, 2008). O problema é

que esse tipo de avaliação ainda requer a construção de sumários manuais, o que

demanda uma equipe de profissionais competentes.

3.2. Avaliação Extrínseca

A avaliação extrínseca tem por objetivo avaliar um sumarizador através da

realização de alguma tarefa específica. Dentre as tarefas freqüentemente utilizadas para

esse tipo de avaliação podem ser citadas (MANI, 2001):

• Categorização de documentos: leitores humanos devem, após a leitura dos

sumários, atribuir uma categoria ou classe aos documentos. Na situação ideal,

espera-se que a taxa de acertos não degrade e que o tempo necessário para a

classificação diminua;

• Recuperação de informação: é realizada uma busca numa base de documentos.

Dado um tópico deve-se retornar como resultado os documentos da base cujo

tópico coincida com o tópico solicitado. Nessa avaliação, a busca, que pode ser

automática ou manual, é realizada utilizando-se os sumários em lugar das

versões completas dos documentos. O sucesso da busca é analisado por juízes

humanos e verifica-se então a taxa de acertos e o tempo da busca. De forma

semelhante à categorização, espera-se manter a taxa de acertos e reduzir o tempo

de busca;

• Perguntas e respostas: na avaliação extrínseca de perguntas e respostas a

informatividade dos sumários é avaliada. A partir de uma base de documentos,

são elaboradas perguntas de múltipla escolha para cada documento. A seguir, o

sumarizador é utilizado para gerar os sumários correspondentes e a seguir os

juizes humanos deverão responder as mesmas perguntas em três situações: sem a

leitura dos textos originais nem os sumários, lendo apenas os sumários e, por

fim, lendo os documentos completos. Se os sumários forem suficientemente

informativos, espera-se que os juizes sejam capazes de responder as perguntas

lendo apenas os sumários.

Assim como ocorre com as avaliações intrínsecas, a realização de uma avaliação

extrínseca não é livre de dificuldades:

• Em geral são custosas, por dependerem de juízes humanos;

• É difícil utilizar documentos longos, pois eles deverão ser lidos pelos juizes em

tempo hábil, e sendo muito curtos não há necessidade de sumários;

• Esse tipo de avaliação não fornece qualquer indício sobre que tipo de

aprimoramento pode ser realizado nos sumarizadores, já que os sistemas de SA

são avaliados indiretamente, por meio de tarefas nas quais estão inseridos;

• Pode ser difícil modelar tarefas extrínsecas que reflitam as situações do mundo

real;

4 Sumarizadores automáticos

Os experimentos conduzidos no presente trabalho foram realizados com base em

quatro sistemas de SA que geram sumários através da metodologia empírica, isto é,

utilizam técnicas extrativas. O GistSumm (PARDO, 2002b, 2005; PARDO et al.,

2003a) e o NeuralSumm (PARDO et al., 2003b), distribuídos

gratuitamente, foram

desenvolvidos por pesquisadores de lingüística computacional do meio acadêmico e

destinam-se exclusivamente à tarefa de sumarização. Os outros dois sumarizadores

estão disponíveis como funções integradas a ferramentas comerciais de tratamento de

textos. O AutoResumo é a ferramenta de SA disponível no Microsoft Office Word. O

sistema de mineração de textos TextAnalyst, oferece várias funções para a análise de

textos ou coleções de textos. A seguir, as principais características de cada sumarizador

serão apresentadas.

4.1 GistSumm

Desenvolvido como projeto acadêmico, o GistSumm (GIST SUMMarizer) se

baseia em um método extrativo inédito para a geração dos sumários (PARDO, 2002b).

Através de técnicas estatísticas, ele tenta determinar a sentença que melhor representa a

idéia central, o gist, do texto a sumarizar. Com base nesta sentença, denominada

sentença-gist, outras sentenças são identificadas e selecionadas para compor o extrato,

de forma que requisitos da sumarização como textualidade e restrições de compressão

sejam satisfeitos (PARDO; RINO, 2003a). Conseqüentemente, a extração de sentenças

no GistSumm é realizada em função de dois parâmetros: a sentença-gist, que direciona o

processo, e a taxa de compressão desejada, que determina o número de sentenças

adicionais que devem ser incluídas no extrato.

Pardo (2002b) relata que o método descrito acima simula a forma humana de

sumarizar: “quando uma pessoa sumariza um texto, ela procura identificar a idéia

Disponíveis em: <http://www.icmc.usp.br/~taspardo/GistSumm.htm> e

http://www.icmc.usp.br/~taspardo/NeuralSumm.htm

principal deste (que, em inglês, é o gist do texto) e as informações do texto que a

complementem.” (PARDO, 2002b, p.1). Como o GistSumm baseia-se na identificação

da idéia principal do texto, deve-se considerar, adicionalmente às premissas básicas da

SA apresentadas na seção 2.3 deste trabalho, que sempre é possível identificar no texto

a sentença-gist. Em função dessas premissas as seguintes hipóteses para o

desenvolvimento do GistSumm foram definidas para validar a estratégia de sumarização

desse sistema (PARDO, 2002b):

1. é possível identificar a sentença-gist, ou uma sentença que melhor se aproxime

desta, por meio de métodos estatísticos;

2. conhecendo-se a sentença-gist, é possível produzir extratos coerentes por meio

da justaposição de sentenças do texto-fonte relacionadas à sentença-gist, sendo

estas complementares à idéia principal do texto- fonte.

O processo de sumarização no GistSumm, fundamentado em uma metodologia

empírica sem treinamento, pode ser dividido em três etapas (PARDO, 2002b):

1. Delimitação sentencial;

2. Ranqueamento das sentenças;

3. Seleção das sentenças.

Após delimitar todas as sentenças do texto fonte, o GistSumm inicia o processo

de ranqueamento, que consiste em ordená-las por suas pontuações. As sentenças serão

pontuadas em função do método de ranqueamento selecionado.

A versão do GistSumm utilizada neste trabalho permite o uso de duas métricas

para a determinação da sentença-gist: keywords (BLACK; JOHNSON, 1988 apud

PARDO, 2002b) e average keywords, que é uma variação do método keywords. Ambas

baseiam-se na distribuição de freqüência das palavras no texto-fonte. Por padrão, o

sistema adota o método keywords quando o usuário não indica que método deve ser

utilizado. A sentença que obtém a maior pontuação é escolhida como a sentença-gist.

Através do método keywords (ou método das palavras-chave), a nota de cada

sentença é a soma do número de ocorrências de cada uma de suas palavras no texto-

fonte. A hipótese sustentada por este método é que palavras mais freqüentes (palavras-

chave) indicam o assunto principal de um texto. Pelo método average keywords, a nota

é o valor calculado pelo método keywords normalizado em função do tamanho da

sentença (medido em número de palavras) (PARDO, 2005).

Para ranquear as sentenças o GistSumm cria uma representação vetorial de cada

sentença do texto fonte e realiza os seguintes processos (PARDO, 2002b): case folding,

troca por canônicas, remoção de stopwords, pontuação das sentenças e finalmente o

ranqueamento propriamente dito dos vetores em função da pontuação obtida pelo

método escolhido.

De acordo com (PARDO, 2002b), na etapa de troca por canônicas GistSumm

utiliza um léxico que foi elaborado a partir do léxico do NILC

(Núcleo

Interinstitucional de Lingüística Computacional), que segundo este mesmo autor, seria

até então o maior léxico para a língua portuguesa.

Na seleção das sentenças para construir o extrato, o GistSumm calcula a média

das pontuações das sentenças e utiliza esse valor como um limiar para a seleção das

possíveis sentenças complementares para o sumário. Juntamente com a sentença-gist,

são selecionadas todas as sentenças do texto-fonte que contiverem ao menos uma

palavra presente na sentença-gist, e aquelas que possuírem pontuação maior que o valor

limiar definido anteriormente.

Além disso, quando o usuário especifica uma taxa de compressão, a seleção das

sentenças complementares à sentença-gist é realizada sempre respeitando o tamanho

desejado para o sumário.

Por utilizar técnicas estatísticas para a determinação da idéia principal e para a

seleção das sentenças complementares, o GistSumm é um sistema capaz de sumarizar

textos de qualquer gênero, domínio ou língua ocidental. Para tanto é preciso que sejam

configuradas a lista de stopwords e sua estratégia de substituição das palavras por

formas canônicas em função da língua desejada. (PARDO, 2002b; PARDO et al.,

2003a).

A primeira versão do GistSumm, detalhada em (PARDO, 2002b), sofreu

modificações de forma a incorporar extensões ao sistema e acrescentar novas

funcionalidades. A versão atual do GistSumm possui as seguintes características

(PARDO, 2002b, 2005):

• sumarização extrativa, isto é, geração do sumário a partir da seleção e

justaposição de sentenças inteiras;

• sumarização mono e multi-documento: para a sumarização multi-documento, o

GistSumm simplesmente justapõe todos os textos-fonte, compondo um novo

documento no qual é aplicado o seu processo tradicional de sumarização. No

http://www.nilc.icmc.usp.br/nilc/index.html

entanto, o sistema atual não trata questões complexas da sumarização multi-

documento, como por exemplo, a eliminação de informações redundantes;

• realização de sumarização intra-sentencial, ou seja, sumarização no interior das

sentenças, onde o processo de sumarização ocorre normalmente, porém, ao final

são removidas as stopwords de todas as sentenças do sumário produzido;

• geração de sumários genéricos: o tema principal do sumário estará relacionado à

informação transmitida pela sentença-gist;

•

geração de sumários focados nos interesses do usuário: os sumários são

construídos dando ênfase a tópicos específicos, que podem constituir perguntas

ou fatos de interesse do usuário. Neste caso, procura-se pela sentença que mais

se assemelhe à informação fornecida pelo usuário em vez da sentença de maior

pontuação utilizando-se como parâmetro de similaridade a medida do cosseno

(SALTON, 1989 apud PARDO, 2005);

• o ranqueamento das sentenças pode ser feito através do método keywords ou do

método average keywords. O método TF-ISF (LAROCCA NETO et al., 2000),

presente na primeira versão, foi removido devido ao seu baixo desempenho

neste sistema.

Além disso, existem duas implementações do GistSumm, uma para sumarizar

textos em português do Brasil e outra destinada a documentos em inglês. A tabela 4.1

permite uma comparação das principais características presentes nas duas versões do

GistSumm.

Tabela 4.1 – Características das versões do GistSumm

Características Versão inicial Versão nova

Sumarização mono documento

Sim Sim

Sumarização multi-documento

Não Sim

Sumarização Intersentencial

Sim Sim

Sumarização Intra-sentencial

Não Sim

Tipo de sumário

Genérico

Genérico ou focado em

interesse do usuário

Métodos de ranqueamento

Keywords, average

keywords e TF-ISF

Keywords e average keywords

Idioma da fonte textual

Português Português e inglês

Linguagem de desenvolvimento

Object Pascal/

Borland Delphi

Sistema operacional

MS Windows MS Windows, Unix/Linux

Fonte: Adaptado de (PARDO, 2005)

Balage Filho et al. (2006b) apresentam um estudo no qual são observadas

algumas limitações do GistSumm e sugeridos alguns aprimoramentos à nova versão.

Uma das propostas desses autores foi a substituição do método de segmentação

sentencial do GistSumm pela estratégia adotada no SENTER (PARDO, 2006), um

sistema de delimitação de sentenças desenvolvido no NILC, para a realização desta

tarefa de pré-processamento. Dessa forma, o texto que será processado pelo GistSumm

será a saída produzida pelo SENTER.

Embora o componente principal de sumarização do GistSumm não ofereça uma

ambiente gráfico para sua manipulação, a versão atual dispõe de um utilitário auxiliar

com interface gráfica para a especificação dos parâmetros exigidos pelo sistema (figura

4.1). O GistSumm suporta somente arquivos no formato texto plano. No anexo A,

encontra-se a lista stopwords utilizada pelo GistSumm.

Figura 4.1 – Interface gráfica para configuração do GistSumm

4.2 NeuralSumm

O NeuralSumm (NEURAL network for SUMMarization) (PARDO et al.,

2003b) representa uma abordagem conexionista de SA, que utiliza uma rede neural do

tipo SOM (self-organizing map) (KOHONEN, 1982 apud PARDO et al., 2003a) para

produzir um sumário do tipo extrato. A rede é treinada para identificar as sentenças

importantes do texto-fonte que deverão compor o sumário. As sentenças são associadas

a um conjunto de atributos que são extraídos do texto-fonte durante o processo de

sumarização. É com base neste conjunto de atributos que o grau de importância de cada

sentença é definido.

Pardo et al. (2003b) relatam que este foi o primeiro sistema a utilizar uma rede

neural do tipo SOM, embora já existissem outros trabalhos fundamentados em técnicas

de aprendizagem de máquina para a sumarização.

A rede neural do NeuralSumm foi configurada para classificar as sentenças

como: essenciais, complementares ou supérfluas. As sentenças essenciais indicam a

idéia central de um texto. Sentenças complementares têm por objetivo acrescentar

conteúdo à idéia central. Já as sentenças supérfluas são aquelas que não transmitem

conteúdo, portanto descartáveis na construção do sumário.

Os atributos utilizados pelo NeuralSumm para a classificação das sentenças

representam um subconjunto de características introduzidas em outras pesquisas sobre

SA e, com a exceção de um (presença de palavras indicativas nas sentenças), são

independentes de gênero textual e domínio. Trata-se, portanto de uma metodologia que

pode ser ajustada para vários tipos de textos. Seguem abaixo os atributos utilizados para

a classificação das sentenças com as respectivas referências aos pesquisadores que

introduziram ou discutiram sua utilização na SA (PARDO et al., 2003b):

1. Tamanho da sentença (KUPIEC et al., 1995);

2. Posição da sentença no texto (BAXENDALE, 1958);

3. Posição da sentença no parágrafo a que pertence (BAXENDALE, 1958);

4. Presença de palavras-chave na sentença (LUHN, 1958);

5. Presença de palavras da “gist sentence” na sentença (PARDO, 2002b);

6. Pontuação da sentença com base na distribuição das palavras do texto (BLACK;

JOHNSON, 1988 apud PARDO et al., 2003b);

7. TF-ISF da sentença (LAROCCA NETO et al., 2000);

8. Presença de palavras indicativas na sentença (EDMUNDSON, 1969; PAICE,

1981);

A sumarização deste sistema pode ser dividida em quatro estágios (PARDO et

al., 2003b):

1. Delimitação das sentenças;

2. Extração do conjunto de características das sentenças;

3. Classificação das sentenças como essenciais, complementares ou supérfluas, em

função do cluster definido pela rede neural para cada conjunto de características

associado às sentenças;

4. Produção do extrato.

Na etapa 2, é realizado um pré-processamento do texto-fonte de modo a

aprimorar os resultados. O pré-processamento consiste de: remoção de stopwords, troca

de palavras por suas formas canônicas através de um léxico, e case folding.

No estágio final, a seleção das sentenças para a criação do sumário se dá em

função da classificação atribuída ao seu conjunto de atributos e pelas restrições de

compressão da seguinte forma (PARDO et al., 2003b):

• são selecionadas somente as sentenças classificadas como essenciais ou como

complementares;

• caso todas as sentenças tiverem sido classificadas como supérfluas, elas serão

ordenadas em função do valor calculado para a distribuição de palavras (atributo

6) e as com maior pontuação serão selecionadas.

Quando a taxa de compressão limita o número de sentenças selecionadas, as

essenciais têm prioridade sobre as complementares. Para fazer a seleção de sentenças

complementares, as sentenças dessa classe são ordenadas em função da distribuição de

palavras (atributo 6) e aquelas com maiores pontuações têm prioridade sobre as demais.

Por se basear em aprendizagem de máquina, o NeuralSumm é um sistema cujo

desempenho é influenciado pelo procedimento de treinamento da rede neural. A versão

utilizada neste trabalho está configurada para a sumarização de textos em português do

Brasil, em função de seu léxico, sua lista de stopwords e o seu dicionário de palavras

indicativas serem específicos para esta língua.

A versão mais recente do NeuralSumm é compatível apenas com os sistemas

operacionais Microsoft Windows e sua interface é exibida na figura 4.2. O formato de

arquivo de texto suportado é apenas o de texto plano.

Figura 4.2 – Interface do NeuralSumm

4.3 AutoResumo

O AutoResumo (MICROSOFT, 2003) é o recurso de SA disponibilizado pelo

processador de textos Microsoft Office Word. De acordo com MICROSOFT (2003),

este sumarizador automático apresenta melhor funcionamento em documentos bem

estruturados, como relatórios, artigos e documentos científicos.

A determinação das sentenças importantes no AutoResumo baseia-se na

freqüência das palavras. Dessa forma, as sentenças que contêm palavras que ocorrem

com mais freqüência no texto recebem uma pontuação mais alta. O sumário é

construído selecionando-se uma percentagem das sentenças mais importantes ao tema

principal do texto-fonte. Esta percentagem é ajustada pelo usuário.

O AutoResumo pode sumarizar textos no idioma definido na instalação do

Microsoft Office Word. Caso o idioma do documento for diferente do escolhido para a

instalação do Microsoft Office Word, ele automaticamente gera o sumário baseando-se

no idioma do texto-fonte, desde que este os recursos lingüísticos para o idioma do texto

a sumarizar estejam instalados.

Neste trabalho foi utilizado o Microsoft Office Word 2003, sistema capaz de

sumarizar documentos escritos em chinês simplificado e tradicional, inglês, francês,

alemão, italiano, japonês, coreano, português (Brasil), espanhol ou sueco.

Na interface do Microsoft Office Word 2003 o AutoResumo pode ser acionado a

partir do menu “Ferramentas” escolhendo-se a opção “AutoResumo”. Quando acionado,

o AutoResumo realiza a identificação das sentenças importantes e apresenta uma tela a

partir da qual pode-se:

• escolher entre quatro opções para a geração do sumário:

o Gerar sumário através do realce das sentenças relevantes selecionadas;

o Acrescentar o sumário como uma sinopse ou síntese no início do

documento;

o Criar o resumo em um novo documento;

o Ocultar as sentenças que não fizerem parte do sumário mantendo-as no

mesmo arquivo que armazena o documento original. Neste caso, as

informações não selecionadas, embora não exibidas, continuam

armazenadas no arquivo.

• definir o tamanho do sumário, que pode ser feito através da especificação de um

valor percentual qualquer entre 0 e 100 ou por quatro opções não fixadas:

o 10 ou 20 sentenças;

o 100 palavras ou menos;

o 500 palavras ou menos;

• pré-visualizar informações estatísticas do documento original e do sumário, sendo

estas medidas o número de palavras e de sentenças.

A tela do AutoResumo é apresentada na figura 4.3. Nesta janela, cabe ao usuário

escolher a forma como o sumário será criado e o percentual (ou número de sentenças)

para o sumário.

Figura 4.3 – Janela de configuração do AutoResumo

As opções de criação de resumo por realce ou por omissão de sentenças não

selecionadas para o sumário apresentam o sumário na janela de conteúdo do Microsoft

Word e exibe uma barra para que o usuário possa redefinir o percentual de sentenças do

resumo a qualquer momento, como ilustrado na figura 4.4.

Figura 4.4 – Barra para configuração do tamanho do sumário

O AutoResumo pode sumarizar qualquer documento de texto que estiver em um

formato suportado pelo Microsoft Office Word. A seguir é apresentado o sistema

TextAnalyst.

4.4 TextAnalyst

O TextAnalyst é um sistema de mineração de textos em língua natural que, de

acordo com (TEXTANALYST, 2003), utiliza técnicas robustas de análise e de

processamento capazes de lidar com textos de assuntos variados. Resultado de vinte

anos de pesquisas (TEXTANALYST, 2003), o TextAnalyst pode manipular textos que

utilizem caracteres alfanuméricos em qualquer idioma. Para isto, basta ajustar os

recursos dependentes de língua no estágio de pré-processamento: a lista de palavras

comuns que devem ser consideradas irrelevantes na análise do texto.

O método de processamento utilizado pelo TextAnalyst se baseia no uso de

redes neurais para a criação de grafos que descrevem a organização e inter-

relacionamentos das informações no texto.

O sistema trata os textos como uma seqüência de símbolos constituindo palavras

e sentenças, a partir dos quais uma rede neural hierárquica é construída inserindo-se

símbolos adicionais obtidos pela varredura do texto. Esta rede neural hierárquica possui

vários níveis ou camadas de forma que os elementos que ocorrem com maior freqüência

no texto-fonte são inseridos nos níveis hierárquicos mais altos. Os elementos

operacionais básicos utilizados durante a análise são as palavras.

A partir de transformações realizadas na arquitetura da rede, é gerado um grafo,

denominado rede semântica que representa a lista das palavras mais importantes e

combinações dessas palavras do texto e o relacionamento entre elas. As palavras e

combinações de palavras são denominadas conceitos semânticos. A rede semântica é

uma representação lingüisticamente precisa e concisa do texto em análise. Os elementos

que compõem este grafo recebem pesos semânticos de acordo com sua importância no

texto.

Na análise de um texto, o TextAnalyst primeiramente realiza um pré-

processamento para a remoção de stopwords. O usuário pode utilizar dicionários

personalizados para incluir palavras que devem ser analisadas ou não pelo TextAnalyst.

O uso de dicionários personalizados é particularmente útil para se obter melhores

resultados na análise de textos pertencentes a um domínio específico. Através de um

editor fornecido juntamente com este sistema, o usuário pode criar e editar dicionários

personalizados. A tela desse módulo, denominado editor de vocabulário, é apresentada

na figura 4.5. Além de definir o nível de relevância de palavras é possível estabelecer

relações de dependência entre elas.

Figura 4.5 – Editor de vocabulário

No dicionário, as palavras podem ser definidas como (TEXTANALYST, 2003):

• palavras de usuário: palavras que, o usuário deseja que sejam inseridas na rede

semântica caso o TextAnalyst as julgar importantes;

• palavras comuns: palavras às quais o sistema deve atribuir pouca importância

semântica quando analisadas de forma isolada; estas palavras são geralmente

utilizadas como modificadoras de outras palavras semanticamente mais

importantes. O TextAnalyst não as analisa, a menos que estejam combinadas

com outras palavras formando um conceito semântico importante;

• palavras não analisadas: representam artigos e outras palavras que não devem ser

analisadas em qualquer circunstância pelo TextAnalyst;

• palavras excepcionais: constituem palavras que não seguem as regras gerais do

processo de stemming.

A partir dos textos fornecidos como entrada, o TextAnalyst monta uma base de

conhecimentos na qual é possível realizar tarefas como:

• Visualização da estrutura dos tópicos

• Filtragem do significado do texto

• Sumarização automática (mono e multi-documento)

• Recuperação de informações semânticas

• Buscas semânticas e por palavras

• Agrupamento

A tela principal do TextAnalyst, após realizar a sumarização de um texto em

português, é mostrada na figura 4.6. As subdivisões na janela são as seguintes: a

superior esquerda permite gerenciar os arquivos e acessar os conceitos semânticos

identificados pelo sistema, além de outras funções. O texto na subdivisão inferior (onde

ocorrem passagens grifadas em verde) representa o documento em análise. O sumário

produzido encontra-se na subdivisão superior direita (com segmentos grifados em

vermelho).

Figura 4.6 – Tela principal do TextAnalyst - Sumarização

O TextAnalyst utiliza uma técnica extrativa de SA. Durante a sumarização, ele

calcula para cada sentença uma nota denominada peso semântico em função dos pesos

dos conceitos semânticos presentes na sentença e dos relacionamentos entre eles. Em

seguida, todas as sentenças com valores maiores ou iguais a um limiar de peso

semântico, são selecionadas para compor o extrato.

O valor padrão do limiar é 90. Neste caso, todas as sentenças com peso

semântico igual ou maior a 90 serão exibidas no sumário. Este valor pode ser ajustado a

qualquer momento pelo usuário.

O conceito de taxa de compressão torna-se um pouco confuso no contexto desse

sistema. No TextAnalyst, o tamanho do sumário irá depender unicamente do número de

sentenças com pesos semânticos maiores que o limiar. Em outras palavras, o usuário

não tem como especificar o tamanho desejado para o sumário em função de conceitos

de compressão comumente disponibilizados em outros sistemas que realizam SA, tais

como percentual relativo ao documento original, número máximo de sentenças, número

máximo de palavras etc. Para atingir um tamanho desejado, deve-se variar o limiar que

limita a seleção de sentenças até obter-se o número de sentenças próximo do desejado.

O sistema apresenta as seguintes informações sobre o sumário:

• Tamanho do sumário;

• O tamanho percentual do sumário em função do tamanho do documento

original;

• Número de sentenças contidas no sumário

Uma outra observação diz respeito ao tamanho percentual do sumário em

relação ao documento original apresentado pelo sistema. Este valor considera o tamanho

do sumário e do documento original em termos de bytes e não de número de sentenças,

palavras ou mesmo letras. Em sua versão atual, o TextAnalyst aceita como entrada

arquivos de texto plano ou arquivos RTF (Rich Text Format).

5 Avaliação dos sumarizadores

Este capítulo descreve os experimentos conduzidos para a avaliação intrínseca

dos quatro sumarizadores automáticos apresentados no capítulo 4: GistSumm,

NeuralSumm, AutoResumo e TextAnalyst. Para a avaliação foram realizados 2 estudos.

O primeiro envolveu 10 textos jornalísticos e o segundo 10 textos científicos. A

qualidade dos sumários for analisada em função de sua informatividade e sua

textualidade. A seguir serão apresentados detalhes sobre as fontes textuais, a

configuração dos experimentos, a metodologia adotada para a avaliação e a comparação

do desempenho dos sumarizadores.

5.1 Textos jornalísticos

A partir do corpus TeMário

(PARDO; RINO, 2003b) foram selecionados 10

textos jornalísticos, todos contendo títulos. Essa coleção foi construída especialmente

para avaliação de sistemas de SA com textos do gênero jornalístico. Segundo Pardo e

Rino (2003b), o estilo adotado para a escrita desses textos torna-os mais fáceis de serem

lidos, compreendidos e analisados, tornando maiores as chances de sucesso da atividade

de avaliação da SA, ao contrário do que geralmente acontece com textos de estilo mais

rebuscado. Além disso, é comum nesse gênero textual que as idéias principais sejam

apresentadas logo no início dos textos. Para evidenciar seus argumentos, eles citam

exemplos dos concursos internacionais de avaliação em larga escala da SA como a

SUMMAC e a DUC que têm utilizado textos jornalísticos.

O TeMário contém 100 textos jornalísticos em português do Brasil, com

tamanho médio de 613 palavras. Ele também possui sumários manuais e extratos ideais,

como dados de referência. Assim, pode-se dizer que o TeMário constitui uma coleção

completa para estudos diversos de avaliação da SA, possibilitando a realização de

treinamento e/ou teste de sumarizadores automáticos (PARDO; RINO, 2003b, 2006). A

http://www.linguateca.pt/Repositorio/TeMario

tabela 5.1 relaciona os textos utilizados no estudo de caso de textos jornalísticos com os

arquivos de seus textos-fonte no corpus TeMário.

Tabela 5.1 – Relação dos textos jornalísticos dos experimentos e os arquivos associados no corpus

TeMário

Texto Compilado Texto Fonte

Texto1: mu94ab02-b.txt

Texto2: op94ab02-a.txt

Texto3: in96fe15-a.txt

Texto4: in96fe13-a.txt

Texto5: ce94ab17-a.txt

Texto6: ce94jl11-b.txt

Texto7: ce94jl31-e.txt

Texto8: in96fe08-a.txt

Texto9: mu94ag06-a.txt

Texto10: ce94jl10-a.txt

5.2 Textos científicos

Foram elaborados dez documentos com texto de gênero científico a partir de

artigos e seções introdutórias de monografias, relacionados à área da computação. Os

documentos compilados foram armazenados como arquivos de texto plano. Naqueles

que continham imagens ou gráficos foram mantidas apenas as referências e/ou

descrições destes elementos. Informações como título e autoria foram mantidas,

enquanto que as partes explicitamente identificadas através de seus títulos como

resumos elaborados pelos autores não foram incluídas nas compilações. A tabela 5.2

relaciona os documentos elaborados para os experimentos com suas fontes originais.

Tabela 5.2 – Ralação dos textos científicos compilados para os experimentos e suas obras originais

Texto Compilado Texto Fonte

Texto 1 (MARTINS, 2001b)

Texto 2 (PARDO; NUNES, 2002)

Texto 3 (BASTOS, 2006)

Texto 4 (UZÊDA et al., 2007)

Texto 5 (BALAGE FILHO et al., 2006a)

Texto 6 (VILELA, 2008)

Texto 7 (BALAGE FILHO et al., 2007b)

Texto 8 (MAZIERO et al., 2007)

Texto 9 (CAPUTO, 2006)

Texto 10 (VINHAES, 2005)

5.3 Metodologia

Os sumarizadores foram avaliados em função da informatividade e textualidade

dos extratos produzidos quando submetidos à sumarização de textos de gênero

jornalístico e científico em duas avaliações isoladas.

Na primeira avaliação foram utilizados os 10 textos jornalísticos selecionados a

partir do corpus temário, apresentados na seção 5.1. Na segunda avaliação, os 10

documentos compilados a partir de textos científicos (descritos na seção 5.2) foram

utilizados como textos-fonte para a sumarização. Nos dois estudos de caso foram

adotadas as mesmas configurações para a geração dos textos e julgamento dos extratos.

As subseções seguintes descrevem a forma como os extratos foram gerados e avaliados

nos dois estudos de caso.

5.3.1 Geração dos extratos

Nas atividades de sumarização, um importante fator é a taxa de compressão, que

define o tamanho dos extratos em relação à fonte original. Em razão dos textos

científicos utilizados nos experimentos serem em geral maiores que os textos

jornalísticos adotados, a taxa de compressão não foi igual nos dois estudos de casos. Os

textos jornalísticos e científicos foram sumarizados respectivamente com 70% e 85% de

compressão.

Os quatro sistemas utilizados permitem medir os textos em função do número

de sentenças. Dessa forma, na geração dos extratos para as duas avaliações realizadas, a

taxa de compressão foi definida de forma conveniente em termos de número de

sentenças. Os parâmetros de cada sistema foram ajustados para que eles gerassem

extratos de acordo com a taxa de compressão utilizada em cada estudo de caso.

Exceto no TextAnalyst, os outros três sumarizadores utilizados permitem

especificar a taxa de compressão em função do número de sentenças dos documentos

originais, tornando compatível a definição da taxa de compressão entre estes sistemas.

Embora no sistema TextAnalyst o número de sentenças do extrato e dos textos

fonte sejam apresentados em sua interface, a informação de compressão dos extratos

exibida é calculada em função do tamanho em múltiplos de bytes da fonte textual. Além

disso, o TextAnalyst não permite configurar o tamanho do extrato em função de uma

taxa de compressão. Conforme apresentado na seção 4.4, a seleção de sentenças para o

extrato é controlada por um parâmetro que especifica o peso mínimo de uma sentença

para que ela seja incluída no extrato. Assim, apenas sentenças cuja pontuação de

relevância supere ou se iguale ao valor de peso mínimo definido farão parte dos extratos

produzidos pelo TextAnalyst.

Em função dessa característica, nem sempre é possível configurar o TextAnalyst

para gerar extratos com determinadas taxas de compressão. Por exemplo, para um texto

com 10 sentenças, das quais 8 receberam um peso igual a 60 e 2 sentenças foram

pontuadas com o valor 30, o TextAnalyst só será capaz de gerar dois extratos distintos:

• um com 20% de taxa de compressão: quando o valor de peso mínimo for

especificado entre 31 e 60;

• outro contendo todas as sentenças: quando o valor de peso mínimo for

menor ou igual a 30, pois dessa forma tanto as sentenças com nota 60

quanto as com nota 30 serão incluídas no extrato.

Por isso, para gerar extratos com a taxa de compressão desejada no TextAnalyst

para os experimentos foi necessário um procedimento menos intuitivo em relação à

configuração dos outros três sumarizadores. Para cada documento calculou-se

manualmente o número aproximado de sentenças que cada extrato deveria conter, em

função do número total de sentenças identificado pelo TextAnalyst e da taxa de

compressão particular à cada estudo de caso. Em seguida, o valor de peso mínimo para

que as sentenças fossem incluídas nos extratos foi ajustado de forma que o número de

sentenças com pesos maiores ou iguais a este se aproximasse do número de sentenças

desejado.

A ferramenta GistSumm foi configurada para produzir os extratos através do

método de ranqueamento keywords. No NeuralSumm e no AutoResumo, o único ajuste

relevante para os experimentos foi a taxa de compressão desejada. No TextAnalyst além

da configuração dos pesos de forma a se obter uma taxa de compressão próxima da

desejada para cada estudo de caso e para cada texto-fonte, foi utilizada uma lista de

stopwords personalizada com 361 palavras do idioma português do Brasil. Entre as

palavras dessa lista foram incluídas algumas formas que constituem erros de grafia. A

lista de stopwords utilizada pelo TextAnalyst é apresentada no anexo B.

5.3.2 Avaliação dos extratos

Para avaliar os quatro sistemas foi adotada uma estratégia semelhante à de Pardo

e Rino (2003a). Os extratos produzidos por cada sistema receberam notas de um juiz

humano, falante nativo do português do Brasil, quanto a sua informatividade e sua

textualidade. Nesta avaliação, a informatividade (seção 3.1.2) está relacionada a quanto

do conteúdo informativo original o extrato retém. O juiz verificou se os extratos

continham sentenças que permitissem identificar a idéia principal do texto fonte, isto é,

se os extratos preservavam a idéia principal.

Em relação à textualidade, o juiz verificou se os extratos apresentavam as

características mínimas que promovem a fluência durante a leitura dos extratos, isto é,

os atributos que promovem a coerência e a coesão textual (discutidas na seção 3.1.1).

Após a leitura e avaliação dos critérios adotados, o juiz atribuiu notas de acordo

com a escala apresentada na tabela 5.3. Por exemplo, quando o juiz considera que um

extrato preservou a idéia principal do texto fonte, mas apresentou textualidade mediana,

ele deve atribuir a nota 8 ao extrato.

Tabela 5.3 – Escala de pontuação dos extratos

Idéia principal Textualidade Nota

Preservada Ok 9

Preservada ± 8

Preservada Sem 7

Parcialmente preservada Ok 6

Parcialmente preservada ± 5

Parcialmente preservada Sem 4

Não preservada Ok 3

Não preservada ± 2

Não preservada Sem 1

Fonte: (PARDO; RINO, 2003b)

Levando em consideração as características da metodologia de avaliação

utilizada neste trabalho, pode-se classificá-la como: intrínseca (observou-se o

desempenho dos sistemas no contexto da própria sumarização), black-box (não foram

verificados resultados de processos intermediários da geração de extratos), comparativa

(quatro sistemas tiveram seus resultados comparados) e on-line (a qualidade dos

extratos foi avaliada por um juiz humano).

5.4 Estudo de caso 1: extratos de textos jornalísticos

Neste estudo de caso os sumarizadores foram configurados para gerar os extratos

com aproximadamente 30% das sentenças dos documentos originais, isto é, especificou-

se uma taxa de compressão de 70%. Essa taxa de compressão foi escolhida por ser

também a taxa de compressão aproximada utilizada para a criação dos extratos de

referência do corpus TeMário. Isto permitirá que em trabalhos futuros os extratos

gerados possam ser comparados de forma adequada aos dados de referência desse

corpus. A tabela 5.4 apresenta a pontuação dos sistemas no estudo de casos com textos

jornalísticos.

Tabela 5.4 – Pontuação dos sistemas para os extratos dos textos jornalísticos

Texto GistSumm NeuralSumm AutoResumo TextAnalyst

Texto 1 8 4 9 9

Texto 2 6 4 9 9

Texto 3 9 4 9 9

Texto 4 5 9 8 8

Texto 5 5 8 8 9

Texto 6 4 5 9 8

Texto 7 9 3 9 9

Texto 8 9 4 9 9

Texto 9 2 1 8 9

Texto 10 6 4 9 9

Total 63 46 87 88

Média 6,3 4,6 8,7 8,8

Fonte: dados do autor

Conforme a tabela 5.4, 40% dos extratos gerados pelo sistema GistSumm

preservaram a idéia central e 50% preservaram parcialmente. Apenas para o texto 9 o

GistSumm não conseguiu determinar sequer de forma parcial a idéia central do

documento original; 50% dos extratos apresentaram textualidade total e 40%

apresentaram textualidade parcial. Dessa forma, 90% dos extratos preservaram

totalmente ou parcialmente a idéia central e 90% dos extratos apresentaram textualidade

total ou parcial.

O NeuralSumm apresentou os resultados menos satisfatórios em termos de

textualidade neste estudo de casos: 60% de seus extratos constituíam textos sem

textualidade. 20% dos extratos desse sistema apresentaram textualidade total e 20%

apresentaram textualidade parcial, somando um total de 40% os textos nos quais a

textualidade era total ou parcial. Quanto a informatividade o NeuralSumm também não

apresentou melhores resultados em relação aos sistemas concorrentes: 20% dos extratos

preservaram completamente a idéia central de suas fontes textuais e 60% dos extratos

preservaram parcialmente. Dessa forma, 80% dos extratos do NeuralSumm preservaram

totalmente ou parcialmente a idéia central. Percebeu-se que o texto 9 representou uma

situação problemática tanto para o GistSumm quanto para o NeuralSumm.

Os dois sistemas comerciais foram bem sucedidos na sumarização dos textos

jornalísticos do presente estudo de caso. Todos os extratos gerados por estes sistemas

preservaram completamente a idéia central dos textos-fonte e constituíam extratos

satisfatoriamente coerentes e coesos.

Conforme os resultados (tabela 5.4), o AutoResumo incluiu em todos os seus

extratos os títulos e os parágrafos iniciais dos textos-fonte. Uma característica dos textos

jornalísticos é que estes geralmente apresentam o conteúdo essencial nos primeiros

parágrafos. A seleção de sentenças consecutivas nos documentos originais, quando estes

são textos coesos e coerentes, para compor os extratos pode melhorar a legibilidade dos

mesmos. Assim, o AutoResumo obteve bons resultados ao selecionar os títulos e os

parágrafos iniciais dos documentos completos tanto em termos da textualidade quanto

de informatividade: 70% dos extratos desse sumarizador obtiveram nota máxima, isto é,

tanto preservaram completamente a essência do texto quanto constituíam extratos

coerentes e coesos. 30% dos extratos do AutoResumo preservaram totalmente a idéia

central e ao mesmo tempo apresentaram textualidade parcial.

Nesta avaliação, o sistema TextAnalyst apresentou os melhores resultados: 80%

dos extratos preservaram completamente a idéia central e simultaneamente

apresentaram uma combinação de sentenças que formaram textos sem problemas de

coerência e coesão. Embora 20% dos extratos apresentaram textualidade parcial, eles

continham sentenças que permitiam determinar de forma clara a idéia central.

Os resultados obtidos sugerem que tanto o TextAnalyst quanto o AutoResumo

demonstram bom potencial para a sumarização de textos não divididos em seções e que

seguem o estilo de redação tipicamente utilizado em matérias jornalísticas.

O NeuralSumm deve ser investigado após sua adaptação para as características

dos textos com temas mais genéricos e um treinamento envolvendo um corpus

adequado, já que segundo Pardo et al. (2003b) a versão utilizada neste estudo é

otimizada para textos científicos. A ferramenta GistSumm, embora baseada em um

método bastante simples e independente de características profundas, apresentou

resultados satisfatórios para os textos jornalísticos ao preservar parcial ou

completamente a idéia central das fontes textuais em 90% de seus extratos. Para tarefas

em que a textualidade não seja a característica principal, os extratos do GistSumm

podem representar uma boa solução, principalmente em função de se tratar de um

sistema de uso livre para utilização sem fins lucrativos e facilmente adaptável para

outras línguas de origem latina.

5.5 Estudo de caso 2: extratos de textos científicos

Para a avaliação dos extratos dos textos científicos compilados para este estudo

de caso, os sistemas foram configurados para uma taxa de compressão de 85%. O

motivo da taxa de compressão maior é que os textos científicos compilados

apresentavam, em geral, um número bem maior de sentenças que os textos jornalísticos

do estudo de casos da seção 5.4. A tabela 5.5 apresenta a pontuação dos sistemas no

estudo de casos com textos científicos.

Tabela 5.5 – Pontuação dos sistemas para os extratos dos textos científicos

Texto GistSumm NeuralSumm AutoResumo TextAnalyst

Texto 1 8 8 7 8

Texto 2 1 5 8 4

Texto 3 8 5 8 8

Texto 4 3 1 3 1

Texto 5 8 2 1 5

Texto 6 2 5 8 8

Texto 7 6 9 2 8

Texto 8 3 3 8 9

Texto 9 2 1 5 3

Texto 10 3 9 9 5

Total

44 48 59 59

Média

4,4 4,8 5,9 5,9

Fonte: dados do autor

Os textos científicos geralmente são divididos em várias seções para organizar

idéias que embora distintas sejam necessárias para fundamentar o assunto abordado.

Dessa forma, um problema que pode ocorrer na SA extrativa desse tipo de texto é que a

justaposição de sentenças extraídas de seções diferentes pode resultar em extratos com

falhas de progressão temática ou falta de coesão. Além disso, em textos escritos de

acordo com o estilo científico mais comum, algumas pistas pragmáticas podem indicar a

idéia central. Dessa forma, para sumarizar esse tipo de texto são preferíveis sistemas

cuidadosamente projetados que levem em consideração as características acima para se

obter melhores resultados.

O GistSumm preservou completamente a idéia central em 30% dos extratos e

parcialmente em 10%. Deste modo, 40% dos extratos do GistSumm continham

sentenças que permitiam determinar totalmente ou parcialmente a idéia central dos

textos-fonte. Quanto à textualidade, 40% dos extratos do GistSumm apresentaram

textualidade total e 50% apresentaram textualidade parcial, somando um total de 90%

de extratos com textualidade total ou parcial. Dessa forma, o GistSumm não apresentou

resultados satisfatórios para a sumarização dos textos científicos utilizados neste estudo

de caso, já que a preservação da idéia central constitui um fator mais relevante para a

avaliação conduzida.

Para os extratos do NeuralSumm os resultados foram: 30% dos extratos

preservaram totalmente a idéia central e 30% preservaram parcialmente. Dessa forma,

60% dos extratos desse sumarizador preservaram totalmente ou parcialmente a idéia

central. 30% dos extratos apresentaram textualidade total e 50% apresentaram

textualidade parcial. Assim, 80% dos extratos apresentaram textualidade total ou

parcial. Os sistemas comerciais também tiveram menor desempenho na sumarização

dos textos jornalísticos utilizados.

Dos extratos do AutoResumo, 60% preservaram totalmente a idéia central e 10%

preservaram parcialmente, ou seja, 70% dos extratos preservaram totalmente ou

parcialmente a idéia central. Ainda em relação aos extratos do AutoResumo, 20%

apresentaram textualidade total 60% apresentaram textualidade parcial resultando num

total de 80% de extratos com textualidade total ou parcial.

Os resultados do TextAnalyst foram novamente similares aos do AutoResumo.

Entre os extratos do TextAnalyst, 50% preservaram totalmente a idéia central e 20%

preservaram de forma parcial. Desse modo, 70% dos extratos preservaram totalmente

ou parcialmente a idéia central. Para o critério de textualidade, 20% dos extratos desse

sistema apresentaram textualidade total e 60% apresentaram textualidade parcial.

Assim, 80% dos extratos do TextAnalyst apresentaram textualidade total ou parcial.

Exceto para o sistema NeuralSumm, a média dos outros três sistemas foi menor

em relação à avaliação com os textos jornalísticos. Além das características particulares

dos textos jornalísticos, um outro aspecto que merece destaque nas atividades de

sumarização automática é a segmentação automática dos textos em sentenças, também

referenciada por segmentação textual, que consiste na identificação de cada sentença

componente do texto fonte. Este procedimento geralmente é conduzido na fase de pré-

processamento e, apesar de parecer uma tarefa simples, existem problemas de difícil

resolução para que ela seja conduzida automaticamente de forma correta. Entre os

problemas mais comuns estão aqueles onde os símbolos de pontuação não são

empregados para determinar o final de uma sentença.

Nos textos científicos, por exemplo, o uso do sinal de pontuação pode ser

diverso. Os títulos numerados de seções podem utilizar o símbolo “.” para destacar

subseções como por exemplo no caso de “1.1 Motivação”. Dessa forma, o que o sistema

considera como uma sentença, a relevância atribuída a cada uma e o número de

sentenças selecionadas para compor os extratos pode variar. O problema da

segmentação textual se manifestou mais claramente neste estudo de caso envolvendo

textos científicos. Percebeu-se que o número de sentenças identificadas foi diferente

para cada sistema. Isto foi verificado através do número de sentenças presentes nos

extratos produzidos no caso dos sistemas GistSumm e NeuralSumm, que não

apresentam informações sobre o número de sentenças detectadas. Já para os sistemas

AutoResumo e TextAnalyst a informação sobre o número de sentenças do texto e dos

extratos são disponibilizadas em suas interfaces.

Essa diferença não só influencia a geração dos extratos pelos sistemas como

também torna mais difícil a comparação dos resultados, já que o número de sentenças

dos extratos gerados por cada sistema para um mesmo texto pode ser muito distinto.

6 Conclusões

O processamento da língua natural (PLN) é um problema antigo e complexo da

área de Inteligência Artificial (JISC, 2006). O papel do PLN na área de Text Mining é

alimentar com dados lingüísticos os sistemas na etapa de extração de informação para o

desempenho de alguma tarefa. Freqüentemente esses dados são informações sobre o

início e fim de sentenças (segmentação sentencial), indicadores de classe gramatical das

palavras etc.

A sumarização automática (SA) é uma das tarefas mais pesquisadas desde a

década de 1960 em PLN. Os estudos de SA descrevem o desenvolvimento e avaliação

de sistemas destinados à geração automática de resumos de textos, os sumários.

Destacam-se duas abordagens principais de sumarização: a fundamental, ou

profunda, e a empírica, ou superficial. A abordagem fundamental utiliza conhecimentos

lingüísticos e extralingüísticos a criação de sumários do tipo abstract. A abordagem

empírica apóia-se em técnicas estatísticas para determinar a relevância de fragmentos

textuais e utilizá-los para seleção de conteúdo e criação de sumários do tipo extrato.

Embora a abordagem fundamental constitua uma proposta mais interessante, a

programação dos componentes para a geração automática de abstracts ainda representa

um grande desafio para os pesquisadores dessa abordagem, tornando mais viável a

exploração dos métodos extrativos. É importante ressaltar que qualquer estratégia de

sumarização automática deve levar em consideração a finalidade dos sumários.

A avaliação é um tema de grande importância para a SA. É através dela que se

pode verificar o estado da arte e definir novas técnicas de sumarização ou

aprimoramentos para as existentes. Conferências internacionais como a TIPSTER

SUMMAC e a DUC demonstram o grande interesse em pesquisas sobre avaliação da

SA. As avaliações da sumarização podem ser do tipo intrínsecas ou extrínsecas. A

avaliação intrínseca possui o foco na qualidade e informatividade dos sumários. Na

avaliação extrínseca, o sumarizador é avaliado mediante a realização de outras tarefas,

como categorização de documentos, recuperação de informação e perguntas e respostas.

Assim como ocorre na produção dos sumários, o processo de avaliação deve

levar em consideração as necessidades e características dos usuários ou tarefas para os

quais o sumário foi produzido. Nem sempre um sumário com baixa qualidade em sua

textualidade deve ser tomado como insucesso. Em alguns casos pode ser necessário

apenas que os sumários preservem as informações essenciais do texto-fonte.

Este trabalho apresentou as principais técnicas de SA e discutiu a difícil tarefa de

avaliação. Além disso, para verificar a potencialidade de sumarizadores para o idioma

português do Brasil, foram apresentados dois estudos de caso nos quais realizou-se a

avaliação intrínseca comparativa de quatro sistemas extrativos de sumarização

utilizando textos escritos no referido idioma: GistSumm, NeuralSumm, AutoResumo e

TextAnalyst.

Nos experimentos, os sumários, do tipo extrato, foram avaliados por juízes

humanos em função da textualidade e da preservação do conteúdo essencial dos

documentos originais. A primeira avaliação verificou as potencialidades dos sistemas

para a sumarização de textos jornalísticos com uma taxa de compressão de 70%. Na

outra avaliação, os sistemas foram utilizados para sumarizar textos do gênero científico,

gerando extratos com aproximadamente 15% (compressão de 85%) das sentenças dos

textos-fonte.

Os sistemas comerciais TextAnalyst e o AutoResumo apresentaram, além de

resultados muito semelhantes, os melhores resultados em ambos os estudos de caso. Os

pontos negativos do TextAnalyst foram a necessidade de se configurar uma lista de

Stopwords e os problemas acarretados por utilizar uma forma distinta para a

determinação das sentenças que deverão compor seus extratos: sua configuração é

menos intuitiva e nem sempre é possível gerar extratos com determinadas taxas de

compressão. Além disso, o TextAnalyst apresentou a maior oscilação no número de

sentenças detectadas para determinados textos científicos, e conseqüentemente gerou

alguns extratos com um número bastante distinto de sentenças em relação aos outros

três sumarizadores.

O NeuralSumm não demonstrou bons resultados para a sumarização dos textos

jornalísticos adotados. Seus extratos além de apresentarem problemas de textualidade,

só preservaram completamente a idéia central dos textos-fonte em apenas dois dos

extratos gerados. Apesar do treinamento original do NeuralSumm ter sido realizado

com textos do gênero científico, este sistema também não apresentou resultados

satisfatórios em função da informatividade de seus extratos nos experimentos

conduzidos com textos científicos. Outro ponto negativo para o uso do NeuralSumm é

que para seu treinamento, deve-se avaliar e classificar manualmente todas as sentenças

dos extratos fornecidos juntamente com os dados do conjunto treino, o que torna esse

processo razoavelmente trabalhoso e sujeito à subjetividade humana. A ferramenta

GistSumm apresentou resultados satisfatórios para os textos jornalísticos. Porém seu

desempenho foi o menor entre os sistemas no estudo de caso com textos científicos.

A facilidade de utilização do sistema AutoResumo e seu desempenho

satisfatório permitem concluir que este sistema é a melhor opção para a sumarização de

textos com características similares às dos textos utilizados nos estudos de caso.

A avaliação da SA constitui um grande desafio. No entanto, com o uso de

corpora adequados, de métricas e procedimentos bem definidos e de profissionais bem

preparados, é possível se conduzir uma avaliação eficaz que revela a utilidade de um

sistema de SA.

6.1 Limitações e trabalhos futuros

Duas maiores limitações podem ser identificadas nesse trabalho: o número de

textos utilizados na avaliação e o julgamento humano. Além disso, a personalização do

NeuralSumm para textos científicos torna problemática a avaliação desse sistema com

textos de outros gêneros. Como trabalhos futuros, sugere-se que a comparação dos

sumários automáticos de textos jornalísticos seja realizada em condições adequadas para

todos os sistemas, realizando novo treinamento da rede utilizada pelo NeuralSumm.

Além disso, sugere-se a utilização de uma equipe maior e que a metodologia de

avaliação seja substituída, adotando-se, por exemplo, as métricas ROUGE como fator

de qualidade dos extratos. Dessa forma, além de se avaliar os sumários sem a influência

da subjetividade humana, será possível utilizar um número muito maior de textos e

comparar os resultados com outras pesquisas que já utilizam o pacote de avaliação

ROUGE. Para o caso de textos jornalísticos essa adaptação é perfeitamente viável já que

o corpus TeMário dispõe de sumários de referência escritos por humanos para todos os

seus textos.

Referências

BALAGE FILHO et al. 2006a, Sumarização Automática de Textos Estruturados. In

Anais do 14º Simpósio Internacional de Iniciação Científica da Universidade de São

Paulo - SIICUSP. 6 a 17 de Novembro.

BALAGE FILHO et al. 2006b, Estrutura Textual e Multiplicidade de Tópicos na

Sumarização Automática: o Caso do Sistema GistSumm. Série de Relatórios Técnicos

do Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, no.

283. São Carlos-SP, Novembro, 18p.

BALAGE FILHO, P. P.; PARDO, T. A. S.; NUNES, M G. V. 2007a, Sumarização

Automática de Textos Científicos: Estudo de Caso com o Sistema GistSumm. Série de

Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação,

Universidade de São Paulo, no. 304. São Carlos-SP, Agosto, 23p.

BALAGE FILHO, P. P.; PARDO, T. A. S.; NUNES, M. G. V. 2007b, Experimentos

com Sumarização Automática Extrativa de Textos Científicos. I Workshop de Iniciação

Científica e Tecnológica da Computação - WICT Comp. 1 a 5 de Outubro.

BALAGE FILHO, P. P.; PARDO, T. A. S.; NUNES, M. G. V. 2007c, Summarizing

Scientific Texts: Experiments with Extractive Summarizers. In the Proceedings of the

Seventh International Conference on Intelligent Systems Design and Applications –

ISDA, pp. 520-524. Rio de Janeiro-RJ, Brazil. October, 22-24.

BASTOS, V. M. 2006, Ambiente de Descoberta de Conhecimento na Web para a

Língua Portuguesa, Tese de Doutorado do Programa de Engenharia Civil da

COPPE/UFRJ, Outubro de 2006.

BAXENDALE, P. B. 1958, Machine-made index for technical literature – an

experiment. IBM Journal of Research and Development, Vol. 2, pp. 354-365.

BLACK, W. J.; JOHNSON, F. C. 1988, A Practical Evaluation of Two Rule-Based

Automatic Abstraction Techniques. Expert Systems for Information Management, Vol.

1, N. 3. Department of Computation. University of Manchester Institute of Science and

Technology.

CAPUTO, G. M. 2006, Sistema Computacional para o Processamento Textual de

Patentes Industriais, Dissertação de Mestrado do Programa de Engenharia Civil da

COPPE/UFRJ, Abril de 2006.

CAVNAR, W. B. 1994, Using An N-Gram-Based Document Representation With a

Vector Processing Retrieval Model. Proc. TREC-3 (Third Text Retrieval Conf.).

Gaithersburg, USA.

CHOMSKY, N. 1965, Aspects of the Theory of Syntax. MIT Press, Cambridge, MA.

DALIANIS, H. What is automatic text summarization. Disponível em

<http://people.dsv.su.se/~hercules/textsammanfattningeng.html>. Acesso em: 05 dez.

2007.

de SMEDT, K.; LISETH, A.; HASSEL, M.; DALIANIS, H. 2005, How short is good?

An evaluation of automatic summarization. In Holmboe, H. (ed.) Nordisk

Sprogteknologi 2004. Årbog for Nordisk Språkteknologisk Forskningsprogram 2000-

2004, pp 267-287, Museum Tusculanums Forlag.

DIAS-DA-SILVA, B. C. et al. 2007, Introdução ao Processamento das Línguas Naturais

e Algumas Aplicações. Série de Relatórios do NILC. NILC-TR-07-10. São Carlos-SP,

Agosto, 121p.

DUC. 2002, The Document Understanding Conference. http://duc.nist.gov.

EARL, L. L. 1970, Experiments in automatic extracting and indexing, Information

Storage and Retrieval, 6, 313-334.

EDMUNDSON, H. P. 1964, Problems in automatic abstracting. Comm. ACM, Vol. 7,

No.4 259-263. Apr.

EDMUNDSON, H. P. 1969, New Methods in Automatic Extracting. Journal of the

ACM, 16, pp. 264-285.

ERKAN, G.; RADEV, D. R. 2004, LexRank: Graph-based Lexical Centrality as

Salience in Text Summarization. Journal of Artificial Intelligence Research (JAIR),

Vol. 22, pp. 457-479.

FELTRIM, V. D.; NUNES, M. G. V.; ALUÍSIO, S. M. 2001, Um corpus de textos

científicos em Português para a análise da Estrutura Esquemática. Série de Relatórios do

NILC. NILC-TR-01-4. Disponível em:

<http://www.nilc.icmc.usp.br/nilc/pessoas/valeria.htm> Acesso em out. 2007.

GANAPATHIRAJU, M. K. 2002, Relevance of Cluster size in MMR based

Summarizer: A Report 11-742: Self-paced lab in Information Retrieval, November 26.

GRAUDEZ. 2008, Coerência e Coesão. Disponível em:

<http://www.graudez.com.br/portugues/ch11s03.html>. Acesso em: 28 jan. 2008.

HASSEL, M. 2004, Evaluation of automatic text summarization - a practical

implementation. Licentiate thesis, Stockholm, NADA-KTH.

HOVY, E. H.; LIN, C-Y. 1998, Automated Text Summarization in SUMMARIST. In

Mani, I.; Maybury, M. (eds), Advances in Automatic Text Summarization. Cambridge:

MIT Press.

HUTCHINS, J. 1987, Summarization: Some problems and Methods . In: Jones.

Meaning: The frontier of informatics. Cambridge. London, pp. 151-173.

ISO 215:1986. 1986, Documentation – Presentation of Contribuitions to Periodicals and

Other Serials. ISO 215:1986. Technical report, International Organisation of

Standardisation.

JING, H.; BARZILAY, R.; MCKEOWN, K.; ELHADAD, M. 1998, Summarization

evaluation methods: Experiments and analysis. In the Working Notes of the AAAI

Spring Symposium on Intelligent Text Summarization.

JISC. 2006, Text Mining briefing paper. Disponível em:

<http://www.jisc.ac.uk/publications/publications/pub_textmining.aspx> Acesso em: 13

dez. 2007.

KOHONEN, T. 1982, Self-organized formation of topologically correct feature maps.

Biological Cybernetics, Vol. 43, pp. 59-69.

KONCHADY M. 2006, Text Mining Applications Programming, Charles River Media,

Boston, Massachusetts.

KUPIEC, J.; PETERSEN, J.; CHEN, F. 1995, A trainable document summarizer. In

Edward Fox, Peter Ingwersen, & Raya Fidel (eds.), Proceedings of the 18th Annual

International ACM-SIGIR Conference on Research & Development in Information

Retrieval, pp. 68-73, Seattle, WA, EUA. July.

LAROCCA NETO, J.; SANTOS, A. D.; KAESTNER, A. A.; FREITAS, A. A. 2000,

Generating Text Summaries through the Relative Importance of Topics. In the

Proceedings of the International Joint Conference IBERAMIA/SBIA, Atibaia, SP.

LEITE, D. S.; RINO, L. H. M.; PARDO, T. A. S.; NUNES, M. G. V. 2007, Extractive

Automatic Summarization: Does more linguistic knowledge make a difference? In C.

Biemann, I. Matveeva, R. Mihalcea, and D. Radev (eds.), Proceedings of the

HLT/NAACL Workshop on TextGraphs-2: Graph-Based Algorithms for Natural

Language Processing, pp.17-24. 26 April, Rochester, NY, USA.

LIN, C-Y. 2004, ROUGE: a Package for Automatic Evaluation of Summaries. In

Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004),

Barcelona, Spain, July 25 - 26, 2004.

LIN, C-Y.; HOVY, E. H. 2003, Automatic Evaluation of Summaries Using N-gram Co-

occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-

NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003. pp. 71-78.

LUHN, H. P. 1958, The automatic creation of literature abstracts. IBM Journal of

Research and Development, Vol. 2, pp. 159-165.

MANI, I. 2001a, Automatic Summarization. John Benjamins Publishing Co.,

Amsterdam.

MANI, I. et al. 1999, The TIPSTER SUMMAC text summarization evaluation. In Proc.

of EACL’99.

MANI, I.; MAYBURY, M. T. 1999, eds. Advances in automatic text summarization.

MIT Press, Cambridge, MA.

MANI, I. 2001b, Summarization Evaluation: An Overview. In the Proceedings of the

Workshop on Automatic Summarization. Pittsburgh, Pennsylvania.

MANN, W. C.; THOMPSON, S. A. 1988, Rhetorical Structure Theory: Toward a

Functional Theory of Text Organization. Text, 8 (3), pp. 243-281.

MARCU, D. 1997a, From Discourse Structures to Text Summaries. In I. Mani and M.

Maybury (eds.), Proc. of the Intelligent Scalable Text Summarization Workshop, pp.

82-88. ACL/EACL’97 Joint Conference. Madrid, Spain.

MARCU, D. 1997b, The Rhetorical Parsing of Natural Language Texts. In the Proc. of

the ACL/EACL’97 Joint Conference, pp. 96-103. Madrid, Spain.

MARCU, D. 2000, The Theory and Practice of Discourse Parsing and Summarization.

The MIT Press. Cambridge, Massachusetts.

MARTINS, C. B. 2001, A Sumarização de Textos UNL. Anais do Congresso de Pós-

Graduação da UFSCar. São Carlos, SP.

MARTINS, C. B.; PARDO, T. A. S.; ESPINA, A. P.; RINO, L. H. M. 2001, Introdução

à Sumarização Automática. Relatório Técnico RT-DC 002/2001, Departamento de

Computação, Universidade Federal de São Carlos.

MAZIERO, E. G.; PARDO, T. A. S.; NUNES, M. G. V. 2007, Identificação automática

de segmentos discursivos por meio do analisador sintático PALAVRAS. n Anais do 15o

Simpósio Internacional de Iniciação Científica da Universidade de São Paulo -

SIICUSP. 26 a 28 de Novembro.

MICROSOFT. 2003, Microsoft Office Word – AutoResumo. Disponível em:

<http://office.microsoft.com/pt-br/word/HP052334521046.aspx>. Acesso em: 20 jan.

2008.

MIHALCEA, R.; TARAU, P. 2004, TextRank: Bringing Order into Texts. In: Proc. of

the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004),

pp. 404–411. Barcelona, Spain, July.

PAICE, C. D. 1981, The automatic generation of literature abstracts: an approach based

on the identification of self-indicating phrases. Information Retrieval Research.

Butterworth & Co. (Publishers).

PARDO, T. A. S. 2002a, DMSumm: Um Gerador Automático de Sumários. Dissertação

de Mestrado. Departamento de Computação. Universidade Federal de São Carlos. São

Carlos - SP.

PARDO, T. A. S. 2002b, GistSumm: Um Sumarizador Automático Baseado na Idéia

Principal de Textos. Série de Relatórios do NILC. NILC-TR-02-13. São Carlos-SP,

Setembro, 25p.

PARDO, T. A. S. 2005, GistSumm - GIST SUMMarizer: Extensões e Novas

Funcionalidades. Série de Relatórios do NILC. NILC-TR-05-05. São Carlos-SP,

Fevereiro, 8p.

PARDO, T. A. S. 2006, SENTER: Um Segmentador Sentencial Automático para o

Português do Brasil. Série de Relatórios do NILC. NILC-TR-06-01. São Carlos-SP,

Janeiro, 6p.

PARDO, T. A. S.; NUNES, M. G. V. 2002, Segmentação Textual Automática: Uma

Revisão Bibliográfica. Série de Relatórios Técnicos do Instituto de Ciências

Matemáticas e de Computação, Universidade de São Paulo, no. 185. São Carlos-SP,

Fevereiro, 21p.

PARDO, T. A. S.; RINO, L. H. M. 2003a, A Sumarização Automática de Textos:

Principais Características e Metodologias. Anais do XXIII Congresso da Sociedade

Brasileira de Computação, Vol. VIII: III Jornada de Mini-cursos de Inteligência

Artificial (III MCIA), pp. 203-245. Campinas-SP.

PARDO, T. A. S.; RINO, L. H. M. 2003b, TeMário: Um corpus para sumarização

automática de textos. Série de Relatórios do NILC. NILC-TR-03-09, Núcleo

Interinstitucional de Lingüística Computacional (NILC), São Carlos-SP, 11 p.

PARDO, T. A. S.; RINO, L. H. M. 2006, A Coleção TeMário e a Avaliação de

Sumarização Automática. Série de Relatórios do NILC. NILC-TR-06-04. São Carlos-

SP, Janeiro, 17p.

PARDO, T. A. S.; RINO, L. H. M.; NUNES, M. G. V. 2002, Extractive summarization:

how to identify the gist of a text. In the Proceedings of the 1st International Information

Technology Symposium – I2TS, pp. 1-6. Florianópolis-SC, Brazil. October 1-5.

PARDO, T. A. S.; RINO, L. H. M.; NUNES, M. G. V. 2003a, GistSumm: A

Summarization Tool Based on a New Extractive Method. In N.J. MAMEDE, J.

BAPTISTA, I. TRANCOSO, M.G.V. NUNES (eds.), 6th Workshop on Computational

Processing of the Portuguese Language - Written and Spoken – PROPOR (Lecture

Notes in Artificial Intelligence 2721), pp. 210-218. Faro, Portugal. June 26-27.

PARDO, T. A. S.; RINO, L. H. M.; NUNES, M. G. V. 2003b, NeuralSumm: Uma

Abordagem Conexionista para a Sumarização Automática de Textos. In Anais do IV

Encontro Nacional de Inteligência Artificial – ENIA, pp. 1-10. Campinas-SP, Brasil. 2 a

8 de Agosto.

POLLOCK, J. J.; ZAMORA, A. 1975, Automatic Abstracting Research at Chemical

Abstracts Service. Journal of Chemical Information and Compute Sciences 15(4): 226-

232.

PORTER, M. F. 1980, “An Algorithm for Suffix Stripping. Program”, vol.14, n. 3, pp.

130-137.

RADEV, D. R.; JING, H.; BUDZIKOWSKA, M. 2000, Centroid-based Summarization

of Multiple Documents: Sentence Extraction, Utility-based Evaluation, and User

Studies. In: Proceedings of the ANLP/NAACL Automatic Summarization Workshop,

pp. 21-30. Seattle, Washington.

RINO, L. H. M. 1996, Modelagem de Discurso para o Tratamento da Concisão e

Preservação da Idéia Central na Geração de Textos. Tese de Doutorado. IFSC-USP. São

Carlos – SP.

RINO, L. H. M. et al. 2004, A Comparison of Automatic Summarization Systems for

Brazilian Portuguese Texts. In the Proceedings of the 17th Brazilian Symposium on

Artificial Intelligence – SBIA (Lecture Notes in Artificial Intelligence 3171), pp. 235-

244. São Luis-MA, Bazil. September, 29 - October, 1.

SALTON, G.; MCGILL, M. J. 1983, Introduction to Modern Information Retrieval.

McGraw-Hill.

SALTON, G. 1988, Automatic Text Processing. Reading, MA: Addison-Wesley.

SALTON, G. 1989, Automatic Text Processing. The Transformation, Analysis and

Retrieval of Information by Computer. Addison-Wesley.

SIEGEL, S.; CASTELLAN, N. J. 1988, Nonparametric Statistics for the Behavioral

Sciences. McGraw-Hill.

SKOROKHOD'KO, E. F. 1972, Adaptive method of automatic abstracting and

indexing, in IFIP Congress 71, Ljubljana, Jugoslavia, pp. 1179--1182, North-Holland,

Amsterdam.

SPARCK JONES, K. 1993, What might be in a summary? In Krause Knorz and

Womser-Hacker (eds.), Information Retrieval 93, pp. 9-26. Universitatsverlag

Konstanz. Jun.

SPARCK JONES, K. 1997, “Summarising: Where are we now? Where should we go?”

Proc. of the Intelligent Scalable Text Summarization Workshop, ACL/EACL’97 Joint

Conference. Madrid, Spain, p. 1.

SPARCK JONES, K. 1998, Automatic Summarizing: factors and directions. In Mani, I.

and Maybury, M. (eds.), Advances in automatic text summarization, pp. 1-12, The MIT

Press.

SPARCK JONES, K.; GALLIERS, J.R. 1996, Evaluating Natural Language Processing

Systems. Lecture Notes in Artificial Intelligence, Vol. 1083.

SPECIA, L.; RINO, L. H. M. 2002, O desenvolvimento de um léxico para a geração de

estruturas conceituais UNL. Série de Relatórios Técnicos do NILC, NILC-TR-02-14.

São Carlos, Setembro, 25p.

SUMMARIST. 2008, SUMMARIST Automated Text Summarization.

<http://www.isi.edu/natural-language/projects/SUMMARIST.html> Acesso em: 20 Jan.

2008.

TEUFEL, S.; MOENS, M. 1997, Sentence extraction as a classification task. In

ACL/EACL-97 Workshop on Intelligent Scalable Text Summarization, 58–65. Madrid:

Association for Computational Linguistics and the European Chapter of the Association

for Computational Linguistics.

TEXTANALYST. 2003, Megaputer Inteligence inc. TextAnalyst software. Disponível

em <http://www.megaputer.com/textanalyst.php>. Acesso em: 15 dez. 2007.

UZÊDA, V. R.; PARDO, T. A. S.; NUNES, M. G. V. 2007, Avaliação Comparativa de

Métodos de Sumarização Automática Baseados na Teoria de Estruturação Discursiva. I

Workshop de Iniciação Científica e Tecnológica da Computação - WICT Comp. 1 a 5

de Outubro.

VILELA, B. O. 2008, Uma Análise de Estratégias de Sumarização Automática.

Dissertação de mestrado do Programa de Engenharia Civil da COPPE/UFRJ, Março de

2008.

VINHAES, R. F. Estudo da Utilização de Técnica de Processamento de Linguagem

Natural para Otimização de Tradutores Automáticos. 2005. 57f. Monografia (Curso de

Ciência da Computação) – Universidade de Rio Verde, Rio Verde. 2005

WEISS, S. M.; INDURKHYA, N.; ZHANG, T.; DAMERAU, F. J. 2005, TEXT

MINING - Predictive Mhetods for Analysing Unstructured Information. 1 ed. New

York, Springer.

ANEXO A. Lista de Stopwords do Gistsumm

A stoplist foi montada manualmente e contém 196 palavras, chamadas, neste

caso, de stopwords. Ela é composta por artigos, pronomes, preposições, conjunções e

interjeições do português do Brasil que não acrescentam informação ao texto e podem

até mesmo distorcer os resultados, conforme já discutido no capítulo 2.

Tabela A.1 – Lista de Stopwords utilizada pelo GistSumm

- cujo me os sua

a cujos mesmos ou suas

à da meu outra tanta

ah das meus outras tantas

ai de mim outrem tanto

algo dela minha outro tantos

alguém delas minhas outros te

algum dele muita para teu

alguma deles muitas per teus

algumas desde muito perante ti

alguns do muitos pois toda

alô dos na por todas

ambos e nada porém todo

ante eia nas porque todos

ao ela nela portanto trás

após elas nelas pouca tu

aquela ele nele poucas tua

aquelas eles neles pouco tuas

aquele em nem poucos tudo

aqueles embora nenhum próprios ué

aquilo enquanto nenhuma psit uh

as entre nenhumas psiu ui

até essa nenhuns quais um

bis essas ninguém quaisquer uma

cada esse no qual umas

certa esses nos qualquer uns

certas esta nós quando vária

certo estas nossa quanta várias

certos este nossas quantas vário

chi estes nosso quanto vários

com eu nossos quantos você

comigo hem o que vós

conforme hum ó quem vossa

conosco ih ô se vossas

consigo isso oba sem vosso

contigo isto oh seu vossos

contra lhe olá seus

convosco lhes onde si

cuja logo opa sob

cujas mas ora sobre

Fonte: (PARDO, 2002b)

ANEXO B. Lista de Stopwords utilizada pelo

sistema TextAnalyst

A presente lista de Stopwords foi elaborada com palavras da lista de stopwords

utilizada pelo GistSumm (PARDO, 2002b) e outras palavras escolhidas pelo autor do

presente trabalho. Entre estas palavras estão incluídas algumas formas que constituem

erros de sintaxe e o caractere hífen.

O uso de uma lista de stopwords maior para o TextAnalyst é uma tentativa de

aprimorar a etapa de pré-processamento desse sistema, já que o mesmo não possui um

algoritmo de stemming para textos em português (Brasil), ao contrário dos outros

sistemas utilizados nos estudos de casos descritos nesta dissertação.

Tabela B.1 – Lista de stopwords utilizada pelo sistema TextAnalyst

- cujos estivermos lembro num próprios tém várias

a da estivessem lhe numa psit têm vario

à daquela estivéssemos lhes o psiu temos vário

agora daquelas estou logo ó quais tenha vários

agradeço daqui eu mas ô quaisquer tenham você

ah das farão mais oba qual tenhamos vos

ai de faz me ocorre qualquer tenho vós

algo dela fazem mesma ocorrer quando ter vossa

alguém delas fazendo mesmas ocupa quanta terá vossas

algum dele fazer mesmos ocupada quantas terão vosso

alguma deles feita meu oh quanto terei vossos

algumas desde feitas meus olá quantos tereis

alguns desse feito mim onde quase teremos

alô desses feitos minha opa que teria

ambos desta fique minhas ora quem teriamos

ante destas fiquei muita os quer teríamos

ao do fizer muitas ou querer teu

após dos foi muito outra quero teus

aquela e fomos muitos outras recebi teve

aquelas é fora na outrem são ti

aquele eia foram nada outro se tiver

aqueles ela fôramos não outros seguinte tivera

aquilo elas fosse naquela para seguir tiveram

as ele fôssemos naquelas parece seja tivéramos

às eles fui naquele parte sejam tiverem

aspectos em gostei naqueles passa sejamos tivermos

até embora há nas passar sem tivesse

através enquanto haverá nela pela ser tivessem

bis então haverão nelas pelas será tivéssemos

cada entendo havia nele pelo serão toda

certa entre hei neles pelos serei todas

certas entretanto hem nem per seremos todo

certo eram houve nenhum perante seria todos

certos éramos houver nenhuma percebi seriam trás

chi essa houvera nenhumas pois seríamos traz

cita essas houverá nenhuns por seu trazem

citado esse houveram nessa porém seus trazer

com esses houvéramos nessas porque si tu

comigo esta houvesse nesse portanto só tua

como está hum nesses possam sob tuas

comumente estamos ih neste possamos sobre tudo

conforme estão invéz nestes posso sou ué

conosco estas ir ninguém pouca sua uh

consigo estavam irá no poucas suas ui

contigo este irão nos pouco tanta um

contra esteja isso nós poucos tantas uma

convosco estejamos isto nossa prezada tanto umas

cuja estes já nossas prezadas tantos uns

cujas esteve junto nosso prezado tão varia

cujo estiveram lembrar nossos prezados te vária

Fonte: (dados do autor; PARDO, 2002b)

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo