
42
CNN
Site P´aginas
News www.cnn.com 16.257
Total 16.257
BLOGS
Site P´aginas
Boing Boing www.boingboing.net 14.173
CNET news.cnet.comtech-blogs 8.054
Engadget www.engadget.com 6.343
Gizmodo us.gizmodo.com 4.454
Google googlelog.blogspot.com 1.050
Life Hacker www.lifehacker.com 3.997
Mashable www.mashable.com 7.410
Slash Film www.slashfilm.com 5.376
Tech Crunch www.techcrunch.com 3.198
Total 54.055
CNET
Site P´aginas
News www.news.com 131.474
Downloads www.downloads.com 99.186
Reviews reviews.cnet.com 64.142
Shopper www.shopper.com 57.968
Total 352.770
IG
Site P´aginas
News www.ultimosegundo.com.br 26.466
Forum www.jornaldedebates.com.br 6.389
Recipe www.panelinha.com.br 1.605
Total 34.460
Tabela 4.1: Distribui¸c˜ao das p´aginas por cole¸c˜ao.
meiro passo desse processo as p´aginas s˜ao manualmente agrupadas de acordo com
a similaridade de sua estrutura interna. No segundo passo, utiliza-se o algoritmo
VIPS para segmentar as p´aginas de cada agrupamento. Para cada agrupamento
de p´aginas ´e realizada uma sele¸c˜ao manual dos parˆametros do VIPS. Por fim, o
usu´ario especilista verifica a segmenta¸c˜ao realizada pelo VIPS e, caso n˜ao concorde,
ele adapta a divis˜ao de blocos de acordo com a sua percep¸c˜ao. Como esse processo
semi-supervisionado tem forte interven¸c˜ao manual, dizemos que essa segmenta¸c˜ao ´e
manual.
4.1.2 Limiares utilizados na segmenta¸c˜ao autom´atica das cole¸c˜oes
O processo de poda da SOM
tree
descrito na se¸c˜ao 3.4 requer dois limiares, α e
β, para a sua realiza¸c˜ao.
O limiar α, que determina a distˆancia m´axima para que dois n´os com conte´udo
aninhado sejam podados, foi definido empiricamente atrav´es de experimentos de
treino. O valor de α utilizado nos experimentos deste trabalho foi 6.
O valor de β, que estabelece um limite m´ınimo para a quantidades de blocos
em uma block class, foi definido de acordo com a demanda do m´etodo de ranking
segrank. Estudos emp´ıricos realizados sobre o segrank demonstraram que a quan-
tidade m´ınima de blocos considerada estatisticamente relevante para o c´alculo dos
pesos das classes ´e 8 [14, 13]. Logo, utilizamos o valor 8 para β, para garantir que
as classes de blocos geradas s˜ao aplic´aveis a tal m´etodo.