Document

Localização e Captura dos Documentos

Este é o primeiro passo realizado pelas ferramentas de busca na internet. O principal objetivo é encontrar e capturar as páginas que serão direcionadas para o processo de indexação.

Normalmente, a captura das páginas é realizada de forma automática, através da utilização de robôs chamados de “spiders”. Eles funcionam acessando a página, armazenando-a em um banco de dados e, em seguida, seguindo os links existentes nesta página para páginas externas, onde voltará a executar o mesmo processo.

Apesar de aparentemente simples, a aplicação enfrenta alguns desafios, como a questão do controle de concorrência – pois chega a acessar dezenas de milhares de páginas ao mesmo tempo, e a questão do agendamento das páginas para reindexação, visto que o conteúdo de um determinado site pode ser alterado a qualquer momento.

Indexação dos Documentos

O processo de indexação dos documentos visa criar índices que possibilitem a identificação rápida das páginas a partir de um texto digitado na caixa de busca.

Os índices se baseiam nas mais diferentes técnicas, como a quantidade de cada palavra em uma determinada página, ou no cálculo de um indicador de quantas vezes uma determinada palavra ocorre em um conjunto de documentos.