Localização e Captura dos Documentos
Este é o primeiro passo realizado pelas ferramentas de busca na internet. O principal objetivo é encontrar e capturar as páginas que serão direcionadas para o processo de indexação.
Normalmente, a captura das páginas é realizada de forma automática, através da utilização de robôs chamados de “spiders”. Eles funcionam acessando a página, armazenando-a em um banco de dados e, em seguida, seguindo os links existentes nesta página para páginas externas, onde voltará a executar o mesmo processo.
Apesar de aparentemente simples, a aplicação enfrenta alguns desafios, como a questão do controle de concorrência – pois chega a acessar dezenas de milhares de páginas ao mesmo tempo, e a questão do agendamento das páginas para reindexação, visto que o conteúdo de um determinado site pode ser alterado a qualquer momento.
Indexação dos Documentos
O processo de indexação dos documentos visa criar índices que possibilitem a identificação rápida das páginas a partir de um texto digitado na caixa de busca.
Os índices se baseiam nas mais diferentes técnicas, como a quantidade de cada palavra em uma determinada página, ou no cálculo de um indicador de quantas vezes uma determinada palavra ocorre em um conjunto de documentos.