1.4 - Tipos de conhecimento descobertos durante a mineração de dados
O termo conhecimento é interpretado de forma livre como algo que envolve algum grau de inteligência. Existe uma progressão de dados brutos da informação para conhecimento, enquanto passamos pelo processamento adicional.
O conhecimento pode ser representado de várias maneiras: em um sentido desestruturado, ele pode ser representado por regras ou pela lógica proposicional. Em uma forma estruturada, ele pode ser representado em árvores de decisão, redes semânticas, redes neurais ou hierarquias de classes ou frames.
É comum descrever o conhecimento descoberto durante a mineração de dados da seguinte forma:
Para a maioria das aplicações, o conhecimento desejado é uma combinação dos tipos citados. Expandimos cada um desses tipos de conhecimento nas próximas seções.
Essas regras correlacionam a presença de um item de dado com outra faixa de valores para um conjunto de variáveis diverso. Exemplos: (1) Quando uma compradora adquire uma bolsa, ela provavelmente compra sapatos. (2) Uma imagem de raio X contendo características “a” e “b” provavelmente também exibe a característica “c”.
XO objetivo é trabalhar partindo de um conjunto existente de eventos ou transações para criar uma hierarquia de classes. Exemplos: (1) Uma população pode ser dividida em cinco faixas de possibilidade de crédito com base em um histórico de transações de crédito anteriores. (2) Um modelo pode ser desenvolvido para os fatores que determinam a probabilidade de um consumidor entrar ou não em uma determinada seção de uma loja de departamentos.
XUma sequência de ações ou eventos é buscada. Exemplo: (1) se um paciente passou por uma cirurgia de ponte de safena para artérias bloqueadas e um aneurisma e, depois, desenvolveu ureia sanguínea alta dentro de um ano da cirurgia, ele provavelmente sofrerá de insuficiência renal nos próximos 18 meses. (2) se um cliente comprou uma TV acima de 40” e depois comprou um aparelho Blu-ray, provavelmente ele poderá comprar caixas de som e um amplificador externo. A detecção de padrões sequenciais é equivalente à detecção de associações entre eventos com certos relacionamentos temporais.
XAs similaridades podem ser detectadas dentro de posições de uma série temporal de dados, que é uma sequência de dados tomados em intervalos regulares, como vendas diárias ou preços de ações de fechamento diário. Exemplos: (1) As ações de uma companhia de energia, ABC Energia, e uma companhia financeira, XYZ Seguros, mostraram o mesmo padrão durante 2009 em matéria de preços de fechamento de ações (quando um sobe o outro sobe junto, quando um desce, o outro desce junto). (2) Dois produtos mostraram o mesmo padrão de vendas no verão, mas um padrão diferente no inverno.
XDeterminada população de eventos ou itens pode ser particionada (segmentada) em conjuntos de elementos 'semelhantes'. Exemplos: (1) Uma população inteira de dados de transação sobre uma doença pode ser dividida em grupos com base na similaridade dos efeitos colaterais produzidos. (2) A população adulta no país pode ser categorizada em cinco grupos, desde mais prováveis de comprar até menos prováveis de comprar um novo produto.
X