|
Pode-se então pensar em uma medida cujo ponto de partida seja a comparação de cada um dos valores da base de dados com o valor médio, buscando avaliar se a base de dados, como um todo, está suficientemente próxima da média. Evidentemente, eventuais pontos discrepantes - aqueles pontos que "fogem" de um perfil, quer seja ele homogêneo ou heterogêneo, valores excessivamente grandes ou excessivamente pequenos, quando comparados com os demais - não são representados adequadamente pelo valor médio. Chega-se então a uma medida denominada variância, que é calculada da seguinte maneira:
muitas vezes denotada por Var(V) ou S2(V), quando a variável em questão é denotada por V (que poderia ser qualquer outra letra do alfabeto). Alguns autores sugerem que o denominador seja n-1 para pequenas bases de dados (ou então quando se trata de uma variância amostral), reservando o denominador n para grandes bases de dados (ou então variância populacional). Mais uma vez, admitindo a possibilidade de repetição de alguns dos valores, pode-se reescrever a expressão da variância como:
|
Copyright
© 2003 AIEC..
|
|