|
Resumo Neste módulo trabalhamos com análise descritiva de dados agrupados, cuja característica maior é uma apresentação sintética dos dados observados que, por sua vez, impede que estes dados sejam vistos com exatidão. Resumindo: ganha-se síntese e perde-se precisão. Caso este seja um recurso apenas para apresentação de dados isto não é tão grave, porém o cálculo de medidas descritivas sem conhecimento específico dos dados traz um conjunto de aproximações, sem as quais pode-se não ter medida alguma, sendo a mais relevante a hipótese de distribuição uniforme dos dados em cada intervalo. O primeiro passo consiste em determinar o ponto médio de cada classe (sendo que, desejavelmente, mas não obrigatoriamente, todas as classes devem ter a mesma amplitude). Em seguida calculam-se média e coeficiente de variação a partir destes pontos médios com a formulação geral. O coeficiente de variação deve ser dado pelo desvio-padrão dividido pela média e expressa o grau de variabilidade da base de dados. O próximo passo é a verificação quanto à existência de pontos discrepantes, o que é feito a partir do estabelecimento de limites superior e inferior, com o acréscimo e decréscimo de 3 desvios à média. Uma vez que o conjunto de dados seja considerado heterogêneo parte-se para a inclusão de novas medidas como moda e quartis e/ou decis e/ou percentis (ou seja separatrizes). Faz-se uma ressalva quanto à moda, pois quando os dados são agrupados é mais apropriado falar-se em classe modal, sendo esta a classe com maior freqüência. Quanto às separatrizes, todas elas são determinadas por procedimentos de interpolação, partindo-se de sua posição na base de dados, a localização da classe na qual estão inseridas e incrementando-se ao limite inferior de cada classe uma parcela correspondente ao quanto é necessário percorrer dentro daquele intervalo para "encontrar" o valor da separatriz desejada. Quanto mais heterogêneo for o grupo (com relação à variável que se está estudando) maior o número de subgrupos/segmentos que deve ser gerado para permitir melhor visualização de sua distribuição. Diante dos recursos computacionais hoje disponíveis o agrupamento de dados é muito mais uma forma "elegante" de apresentação dos dados, sendo recomendável que o cálculo das medidas, sempre que os dados individuais forem disponíveis, seja feito a partir dos procedimentos para dados não agrupados. |
Copyright
© 2003 AIEC..
|