MEDIDAS DESCRITIVAS
As medidas descritivas classificam-se em medidas de localização (de tendência central ou de posição não central), dispersão (ou de variabilidade), assimetria e achatamento (ou curtose).

Medidas de Localização
Medidas de Tendência Central
As medidas de tendência central indicam os pontos em torno dos quais se encontram os valores da variável estatística, ou seja, localizam a distribuição. As principais medidas de localização são:
Média
Mediana
Moda

Média aritmética
É o tipo de média mais utilizada pelas pessoas no dia-a-dia e subdivide-se em dois tipos: simples e ponderada. A diferença entre elas é que na média aritmética a importância (peso) de cada ocorrência é igual e na ponderada cada termo possui uma importância relativa, ou seja, possuem pesos diferentes.

Média aritmética simples
A média aritmética da variável estatística X define-se por:
x ̅=(∑▒x_i )/n  →para dados não agrupados
Ou
x ̅=(∑▒〖x_i 〖*f〗_i 〗)/n  →para dados agrupados,onde n=∑▒f_i


Exemplo 4.1: Média aritmética (dados não agrupados)
A tabela abaixo mostra as notas de matemática de um aluno em um determinado ano:

1° Bimestre 3,5
2° Bimestre 7,5
3° Bimestre 9,0
4° Bimestre 6,0

Determine a nota média bimestral
Solução
x ̅=(∑▒x_i )/n=(x_1+x_2+x_3+x_4)/n=(3.5+7.5+9+6)/4=6.5
Interpretação: Ter média 6,5 significa dizer que, apesar de ele ter obtido notas mais altas ou mais baixas em outros bimestres, a soma das notas (26) é a mesma que ele alcançaria se tivesse obtido nota 6,5 em todos os bimestres.

Exemplo 4.2: Média aritmética (dados agrupados)
Os salários semanais dos funcionários de uma empresa estão distribuídos na tabela abaixo:
Salário (em Mt) Nº de funcionários
400,00 5
600,00 2
1.000,00 2
5.000,00 1

Determine o salário médio semanal dos funcionários
Solução
x ̅=(∑▒〖x_i 〖*f〗_i 〗)/n=(400*5+600*2+1000*2+5000*1)/(5+2+2+1)=10200/10=1020
Ou (Recorrendo a tabela)
x_i f_i x_i 〖*f〗_i
400 5 2000
600 2 1200
1000 2 2000
5000 1 5000
Somatório 10 10200
x ̅=(∑▒〖x_i 〖*f〗_i 〗)/n=(400*5+600*2+1000*2+5000*1)/(5+2+2+1)=10200/10=1020
Interpretação: Em média cada funcionário recebe semanalmente 1020 Mt.

Exemplo 4.3: Média aritmética (dados agrupados em intervalo de classe)
A tabela a seguir representa o salário mensal em meticais de funcionários duma fábrica de tijolos:
Salário f_i
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80

Determine o salário médio mensal dos funcionários desta fábrica.
 Solução
Recorrendo a tabela temos:
Classe x_i f_i x_i 〖*f〗_i
[2000---4000[ 3000 10 30000
[4000---6000 [ 5000 14 70000
[6000---8000 [ 7000 11 77000
[8000---10000 [ 9000 18 162000
[10000---12000 [ 11000 12 132000
[12000---14000 [ 13000 15 195000
Total 80 666000

x ̅=(∑▒〖x_i 〖*f〗_i 〗)/n=666000/80=8325
Interpretação: O salário médio mensal dos funcionários desta fábrica é de 8325 Meticais.

Média aritmética ponderada
A média ponderada considera “pesos” para cada item, ou seja, em um conjunto de dados, cada item recebe uma importância. Vamos supor que tenhamos um conjunto com n dados (x_1; x_2;x_3; x_4;…; x_n )  , onde cada dado receberá um peso, respectivamente (p_1; p_2; p_3; p_4;…; p_n ). Cada item será multiplicado pelo seu peso. A média será dada pela divisão entre esta soma e a soma dos pesos considerados. A média entre esses dados será dada por:
x ̅_p=(x_1*p_1+x_2*p_2+x_3*p_3+⋯+x_n*p_n)/(p_1+p_2+p_3+p_4+⋯+p_n )
Exemplo 4.4: Média aritmética ponderada
Uma aluna fez uma prova e obteve nota 19,1 e um trabalho, com nota 8,7. A média considera que a prova tenha peso 6 e o trabalho peso 4. Determine a média dessa aluna.
Solução
x ̅_p=(19.1*6+8.7*4)/(6+4)=14,94
Interpretação: A média dessa aluna é de 14,94 valores.

Média geométrica
Esse tipo de média tem várias aplicações. É muito utilizada na área de finanças e de engenharia. Lembrando que a média geométrica de um conjunto é sempre menor ou igual a média aritmética, vários problemas de desigualdades como na geometria são resolvidos através dela. A média geométrica de um conjunto de números positivos é definida como o produto de todos os membros do conjunto elevado ao inverso do número de membros
A média geométrica entre um conjunto de n dados é a raiz n-ésima da multiplicação desses dados. Considere um conjunto de n dados (x_1; x_2;x_3; x_4;…; x_n ). A média geométrica entre estes dados será dada por:
x ̅_g=√(n&x_1*x_2*x_3*…*x_n )


Exemplo 4.5: Média geométrica
Qual a média geométrica entre 2, 8 e 32?
Solução
Temos três dados, então a média geométrica será a raiz cúbica de 2, 8, 32:
x ̅_g=√(n&x_1*x_2*x_3 )
x ̅_g=∛(2*8*32)=∛512=8
Interpretação: A média geométrica entre 2, 8 e 32 é 8.

Exemplo 4.6: Média geométrica
Uma outra utilização para este tipo de média, é com variações percentuais em sequência. Como por exemplo:
Digamos que uma categoria de operários tenha um aumento salarial de 20% após um mês, 12% após dois meses e 7% após três meses. Qual o percentual médio mensal de aumento desta categoria?
Solução
x ̅_g=∛(20*12*7)=∛1.43808=1.1287

Média harmónica
A média harmónica de um conjunto de n dados é obtida dividindo a quantidade de dados pela soma dos inversos dos dados. Esse tipo de média nunca é maior que a média aritmética ou a geométrica. Ela é utilizada quando se trata de grandezas inversamente proporcionais. Considerando um conjunto de n dados (x_1; x_2;x_3; x_4;…; x_n ), a média harmónica entre esses dados, será:
(x_h ) ̅=n/(1/x_1 +1/x_2 +1/x_3 +1/x_4 +⋯+1/x_n )
Exemplo 4.7: Média harmónica
Qual a média harmónica entre 2, 8 e 32?
Solução
(x_h ) ̅=3/(1/2+1/8+1/32)=4.57
Interpretação: A média harmónica entre 2, 8 e 32 é 4.57
Mediana
Mediana é o valor que separa a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade. Em termos mais simples, mediana pode ser o valor do meio de um conjunto de dados.
A mediana é uma medida comum das propriedades de conjuntos de dados em estatística e em teoria das probabilidades, com importância central na estatística robusta. A estatística robusta é mais resistente, com ponto de ruptura de 50%. A mediana não fornece resultados arbitrariamente grandes desde que mais da metade dos dados não esteja contaminada.
A vantagem da mediana em relação à média é que a mediana pode dar uma ideia melhor de um valor típico porque não é tão distorcida por valores extremamente altos ou baixos. Em estudos estatísticos sobre renda familiar ou outros activos voláteis, a média pode ser distorcida por um pequeno número de valores extremamente altos ou baixos.
Em relação a esta medida convém distinguir claramente os dois casos de dados brutos ou agrupados, e agrupados em intervalo de classe.
Para dados brutos ou agrupados, supondo as observações dos valores da variável estatística ordenados sob forma crescente x_1≤x_2≤x_3≤x_4≤⋯≤x_n, há a considerar duas hipóteses:
n=2k+1 (Ímpar),neste caso x ̃=x_(k+1)  (observação central)
n=2k (Par),neste caso x ̃=〖x_k+x〗_(k+1)/2  (observação central)

Exemplo 4.8: Mediana (dados brutos ou agrupados)
Considere os dados em Rol: 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a mediana.
Solução
n=2k+1,isto é,n=9 e k=4,então x ̃=x_(k+1)=x_5=6 
Ou (pelo agrupamento dos dados)
x_i f_i F_i
3 1 1
4 2 3
5 1 4
6 1 5
8 3 8
10 1 9
Total 9
Sendo n=9 e  (9+1)/2=5;então x ̃=x_5=6
Exemplo 4.9: Mediana (dados brutos ou agrupados)
Considere os dados em Rol: 2, 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a mediana.
Solução
n=2k,isto é,n=10 e k=5,então:
 x ̃=〖x_k+x〗_(k+1)/2=〖x_5+x〗_6/2=(5+6)/2=5.5
Ou (pelo agrupamento dos dados)
x_i f_i F_i
2 1 1
3 1 2
4 2 4
5 1 5
6 1 6
8 3 9
10 1 10
Total 10
Sendo n=10 e  10/2=5;então x ̃=〖x_5+x〗_6/2=(5+6)/2=5.5
Para dados agrupados em intervalo de classe, a mediana é o valor tal que a ordenada levantada no ponto do eixo das abcissas divide a área do histograma em duas partes iguais, isto é, a mediana será o valor da abcissa a que corresponde a frequência absoluta (relativa) acumulada n/2 , e a fórmula será dada por:
x ̃=〖lim〗_inf+(1/2*n-F_(i-1))/f_i *a_i , Onde:
〖lim〗_inf:limite inferior da classe mediana;
n: tamanho da amostra
F_(i-1):frequência absoluta acumulada anterior a classe mediana
f_i:frequência absoluta simples da classe mediana
a_i:amplitude da classe mediana

Exemplo 4.10: Mediana (dados agrupados em intervalo de classes)
A tabela a seguir representa o salário mensal em meticais de funcionários duma fábrica de tijolos:
Salário f_i
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80
Determine o salário mediano dos funcionários desta fábrica.
 Solução
Salário f_i F_i
[2000---4000[ 10 10
[4000---6000 [ 14 24
[6000---8000 [ 11 35
[8000---10000 [ 18 53
[10000---12000 [ 12 65
[12000---14000 [ 15 80
Total 80
Vamos determinar a mediana desta distribuição, procurando o salário do 1/2*80=40º funcionário. Como se sabe pode observar, até á classe 6000-8000, inclusive, o total das frequências acumuladas é de 35 e adicionando a frequência da classe 8000-10000, obtém se a frequência acumulada 53, já superior a 40. Pode pois garantir-se que a mediana é um dos valores da classe 8000-10000 (classe mediana), então:
x ̃=8000+(1/2*80-35)/18*2000=8556
Interpretação: 50% dos funcionários recebem um salário máximo de até 8556 Mt

Moda
A moda amostral de um conjunto de dados trata do valor que ocorre com maior frequência ou o valor mais comum em um conjunto de dados. A moda é especialmente útil quando os valores ou as observações não são numéricos, casos em que a média e a mediana não podem ser definidas.
Uma amostra pode ser unimodal (uma moda), bimodal (duas modas), multimodal (várias modas) e amodal (nenhuma moda).
Em relação a esta medida convém distinguir claramente os dois casos de dados brutos ou agrupados, e agrupados em intervalo de classe.
Para dados brutos ou agrupados, a moda será aquele que apresentar maior frequência.
Exemplo 4.11: Moda (dados brutos ou agrupados)
Considere os dados em Rol: 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a moda.
Solução
x ̂=8
Exemplo 4.12: Moda (dados brutos ou agrupados)
Considere os dados apresentados na tabela abaixo. Determine a moda.
x_i f_i
3 1
4 2
5 1
6 1
8 3
10 1
Total 9
x ̂=8, Porque apresenta a maior frequencia
Para dados agrupados em intervalo de classe, a moda será dada por:
x ̂=〖lim〗_inf+(f_(ix ̂ )-f_(x ̂i-1))/(2*f_(ix ̂ )-(f_(x ̂i-1)+f_(x ̂i+1)))*a_(i  ) (Moda do Czuber)
x ̂=〖lim〗_inf+f_(x ̂i+1)/(f_(x ̂i-1)+f_(x ̂i+1) )*a_(i  ) (Moda do King)
x ̂=3*x ̃-2*x ̅ (Moda do Pearson)

Onde
f_(ix ̂ ):frequência modal
f_(x ̂i-1):frequência anterior a modal
f_(x ̂i+1):frequência posterior a modal
a_i:amplitude da classe modal
Moda de King considera as classes adjacentes à classe modal, enquanto que, Moda de Czuber considera as classes adjacentes à classe modal e à própria classe modal.

Exemplo 4.13: Moda (dados agrupados em intervalo de classes)
A tabela a seguir representa o salário mensal em meticais de funcionários duma fábrica de tijolos:
Salário f_i
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80
Determine o salário modal dos funcionários desta fábrica.
Solução
Fórmula de Czuber
Classe modal [8---10[
x ̂=8000+(18-11)/(2*18-(11+12))*2000=9077
Resposta: O salário modal (Czuber) dos funcionários é de 9077.00 Mt.

Fórmula de King
Classe modal [8---10[
x ̂=8000+12/(11+12)*2000=9043.5
Resposta: O salário modal (King) dos funcionários é de 9043.50 Mt.

Medidas de Tendência não Central ou Separatizes
Estas medidas descritivas permitem localizar a posição de um valor dentro de um conjunto de dados, é calculada para as variáveis qualitativas ordinais e quantitativa (discreta e contínua). Pode ser calculando quando os valores observados são expressos nas mesmas unidades de dados estudo.
As principais medidas são:
Quartis
Decis
Percentis

Quartil
É uma medida que divide um conjunto de dados em 4 partes iguais. Existem três quartis nomeadamente (Q_1; Q_2  e Q_3), no qual determina-se da seguinte maneira:
Q_1: Obtém-se determinando a mediana do conjunto de valores observados que fica á esquerda da mediana (o 1º quartil será um valor da variável tal que o número de observações para valores inferiores será 25%);
Q_2: Corresponde a mediana (o 2º quartil terá a metade das observações, á sua direita e outra metade á sua esquerda);
Q_3: Obtém-se determinando a mediana do conjunto de valores observados que fica á direita da mediana (o 3º quartil será um valor tal que á sua esquerda concentrar-se-ão 75% das observações);

Exemplo 4.14: Quartil (dados brutos ou agrupados)
Considere o conjunto de valores observados: 3, 4, 4, 4, 5, 6, 8, 8, 8, 8, 10. Determine os valores de Quartis.
Solução
Comecemos por determinar a mediana 〖(Q〗_2) que é igual ao 2º quartil. O conjunto de valores tem um número impar de termos, logo x ̃=Q_2=6. A partir da mediana o conjunto fica dividido em dois subconjuntos:
3, 4, 4, 5, 5 e 8, 8, 8, 8, 10
As medianas desses subconjuntos são respectivamente iguais a 4 e 8, pelo que Q_1=4 e Q_3=8
OU
Localizando as posições da medida Quartílica pela fórmula
p=i/4*(n+1)  →para n impar e p=1/4*(in+2)→para n par
Q_1:  1/4*(11+1)=3 logo Q_1=X_3=4
Q_3:  3/4*(11+1)=9 logo Q_1=X_9=8

Exemplo 4.15: Quartil (dados agrupados em intervalos de classes)
A tabela a seguir representa o salário mensal em meticais de funcionários duma fábrica de tijolos:
Salário f_i
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80
Determine os quartis 1, 2 e 3.
Solução
Tratando-se de dados agrupados em intervalos de classe, a fórmula para obter os quartis é idêntica á da mediana:
Q_i=〖lim〗_inf+(in/4-F_(i-1))/f_i *a_i



Salário f_i F_i
[2000---4000[ 10 10
[4000---6000 [ 14 24
[6000---8000 [ 11 35
[8000---10000 [ 18 53
[10000---12000 [ 12 65
[12000---14000 [ 15 80
Total 80

Identificação da classe quartílica (in/4,onde i=1,2,3)
Quartil 1 (0.25*80=20):
P_25=4000+(20-10)/14*2000=5428.57
Quartil 2 (0.50*80=40):
P_50=8000+(40-35)/18*2000=8555.56
Quartil 3: (0.75*80=60)
P_75=10000+(60-53)/12*2000=11166.67
Interpretação: 25%, 50%, 75% dos funcionários auferem um salário máximo de até 5428,57Mt, 8555.56Mt e 11166.67Mt respectivamente.

Decil
Decil é qualquer um dos nove valores que dividem os dados ordenados de uma variável em dez partes iguais, de modo que cada parte representa 1/10 da amostra ou população. Assim:
O 1º decil é o ponto de corte para 10% dos dados mais baixos, isto é, o percentil 10;
O 5º decil é o ponto de corte para 50% dos dados, isto é, o percentil 50, 2º quartil, ou mediana;
O 9º decil é o limite para 90% dos dados mais baixos, isto é, o percentil 90.
Se tratar de dados não agrupados ou agrupados por frequências procede-se de forma idêntica aos quartis.
Para dados agrupados em intervalos de classe a expressão que dá os decis é análoga á dos quartis:
D_i=〖lim〗_inf+(in/10-F_(i-1))/f_i *a_i
Com i=1,2,3,…,9
Percentil
Percentil é uma medida que divide a amostra ordenada (por ordem crescente dos dados) em 100 partes, cada uma com uma percentagem de dados aproximadamente igual. Portanto:
O 1º percentil determina o 1% menor dos dados;
O 98º percentil determina os 98% menores dos dados.
O 25º percentil é o primeiro quartil; o 50º percentil é a mediana;
O 10º percentil é o primeiro decil;
O 80º percentil é o oitavo decil.
A definição de Mendenhall e Sincich para o i-ésimo percentil de N valores ordenados é correspondente ao valor que ocupa a posição p=(i*(n+1))/100, arredondada para o inteiro mais próximo.
A fórmula generalizada para cálculo de percentil para dados não agrupados ou agrupados em frequências será dada por:
P_i=X_m+(p-m)*(X_(m+1)-X_m)
onde
P_i: é a medida percentil a ser utilizada
X_(m+1) e X_m: são as posições dos dados no rol
p:  é a posição da medida percentil adoptada
m:  é a parte inteira de p

Exemplo 4.16: Percentis (dados não agrupados ou agrupados em frequências)
Considere o conjunto de valores observados: 3, 4, 4, 4, 5, 6, 8, 8, 8, 8, 10. Determine P_60 e P_90
P_i=X_m+(p-m)*(X_(m+1)-X_m)
P_60: p=(i*(n+1))/100=60/100*(11+1)=7.2
P_60=X_7+(7.2-7)*(X_8-X_7 )
P_60=8+(7.2-7)*(8-8)=8
P_90: p=(i*(n+1))/100=90/100*(11+1)=10.8
P_90=X_10+(10.8-10)*(X_11-X_10 )
P_90=8+(10.8-10)*(10-8)=9.6
Para dados agrupados em intervalos de classe, a expressão que dá os percentis é análoga á dos quartis e decis:
P_i=〖lim〗_inf+(in/100-F_(i-1))/f_i *a_i
Com i=1,2,3,…,99
Diagramas em Caixa (Box-plots)
Quando se conhece os quartis e decis de um conjunto de dados, uma maneira bastante comum de se representar a distribuição é através dos diagramas em caixa (Box-plots em inglês). A figura abaixo ilustra o que é um diagrama em caixa.


Medidas de Dispersão ou Variabilidade
Embora as medidas de localização forneçam indicações sobre os valores mais representativos de uma distribuição, não indicam a sua estrutura interna, isto é, a forma como os diferentes valores se distribuem ao longo do intervalo de variação. As medidas de dispersão ou variação, permitem conhecer a forma como os valores da variável estatística se distribuem (dispersam) em torno dos valores centrais.
As medidas de dispersão mais importantes são:
Amplitude total;
Momentos centrais
Desvio médio
Desvio padrão
Coeficiente de dispersão ou variação
Intervalo interquartil

Amplitude total
A amplitude total é a medida de dispersão mais simples. É a diferença entre os valores extremos assumidos pela variável estatística.
At={█(x_max-x_min  ,para dados nõa agrupados ou agrupados em frequencias@ou@l_(k+1)-l_1  ,para dados agrupados em intervalos de classse                   )┤
O emprego desta medida de dispersão apresenta alguns inconvenientes. A principal desvantagem resulta dela depender apenas dos valores extremos assumidos pela variável e não dos valores intermédios. Duas distribuições podem ter a mesma amplitude total mas dispersão muito diferentes.

Momentos Centrais
São as médias aritméticas da 1ª, 2ª, 3ª, 4ª,… potências dos desvios em relação á média aritmética. A fórmula para o cálculo dos momentos é:
M_i=(∑▒〖|(x_i-x ̅ )^i |*f_i 〗)/(∑▒f_i )
Onde i=1,2,3,4,…
Os momentos são muito importantes em Estatística para caracterizar as distribuições de uma variável ou probabilidade. Por exemplo, a distribuição normal é caracterizada apenas pelo primeiro e pelo segundo momento. O primeiro, segundo, terceiro e quarto momento caracterizam a tendência central, dispersão, assimetria e curtose, respectivamente, de uma distribuição.
Os momentos mais importantes são os quatro primeiros, que são muito utilizados para caracterizar as distribuições de uma variável ou probabilidade. Entretanto, é quase sempre possível calcular momentos de alta ordem.

Desvio Médio
Da definição da média, é imediato reconhecer que a soma dos desvios das observações em relação á média é nula. Este facto leva á definição de desvio absoluto médio ou simplesmente desvio médio dos valores  x_i  em relação á média. O desvio médio em relação a média aritmética ou, simplesmente, desvio médio é definido por:
D_m=(∑▒〖|x_i-x ̅ |*f_i 〗)/(∑▒f_i )  , para dados agrupados
Ou
D_m=(∑▒|x_i-x ̅ | )/n  , para dados não agrupados
O desvio médio é a média aritmética dos desvios absolutos em relação á média. Quanto menos dispersos se encontram os valores x_i relativamente á x ̅  menor será o desvio médio, e reciprocamente

Desvio Padrão
Dá-se o nome de variança dos valores de uma X de uma amostra a:
s^2=(∑▒〖(x_i-x ̅ )^2*f_i 〗)/(∑▒f_i -1) , para dados agrupados
Ou
s^2=(∑▒(x_i-x ̅ )^2 )/(n-1) , para dados não agrupados
Nota: A variança corresponde ao momento central da 2ª ordem.
O desvio padrão (ou desvio quadrado médio) é a raiz quadrada da variança:
s=√((∑▒〖(x_i-x ̅ )^2*f_i 〗)/(∑▒f_i -1)) , para dados agrupados
Ou
s=√((∑▒(x_i-x ̅ )^2 )/(n-1)) , para dados não agrupados
O desvio padrão indica a proximidade com que os valores estão agrupados á volta da média. Um valor pequeno do desvio padrão significa que as observações estão pouco dispersos á volta da média.
O desvio padrão pode servir como medida de incerteza. Em ciências, a precisão de medições repetidas é dada pelo desvio padrão. O desvio padrão é crucial para analisar se as medições batem com a previsão teórica. Se a média das medições estiver muito longe da previsão teórica (distância medida pelo desvio padrão), então a teoria testada provavelmente precisa ser revisada. Enquanto o desvio padrão mede a distância dos valores típicos da média, outras medidas estão disponíveis. É o exemplo do desvio médio absoluto, que pode ser considerado uma medida mais directa da distância da média em comparação à distância da raiz quadrada média inerente ao desvio padrão.

Exemplo 4.17: Desvio padrão (dados não agrupados)
A tabela abaixo mostra as notas de matemática de um aluno em um determinado ano:
1° Bimestre 3,5
2° Bimestre 7,5
3° Bimestre 9,0
4° Bimestre 6,0

Determine o desvio padrão
Solução
s=√((∑▒〖(3.5-6.5)^2+(7.5-6.5)^2+(9-6.5)^2+(6-6.5)^2 〗)/(4-1))=2.35
Interpretação: A dispersão das notas de matemática deste aluno é de 2.35 medido pelo desvio padrão.
Exemplo 4.18: Desvio padrão (dados agrupados)
A tabela a seguir representa o salário mensal em meticais de funcionários duma fábrica de tijolos:

Salário f_i
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80
Determine o desvio padrão do salário dos funcionários desta fábrica.
Solução
Recorrendo a tabela temos:
Classe x_i f_i (x_i-x ̅ )^2*f_i
[2000---4000[ 3000 10 283556250
[4000---6000 [ 5000 14 154778750
[6000---8000 [ 7000 11 19311875
[8000---10000 [ 9000 18 8201250
[10000---12000 [ 11000 12 85867500
[12000---14000 [ 13000 15 327834375
Total 80 879550000

s=√((∑▒〖(x_i-x ̅ )^2*f_i 〗)/(∑▒f_i -1))=√(879550000/77)=3336,7

Coeficiente de Variação
O coeficiente de variação de Pearson é uma medida de dispersão relativa, empregada para estimar a precisão de experimentos e representa o desvio-padrão expresso como percentagem da média. Sua principal qualidade é a capacidade de comparação de distribuições diferentes.
O coeficiente de variação em uma carteira de activos serve como medida de risco para cada unidade de activo. O uso do coeficiente de variação é usualmente recomendado para variáveis quantitativas do tipo razão (na qual exista um zero absoluto), tais como altura, peso e velocidade.
Se a variável não é do tipo razão (ex: temperatura em graus Celsius), o coeficiente de variação poderá assumir valores negativos (ex: caso a média seja negativa) e sua interpretação dependerá do ponto de referência (ponto considerado como "0" na escala), levando a interpretações equivocadas e relativas.
A fórmula para o cálculo do coeficiente de variação é:
CV=s/x ̅
Deve ser interpretado como a variabilidade dos dados em relação à média. Quanto menor for o coeficiente mais homogéneo será o conjunto de dados;
O coeficiente de variação é adimensional, isto porque: será positivo se a média for positiva e será zero quando não houver variabilidade, isto é, s=0.
Quanto à representatividade em relação à média, podemos dizer que quando o coeficiente de variação (CV) é ou está:
Menor que 10%: significa que é um ótimo representante da média, pois existe uma pequena dispersão (desvio padrão) dos dados em torno da média;
Entre 10% e 20%: é um bom representante da média, pois existe uma boa dispersão dos dados em torno da média;
Entre 20% e 35%: é um razoável representante da média, pois existe uma razoável dispersão dos dados em torno da média;
Entre 35% e 50%: representa fracamente a média, pois existe uma grande dispersão dos dados em torno da média;
Acima de 50%: não representa a média, pois existe uma grandíssima dispersão dos dados em torno da média.

Exemplo 4.19: Coeficiente de variação
Um empresário pode investir em dois possíveis produtos A e B, cujos preços variam. Os dados observados permitiram calcular as seguintes medidas:
x ̅_A=70; x ̅_B=150
s_A=30; s_B=40
Qual dos produtos apresenta maior homogeneidade nos seus preços?
Solução
Tomando os desvios padrões, o produto A parece preferível a B, porque possui menor variação de preços.
Recorrendo ao coeficiente de variação temos:
Produto x ̅ S CV
A 70 30 0.429
B 150 40 0.267
Solução: O produto que apresenta os preços mais homogéneos é o A, porque possui menor coeficiente variação.

Intervalo interquartil
Uma medida de dispersão alternativa que pode ser empregada é o chamado intervalo interquartil  ou  amplitude interquartílica. Essa medida só aproveita 50% dos dados e é pouco influenciada pelos valores extremos.
É a diferença entre o terceiro e o primeiro quartil, isto é:
IQ=Q_3-Q_1=P_75-P_25

Medidas de Assimetria
A assimetria é a falta de simetria do histograma, ou da curva de frequências, em relação á vertical que passa pela abcissa correspondente á média assimétrica.
As medidas de assimetria sintetizam até que ponto uma distribuição de frequência é enviesada, deformada ou assimétrica. Estas medidas utilizam-se para classificar distribuições unimodais e elucidam sobre a forma geral da distribuição, isto é, se é simétrica ou, em caso contrário, se afasta muito ou pouco da simetria. Quando a distribuição é simétrica, o coeficiente de assimetria é nulo. Quando não é nulo, a distribuição é assimétrica, sendo o grau de assimetria tanto maior quanto maior for o valor absoluto do coeficiente.
As medidas de assimetria permitem distinguir as distribuições simétricas  (x ̅  = x ̂  = x ̃) das assimétricas. No caso das distribuições assimétricas estas podem ter assimetria positiva  (x ̂  ≤ x ̃  ≤x ̅) ou assimetria negativa  (x ̅  ≤ x ̃  ≤ x ̂).

Quatro indicadores de assimetria podem calcular-se na ausência de uma imagem esclarecedora e de acordo com os indicadores disponíveis:
C_a=(x ̅-x ̂)/S
Coeficiente de Assimetria de Pearson C_a=(3*(x ̅-x ̃ ))/S
Coeficiente de Assimetria de Pearson
C_a=(Q_1+Q_3-2*Q_2)/(Q_3-Q_1 )
Coeficiente Quartílico de Assimetria 〖   C〗_a=m_3/s^3
Coeficiente Momento de Assimetria

Para qualquer dos indicadores:
Uma distribuição simétrica resultará num valor igual a 0 (zero);
Se a distribuição for assimétrica positiva resultará num valor superior a 0 (zero);
Se a distribuição for assimétrica negativa resultará num valor inferior a 0 (zero).

Medidas de Achatamento ou Curtose
Para definirmos e visualizarmos o achatamento de uma distribuição de frequências, necessitamos da denominada curva normal.
O achatamento de uma distribuição refere-se á intensidade das frequências nos valores vizinhos dos valores centrais. As mediadas de achatamento medem o grau de afunilamento ou achatamento de uma curva simétrica ou aproximadamente simétrica em relação a curva normal.
A classificação da distribuição de frequência, relativamente ao seu achatamento, pode ser feita através do cálculo de dois indicadores:
Coeficiente Percentílico de Curtose
K=(Q_3-Q_1)/(2*(P_90-P_10 ) )
Por comparação com a distribuição normal cujo grau de curtose é 0.263.
Se K=0.263, a distribuição é mesocúrtica;
Se K<0.263, a distribuição é leptocúrtica;
Se K>0.263, a distribuição é platicúrtica.

Coeficiente Momento de Curtose
K=m_4/s^4   
Por comparação com a distribuição normal cujo grau de curtose é 3.
Se K=3, a distribuição é mesocúrtica;
Se K<3, a distribuição é leptocúrtica;
Se K> 3, a distribuição é platicúrtica.
Numa distribuição unimodal, quanto maior for a concentração de valores em torno do centro da mesma, maior será o valor da sua curtose. Graficamente isto será associado a uma curva com a parte central mais afilada, mostrando um pico de frequência simples mais destacado, mais pontiagudo, caracterizando a moda da distribuição de forma mais nítida, conforme o gráfico abaixo:

Comentários

Mensagens populares deste blogue

Exercicios (Estatística Descritva) : Filipe Mahaluça

Técnicas de amostragem (Autor: Filipe Mahaluça)

Organização de dados em tabelas e gráficos (Autor: Filipe Mahaluça)