quinta-feira, 13 de outubro de 2016

Média, desvio e erro padrão no LibreOffice Calc

Veja como o poderoso LibreOffice Calc ajuda você a esmiuçar esse assunto

 

Insira os dados e visualize os resultados em um gráfico de margem de erro

 



A área da estatística costuma ser um verdadeiro pesadelo para quem estuda matemática. Sozinha, a palavra "estatística" já causa calafrios em muita gente.

O fato é que a estatística faz parte nosso cotidiano. Vamos a um exemplo. Quanto um determinado modelo de automóvel gasta, em média, de combustível? Qual tem sido seu gasto médio na conta de luz? Em média, qual o tempo de viagem da cidade 'x' à cidade 'y'? Quantos produtos, em média, você vende por mês?

Pois então, quem nunca se deparou com perguntas desse tipo?

De um modo geral, respondemos a tais perguntas na base do chute. Mas e se for preciso dar uma responta exata. Você saberia?



Para responder a questões dessa natureza, precisamos recorrer à cálculos matemáticos que pertencem à estatística. Dentro desse conceito, calcular a média é um dos procedimentos mais básicos e comuns. Significa encontrar o valor de equilíbrio, que representa a variação de todos os outros valores.

Exemplo:

Um veículo rodou a seguinte quilometragem por cada litro de combustível: 6,7; 9; 11,5 e 10. Qual o consumo médio que esse veículo faz por litro?

Matematicamente basta somar todos os valores e dividir o resultado pela quantidade de valores que foram somados. Ai encontraremos a média. Veja:


Calculando a média no LibreOffice Calc

Repetindo o mesmo exemplo citado, veja como calcular a média usando o LibreOffice Calc.



Com as quatro amostras de quilometragem inseridas no intervalo de células de B2 a E2 do Calc, basta utilizarmos a fórmula =MÉDIA(B2:E2) na célula F2. Após inserir a fórmula e teclar "ENTER" o resultado será exibido.

Conforme você pode verificar, o veículo analisado faz em média 9,3 quilômetros por litro de combustível.

Nem sempre saber a média é suficiente


Ter conhecimento da média dentro de um conjunto de valores, com certeza é uma informação importante. O problema é que, em algumas circunstâncias, saber o valor da média não significa muita coisa. Por exemplo, se eu falasse acerca de um automóvel que possui um consumo médio de 16 quilômetros por litro de combustível, isso certamente atrairia muitos curiosos e interessados. Ocorre que essa média, sozinha, pode camuflar algumas verdades. Pode ser que, numa estrada, num longo trecho de descida de serra, onde o motor não precisa fazer esforço, o veículo tenha alcançado 20 e 22 quilômetros por litro; porém, em outras condições o veículo também pode ter feito só 6 quilômetros por litro. Se pegarmos 20, 22 e 6 chegaríamos a média 16, o que torna matematicamente verdadeira a informação dos 16 km/l. Evidentemente, o cálculo não tem como prever que os valores tenham sido obtidos de maneira desleal.

Isso revela o problema da média. Se lidarmos com valores muito discrepantes, confiar apenas na média é uma atitude insensata e que não faz o menor sentido.

É nessa hora que torna-se importante conhecer uma outra medida, capaz de nos mostrar a distância que existe entre a média e os demais valores do conjunto analisado. Isso revelará a forma como os dados de uma amostra estão dispersos. Entra em cena o Desvio Padrão.

Desvio de Padrão


O cálculo de desvio de padrão tem por objetivo demonstrar o quanto de regularidade existe em um conjunto de valores de uma análise, apontando o grau de oscilação destes valores em comparação com a média.

Ou seja, o desvio padrão indica quanto há de distanciamento ou dispersão dos valores em torno da média. É a mais comum medida de dispersão usada na estatística.

Erro Padrão


Existe ainda outra medida importante. O erro padrão da média. Trata-se de uma estimativa de variabilidade da média. Esse valor estima o quanto a média de uma amostra de dados se aproxima da média do grupo total. Dessa forma, o erro padrão é útil para saber o grau de confiabilidade da amostra. Quanto maior for o tamanho da amostra, menor será o erro padrão, e mais perto estarão os valores de todas as médias.

Fazendo as contas


Vejamos um exemplo prático de tudo que foi explicado até aqui.

Numa empresa formada por 50 profissionais, durante 6 meses foram realizados vários testes para avaliar o desempenho de cada funcionário.

Para formar uma estatística de como anda a qualidade de trabalho dos funcionários dessa empresa, pegamos um conjunto de resultados dos testes - o qual chamaremos de amostra. Essa amostra é referente à avaliação dos dois funcionários: a Ana e o João.

Entre os meses de janeiro a junho, a Ana obteve a seguinte pontuação: 8,2; 4,6; 4,2; 5; 7 e 7.

Já o João, no mesmo período, obteve a pontuação: 9; 7,4; 0; 0; 10 e 9,6.

Observe que a Ana obteve uma pontuação bastante equilibrada e estável. Ela não tirou nenhuma nota 0, mas também não chegou a alcançar nenhuma nota 10.

O João, por outro lado, apresentou uma enorme variação. Tirou duas notas 0 e um 10.

Isso demonstra um comportamento profissional completamente diferente entre a Ana e o João. Vamos ver o que os números podem nos mostrar sobre esse comportamento. Começaremos analisando a média das notas de avaliação dos dois funcionários.


Veja que curioso! Mesmo com notas muito diferentes, os dois funcionários possuem a mesma média. Esse é um exemplo clássico de que nem sempre saber apenas o valor da média será válido para explicar alguma coisa.

Vejamos o cálculo da média no LibreOffice Calc, sabendo que as notas da Ana foram colocadas nas células B2 a G2 e as notas do João foram colocadas nas células B3 a G3:


Na célula B6 foi aplicada a fórmula =MÉDIA(B2:G2)
Na célula C6 foi aplicada a fórmula =MÉDIA(B3:G3)

Agora vamos ver o desvio padrão da média das notas da Ana e do João, ou seja, qual a dispersão da média. Essa será a metodologia essencial para diferenciar as características das distribuições das notas entre a Ana e o João e ver o quanto as notas variaram.

Para calcular o desvio padrão de uma amostra é preciso fazer uma equação um pouquinho complicada, cuja fórmula em notação matemática é essa belezura abaixo:


A descrição dessa fórmula aí em cima resume-se na seguinte pérola: o desvio padrão da média é igual à raiz quadrada do somatório dos quadrados das diferenças entre os valores das amostras e a média aritmética delas, dividido pela quantidade de amostras menos um.

Se você não entendeu nada, não se preocupe. Para facilitar um pouquinho as coisas, veja abaixo o que significa essa maravilha de fórmula!


Agora que temos o valor do desvio padrão da média das notas da Ana, vamos ver como fica o mesmo calculo para o João.



Então temos:

Ana: com o desvio padrão da média em 1,61493. Isso significa que, em média, as notas da Ana se afastaram 1,61493 pontos para mais ou para menos, em relação à média 6.

João: com o desvio padrão da média em 4,73117. Isso significa que, em média, as notas do João se afastaram 4,73117 pontos para mais ou para menos, em relação à média 6.

Aqui já temos parâmetros bem claros de diferenciação entre as médias obtidas pela Ana e pelo João.

Vamos ver como chegar a esse mesmo resultado no LibreOffice Calc:



Na célula B7 foi aplicada a fórmula =DESVPAD(B2:G2)
Na célula C7 foi aplicada a fórmula =DESVPAD(B3:G3)

Agora, finalmente, vamos calcular o valor do erro padrão da média entre as notas da Ana e o João. Estamos considerando uma amostra de dados coletada entre dois profissionais, numa empresa com 50 profissionais. O erro padrão dará uma estimativa da variabilidade da média, ou seja, o quanto a média das amostras de dados da Ana e do João oscilam em relação à média do grupo total de profissionais. Teremos então uma noção do grau de confiabilidade da amostra da média entre os dois profissionais.

Para realizar esse cálculo, é necessário dividir o valor do desvio padrão pela raiz quadrada do tamanho da amostra. Assim:


Ana obteve média 6 numa avaliação cujo grupo de 6 notas variaram 1,61493 pontos para mais ou para menos. Esses números fornecem um erro padrão da média de 0,65929.

O João também obteve média 6 e o grupo de 6 notas de sua avaliação variaram 4,73117 pontos para mais ou para menos. Esses números fornecem um erro padrão da média de 1,93149.

A palavra "erro da média" não significa que o cálculo esteja equivocado. Significa que SE forem colhidas amostras equivalentes entre os outros profissionais da empresa e os dados apresentarem um desvio padrão da média em até 1,61493 pontos, as notas da Ana poderão variar em 0,65929 pontos para mais ou para menos em relação a média obtida pelos outros funcionários analisados.


Portanto, não estamos lidando com valores absolutos e sim trabalhando na hipótese que os outros funcionários alcancem um valor x em suas médias. Trata-se de valores relativos. Por isso ocorre a margem de erro, cuja variação em seu limite máximo e mínimo irá depender do tamanho da amostra e dos resultados que foram obtidos com a pesquisa

Essa variação aponta uma estimativa de variação da distância da média da Ana para a média de outros profissionais com o mesmo perfil.

No caso das notas do João, elas terão uma margem de erro que em média variará 1,93149 pontos para mais ou para menos em relação às médias de outros funcionários que tenham um desvio padrão de até 4,73117 pontos. 


Veja como chegar a esses resultados no Calc:


Na célula B8 foi aplicada a fórmula =CONT.NÚM(B2:G2)
Na célula C8 foi aplicada a fórmula =CONT.NÚM(B3:G3)
Na célula B9 foi aplicada a fórmula =B7/RAIZ(B8)
Na célula C9 foi aplicada a fórmula =C7/RAIZ(C8)

Transformando todos os dados num gráfico

As informações abaixo se baseiam no LibreOffice 5.1.

1º - Selecione as células A1 a G2.



2º - Vá ao menu Inserir, Gráfico.

Escolha o gráfico de linha, como mostra a imagem abaixo:




3º - Clique no botão "Próximo >>".

Mantenha  selecionados os itens "Série de dados em linhas", "Primeira linha como rótulo" e Primeira coluna como rótulo.



4º - Clique no botão "Próximo >>".

Não mexa em nada. Mantenha tudo como mostra a imagem abaixo.


5º - Clique no botão "Próximo >>".

Mantenha marcada a opção "Exibir legenda" e opcionalmente "À direita". Caso queira, acrescente títulos ou legendas explicativas ao gráfico. No exemplo da imagem abaixo usarei os seguintes textos:

Tílulo: "GRÁFICO DE ERRO PADRÃO DA MÉDIA"
Subtítulo: "Estimativa de variação da média das análises para os outros profissionais"
Eixo Y: "Valores das médias"



6º - Clique no botão "Concluir".

Eis o gráfico conforme configurado no assistente do LibreOffice Calc. Neste momento o gráfico mostra apenas os valores das médias obtidas por Ana e João. Ainda não é o nosso gráfico de erro padrão.


7º - Dê um duplo clique com mouse sobre o gráfico para ativar o modo de edição (a interface do Calc se modifica, ficando visível apenas as opções de edição do gráfico). Vá ao menu Inserir, Barras de erro Y...

Na categoria de erro, marque o item que possui uma caixa de combinação. Dentro dela, selecione a opção "Erro padrão".

Em indicador de erro, deixe marcado o item "Positivo e negativo".


Dê OK e pronto! Aí está o nosso gráfico de erro padrão da média.



Com um pouquinho mais de edição, é possível destacar itens que consideramos relevantes e dar ao gráfico uma aparência bacana, como esta abaixo:


A grande contribuição do gráfico é nos fornecer uma imagem das informações que só tínhamos em números. Temos então um padrão visual claro e comparativo do comportamento e distribuição dos dados envolvidos.

Conforme já foi explicado no decorrer deste artigo, ao calcularmos uma probabilidade através de uma amostra no lugar do universo total, nossos dados estarão sujeitos a uma margem de erro. É o que representa o gráfico acima. Nas linhas contínuas do gráfico temos a amostra de dados da Ana e do João dentro de um universo de 50 funcionários. As barras de erro verticais representam uma probabilidade para os demais funcionários. Trata-se de um intervalo de dados onde ali poderemos encontrar a informação relacionada aos demais funcionários que possuam o mesmo perfil da Ana ou do João.

Ao apontarmos que a Ana teve um desvio padrão de sua média em 1,61493; e um erro padrão da média de 0,65929; isso significaria que no caso de outro profissional da empresa, se considerarmos um desvio da média de no máximo 1,61492 pontos, as suas notas poderão ser encontradas num intervalo de 0,65928 pontos para mais ou para menos em relação às notas da Ana. É isso que assinala as barras verticais nos pontos de dados das linhas do gráfico. O erro padrão significa a incerteza que temos em relação a quais notas obtiveram os outros profissionais. Dessa forma usamos as notas de Ana e João como amostra.

Outro detalhe é que muito embora a Ana e o João tenham obtido a mesma média aritmética em suas notas, através do gráfico acima podemos ter a real dimensão da grande diferença que há entre os profissionais analisados. Chama a atenção o nível de oscilação do desvio padrão da média entre os dois casos. Fica evidente que a Ana possui melhor regularidade em sua avaliação e embora não tenha alcançado a nota máxima, a margem de erro de sua média varia muito pouco em relação à média dos demais profissionais do grupo que possuam o mesmo perfil.

Dessa forma, a conclusão é que a funcionária Ana se enquadra na condição de melhor regularidade profissional em relação ao João.

Espero que este artigo tenha sido útil de alguma forma. Se quiser você pode baixar o arquivo do LibreOffice Calc usado neste artigo. Basta clicar no botão abaixo.


Clique aqui para baixar


Assine nossa newsletter!

Quer receber as novidades mais recentes do Blog Valeu Cara na sua caixa de entrada?
Informe seu e-mail e clique em Assinar.

Assine o feed RSS Siga o Blog Valeu Cara no Twitter Curta o Blog Valeu Cara no Facebook Blog Valeu Cara no Google+Canal do Blog Valeu Cara no YouTube





Participe deixando seu comentário, dúvida, sugestão, ideias, críticas, exemplos ou o que você quiser na parte de comentários desta postagem. Sua participação é extremamente importante para que este blog esteja sempre melhorando o seu conteúdo.