Estatística descritiva: interprete grandes volumes de dados - PM3
Jéssica Moraes

Jéssica Moraes

10 minutos de leitura

10 Perguntas e respostas em entrevistas para Analista de Dados

A estatística descritiva consiste na aplicação de técnicas estatísticas para descrever, organizar e resumir grandes volumes de dados, possibilitando seu uso em grandes decisões, projetos, treinamentos, entre outras aplicações.

Neste artigo, independentemente de você estar no início de sua carreira de dados ou buscando aprofundar seus conhecimentos, vamos apresentar os conceitos básicos de estatística descritiva e suas aplicações práticas. Boa leitura!

O que é estatística descritiva?

A estatística descritiva é a etapa inicial da análise de dados, utilizada para resumi-los e compreendê-los. Com os avanços tecnológicos, houve um aumento expressivo na quantidade de dados e nos métodos computacionais eficientes, contribuindo para o destaque dessa subárea da estatística.

Além disso, a estatística descritiva pode ser utilizada na análise de dados na aplicação da metodologia Lean Seis Sigma. Trata-se de uma metodologia de excelência operacional que mede e analisa dados para solucionar problemas de alta complexidade, relacionados ao desperdício e à variabilidade de processos.

Qual o melhor momento para usar a estatística descritiva?

A estatística descritiva é amplamente utilizada quando o analista se depara com uma grande quantidade de dados para avaliar e precisa resumi-los para facilitar a interpretação. Isso pode ser feito por meio da média, mediana, moda, desvio padrão, entre outros recursos, que serão explicados mais adiante.

Curiosamente, apesar de as empresas lidarem com grandes quantidades de dados diariamente, sejam de colaboradores ou de consumidores, muitas ainda não sabem utilizá-los a seu favor. 

Por exemplo, de acordo com uma pesquisa realizada pela TOTVS, 42% das empresas relatam a falta de profissionais qualificados para interpretar dados. Sabe o que isso significa? 

Que além de estarem perdendo a oportunidade de alcançar níveis mais avançados de maturidade na digitalização de processos, essa situação poderia ser resolvida com parcerias estratégicas e, sobretudo, pela qualificação de seus colaboradores.

Por isso, a PM3 conta com a metodologia Sprints sobre Dados, que prepara os profissionais para que se sintam aptos a organizar, analisar e interpretar dados, obtendo insights e resolvendo problemas de maneira assertiva.

Medidas de tendência central ou medidas de posição 

Dentro da estatística descritiva, tanto as medidas de tendência central quanto as medidas de posição são aplicadas para identificar a localização dos dados. Vamos entender!  

Média

A média é a soma de todos os valores da base de dados dividida pelo número total de elementos. A fórmula é:

Cálculo da média

Média ponderada

Nesse contexto, cada dado recebe um peso específico e é multiplicado por ele. A soma desses produtos é então dividida pelo total dos pesos. A fórmula é:

Cálculo da média ponderada

Moda

Um número representa a moda de uma base de dados, ou seja, é o valor mais frequente presente nessa base de dados. No entanto, caso nenhum valor se repita, não há moda nesse caso específico.

Mediana

A Mediana é uma medida de posicionamento central dos dados. É o valor central de um conjunto de dados quando eles são ordenados em ordem crescente ou decrescente. 

Se a quantidade de valores ordenados for ímpar, a mediana é o número que está exatamente no meio da lista. Se a quantidade de valores ordenados for par, a mediana é calculada como a média dos dois valores centrais.

Percentis

Dentro da estatística descritiva, os percentis são medidas que dividem a amostra em 100 partes iguais, ordenando os dados de forma crescente. Assim:

  • O 1º percentil representa o valor abaixo do qual 1% dos dados estão;
  • O 50º percentil é a mediana, em que 50% dos dados estão abaixo desse valor;
  • O 98º percentil indica o valor abaixo do qual 98% dos dados estão.

Sua fórmula é:

Percentis

Na qual:
K = a posição em que o percentil estará nos dados;
i = o número do percentil desejado;
n = número de amostras.

Quartis

Por fim, os quartis são valores que dividem os dados ordenados em quatro partes iguais. 

Utilizando os quartis, é possível avaliar de forma rápida tanto a dispersão quanto a tendência central de um conjunto de amostras, etapas indispensáveis para compreender seus dados. 

Sua fórmula é:

Fórmula dos quartil

Na qual:

Q = a posição em que o quartil estará nos dados;

i = o quartil que pretendemos encontrar;

n = número de amostras.

Medidas de dispersão

Agora que você já conhece as medidas de tendência central, vamos às medidas de dispersão, aplicadas para avaliar como os dados estão distribuídos conforme o padrão desejado

O objetivo é encontrar um valor que resuma a variabilidade de um conjunto de dados específico. Vamos explorar!

Amplitude

A amplitude revela o quanto os dados da amostra estão espalhados. É uma das formas mais simples e práticas de avaliar a dispersão dos dados. 

Para calcular a amplitude de um conjunto de amostras, basta subtrair o menor valor do maior valor. Se a amplitude for alta, significa que os dados estão distribuídos em um intervalo grande. Se for baixa, os intervalos são pequenos.

Intervalo interquartil

O intervalo interquartil, que faz parte da estatística descritiva, é usado para medir o grau de dispersão em relação à medida central dos dados.

Para calculá-lo, basta subtrair o primeiro quartil do terceiro quartil. Assim:

Intervalo-Interquartil

Variância

A variância indica o quanto os valores da amostra estão dispersos em relação à média. A fórmula é:

Variância

Na qual:

S² = variância;

n = número de amostras;

x = média das amostras.

Desvio padrão

O desvio padrão na estatística descritiva revela o quanto os dados da amostra se dispersam em torno da média. Para calcular, é obtida a raiz quadrada positiva da variância. Sua fórmula é:

Desvio padrão

Na qual:

S = desvio padrão;

n = número de amostras;

x = média das amostras.

Coeficiente de variação

Por último, coeficiente de variação, uma medida relativa de dispersão útil para comparar múltiplas variáveis. A fórmula é:

Coeficiente de variação

Uso de gráficos na estatística descritiva

Existem diversos modelos de gráficos que podem ser usados para avaliar a estatística descritiva. É importante lembrar que eles podem ser utilizados para representar tanto dados qualitativos (características ou atributos) quanto dados quantitativos (números ou quantidades). 

Para cada tipo de dado, há um tipo de gráfico mais recomendado. Vamos ver!

Variáveis qualitativas

Gráfico de barras

Revela a quantidade de sujeitos dentro de cada uma das categorias coletadas, permitindo comparações utilizando valores numéricos.

Gráfico de setores

O gráfico de setores, ou pizza, também mostra a distribuição das categorias, focando na proporção. Ele ilustra como as porcentagens de indivíduos estão distribuídas em cada categoria, utilizando apenas o tamanho da amostra coletada. 

Mas atenção! Gráficos de pizza não são recomendados para comparações ou análises de evoluções temporais.

Variáveis quantitativas

Gráfico de linhas

O gráfico de linhas geralmente está relacionado ao tempo, permitindo observar o comportamento de uma variável ao longo de um período específico.

Histograma

O histograma é uma forma de apresentar dados quantitativos, organizando os dados em classes. Ele se assemelha a um gráfico de barras, mas com algumas diferenças. 

O objetivo é visualizar como os dados estão distribuídos pelos diferentes valores observados, identificando onde são mais comuns e onde são mais raros.

Gráfico temporal ou sequencial

Por último, temos o gráfico temporal, que mostra a evolução de uma variável ao longo do tempo. É construído de maneira similar a um gráfico de dispersão, em que uma das variáveis é o tempo. 

Nesse caso, os pontos consecutivos são conectados para melhor visualização da tendência ao longo do tempo.

Aplicações práticas da estatística descritiva

Agora que você já sabe o que é estatística descritiva e, principalmente, métodos para calculá-la, vamos às aplicações práticas.

Por ser versátil, pode ser uma forte aliada para fornecer insights valiosos, que contribuirão para a tomada de decisões em diversas áreas.

Não importa se é no planejamento financeiro, no monitoramento de processos industriais, no setor de marketing, entre outros. A estatística descritiva contribui significativamente para a compreensão e melhoria de processos e estratégias.

Portanto, você consegue imaginar o quanto um profissional analista de dados é requisitado por empresas que desejam usar os dados de forma estratégica. Assim, vale a pena investir em formação para aprimorar conhecimentos ou construir uma base conceitual sólida. A PM3 pode ajudar você!

Através da modalidade Sprints sobre Dados, você estará pronto para potencializar decisões estratégicas, identificar oportunidades e orientar-se pelos dados. Oferecemos cursos como Métodos de Análise de Dados e Identificação de Vieses e Armadilhas em Análises, entre outros! Acesse o site e conheça as Sprints sobre Dados da PM3!