Análise de Dados
com Power BI

Análise estatística para visualização de Outliers

Data: 05/06/2023

Por: Rafael Araújo de Farias

Lab 4 - Visualização e tratamento de Outliers

Visão outliers não tratados

Fonte: Data Science Academy - Curso Microsoft Power BI Para Business Intelligence e Data Science

Outliers: ou valores atípicos, são observações em um conjunto de dados que se afastam significativamente do padrão geral dos demais dados. Esses valores são considerados "fora do comum" ou "excepcionais" em relação às demais observações e podem ter um impacto significativo nas análises estatísticas e nas conclusões obtidas a partir dos dados.

Os Outliers podem afetar as medidas estatísticas, como a média e o desvio padrão, pois essas medidas são sensíveis a valores extremos. Por exemplo, um outlier muito grande pode distorcer significativamente a média, tornando-a não representativa da maioria dos dados. Por outro lado, medidas robustas à presença de outliers, como a mediana e o IQR (Intervalo Interquartil), são menos afetadas por valores atípicos.

 

Uma vez identificados, os outliers podem ser tratados de diferentes maneiras, dependendo do contexto e do objetivo da análise. Alguns possíveis abordagens incluem removê-los do conjunto de dados, transformá-los em valores mais próximos do padrão, ou analisá-los separadamente para entender melhor a sua natureza e impacto nos resultados.

 


Abordagem e técnicas aplicadas para evidenciar a presença de outliers na análise estatística da altura dos clientes e o devido tratamento.

 

 

Esses quartis são usados para compreender a distribuição dos dados e calcular outras medidas estatísticas, como o intervalo interquartil (IQR), que é a diferença entre Q3 e Q1. O IQR é útil para avaliar a dispersão dos dados e identificar a presença de outliers.

 

O Q1 da altura dos clientes nessa base de dados é representada pelo valor 166,75 cm, o Q3 é representado pelo valor 180 cm, já nosso IQR pelo valor 13,25 cm.

 

Obtendo o valor do IQR, podemos utiliza-lo para nos ajudar ainda mais na identificação de outliers. Geralmente, valores que estão abaixo de Q1 - 1,5*IQR ou acima de Q3 + 1,5*IQR são considerados outliers potenciais.

 

Com isso, foram criadas duas linhas limite para altura: limite inferior e limite superior.

 

Valores das linhas limite para altura

 

Limite inferior: 146,88 cm

Limite superior: 199,88 cm

 

Valores além desses limites deverão ser observados com mais atenção, considerando que podem estar influenciando na análise dos dados.

 

 

DECISÃO

 

Foi levado em consideração, que apenas os valores referente à altura de clientes estavam gerando outlier, e outros valores não estavam gerando valores atípicos. Os valores de outliers foram substituídos pelo valor da mediana da altura (172 cm).  Substituir outliers pela mediana é uma opção de abordagem, pois a mediana está mais próximo ao padrão dos dados.

Visão outliers tratados

Fonte: Data Science Academy - Curso Microsoft Power BI Para Business Intelligence e Data Science