Análise de Dados
com Power BI
Análise estatística para visualização de Outliers
Data: 05/06/2023
Por: Rafael Araújo de Farias
Lab 4 - Visualização e tratamento de Outliers
Visão outliers não tratados
Fonte: Data Science Academy - Curso Microsoft Power BI Para Business Intelligence e Data Science
Outliers: ou valores atípicos, são observações em um conjunto de dados que se afastam significativamente do padrão geral dos demais dados. Esses valores são considerados "fora do comum" ou "excepcionais" em relação às demais observações e podem ter um impacto significativo nas análises estatísticas e nas conclusões obtidas a partir dos dados.
Os Outliers podem afetar as medidas estatísticas, como a média e o desvio padrão, pois essas medidas são sensíveis a valores extremos. Por exemplo, um outlier muito grande pode distorcer significativamente a média, tornando-a não representativa da maioria dos dados. Por outro lado, medidas robustas à presença de outliers, como a mediana e o IQR (Intervalo Interquartil), são menos afetadas por valores atípicos.
Uma vez identificados, os outliers podem ser tratados de diferentes maneiras, dependendo do contexto e do objetivo da análise. Alguns possíveis abordagens incluem removê-los do conjunto de dados, transformá-los em valores mais próximos do padrão, ou analisá-los separadamente para entender melhor a sua natureza e impacto nos resultados.
Abordagem e técnicas aplicadas para evidenciar a presença de outliers na análise estatística da altura dos clientes e o devido tratamento.
Q1 (primeiro quartil) - é o valor abaixo do qual 25% dos dados estão. Isso significa que 25% dos dados têm valores menores ou iguais a Q1, enquanto os 75% restantes têm valores maiores que Q1.
Q3 (terceiro quartil) - é o valor abaixo do qual 75% dos dados estão. Assim, 75% dos dados têm valores menores ou iguais a Q3, enquanto os 25% superiores têm valores maiores que Q3.
Esses quartis são usados para compreender a distribuição dos dados e calcular outras medidas estatísticas, como o intervalo interquartil (IQR), que é a diferença entre Q3 e Q1. O IQR é útil para avaliar a dispersão dos dados e identificar a presença de outliers.
O Q1 da altura dos clientes nessa base de dados é representada pelo valor 166,75 cm, o Q3 é representado pelo valor 180 cm, já nosso IQR pelo valor 13,25 cm.
Obtendo o valor do IQR, podemos utiliza-lo para nos ajudar ainda mais na identificação de outliers. Geralmente, valores que estão abaixo de Q1 - 1,5*IQR ou acima de Q3 + 1,5*IQR são considerados outliers potenciais.
Com isso, foram criadas duas linhas limite para altura: limite inferior e limite superior.
Valores das linhas limite para altura
Limite inferior: 146,88 cm
Limite superior: 199,88 cm
Valores além desses limites deverão ser observados com mais atenção, considerando que podem estar influenciando na análise dos dados.
DECISÃO
Foi levado em consideração, que apenas os valores referente à altura de clientes estavam gerando outlier, e outros valores não estavam gerando valores atípicos. Os valores de outliers foram substituídos pelo valor da mediana da altura (172 cm). Substituir outliers pela mediana é uma opção de abordagem, pois a mediana está mais próximo ao padrão dos dados.
Visão outliers tratados
Fonte: Data Science Academy - Curso Microsoft Power BI Para Business Intelligence e Data Science