Um outlier é um dado que se encontra fora do padrão global de uma distribuição.
A distribuição seguinte mostra as classificações obtidas no exame de condução por 1919 pessoas. Quantos outliers observas?
Algumas pessoas poderiam dizer que há 55 outliers, mas outras pessoas poderiam discordar dizendo que há 33 ou 44 outliers. Os estatísticos desenvolveram várias formas de identificar o que deve ou não deve ser chamado um outlier.
Uma regra comum diz que um dado é um outlier se estiver mais de 1,5AQ1,5\cdot \text{A}_Q acima do terceiro quartil ou abaixo do primeiro quartil. Dito de outra forma, os outliers inferiores estão abaixo de Q11,5AQ\text{Q}_1-1,5\cdot\text{A}_Q e os outliers superiores estão acima de Q3+1,5AQ\text{Q}_3+1,5\cdot\text{A}_Q.
Vamos usar esta regra na distribuição anterior.

Passo 1) Determinar a mediana, os quartis e a amplitude interquartis

Aqui estão as 1919 classificações ordenadas.
55, 77, 1010, 1515, 1919, 2121, 2121, 2222, 2222, 2323, 2323, 2323, 2323, 2323, 2424, 2424, 2424, 2424, 2525

Passo 2) Calcular 1,5AQ1,5\cdot\text{A}_Q abaixo do primeiro quartil e procurar os outliers inferiores.

Passo 3) Calcular 1,5AQ1,5\cdot\text{A}_Q acima do terceiro quartil e procurar os outliers superiores.

Aprendizagem extra: Representar outliers em diagramas de extremos e quartis

Os diagramas de extremos e quartis representam, frequentemente, os outliers como pontos que estão separados do restante diagrama.
Aqui está um diagrama de extremos e quartis para a distribuição anterior que não representa os outliers.
Aqui está um diagrama de extremos e quartis para a distribuição anterior que representa os outliers.
Nota que os outliers são apresentados como pontos e o diagrama teve de mudar. O diagrama prolonga-se até ao ponto mais do conjunto de dados que não é um outlier, que é 1515.
Aqui está o conjunto inicial para que possas comparar.
A carregar