Capítulo 16 Distribuições e parâmetros


16.1 Distribuições de probabilidade


16.1.1 O que são distribuições de probabilidade?

  • Uma distribuição de probabilidade é uma função que descreve os valores possíveis ou o intervalo de valores de uma variável (eixo horizontal) e a frequência com que cada valor é observado (eixo vertical).108


16.1.2 Como representar distribuições de probabilidade?

  • Tabelas de frequência, polígonos de frequência, gráficos de barras, histogramas e boxplots são formas de representar distribuições de probabilidade.168

  • Tabelas de frequência mostram as categorias de medição e o número de observações em cada uma. É necessário conhecer o intervalo de valores (mínimo e máximo), que é dividido em intervalos arbitrários chamados “intervalos de classe”.168

  • Se houver muitos intervalos, não haverá redução significativa na quantidade de dados, e pequenas variações serão perceptíveis. Se houver poucos intervalos, a forma da distribuição não poderá ser adequadamente determinada.168

  • A quantidade de intervalos pode ser determinada pelo método de Sturges, que é dado pela fórmula \(k = 1 + 3.322 \times \log_{10}(n)\), onde \(k\) é o número de intervalos e \(n\) é o número de observações.169

  • A quantidade de intervalos pode ser determinada pelo método de Scott, que é dado pela fórmula \(h = 3.5 \times \text{sd}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{sd}(x)\) é o desvio-padrão e \(n\) é o número de observações.170

  • A quantidade de intervalos pode ser determinada pelo método de Freedman-Diaconis, que é dado pela fórmula \(h = 2 \times \text{IQR}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{IQR}(x)\) é o intervalo interquartil e \(n\) é o número de observações.171


Histogramas com diferentes métodos de binning.: Sturges, Scott e Freedman-Diaconis.

Figura 16.1: Histogramas com diferentes métodos de binning.: Sturges, Scott e Freedman-Diaconis.


  • A largura das classes pode ser determinada dividindo o intervalo total de observações pelo número de classes. Recomenda-se larguras iguais, mas larguras desiguais podem ser usadas quando existirem grandes lacunas nos dados ou em contextos específicos. Os intervalos devem ser mutuamente exclusivos e não sobrepostos, evitando intervalos abertos (ex.: <5, >10).168

  • Polígonos de frequência são gráficos de linhas que conectam os pontos médios de cada barra do histograma. Eles são úteis para comparar duas ou mais distribuições de frequência.168

  • Gráficos de barra verticais ou horizontais representam a distribuição de frequências de uma variável categórica. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do gráfico de barras é igual ao número total de observações.168

  • Histogramas representam a distribuição de frequências de uma variável contínua. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do histograma é igual ao número total de observações.168

  • Boxplots representam a distribuição de frequências de uma variável contínua. A linha central divide os dados em duas partes iguais (mediana ou Q2). A caixa inferior representa o primeiro quartil (Q1) e a caixa superior representa o terceiro quartil (Q3). A linha inferior é o mínimo e a linha superior é o máximo. Os valores atípicos são representados por pontos individuais.168




16.1.3 Quais características definem uma distribuição?

  • Uma distribuição pode ser definida por modelos matemáticos e caracterizada por parâmetros de tendência central, dispersão, simetria e curtose.REF?


16.1.4 Quais são as distribuições mais comuns?

  • Distribuções discretas:

    • Bernoulli: resultado de um único teste com dois possíveis desfechos (sucesso ou fracasso).REF?

    • Binomial: número de sucessos em k tentativas.REF?

    • Geométrica: número de testes até o 1o sucesso.REF?

    • Binomial negativa: número de testes até o k-ésimo sucesso.REF?

    • Hipergeométrica: número de indivíduos na amostra tomados sem reposição.REF?

    • Poisson: número de eventos em um intervalo de tempo fixo.REF?

    • Uniforme: resultados (finitos) que são igualmente prováveis.REF?

    • Multinomial: resultados de múltiplos testes com mais de dois possíveis desfechos.REF?


Distribuições discretas e suas funções de probabilidade.

Figura 16.2: Distribuições discretas e suas funções de probabilidade.


  • Distribuições contínuas:


Distribuições contínuas básicas e suas funções de densidade.

Figura 16.3: Distribuições contínuas básicas e suas funções de densidade.


Distribuições contínuas aproximadas e suas funções de densidade.

Figura 16.4: Distribuições contínuas aproximadas e suas funções de densidade.


Distribuições contínuas aproximadas e suas funções de densidade.

Figura 16.5: Distribuições contínuas aproximadas e suas funções de densidade.


Distribuições contínuas para inferência e suas funções de densidade.

Figura 16.6: Distribuições contínuas para inferência e suas funções de densidade.


Distribuições contínuas para dados específicos e suas funções de densidade.

Figura 16.7: Distribuições contínuas para dados específicos e suas funções de densidade.


Distribuições contínuas para probabilidades e proporções e suas funções de densidade.

Figura 16.8: Distribuições contínuas para probabilidades e proporções e suas funções de densidade.


Distribuições contínuas com caudas pesadas e suas funções de densidade.

Figura 16.9: Distribuições contínuas com caudas pesadas e suas funções de densidade.


16.1.5 Quais são as funções de uma distribuição?

  • Função de massa de probabilidade (probability mass function, pmf).REF?

  • Função de distribuição cumulativa (cumulative distribution function, cdf).REF?

  • Função quantílicas (quantile function, qf).REF?

  • Função geradora de números aleatórios (random function, rf).REF?





16.1.6 O que é a distribuição normal?

  • A distribuição normal (ou gaussiana) é uma distribuição com desvios simétricos positivos e negativos em torno de um valor central.109

  • Em uma distribuição normal, o intervalo de 1 desvio-padrão (±1DP) inclui cerca de 68% dos dados; de 2 desvios-padrão (±2DP) cerca de 95% dos dados; e no intervalo de 3 desvios-padrão (±3DP) cerca de 99% dos dados.109


Distribuições e funções de probabilidade.

Figura 16.10: Distribuições e funções de probabilidade.


16.1.7 Que métodos podem ser utilizados para identificar a normalidade da distribuição?

  • Histogramas.108

  • Gráficos Q-Q.108

  • Testes de hipótese nula:108

    • Kolmogorov-Smirnov

    • Shapiro-Wilk

    • Anderson-Darling


Distribuição normal e métodos de visualização e testes de normalidade.

Figura 16.11: Distribuição normal e métodos de visualização e testes de normalidade.


16.1.8 O que são distribuições não-normais?


16.2 Distribuições multivariadas


16.2.1 O que são distribuições multivariadas?

  • Distribuições multivariadas descrevem a probabilidade conjunta de duas ou mais variáveis aleatórias.REF?

  • Exemplos de distribuições multivariadas incluem a distribuição normal multivariada, a distribuição t multivariada, a distribuição binomial multinomial e a distribuição de Dirichlet.REF?


Distribuição normal bivariada e amostra simulada com histogramas marginais.

Figura 16.12: Distribuição normal bivariada e amostra simulada com histogramas marginais.


16.3 Parâmetros


16.3.1 O que são parâmetros?

  • Parâmetros são informações que definem um modelo teórico, como propriedades de uma coleção de indivíduos.107

  • Parâmetros definem características de uma população inteira, tipicamente não observados por ser inviável ter acesso a todos os indivíduos que constituem tal população.108



16.3.2 O que é uma análise paramétrica?

  • Testes paramétricos possuem suposições sobre as características e/ou parâmetros da distribuição dos dados na população.108

  • Testes paramétricos assumem que: a variável é quantitativa numérica (contínua); os dados foram amostrados de uma população com distribuição normal; a variância da(S) amostra(s) é igual à da população; as amostras foram selecionadas de modo aleatório na população; os valores de cada amostra são independentes entre si.108,109

  • Testes paramétricos são baseados na suposição de que os dados amostrais provêm de uma população com parâmetros fixos determinando sua distribuição de probabilidade.8


16.3.3 O que é uma análise não paramétrica?

  • Testes não-paramétricos fazem poucas suposições, ou menos rigorosas, sobre as características e/ou parâmetros da distribuição dos dados na população.108,109

  • Testes não-paramétricos são úteis quando as suposições de normalidade não podem ser sustentadas.109


16.3.4 Devemos testar as suposições de normalidade?

  • Testes preliminares de normalidade não são necessários para a maioria dos testes paramétricos de comparação, pois eles são robustos contra desvios moderados da normalidade. Normalidade da distribuição deve ser estabelecida para a população.176


16.3.5 Por que as análises paramétricas são preferidas?

  • Em geral, testes paramétricos são mais robustos (isto é, possuem menores erros tipo I e II) que seus testes não-paramétricos correspondentes.108,177,178

  • Testes não-paramétricos apresentam menor poder estatístico (maior erro tipo II) comparados aos testes paramétricos correspondentes.109


16.3.6 Que parâmetros podem ser estimados?

  • Parâmetros de tendência central.109,179

  • Parâmetros de dispersão.109,179,180

  • Parâmetros de proporção.109,179,181,181

  • Parâmetros de distribuição.179

  • Parâmetros de extremos.109



16.4 Erro


16.4.1 Que parâmetros de erro podem ser estimados?

\[\begin{equation} \tag{16.1} ME = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \end{equation}\]


  • Erro-padrão da média (EPM) (16.2) (\(sigma\) conhecido) e (16.3) (\(sigma\) desconhecido).180,182

\[\begin{equation} \tag{16.2} EPM = \frac{\sigma}{\sqrt{n}} \end{equation}\]

\[\begin{equation} \tag{16.3} \widehat{EPM} = \frac{s}{\sqrt{n}} \end{equation}\]


  • Intervalo de confiança para variância conhecida (16.4) e desconhecida (16.5): Captura a média populacional correspondente ao nível de significância \(\alpha\) pré-estabelecido109,179,182,183.

\[\begin{equation} \tag{16.4} IC = \bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \end{equation}\]


\[\begin{equation} \tag{16.5} IC = \bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} \end{equation}\]


16.5 Tendência central


16.5.1 Que parâmetros de tendência central podem ser estimados?

\[\begin{equation} \tag{16.6} \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \end{equation}\]


\[\begin{equation} \tag{16.7} \bar{x}_p = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} \end{equation}\]


\[\begin{equation} \tag{16.8} \bar{x}_g = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}} \end{equation}\]


\[\begin{equation} \tag{16.9} \bar{x}_h = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}} \end{equation}\]


\[\begin{equation} \tag{16.10} \tilde{x} = \begin{cases} x_{\left(\frac{n+1}{2}\right)}, & \text{se } n \text{ é ímpar} \\ \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}, & \text{se } n \text{ é par} \end{cases} \end{equation}\]


  • Moda (16.11), onde \(f(x)\) é a função de frequência absoluta ou relativa e \(x_1, x_2, \ldots, x_n\) são os valores observados.109,179,185

\[\begin{equation} \tag{16.11} \operatorname{Mo} \in \arg\max_{x \in \{x_1,\ldots,x_n\}} f(x) \end{equation}\]


  • Moda (dados agrupados) (16.12), onde: \(L\) = limite inferior da classe modal; \(f_1\) = frequência da classe modal; \(f_0\) = frequência da classe anterior à classe modal; \(f_2\) = frequência da classe posterior à classe modal; \(h\) = amplitude da classe modal.

\[\begin{equation} \tag{16.12} \operatorname{Mo} = L + \frac{(f_1 - f_0)}{(f_1 - f_0) + (f_1 - f_2)} \cdot h \end{equation}\]


  • A posição relativa das medidas de tendência central (média, mediana e moda) depende da forma da distribuição.185

  • Em uma distribuição normal, as três medidas são idênticas.185

  • A média é sempre puxada para os valores extremos, por isso é deslocada para a cauda em distribuições assimétricas.185

  • A mediana fica entre a média e a moda em distribuições assimétricas.185

  • A moda é o valor mais frequente e, portanto, se localiza no pico da distribuição assimétrica.185

  • Uma distribuição pode uma moda (unimodal), duas modas (bimodal) ou três ou mais modas (multimodal), indicando a presença de mais de um valor com alta frequência.185


Distribuições unimodal, bimodal e multimodal.

Figura 16.13: Distribuições unimodal, bimodal e multimodal.


Parâmetros de tendência central em distribuições assimétricas e normais.

Figura 16.14: Parâmetros de tendência central em distribuições assimétricas e normais.



16.5.2 Como escolher o parâmetro de tendência central?

  • A mediana é preferida à média quando existem poucos valores extremos na distribuição, alguns valores são indeterminados, ou há uma distribuição aberta, ou os dados são medidos em uma escala ordinal.185

  • A moda é preferida quando os dados são medidos em uma escala nominal.185

  • A média geométrica é preferida quando os dados são medidos em uma escala logarítmica.185


16.6 Dispersão


16.6.1 Que parâmetros de dispersão podem ser estimados?

\[\begin{equation} \tag{16.13} s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} \end{equation}\]


\[\begin{equation} \tag{16.14} s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} \end{equation}\]


\[\begin{equation} \tag{16.15} A = x_{\max} - x_{\min} \end{equation}\]


\[\begin{equation} \tag{16.16} IQR = Q_3 - Q_1 \end{equation}\]


Parâmetros de dispersão em distribuições normais.

Figura 16.15: Parâmetros de dispersão em distribuições normais.




16.6.2 Como escolher o parâmetro de dispersão?


  • Desvio-padrão é apropriado quando a média é utilizada como parâmetro de tendência central em distribuições simétricas.186

  • Amplitude ou intervalo interquartil são apropriadas para variáveis ordinais ou distribuições assimétricas.186


16.6.3 O que é a correção de Bessel para variância?

  • Correção de Bessel é um ajuste feito no denominador da fórmula de variância da amostra — ou seja, o número de graus de liberdade — para evitar que a variância amostral seja menor do que a variância populacional.187

  • A correção de Bessel é feita subtraindo-se 1 do número de observações da amostra, ou seja, \(n - 1\) (16.17).187

\[\begin{equation} \tag{16.17} s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} \end{equation}\]


16.6.4 Por que a correção de Bessel para variância é importante?

  • A correção de Bessel é importante porque a variância amostral tende a ser menor do que a variância populacional, especialmente em amostras pequenas.187

  • A correção de Bessel ajuda a garantir que a variância amostral seja uma estimativa mais precisa da variância populacional, o que é fundamental para a validade dos testes estatísticos e das inferências feitas a partir da amostra.187


16.7 Proporção


16.7.1 Que parâmetros de proporção podem ser estimados?

\[\begin{equation} \tag{16.18} f_i = n_i \end{equation}\]


\[\begin{equation} \tag{16.19} fr_i = \frac{n_i}{N} \end{equation}\]


  • Percentil (16.20), onde \(k\) é o percentil desejado (0 a 100) e \(n\) é o número total de observações na amostra.109,179,181

\[\begin{equation} \tag{16.20} P_k = x_{\left(\frac{k}{100} \cdot (n+1)\right)} \end{equation}\]


  • Quantil: é o ponto de corte que define a divisão da amostra em grupos de tamanhos iguais. Portanto, não se referem aos grupos em si, mas aos valores que os dividem:181

    • Tercil: 2 valores que dividem a amostra em 3 grupos de tamanhos iguais.181

    • Quartil: 3 valores que dividem a amostra em 4 grupos de tamanhos iguais.181

    • Quintil: 4 valores que dividem a amostra em 5 grupos de tamanhos iguais.181

    • Decil: 9 valores que dividem a amostra em 10 grupos de tamanhos iguais.181





16.8 Extremos


16.8.1 O que são valores extremos?

  • Valores extremos podem constituir valores legítimos ou ilegítimos de uma distribuição.188


16.8.2 Que parâmetros extremos podem ser estimados?

\[\begin{equation} \tag{16.21} \text{Mínimo} = \min(x_1, x_2, \ldots, x_n) \end{equation}\]


\[\begin{equation} \tag{16.22} \text{Máximo} = \max(x_1, x_2, \ldots, x_n) \end{equation}\]


Regressão linear com valores extremos.

Figura 16.16: Regressão linear com valores extremos.


16.9 Distribuição


16.9.1 Que parâmetros de distribuição podem ser estimados?

\[\begin{equation} \tag{16.23} \gamma_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{\left(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2\right)^{3/2}} \end{equation}\]


\[\begin{equation} \tag{16.24} \gamma_2 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^4}{\left(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2\right)^{2}} \end{equation}\]


\[\begin{equation} \tag{16.25} \kappa = \gamma_2 - 3 \end{equation}\]


Parâmetros de distribuição: Assimetria e Curtose.

Figura 16.17: Parâmetros de distribuição: Assimetria e Curtose.


Parâmetros de distribuição: Curtose em distribuições simétricas (normal vs. uniforme).

Figura 16.18: Parâmetros de distribuição: Curtose em distribuições simétricas (normal vs. uniforme).


16.10 Robustez em medidas de localização


16.10.1 O que é ponto de quebra (breakdown value)?

  • É a menor proporção de contaminação que pode levar o estimador a resultados arbitrariamente errados; quanto maior, mais robusto.189


16.10.2 Por que a média não é robusta?

  • Porque tem ponto de quebra \(~0%\) e função influência não limitada; um único outlier pode distorcer a média arbitrariamente.189


16.10.3 Qual a alternativa robusta para localização?

  • Mediana, com \(~50%\) de ponto de quebra e função influência limitada.189


16.10.4 Como estimar escala de forma robusta?

  • Median Absolute Deviation (MAD) (??), com correção 1,483 para normalidade, com \(~50%\) de ponto de quebra.189


\[\begin{equation} \tag{16.22} MAD = 1.483 \cdot \text{median}(|x_i - \text{median}(x)|) \end{equation}\]


  • Primeiro quartil das diferenças pareadas (\(Qn\)) (16.26), com \(~50%\) de ponto de quebra.189


\[\begin{equation} \tag{16.26} Qn = 2.2219 \cdot \text{first quartile}(|x_i - x_j|; i < j) \end{equation}\]


  • O intervalo interquartil (\(IQR\)) (16.16) é robusto, com ponto de quebra \(~25%\), sendo simples de interpretar e útil em boxplots.189


16.11 Parâmetros robustos


16.11.1 O que são parâmetros robustos?

  • Parâmetros robustos são medidas de posição e dispersão que permanecem estáveis mesmo na presença de valores discrepantes.190


16.11.2 Que parâmetros robustos podem ser estimados?

  • Mediana em vez da média aritmética, pois é menos sensível a valores extremos.190

  • Median Absolute Deviation (MAD) em vez do desvio-padrão \(\sigma\), que pode ser escalonado por 1,483 para comparabilidade.190

  • \(Qn\) e \(Sn\) como estimadores alternativos de dispersão robusta.190

  • Média e variância Winsorizadas como opções intermediárias, reduzindo a influência dos outliers.190


16.11.3 Por que utilizar parâmetros robustos?

  • Parâmetros robustos garantem maior confiabilidade quando os dados não seguem a normalidade ou apresentam contaminação por outliers.190

  • Parâmetros robustos permitem análises mais estáveis em estudos exploratórios, evitando decisões equivocadas sobre variabilidade ou tendência central.190



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

8.
Kwak SG, Kim JH. Central limit theorem: the cornerstone of modern statistics. Korean Journal of Anesthesiology. 2017;70(2):144. doi:10.4097/kjae.2017.70.2.144
55.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
107.
Altman DG, Bland JM. Statistics notes Variables and parameters. BMJ. 1999;318(7199):1667–1667. doi:10.1136/bmj.318.7199.1667
108.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370
109.
Ali Z, Bhaskar Sb. Basic statistical tools in research and data analysis. Indian Journal of Anaesthesia. 2016;60(9):662. doi:10.4103/0019-5049.190623
141.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
168.
S M. Frequency distribution. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(1):54–56. doi:10.4103/0976-500x.77120
169.
Sturges HA. The Choice of a Class Interval. Journal of the American Statistical Association. 1926;21(153):65–66. doi:10.1080/01621459.1926.10502161
170.
SCOTT DW. On optimal and data-based histograms. Biometrika. 1979;66(3):605–610. doi:10.1093/biomet/66.3.605
171.
Freedman D, Diaconis P. On the histogram as a density estimator:L 2 theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 1981;57(4):453–476. doi:10.1007/bf01025868
172.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
173.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
174.
Kay M. ggdist: Visualizations of Distributions and Uncertainty in the Grammar of Graphics. IEEE Transactions on Visualization and Computer Graphics. 2024;30(1):414–424. doi:10.1109/TVCG.2023.3327195
175.
Tang Y, Horikoshi M, Li W. ggfortify: Unified Interface to Visualize Statistical Result of Popular R Packages. Vol 8.; 2016. doi:10.32614/RJ-2016-060
176.
Rochon J, Gondan M, Kieser M. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Medical Research Methodology. 2012;12(1). doi:10.1186/1471-2288-12-81
177.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364–366. doi:10.1136/bmj.315.7104.364
178.
Schmider E, Ziegler M, Danay E, Beyer L, Bühner M. Is It Really Robust? Methodology. 2010;6(4):147–151. doi:10.1027/1614-2241/a000016
179.
Kanji G. 100 Statistical Tests. SAGE Publications Ltd; 2006. doi:10.4135/9781849208499
180.
Curran-Everett D. Explorations in statistics: standard deviations and standard errors. Advances in Physiology Education. 2008;32(3):203–208. doi:10.1152/advan.90123.2008
181.
Altman DG, Bland JM. Statistics Notes: Quartiles, quintiles, centiles, and other quantiles. BMJ. 1994;309(6960):996–996. doi:10.1136/bmj.309.6960.996
182.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659
183.
Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7–11. doi:10.1083/jcb.200611141
184.
S. M. Measures of central tendency: The mean. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(2):140–142. doi:10.4103/0976-500x.81920
185.
S. M. Measures of central tendency: Median and mode. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(3):214–215. doi:10.4103/0976-500x.83300
186.
Manikandan S. Measures of dispersion. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(4):315–316. doi:10.4103/0976-500x.85931
187.
Sahai H, Misra S. Definitions of Sample Variance: Some Teaching Problems to be Overcome. The Statistician. 1992;41(1):55. doi:10.2307/2348636
188.
Leys C, Delacre M, Mora YL, Lakens D, Ley C. How to Classify, Detect, and Manage Univariate and Multivariate Outliers, With Emphasis on Pre-Registration. International Review of Social Psychology. 2019;32(1). doi:10.5334/irsp.289
189.
Rousseeuw PJ, Hubert M. Robust statistics for outlier detection. WIREs Data Mining and Knowledge Discovery. 2011;1(1):73–79. doi:10.1002/widm.2
190.
Daszykowski M, Kaczmarek K, Vander Heyden Y, Walczak B. Robust statistics in data analysis A review. Chemometrics and Intelligent Laboratory Systems. 2007;85(2):203–219. doi:10.1016/j.chemolab.2006.06.016