Capítulo 16 Distribuições e parâmetros


16.1 Fontes de variabilidade


16.1.1 O que são fontes de variabilidade?

  • A variabilidade observada nos dados não surge de uma única causa, mas de diferentes processos que atuam simultaneamente durante a geração e a coleta dos dados.178

  • Compreender de onde vem a variação é essencial para interpretar distribuições, construir modelos e realizar inferência.178

  • A distribuição dos dados pode ser entendida como uma descrição da variabilidade resultante desses processos.178


16.1.2 Quais são as principais fontes de variabilidade?

  • Variabilidade real: resulta de diferenças reais entre indivíduos ou unidades observadas.178

  • Variabilidade de medição: decorre de limitações ou imperfeições nos instrumentos e métodos de medição. Mesmo quando o objeto medido não muda, repetidas medições podem produzir valores ligeiramente diferentes.178

  • Variabilidade amostral: surge porque diferentes amostras extraídas da mesma população podem produzir resultados distintos.178

  • Variabilidade experimental ou ambiental: relaciona-se a mudanças nas condições sob as quais os dados são obtidos, como temperatura, tempo, operador ou local de coleta.178

  • Variabilidade aleatória: refere-se à componente imprevisível associada ao acaso em processos naturais ou experimentais.178


16.1.3 Por que identificar as fontes de variabilidade é importante?

  • Permite distinguir entre variação real do fenômeno e ruído introduzido pelo processo de medição ou amostragem.178

  • Ajuda a escolher modelos estatísticos adequados para representar os dados.178

  • Orienta o desenho de experimentos e estratégias de amostragem para reduzir fontes indesejadas de variação.178

  • Fundamenta a interpretação das distribuições empíricas e teóricas utilizadas na inferência estatística.178


16.2 Distribuições de probabilidade


16.2.1 O que são distribuições de probabilidade?

  • A distribuição é o padrão de variação em uma variável ou conjunto de variáveis representado pelos dados.178

  • Uma distribuição de probabilidade é uma função que descreve os valores possíveis ou o intervalo de valores de uma variável (eixo horizontal) e a probabilidade ou frequência relativa com que os valores ocorrem (eixo vertical).121


16.2.2 Como representar distribuições de probabilidade?

  • Tabelas de frequência, polígonos de frequência, gráficos de barras, histogramas e boxplots são formas de representar distribuições de probabilidade.179

  • Tabelas de frequência mostram as categorias de medição e o número de observações em cada uma. É necessário conhecer o intervalo de valores (mínimo e máximo), que é dividido em intervalos arbitrários chamados “intervalos de classe”.179

  • Se houver muitos intervalos, não haverá redução significativa na quantidade de dados, e pequenas variações serão perceptíveis. Se houver poucos intervalos, a forma da distribuição não poderá ser adequadamente determinada.179

  • A quantidade de intervalos pode ser determinada pelo método de Sturges, que é dado pela fórmula \(k = 1 + 3.322 \times \log_{10}(n)\), onde \(k\) é o número de intervalos e \(n\) é o número de observações.180

  • A quantidade de intervalos pode ser determinada pelo método de Scott, que é dado pela fórmula \(h = 3.5 \times \text{sd}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{sd}(x)\) é o desvio-padrão e \(n\) é o número de observações.181

  • A quantidade de intervalos pode ser determinada pelo método de Freedman-Diaconis, que é dado pela fórmula \(h = 2 \times \text{IQR}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{IQR}(x)\) é o intervalo interquartil e \(n\) é o número de observações.182


Histogramas com diferentes métodos de binning.: Sturges, Scott e Freedman-Diaconis.

Figura 16.1: Histogramas com diferentes métodos de binning.: Sturges, Scott e Freedman-Diaconis.


  • A largura das classes pode ser determinada dividindo o intervalo total de observações pelo número de classes. Recomenda-se larguras iguais, mas larguras desiguais podem ser usadas quando existirem grandes lacunas nos dados ou em contextos específicos. Os intervalos devem ser mutuamente exclusivos e não sobrepostos, evitando intervalos abertos (ex.: <5, >10).179

  • Polígonos de frequência são gráficos de linhas que conectam os pontos médios de cada barra do histograma. Eles são úteis para comparar duas ou mais distribuições de frequência.179

  • Gráficos de barra verticais ou horizontais representam a distribuição de frequências de uma variável categórica. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do gráfico de barras é igual ao número total de observações.179

  • Histogramas representam a distribuição de frequências de uma variável contínua. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do histograma é igual ao número total de observações.179

  • Boxplots representam a distribuição de frequências de uma variável contínua. A linha central divide os dados em duas partes iguais (mediana ou Q2). A caixa inferior representa o primeiro quartil (Q1) e a caixa superior representa o terceiro quartil (Q3). As linhas geralmente se estendem até 1,5 vezes o intervalo interquartil (IQR). Observações além desse limite são representadas como valores atípicos (representados por pontos individuais).179




16.2.3 Quais características definem uma distribuição?

  • Uma distribuição pode ser definida por modelos matemáticos e caracterizada por parâmetros de tendência central, dispersão, simetria e curtose.REF?


16.3 Tipos de distribuições


16.3.1 O que são distribuições empíricas?

  • Distribuições empíricas são obtidas diretamente a partir dos dados observados, sendo geralmente representadas por histogramas, tabelas de frequência ou funções de distribuição empírica.178


16.3.2 O que são distribuições teóricas?

  • Distribuições teóricas correspondem a modelos matemáticos utilizados para representar o processo gerador dos dados, como as distribuições normal, binomial ou Poisson.178

  • A comparação entre distribuições empíricas e modelos teóricos é um passo fundamental na modelagem estatística e na inferência.178


16.3.3 O que são distribuições amostrais?

  • Distribuição amostral descreve a distribuição de uma estatística (como a média ou a proporção) quando calculada em múltiplas amostras da mesma população.178

  • As distribuições amostrais permitem quantificar a variabilidade associada às estimativas e constituem a base teórica para intervalos de confiança e testes de hipótese.178


16.3.4 Por que todas as distribuições são condicionais?

  • Uma distribuição descreve a variabilidade de uma variável sob determinadas condições ou suposições.178

  • Portanto, toda distribuição deve ser entendida como condicional ao processo gerador dos dados, ao modelo adotado ou às informações disponíveis.178

  • Na inferência estatística, muitas distribuições são condicionais aos parâmetros desconhecidos do modelo, como ocorre na distribuição amostral da média ou na distribuição binomial condicionada à probabilidade de sucesso.178


16.4 Distribuições univariadas


16.4.1 Quais são as distribuições mais comuns?

  • Distribuções discretas:

    • Bernoulli: resultado de um único teste com dois possíveis desfechos (sucesso ou fracasso).REF?

    • Binomial: número de sucessos em n tentativas independentes.REF?

    • Geométrica: número de tentativas necessárias até a ocorrência do primeiro sucesso.REF?

    • Binomial negativa: número de testes até o k-ésimo sucesso.REF?

    • Hipergeométrica: número de indivíduos na amostra tomados sem reposição.REF?

    • Poisson: número de eventos em um intervalo de tempo fixo.REF?

    • Uniforme: resultados (finitos) que são igualmente prováveis.REF?

    • Multinomial: resultados de múltiplos testes com mais de dois possíveis desfechos.REF?


Distribuições discretas e suas funções de probabilidade.

Figura 16.2: Distribuições discretas e suas funções de probabilidade.


  • Distribuições contínuas:


Distribuições contínuas básicas e suas funções de densidade.

Figura 16.3: Distribuições contínuas básicas e suas funções de densidade.


Distribuições contínuas aproximadas e suas funções de densidade.

Figura 16.4: Distribuições contínuas aproximadas e suas funções de densidade.


Distribuições contínuas aproximadas e suas funções de densidade.

Figura 16.5: Distribuições contínuas aproximadas e suas funções de densidade.


Distribuições contínuas para inferência e suas funções de densidade.

Figura 16.6: Distribuições contínuas para inferência e suas funções de densidade.


Distribuições contínuas para dados específicos e suas funções de densidade.

Figura 16.7: Distribuições contínuas para dados específicos e suas funções de densidade.


Distribuições contínuas para probabilidades e proporções e suas funções de densidade.

Figura 16.8: Distribuições contínuas para probabilidades e proporções e suas funções de densidade.


Distribuições contínuas com caudas pesadas e suas funções de densidade.

Figura 16.9: Distribuições contínuas com caudas pesadas e suas funções de densidade.


16.4.2 Quais são as funções de uma distribuição?

  • Função de massa de probabilidade (probability mass function, pmf) para variáveis discretas.REF?

  • Função de densidade de probabilidade (probability density function, pdf) para variáveis contínuas.REF?

  • Função de distribuição acumulada (cumulative distribution function, cdf).REF?

  • Função quantílica (quantile function).REF?

  • Função geradora de números aleatórios.REF?





16.4.3 O que é a distribuição normal?

  • A distribuição normal (ou gaussiana) é uma distribuição com desvios simétricos positivos e negativos em torno de um valor central.122

  • A relação entre média e desvio-padrão permite interpretar a dispersão dos dados em distribuições aproximadamente normais. A regra empírica estabelece que cerca de 68,2% dos valores situam-se no intervalo \(\bar{x} \pm \sigma\), cerca de 95,4% no intervalo \(\bar{x} \pm 2\sigma\).122,187

  • O desvio-padrão fornece uma medida direta da variabilidade dos dados em torno da média, permitindo avaliar quão dispersos ou concentrados estão os valores observados em uma amostra.187


Distribuições e funções de probabilidade.

Figura 16.10: Distribuições e funções de probabilidade.


16.4.4 Que métodos podem ser utilizados para identificar a normalidade da distribuição?

  • Histogramas.121

  • Gráficos Q-Q.121

  • Testes de hipótese nula:121

    • Kolmogorov-Smirnov

    • Shapiro-Wilk

    • Anderson-Darling


Distribuição normal e métodos de visualização e testes de normalidade.

Figura 16.11: Distribuição normal e métodos de visualização e testes de normalidade.


16.4.5 O que são distribuições não-normais?


16.5 Distribuições multivariadas


16.5.1 O que são distribuições multivariadas?

  • Distribuições multivariadas descrevem a probabilidade conjunta de duas ou mais variáveis aleatórias.REF?

  • Exemplos de distribuições multivariadas incluem a distribuição normal multivariada, a distribuição t multivariada, a distribuição binomial multinomial e a distribuição de Dirichlet.REF?


Distribuição normal bivariada e amostra simulada com histogramas marginais.

Figura 16.12: Distribuição normal bivariada e amostra simulada com histogramas marginais.


16.6 Parâmetros


16.6.1 O que são parâmetros?

  • Parâmetros são informações que definem um modelo teórico, como propriedades de uma coleção de indivíduos.120

  • Parâmetros definem características de uma população inteira, tipicamente não observados por ser inviável ter acesso a todos os indivíduos que constituem tal população.121



16.6.2 O que é uma análise paramétrica?

  • Testes paramétricos possuem suposições sobre as características e/ou parâmetros da distribuição dos dados na população.121

  • Testes paramétricos assumem que: a variável é quantitativa numérica (contínua); os dados foram amostrados de uma população com distribuição normal; a variância da(S) amostra(s) é igual à da população; as amostras foram selecionadas de modo aleatório na população; os valores de cada amostra são independentes entre si.121,122

  • Testes paramétricos são baseados na suposição de que os dados amostrais provêm de uma população com parâmetros fixos determinando sua distribuição de probabilidade.10


16.6.3 O que é uma análise não paramétrica?

  • Testes não-paramétricos fazem poucas suposições, ou menos rigorosas, sobre as características e/ou parâmetros da distribuição dos dados na população.121,122

  • Testes não-paramétricos são úteis quando as suposições de normalidade não podem ser sustentadas.122


16.6.4 Por que as análises paramétricas são preferidas?

  • Em geral, testes paramétricos são mais robustos (isto é, possuem menores erros tipo I e II) que seus testes não-paramétricos correspondentes.121,188,189

  • Testes não-paramétricos apresentam menor poder estatístico (maior erro tipo II) comparados aos testes paramétricos correspondentes.122


16.6.5 Que parâmetros podem ser estimados?

  • Parâmetros de tendência central.122,190

  • Parâmetros de dispersão.122,190,191

  • Parâmetros de proporção.122,190,192,192

  • Parâmetros de distribuição.190

  • Parâmetros de extremos.122



16.7 Tendência central


16.7.1 Que parâmetros de tendência central podem ser estimados?


\[\begin{equation} \tag{16.1} \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \end{equation}\]


\[\begin{equation} \tag{16.2} \bar{x}_p = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} \end{equation}\]


\[\begin{equation} \tag{16.3} \bar{x}_g = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}} \end{equation}\]


\[\begin{equation} \tag{16.4} \bar{x}_h = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}} \end{equation}\]



\[\begin{equation} \tag{16.5} \tilde{x} = \begin{cases} x_{\left(\frac{n+1}{2}\right)}, & \text{se } n \text{ é ímpar} \\ \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}, & \text{se } n \text{ é par} \end{cases} \end{equation}\]


  • Moda (16.6), onde \(f(x)\) é a função de frequência absoluta ou relativa e \(x_1, x_2, \ldots, x_n\) são os valores observados.122,190,194


\[\begin{equation} \tag{16.6} \operatorname{Mo} \in \arg\max_{x \in \{x_1,\ldots,x_n\}} f(x) \end{equation}\]


  • Moda (dados agrupados) (16.7), onde: \(L\) = limite inferior da classe modal; \(f_1\) = frequência da classe modal; \(f_0\) = frequência da classe anterior à classe modal; \(f_2\) = frequência da classe posterior à classe modal; \(h\) = amplitude da classe modal.


\[\begin{equation} \tag{16.7} \operatorname{Mo} = L + \frac{(f_1 - f_0)}{(f_1 - f_0) + (f_1 - f_2)} \cdot h \end{equation}\]


  • A posição relativa das medidas de tendência central (média, mediana e moda) depende da forma da distribuição.194

  • Em uma distribuição normal, as três medidas são idênticas.194

  • A média é sempre puxada para os valores extremos, por isso é deslocada para a cauda em distribuições assimétricas.194

  • A mediana fica entre a média e a moda em distribuições assimétricas.194

  • A moda é o valor mais frequente e, portanto, se localiza no pico da distribuição assimétrica.194

  • Uma distribuição pode uma moda (unimodal), duas modas (bimodal) ou três ou mais modas (multimodal), indicando a presença de mais de um valor com alta frequência.194


Distribuições unimodal, bimodal e multimodal.

Figura 16.13: Distribuições unimodal, bimodal e multimodal.


Parâmetros de tendência central em distribuições assimétricas e normais.

Figura 16.14: Parâmetros de tendência central em distribuições assimétricas e normais.



16.7.2 Como escolher o parâmetro de tendência central?

  • A mediana é preferida à média quando existem poucos valores extremos na distribuição, alguns valores são indeterminados, ou há uma distribuição aberta, ou os dados são medidos em uma escala ordinal.194

  • A moda é preferida quando os dados são medidos em uma escala nominal.194

  • A média geométrica é preferida quando os dados são medidos em uma escala logarítmica.194


16.8 Dispersão


16.8.1 Que parâmetros de dispersão podem ser estimados?


\[\begin{equation} \tag{16.8} s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} \end{equation}\]



\[\begin{equation} \tag{16.9} s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} \end{equation}\]



\[\begin{equation} \tag{16.10} A = x_{\max} - x_{\min} \end{equation}\]



\[\begin{equation} \tag{16.11} IQR = Q_3 - Q_1 \end{equation}\]


Parâmetros de dispersão em distribuições normais.

Figura 16.15: Parâmetros de dispersão em distribuições normais.




16.8.2 Como escolher o parâmetro de dispersão?

  • Desvio-padrão \(\sigma\) é apropriado quando a média é utilizada como parâmetro de tendência central em distribuições simétricas.196

  • Amplitude ou intervalo interquartil são apropriadas para variáveis ordinais ou distribuições assimétricas.196


16.8.3 O que é a correção de Bessel para variância?

  • Correção de Bessel é um ajuste feito no denominador da fórmula de variância da amostra — ou seja, o número de graus de liberdade — para evitar que a variância amostral seja menor do que a variância populacional.197

  • A correção de Bessel é feita subtraindo-se 1 do número de observações da amostra, ou seja, \(n - 1\) (16.12).197


\[\begin{equation} \tag{16.12} s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} \end{equation}\]


16.8.4 Por que a correção de Bessel para variância é importante?

  • A correção de Bessel é importante porque a variância amostral tende a ser menor do que a variância populacional, especialmente em amostras pequenas.197

  • A correção de Bessel ajuda a garantir que a variância amostral seja uma estimativa mais precisa da variância populacional, o que é fundamental para a validade dos testes estatísticos e das inferências feitas a partir da amostra.197


16.9 Proporção


16.9.1 Que parâmetros de proporção podem ser estimados?


\[\begin{equation} \tag{16.13} f_i = n_i \end{equation}\]



\[\begin{equation} \tag{16.14} fr_i = \frac{n_i}{N} \end{equation}\]


  • Percentil (16.15), onde \(k\) é o percentil desejado (0 a 100) e \(n\) é o número total de observações na amostra.122,190,192


\[\begin{equation} \tag{16.15} P_k = x_{\left(\frac{k}{100} \cdot (n+1)\right)} \end{equation}\]


  • Quantil: é o ponto de corte que define a divisão da amostra em grupos de tamanhos iguais. Portanto, não se referem aos grupos em si, mas aos valores que os dividem:192

    • Tercil: 2 valores que dividem a amostra em 3 grupos de tamanhos iguais.192

    • Quartil: 3 valores que dividem a amostra em 4 grupos de tamanhos iguais.192

    • Quintil: 4 valores que dividem a amostra em 5 grupos de tamanhos iguais.192

    • Decil: 9 valores que dividem a amostra em 10 grupos de tamanhos iguais.192





16.10 Extremos


16.10.1 Que parâmetros extremos podem ser estimados?


\[\begin{equation} \tag{16.16} \text{Mínimo} = \min(x_1, x_2, \ldots, x_n) \end{equation}\]



\[\begin{equation} \tag{16.17} \text{Máximo} = \max(x_1, x_2, \ldots, x_n) \end{equation}\]


Regressão linear com valores extremos.

Figura 16.16: Regressão linear com valores extremos.


16.11 Erro


16.11.1 Que parâmetros de erro podem ser estimados?


\[\begin{equation} \tag{16.18} ME = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \end{equation}\]


  • Erro-padrão da média (EPM) (16.19) (\(sigma\) conhecido) e (16.20) (\(sigma\) desconhecido).191,195


\[\begin{equation} \tag{16.19} EPM = \frac{\sigma}{\sqrt{n}} \end{equation}\]


\[\begin{equation} \tag{16.20} \widehat{EPM} = \frac{s}{\sqrt{n}} \end{equation}\]


16.12 Distribuição


16.12.1 Que parâmetros de distribuição podem ser estimados?


\[\begin{equation} \tag{16.21} \gamma_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{\left(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2\right)^{3/2}} \end{equation}\]



\[\begin{equation} \tag{16.22} \gamma_2 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^4}{\left(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2\right)^{2}} \end{equation}\]



\[\begin{equation} \tag{16.23} \kappa = \gamma_2 - 3 \end{equation}\]


Parâmetros de distribuição: Assimetria e Curtose.

Figura 16.17: Parâmetros de distribuição: Assimetria e Curtose.


Parâmetros de distribuição: Curtose em distribuições simétricas (normal vs. uniforme).

Figura 16.18: Parâmetros de distribuição: Curtose em distribuições simétricas (normal vs. uniforme).


16.13 Parâmetros robustos


16.13.1 O que são parâmetros robustos?

  • Parâmetros robustos são medidas de posição e dispersão que permanecem estáveis mesmo na presença de valores discrepantes.198


16.13.2 Por que utilizar parâmetros robustos?

  • Parâmetros robustos garantem maior confiabilidade quando os dados não seguem a normalidade ou apresentam contaminação por outliers.198

  • Parâmetros robustos permitem análises mais estáveis em estudos exploratórios, evitando decisões equivocadas sobre variabilidade ou tendência central.198


16.13.3 O que é ponto de quebra?

  • É a menor proporção de contaminação que pode levar o estimador a resultados arbitrariamente errados; quanto maior, mais robusto.199


16.13.4 Que parâmetros robustos podem ser estimados?

  • Média e variância Winsorizadas como opções intermediárias, reduzindo a influência dos outliers.198

  • Mediana, com \(~50%\) de ponto de quebra e função influência limitada.198,199

  • Median Absolute Deviation (MAD) (16.24), com correção 1,483 para normalidade, com \(~50%\) de ponto de quebra.198,199


\[\begin{equation} \tag{16.24} MAD = 1.483 \cdot \text{median}(|x_i - \text{median}(x)|) \end{equation}\]


  • Primeiro quartil das diferenças pareadas (\(Qn\)) (16.25), com \(~50%\) de ponto de quebra.198,199


\[\begin{equation} \tag{16.25} Qn = 2.2219 \cdot \text{first quartile}(|x_i - x_j|; i < j) \end{equation}\]


  • O intervalo interquartil (\(IQR\)) (16.11) é robusto, com ponto de quebra \(~25%\), sendo simples de interpretar e útil em boxplots.199



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

10.
Kwak SG, Kim JH. Central limit theorem: the cornerstone of modern statistics. Korean Journal of Anesthesiology. 2017;70(2):144. doi:10.4097/kjae.2017.70.2.144
62.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
120.
Altman DG, Bland JM. Statistics notes Variables and parameters. BMJ. 1999;318(7199):1667–1667. doi:10.1136/bmj.318.7199.1667
121.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370
122.
Ali Z, Bhaskar Sb. Basic statistical tools in research and data analysis. Indian Journal of Anaesthesia. 2016;60(9):662. doi:10.4103/0019-5049.190623
144.
R Core Team. R: A Language and Environment for Statistical Computing.; 2025. https://www.R-project.org/.
178.
WILD C. THE CONCEPT OF DISTRIBUTION. STATISTICS EDUCATION RESEARCH JOURNAL. 2006;5(2):10–26. doi:10.52041/serj.v5i2.497
179.
S M. Frequency distribution. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(1):54–56. doi:10.4103/0976-500x.77120
180.
Sturges HA. The Choice of a Class Interval. Journal of the American Statistical Association. 1926;21(153):65–66. doi:10.1080/01621459.1926.10502161
181.
SCOTT DW. On optimal and data-based histograms. Biometrika. 1979;66(3):605–610. doi:10.1093/biomet/66.3.605
182.
Freedman D, Diaconis P. On the histogram as a density estimator:L 2 theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 1981;57(4):453–476. doi:10.1007/bf01025868
183.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
184.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
185.
Kay M. ggdist: Visualizations of Distributions and Uncertainty in the Grammar of Graphics. IEEE Transactions on Visualization and Computer Graphics. 2024;30(1):414–424. doi:10.1109/TVCG.2023.3327195
186.
Tang Y, Horikoshi M, Li W. ggfortify: Unified Interface to Visualize Statistical Result of Popular R Packages. Vol 8.; 2016. doi:10.32614/RJ-2016-060
187.
Darling HS. Do you have a standard way of interpreting the standard deviation? A narrative review. Cancer Research, Statistics, and Treatment. 2022;5(4):728–733. doi:10.4103/crst.crst_284_22
188.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364–366. doi:10.1136/bmj.315.7104.364
189.
Schmider E, Ziegler M, Danay E, Beyer L, Bühner M. Is It Really Robust? Methodology. 2010;6(4):147–151. doi:10.1027/1614-2241/a000016
190.
Kanji G. 100 Statistical Tests. SAGE Publications Ltd; 2006. doi:10.4135/9781849208499
191.
Curran-Everett D. Explorations in statistics: standard deviations and standard errors. Advances in Physiology Education. 2008;32(3):203–208. doi:10.1152/advan.90123.2008
192.
Altman DG, Bland JM. Statistics Notes: Quartiles, quintiles, centiles, and other quantiles. BMJ. 1994;309(6960):996–996. doi:10.1136/bmj.309.6960.996
193.
S. M. Measures of central tendency: The mean. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(2):140–142. doi:10.4103/0976-500x.81920
194.
S. M. Measures of central tendency: Median and mode. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(3):214–215. doi:10.4103/0976-500x.83300
195.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659
196.
Manikandan S. Measures of dispersion. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(4):315–316. doi:10.4103/0976-500x.85931
197.
Sahai H, Misra S. Definitions of Sample Variance: Some Teaching Problems to be Overcome. The Statistician. 1992;41(1):55. doi:10.2307/2348636
198.
Daszykowski M, Kaczmarek K, Vander Heyden Y, Walczak B. Robust statistics in data analysis A review. Chemometrics and Intelligent Laboratory Systems. 2007;85(2):203–219. doi:10.1016/j.chemolab.2006.06.016
199.
Rousseeuw PJ, Hubert M. Robust statistics for outlier detection. WIREs Data Mining and Knowledge Discovery. 2011;1(1):73–79. doi:10.1002/widm.2