Capítulo 21 Distribuições e parâmetros

21.1 Distribuições de probabilidade

21.1.1 O que são distribuições de probabilidade?

Uma distribuição de probabilidade é uma função que descreve os valores possíveis ou o intervalo de valores de uma variável (eixo horizontal) e a frequência com que cada valor é observado (eixo vertical).¹⁰⁹

21.1.2 Como representar distribuições de probabilidade?

Tabelas de frequência, polígonos de frequência, gráficos de barras, histogramas e boxplots são formas de representar distribuições de probabilidade.²⁰⁹
Tabelas de frequência mostram as categorias de medição e o número de observações em cada uma. É necessário conhecer o intervalo de valores (mínimo e máximo), que é dividido em intervalos arbitrários chamados “intervalos de classe”.²⁰⁹
Se houver muitos intervalos, não haverá redução significativa na quantidade de dados, e pequenas variações serão perceptíveis. Se houver poucos intervalos, a forma da distribuição não poderá ser adequadamente determinada.²⁰⁹
A quantidade de intervalos pode ser determinada pelo método de Sturges, que é dado pela fórmula \(k = 1 + 3.322 \times \log_{10}(n)\), onde \(k\) é o número de intervalos e \(n\) é o número de observações.²¹⁰
A quantidade de intervalos pode ser determinada pelo método de Scott, que é dado pela fórmula \(h = 3.5 \times \text{sd}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{sd}(x)\) é o desvio padrão e \(n\) é o número de observações.²¹¹
A quantidade de intervalos pode ser determinada pelo método de Freedman-Diaconis, que é dado pela fórmula \(h = 2 \times \text{IQR}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{IQR}(x)\) é o intervalo interquartil e \(n\) é o número de observações.²¹²
A largura das classes pode ser determinada dividindo o intervalo total de observações pelo número de classes. Recomenda-se larguras iguais, mas larguras desiguais podem ser usadas quando existirem grandes lacunas nos dados ou em contextos específicos. Os intervalos devem ser mutuamente exclusivos e não sobrepostos, evitando intervalos abertos (ex.: <5, >10).²⁰⁹
Polígonos de frequência são gráficos de linhas que conectam os pontos médios de cada barra do histograma. Eles são úteis para comparar duas ou mais distribuições de frequência.²⁰⁹
Gráficos de barra verticais ou horizontais representam a distribuição de frequências de uma variável categórica. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do gráfico de barras é igual ao número total de observações.²⁰⁹
Histogramas representam a distribuição de frequências de uma variável contínua. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do histograma é igual ao número total de observações.²⁰⁹
Boxplots representam a distribuição de frequências de uma variável contínua. A linha central divide os dados em duas partes iguais (mediana ou Q2). A caixa inferior representa o primeiro quartil (Q1) e a caixa superior representa o terceiro quartil (Q3). A linha inferior é o mínimo e a linha superior é o máximo. Os valores atípicos são representados por pontos individuais.²⁰⁹

O pacote grDevices²⁰⁷ fornece a função nclass para determinar a quantidade de classes de um histograma com os métodos de Sturge²¹⁰, Scott²¹¹ ou Freedman-Diaconis²¹².

O pacote ggplot2¹⁸¹ fornece a função geom_freqpoly para criar histogramas.

21.1.3 Quais características definem uma distribuição?

Uma distribuição pode ser definida por modelos matemáticos e caracterizada por parâmetros de tendência central, dispersão, simetria e curtose.

21.1.4 Quais são as distribuições mais comuns?

Distribuções discretas:
- Bernoulli: resultado de um único teste com dois possíveis desfechos (sucesso ou fracasso).^REF?
- Binomial: número de sucessos em k tentativas.^REF?
- Geométrica: número de testes até o 1o sucesso.^REF?
- Binomial negativa: número de testes até o k-ésimo sucesso.^REF?
- Hipergeométrica: número de indivíduos na amostra tomados sem reposição.^REF?
- Poisson: número de eventos em um intervalo de tempo fixo.^REF?
- Uniforme: resultados (finitos) que são igualmente prováveis.^REF?
- Multinomial: resultados de múltiplos testes com mais de dois possíveis desfechos.^REF?

Figura 21.1: Distribuições discretas e suas funções de probabilidade.

Distribuições contínuas:
- Uniforme: .^REF?
- Exponencial: .^REF?
- Normal: .^REF?
- Aproximação binomial: .^REF?
- Aproximação Poisson: .^REF?
- t-Student: .^REF?
- Qui-quadrado: .^REF?
- Weibull: .^REF?
- Gama: .^REF?
- Log-normal: .^REF?
- Beta: .^REF?
- Logística: .^REF?
- Pareto.^REF?

Figura 21.2: Distribuições contínuas básicas e suas funções de densidade.

Figura 21.3: Distribuições contínuas aproximadas e suas funções de densidade.

Figura 21.4: Distribuições contínuas aproximadas e suas funções de densidade.

Figura 21.5: Distribuições contínuas para inferência e suas funções de densidade.

Figura 21.6: Distribuições contínuas para dados específicos e suas funções de densidade.

Figura 21.7: Distribuições contínuas para probabilidades e proporções e suas funções de densidade.

Figura 21.8: Distribuições contínuas com caudas pesadas e suas funções de densidade.

21.1.5 Quais são as funções de uma distribuição?

Função de massa de probabilidade (probability mass function, pmf).^REF?
Função de distribuição cumulativa (cumulative distribution function, cdf).^REF?
Função quantílicas (quantile function, qf).^REF?
Função geradora de números aleatórios (random function, rf).^REF?

O pacote stats¹⁴² fornece funções de distribuição de probabilidade (p), funções de densidade (d), funções quantílicas (q) e funções geradores de números aleatórios (r) para as distribuições normal, Student t, binomial, qui-quadrado, uniforme, dentre outras.

O pacote ggdist²¹³ fornece a função geom_slabinterval para criar gráficos de distribuição de probabilidade (p) e funções de densidade (d) as distribuições.

O pacote ggfortify²¹⁴ fornece a função ggdistribution para criar gráficos de distribuição de probabilidade (p), funções de densidade (d), funções quantílicas (q) e funções geradores de números aleatórios (r) para as distribuições.

21.1.6 O que é a distribuição normal?

A distribuição normal (ou gaussiana) é uma distribuição com desvios simétricos positivos e negativos em torno de um valor central.¹¹⁰
Em uma distribuição normal, o intervalo de 1 desvio-padrão (±1DP) inclui cerca de 68% dos dados; de 2 desvios-padrão (±2DP) cerca de 95% dos dados; e no intervalo de 3 desvios-padrão (±3DP) cerca de 99% dos dados.¹¹⁰

Figura 21.9: Distribuições e funções de probabilidade.

21.1.7 Que métodos podem ser utilizados para identificar a normalidade da distribuição?

Histogramas.¹⁰⁹
Gráficos Q-Q.¹⁰⁹
Testes de hipótese nula:¹⁰⁹
- Kolmogorov-Smirnov
- Shapiro-Wilk
- Anderson-Darling

Figura 21.10: Distribuição normal e métodos de visualização e testes de normalidade.

21.1.8 O que são distribuições não-normais?

.^REF?

21.2 Parâmetros

21.2.1 O que são parâmetros?

Parâmetros são informações que definem um modelo teórico, como propriedades de uma coleção de indivíduos.¹⁰⁸
Parâmetros definem características de uma população inteira, tipicamente não observados por ser inviável ter acesso a todos os indivíduos que constituem tal população.¹⁰⁹

O pacote base⁹⁷ fornece a função summary para calcular diversos parâmetros descritivos.

21.2.2 O que é uma análise paramétrica?

Testes paramétricos possuem suposições sobre as características e/ou parâmetros da distribuição dos dados na população.¹⁰⁹
Testes paramétricos assumem que: a variável é quantitativa numérica (contínua); os dados foram amostrados de uma população com distribuição normal; a variância da(S) amostra(s) é igual à da população; as amostras foram selecionadas de modo aleatório na população; os valores de cada amostra são independentes entre si.^109,110
Testes paramétricos são baseados na suposição de que os dados amostrais provêm de uma população com parâmetros fixos determinando sua distribuição de probabilidade.⁸

21.2.3 O que é uma análise não paramétrica?

Testes não-paramétricos fazem poucas suposições, ou menos rigorosas, sobre as características e/ou parâmetros da distribuição dos dados na população.^109,110
Testes não-paramétricos são úteis quando as suposições de normalidade não podem ser sustentadas.¹¹⁰

21.2.4 Devemos testar as suposições de normalidade?

Testes preliminares de normalidade não são necessários para a maioria dos testes paramétricos de comparação, pois eles são robustos contra desvios moderados da normalidade. Normalidade da distribuição deve ser estabelecida para a população.²¹⁵

21.2.5 Por que as análises paramétricas são preferidas?

Em geral, testes paramétricos são mais robustos (isto é, possuem menores erros tipo I e II) que seus testes não-paramétricos correspondentes.^109,197,216
Testes não-paramétricos apresentam menor poder estatístico (maior erro tipo II) comparados aos testes paramétricos correspondentes.¹¹⁰

21.2.6 Que parâmetros podem ser estimados?

Parâmetros de tendência central.^110,217
Parâmetros de dispersão.^110,217,218
Parâmetros de proporção.^{110,217,219,219}
Parâmetros de distribuição.²¹⁷
Parâmetros de extremos.¹¹⁰

O pacote base⁹⁷ fornece a função summary para calcular diversos parâmetros descritivos.

21.3 Tendência central

21.3.1 Que parâmetros de tendência central podem ser estimados?

Média aritmética, ponderada, geométrica ou harmônica.^110,217,220
Mediana.^110,217,221
Moda.^110,217,221
A posição relativa das medidas de tendência central (média, mediana e moda) depende da forma da distribuição.²²¹
Em uma distribuição normal, as três medidas são idênticas.²²¹
A média é sempre puxada para os valores extremos, por isso é deslocada para a cauda em distribuições assimétricas.²²¹
A mediana fica entre a média e a moda em distribuições assimétricas.²²¹
A moda é o valor mais frequente e, portanto, se localiza no pico da distribuição assimétrica.²²¹
Uma distribuição pode uma moda (unimodal), duas modas (bimodal) ou três ou mais modas (multimodal), indicando a presença de mais de um valor com alta frequência.²²¹

Figura 21.11: Distribuições unimodal, bimodal e multimodal.

Figura 21.12: Parâmetros de tendência central em distribuições assimétricas e normais.

O pacote base⁹⁷ fornece a função summary para calcular diversos parâmetros descritivos.

21.3.2 Como escolher o parâmetro de tendência central?

A mediana é preferida à média quando existem poucos valores extremos na distribuição, alguns valores são indeterminados, ou há uma distribuição aberta, ou os dados são medidos em uma escala ordinal.²²¹
A moda é preferida quando os dados são medidos em uma escala nominal.²²¹
A média geométrica é preferida quando os dados são medidos em uma escala logarítmica.²²¹

21.4 Dispersão

21.4.1 Que parâmetros de dispersão podem ser estimados?

Variância.^110,217
Desvio-padrão: Informam sobre a dispersão da população e são, portanto, úteis como preditores da variação em novas amostras.^204,218,222
Erro-padrão: Refletem a incerteza na média e sua dependência do tamanho da amostra.^204,218
Amplitude.^110,217,222
Intervalo interquartil.^110,217,222
Intervalo de confiança: Captura a média populacional correspondente ao nível de significância \(\alpha\) pré-estabelecido.^{110,203,204,217}

Figura 21.13: Parâmetros de dispersão em distribuições normais.

O pacote base⁹⁷ fornece a função summary para calcular diversos parâmetros descritivos.

O pacote stats¹⁴² fornece a função confint para calcular o intervalo de confiança em um nível de significância \(\alpha\).

21.4.2 Como escolher o parâmetro de dispersão?

Desvio-padrão é apropriado quando a média é utilizada como parâmetro de tendência central em distribuições simétricas.²²²
Amplitue ou intervalo interquartil são apropriadas para variáveis ordinais ou distribuições assimétricas.²²²

21.4.3 O que é a correção de Bessel para variância?

Correção de Bessel é um ajuste feito no denominador da fórmula de variância da amostra — ou seja, o número de graus de liberdade — para evitar que a variância amostral seja menor do que a variância populacional.²²³
A correção de Bessel é feita subtraindo-se 1 do número de observações da amostra, ou seja, \(n - 1\).²²³

21.4.4 Por que a correção de Bessel para variância é importante?

A correção de Bessel é importante porque a variância amostral tende a ser menor do que a variância populacional, especialmente em amostras pequenas.²²³
A correção de Bessel ajuda a garantir que a variância amostral seja uma estimativa mais precisa da variância populacional, o que é fundamental para a validade dos testes estatísticos e das inferências feitas a partir da amostra.²²³

21.5 Proporção

21.5.1 Que parâmetros de proporção podem ser estimados?

Frequência absoluta.^110,217,219
Frequência relativa.^110,217,219
Percentil.^110,217,219
Quantil: é o ponto de corte que define a divisão da amostra em grupos de tamanhos iguais. Portanto, não se referem aos grupos em si, mas aos valores que os dividem:²¹⁹
- Tercil: 2 valores que dividem a amostra em 3 grupos de tamanhos iguais.²¹⁹
- Quartil: 3 valores que dividem a amostra em 4 grupos de tamanhos iguais.²¹⁹
- Quintil: 4 valores que dividem a amostra em 5 grupos de tamanhos iguais.²¹⁹
- Decil: 9 valores que dividem a amostra em 10 grupos de tamanhos iguais.²¹⁹

O pacote base⁹⁷ fornece a função summary para calcular diversos parâmetros descritivos.

O pacote base⁹⁷ fornece a função table para calcular proporções.

O pacote stats⁹⁷ fornece a função quantile para executar análise de percentis.

21.6 Distribuição

21.6.1 Que parâmetros de distribuição podem ser estimados?

Assimetria.²¹⁷
Curtose.²¹⁷

21.7 Extremos

21.7.1 O que são valores extremos?

Valores extremos podem constituir valores legítimos ou ilegítimos de uma distribuição.²²⁴
Valores extremos, quando raros ou desproporcionais, podem se tornar discrepantes ou influentes, afetando as análises estatísticas, sendo recomendado uma análise robusta.^REF?

21.7.2 Que parâmetros extremos podem ser estimados?

Mínimo.¹¹⁰
Máximo.¹¹⁰

Figura 21.14: Regressão linear com valores extremos.

21.8 Robustez em medidas de localização

21.8.1 O que é ponto de quebra (breakdown value)?

É a menor proporção de contaminação que pode levar o estimador a resultados arbitrariamente errados; quanto maior, mais robusto.²²⁵

21.8.2 Por que a média não é robusta?

Porque tem ponto de quebra \(~0%\) e função influência não limitada; um único outlier pode distorcer a média arbitrariamente.²²⁵

21.8.3 Qual a alternativa robusta para localização?

Mediana, com \(~50%\) de ponto de quebra e função influência limitada.²²⁵

21.8.4 Como estimar escala de forma robusta?

Median Absolute Deviation (MAD), equação (??), com correção 1,483 para normalidade, com \(~50%\) de ponto de quebra..²²⁵

\[\begin{equation} \tag{21.1} MAD = 1.483 \cdot \text{median}(|x_i - \text{median}(x)|) \end{equation}\]

Primeiro quartil das diferenças pareadas (\(Qn\)), equação (21.2), com \(~50%\) de ponto de quebra.²²⁵

\[\begin{equation} \tag{21.2} Qn = 2.2219 \cdot \text{first quartile}(|x_i - x_j|; i < j) \end{equation}\]

O intervalo interquartil (\(IQR\)), equação @ref(eq;iqr) é robusto, com ponto de quebra \(~25%\), sendo simples de interpretar e útil em boxplots.²²⁵

\[\begin{equation} \tag{21.3} IQR = Q3 - Q1 \end{equation}\]

21.9 Parâmetros robustos

21.9.1 O que são parâmetros robustos?

Parâmetros robustos são medidas de posição e dispersão que permanecem estáveis mesmo na presença de valores discrepantes.²²⁶

21.9.2 Que parâmetros robustos podem ser estimados?

Mediana em vez da média aritmética, pois é menos sensível a valores extremos.²²⁶
MAD (Median Absolute Deviation) em vez do desvio padrão, que pode ser escalonado por 1.483 para comparabilidade.²²⁶
Qn e Sn como estimadores alternativos de dispersão robusta.²²⁶
Média e variância Winsorizadas como opções intermediárias, reduzindo a influência dos outliers.²²⁶

21.9.3 Por que utilizar parâmetros robustos?

Eles garantem maior confiabilidade quando os dados não seguem a normalidade ou apresentam contaminação por outliers.²²⁶
Permitem análises mais estáveis em estudos exploratórios, evitando decisões equivocadas sobre variabilidade ou tendência central.²²⁶

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

Kwak SG, Kim JH. Central limit theorem: the cornerstone of modern statistics. Korean Journal of Anesthesiology. 2017;70(2):144. doi:10.4097/kjae.2017.70.2.144

97.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.

108.

Altman DG, Bland JM. Statistics notes Variables and parameters. BMJ. 1999;318(7199):1667–1667. doi:10.1136/bmj.318.7199.1667

109.

Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370

110.

Ali Z, Bhaskar Sb. Basic statistical tools in research and data analysis. Indian Journal of Anaesthesia. 2016;60(9):662. doi:10.4103/0019-5049.190623

142.

R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.

181.

Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.

197.

Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364–366. doi:10.1136/bmj.315.7104.364

203.

Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7–11. doi:10.1083/jcb.200611141

204.

Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659

207.

R Core Team. R: A Language and Environment for Statistical Computing.; 2024. https://www.R-project.org/.

209.

S M. Frequency distribution. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(1):54–56. doi:10.4103/0976-500x.77120

210.

Sturges HA. The Choice of a Class Interval. Journal of the American Statistical Association. 1926;21(153):65–66. doi:10.1080/01621459.1926.10502161

211.

SCOTT DW. On optimal and data-based histograms. Biometrika. 1979;66(3):605–610. doi:10.1093/biomet/66.3.605

212.

Freedman D, Diaconis P. On the histogram as a density estimator:L 2 theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 1981;57(4):453–476. doi:10.1007/bf01025868

213.

Kay M. ggdist: Visualizations of Distributions and Uncertainty in the Grammar of Graphics. IEEE Transactions on Visualization and Computer Graphics. 2024;30(1):414–424. doi:10.1109/TVCG.2023.3327195

214.

Tang Y, Horikoshi M, Li W. ggfortify: Unified Interface to Visualize Statistical Result of Popular R Packages. Vol 8.; 2016. doi:10.32614/RJ-2016-060

215.

Rochon J, Gondan M, Kieser M. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Medical Research Methodology. 2012;12(1). doi:10.1186/1471-2288-12-81

216.

Schmider E, Ziegler M, Danay E, Beyer L, Bühner M. Is It Really Robust? Methodology. 2010;6(4):147–151. doi:10.1027/1614-2241/a000016

217.

Kanji G. 100 Statistical Tests. SAGE Publications Ltd; 2006. doi:10.4135/9781849208499

218.

Curran-Everett D. Explorations in statistics: standard deviations and standard errors. Advances in Physiology Education. 2008;32(3):203–208. doi:10.1152/advan.90123.2008

219.

Altman DG, Bland JM. Statistics Notes: Quartiles, quintiles, centiles, and other quantiles. BMJ. 1994;309(6960):996–996. doi:10.1136/bmj.309.6960.996

220.

S. M. Measures of central tendency: The mean. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(2):140–142. doi:10.4103/0976-500x.81920

221.

S. M. Measures of central tendency: Median and mode. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(3):214–215. doi:10.4103/0976-500x.83300

222.

Manikandan S. Measures of dispersion. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(4):315–316. doi:10.4103/0976-500x.85931

223.

Sahai H, Misra S. Definitions of Sample Variance: Some Teaching Problems to be Overcome. The Statistician. 1992;41(1):55. doi:10.2307/2348636

224.

Leys C, Delacre M, Mora YL, Lakens D, Ley C. How to Classify, Detect, and Manage Univariate and Multivariate Outliers, With Emphasis on Pre-Registration. International Review of Social Psychology. 2019;32(1). doi:10.5334/irsp.289

225.

Rousseeuw PJ, Hubert M. Robust statistics for outlier detection. WIREs Data Mining and Knowledge Discovery. 2011;1(1):73–79. doi:10.1002/widm.2

226.

Daszykowski M, Kaczmarek K, Vander Heyden Y, Walczak B. Robust statistics in data analysis A review. Chemometrics and Intelligent Laboratory Systems. 2007;85(2):203–219. doi:10.1016/j.chemolab.2006.06.016