Capítulo 21 Distribuições e parâmetros


21.1 Distribuições de probabilidade


21.1.1 O que são distribuições de probabilidade?

  • Uma distribuição de probabilidade é uma função que descreve os valores possíveis ou o intervalo de valores de uma variável (eixo horizontal) e a frequência com que cada valor é observado (eixo vertical).109


21.1.2 Como representar distribuições de probabilidade?

  • Tabelas de frequência, polígonos de frequência, gráficos de barras, histogramas e boxplots são formas de representar distribuições de probabilidade.209

  • Tabelas de frequência mostram as categorias de medição e o número de observações em cada uma. É necessário conhecer o intervalo de valores (mínimo e máximo), que é dividido em intervalos arbitrários chamados “intervalos de classe”.209

  • Se houver muitos intervalos, não haverá redução significativa na quantidade de dados, e pequenas variações serão perceptíveis. Se houver poucos intervalos, a forma da distribuição não poderá ser adequadamente determinada.209

  • A quantidade de intervalos pode ser determinada pelo método de Sturges, que é dado pela fórmula \(k = 1 + 3.322 \times \log_{10}(n)\), onde \(k\) é o número de intervalos e \(n\) é o número de observações.210

  • A quantidade de intervalos pode ser determinada pelo método de Scott, que é dado pela fórmula \(h = 3.5 \times \text{sd}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{sd}(x)\) é o desvio padrão e \(n\) é o número de observações.211

  • A quantidade de intervalos pode ser determinada pelo método de Freedman-Diaconis, que é dado pela fórmula \(h = 2 \times \text{IQR}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{IQR}(x)\) é o intervalo interquartil e \(n\) é o número de observações.212

  • A largura das classes pode ser determinada dividindo o intervalo total de observações pelo número de classes. Recomenda-se larguras iguais, mas larguras desiguais podem ser usadas quando existirem grandes lacunas nos dados ou em contextos específicos. Os intervalos devem ser mutuamente exclusivos e não sobrepostos, evitando intervalos abertos (ex.: <5, >10).209

  • Polígonos de frequência são gráficos de linhas que conectam os pontos médios de cada barra do histograma. Eles são úteis para comparar duas ou mais distribuições de frequência.209

  • Gráficos de barra verticais ou horizontais representam a distribuição de frequências de uma variável categórica. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do gráfico de barras é igual ao número total de observações.209

  • Histogramas representam a distribuição de frequências de uma variável contínua. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do histograma é igual ao número total de observações.209

  • Boxplots representam a distribuição de frequências de uma variável contínua. A linha central divide os dados em duas partes iguais (mediana ou Q2). A caixa inferior representa o primeiro quartil (Q1) e a caixa superior representa o terceiro quartil (Q3). A linha inferior é o mínimo e a linha superior é o máximo. Os valores atípicos são representados por pontos individuais.209




21.1.3 Quais características definem uma distribuição?

  • Uma distribuição pode ser definida por modelos matemáticos e caracterizada por parâmetros de tendência central, dispersão, simetria e curtose.


21.1.4 Quais são as distribuições mais comuns?

  • Distribuções discretas:

    • Bernoulli: resultado de um único teste com dois possíveis desfechos (sucesso ou fracasso).REF?

    • Binomial: número de sucessos em k tentativas.REF?

    • Geométrica: número de testes até o 1o sucesso.REF?

    • Binomial negativa: número de testes até o k-ésimo sucesso.REF?

    • Hipergeométrica: número de indivíduos na amostra tomados sem reposição.REF?

    • Poisson: número de eventos em um intervalo de tempo fixo.REF?

    • Uniforme: resultados (finitos) que são igualmente prováveis.REF?

    • Multinomial: resultados de múltiplos testes com mais de dois possíveis desfechos.REF?


Distribuições discretas e suas funções de probabilidade.

Figura 21.1: Distribuições discretas e suas funções de probabilidade.


  • Distribuições contínuas:


Distribuições contínuas básicas e suas funções de densidade.

Figura 21.2: Distribuições contínuas básicas e suas funções de densidade.


Distribuições contínuas aproximadas e suas funções de densidade.

Figura 21.3: Distribuições contínuas aproximadas e suas funções de densidade.


Distribuições contínuas aproximadas e suas funções de densidade.

Figura 21.4: Distribuições contínuas aproximadas e suas funções de densidade.


Distribuições contínuas para inferência e suas funções de densidade.

Figura 21.5: Distribuições contínuas para inferência e suas funções de densidade.


Distribuições contínuas para dados específicos e suas funções de densidade.

Figura 21.6: Distribuições contínuas para dados específicos e suas funções de densidade.


Distribuições contínuas para probabilidades e proporções e suas funções de densidade.

Figura 21.7: Distribuições contínuas para probabilidades e proporções e suas funções de densidade.


Distribuições contínuas com caudas pesadas e suas funções de densidade.

Figura 21.8: Distribuições contínuas com caudas pesadas e suas funções de densidade.


21.1.5 Quais são as funções de uma distribuição?

  • Função de massa de probabilidade (probability mass function, pmf).REF?

  • Função de distribuição cumulativa (cumulative distribution function, cdf).REF?

  • Função quantílicas (quantile function, qf).REF?

  • Função geradora de números aleatórios (random function, rf).REF?





21.1.6 O que é a distribuição normal?

  • A distribuição normal (ou gaussiana) é uma distribuição com desvios simétricos positivos e negativos em torno de um valor central.110

  • Em uma distribuição normal, o intervalo de 1 desvio-padrão (±1DP) inclui cerca de 68% dos dados; de 2 desvios-padrão (±2DP) cerca de 95% dos dados; e no intervalo de 3 desvios-padrão (±3DP) cerca de 99% dos dados.110


Distribuições e funções de probabilidade.

Figura 21.9: Distribuições e funções de probabilidade.


21.1.7 Que métodos podem ser utilizados para identificar a normalidade da distribuição?

  • Histogramas.109

  • Gráficos Q-Q.109

  • Testes de hipótese nula:109

    • Kolmogorov-Smirnov

    • Shapiro-Wilk

    • Anderson-Darling


Distribuição normal e métodos de visualização e testes de normalidade.

Figura 21.10: Distribuição normal e métodos de visualização e testes de normalidade.


21.1.8 O que são distribuições não-normais?


21.2 Parâmetros


21.2.1 O que são parâmetros?

  • Parâmetros são informações que definem um modelo teórico, como propriedades de uma coleção de indivíduos.108

  • Parâmetros definem características de uma população inteira, tipicamente não observados por ser inviável ter acesso a todos os indivíduos que constituem tal população.109



21.2.2 O que é uma análise paramétrica?

  • Testes paramétricos possuem suposições sobre as características e/ou parâmetros da distribuição dos dados na população.109

  • Testes paramétricos assumem que: a variável é quantitativa numérica (contínua); os dados foram amostrados de uma população com distribuição normal; a variância da(S) amostra(s) é igual à da população; as amostras foram selecionadas de modo aleatório na população; os valores de cada amostra são independentes entre si.109,110

  • Testes paramétricos são baseados na suposição de que os dados amostrais provêm de uma população com parâmetros fixos determinando sua distribuição de probabilidade.8


21.2.3 O que é uma análise não paramétrica?

  • Testes não-paramétricos fazem poucas suposições, ou menos rigorosas, sobre as características e/ou parâmetros da distribuição dos dados na população.109,110

  • Testes não-paramétricos são úteis quando as suposições de normalidade não podem ser sustentadas.110


21.2.4 Devemos testar as suposições de normalidade?

  • Testes preliminares de normalidade não são necessários para a maioria dos testes paramétricos de comparação, pois eles são robustos contra desvios moderados da normalidade. Normalidade da distribuição deve ser estabelecida para a população.215


21.2.5 Por que as análises paramétricas são preferidas?

  • Em geral, testes paramétricos são mais robustos (isto é, possuem menores erros tipo I e II) que seus testes não-paramétricos correspondentes.109,197,216

  • Testes não-paramétricos apresentam menor poder estatístico (maior erro tipo II) comparados aos testes paramétricos correspondentes.110


21.2.6 Que parâmetros podem ser estimados?

  • Parâmetros de tendência central.110,217

  • Parâmetros de dispersão.110,217,218

  • Parâmetros de proporção.110,217,219,219

  • Parâmetros de distribuição.217

  • Parâmetros de extremos.110



21.3 Tendência central


21.3.1 Que parâmetros de tendência central podem ser estimados?

  • Média aritmética, ponderada, geométrica ou harmônica.110,217,220

  • Mediana.110,217,221

  • Moda.110,217,221

  • A posição relativa das medidas de tendência central (média, mediana e moda) depende da forma da distribuição.221

  • Em uma distribuição normal, as três medidas são idênticas.221

  • A média é sempre puxada para os valores extremos, por isso é deslocada para a cauda em distribuições assimétricas.221

  • A mediana fica entre a média e a moda em distribuições assimétricas.221

  • A moda é o valor mais frequente e, portanto, se localiza no pico da distribuição assimétrica.221

  • Uma distribuição pode uma moda (unimodal), duas modas (bimodal) ou três ou mais modas (multimodal), indicando a presença de mais de um valor com alta frequência.221


Distribuições unimodal, bimodal e multimodal.

Figura 21.11: Distribuições unimodal, bimodal e multimodal.


Parâmetros de tendência central em distribuições assimétricas e normais.

Figura 21.12: Parâmetros de tendência central em distribuições assimétricas e normais.



21.3.2 Como escolher o parâmetro de tendência central?

  • A mediana é preferida à média quando existem poucos valores extremos na distribuição, alguns valores são indeterminados, ou há uma distribuição aberta, ou os dados são medidos em uma escala ordinal.221

  • A moda é preferida quando os dados são medidos em uma escala nominal.221

  • A média geométrica é preferida quando os dados são medidos em uma escala logarítmica.221


21.4 Dispersão


21.4.1 Que parâmetros de dispersão podem ser estimados?

  • Variância.110,217

  • Desvio-padrão: Informam sobre a dispersão da população e são, portanto, úteis como preditores da variação em novas amostras.204,218,222

  • Erro-padrão: Refletem a incerteza na média e sua dependência do tamanho da amostra.204,218

  • Amplitude.110,217,222

  • Intervalo interquartil.110,217,222

  • Intervalo de confiança: Captura a média populacional correspondente ao nível de significância \(\alpha\) pré-estabelecido.110,203,204,217


Parâmetros de dispersão em distribuições normais.

Figura 21.13: Parâmetros de dispersão em distribuições normais.




21.4.2 Como escolher o parâmetro de dispersão?


  • Desvio-padrão é apropriado quando a média é utilizada como parâmetro de tendência central em distribuições simétricas.222

  • Amplitue ou intervalo interquartil são apropriadas para variáveis ordinais ou distribuições assimétricas.222


21.4.3 O que é a correção de Bessel para variância?

  • Correção de Bessel é um ajuste feito no denominador da fórmula de variância da amostra — ou seja, o número de graus de liberdade — para evitar que a variância amostral seja menor do que a variância populacional.223

  • A correção de Bessel é feita subtraindo-se 1 do número de observações da amostra, ou seja, \(n - 1\).223


21.4.4 Por que a correção de Bessel para variância é importante?

  • A correção de Bessel é importante porque a variância amostral tende a ser menor do que a variância populacional, especialmente em amostras pequenas.223

  • A correção de Bessel ajuda a garantir que a variância amostral seja uma estimativa mais precisa da variância populacional, o que é fundamental para a validade dos testes estatísticos e das inferências feitas a partir da amostra.223


21.5 Proporção


21.5.1 Que parâmetros de proporção podem ser estimados?

  • Frequência absoluta.110,217,219

  • Frequência relativa.110,217,219

  • Percentil.110,217,219

  • Quantil: é o ponto de corte que define a divisão da amostra em grupos de tamanhos iguais. Portanto, não se referem aos grupos em si, mas aos valores que os dividem:219

    • Tercil: 2 valores que dividem a amostra em 3 grupos de tamanhos iguais.219

    • Quartil: 3 valores que dividem a amostra em 4 grupos de tamanhos iguais.219

    • Quintil: 4 valores que dividem a amostra em 5 grupos de tamanhos iguais.219

    • Decil: 9 valores que dividem a amostra em 10 grupos de tamanhos iguais.219





21.6 Distribuição


21.6.1 Que parâmetros de distribuição podem ser estimados?


21.7 Extremos


21.7.1 O que são valores extremos?

  • Valores extremos podem constituir valores legítimos ou ilegítimos de uma distribuição.224

  • Valores extremos, quando raros ou desproporcionais, podem se tornar discrepantes ou influentes, afetando as análises estatísticas, sendo recomendado uma análise robusta.REF?


21.7.2 Que parâmetros extremos podem ser estimados?


Regressão linear com valores extremos.

Figura 21.14: Regressão linear com valores extremos.


21.8 Robustez em medidas de localização


21.8.1 O que é ponto de quebra (breakdown value)?

  • É a menor proporção de contaminação que pode levar o estimador a resultados arbitrariamente errados; quanto maior, mais robusto.225


21.8.2 Por que a média não é robusta?

  • Porque tem ponto de quebra \(~0%\) e função influência não limitada; um único outlier pode distorcer a média arbitrariamente.225


21.8.3 Qual a alternativa robusta para localização?

  • Mediana, com \(~50%\) de ponto de quebra e função influência limitada.225


21.8.4 Como estimar escala de forma robusta?

  • Median Absolute Deviation (MAD), equação (??), com correção 1,483 para normalidade, com \(~50%\) de ponto de quebra..225


\[\begin{equation} \tag{21.1} MAD = 1.483 \cdot \text{median}(|x_i - \text{median}(x)|) \end{equation}\]


  • Primeiro quartil das diferenças pareadas (\(Qn\)), equação (21.2), com \(~50%\) de ponto de quebra.225


\[\begin{equation} \tag{21.2} Qn = 2.2219 \cdot \text{first quartile}(|x_i - x_j|; i < j) \end{equation}\]


  • O intervalo interquartil (\(IQR\)), equação @ref(eq;iqr) é robusto, com ponto de quebra \(~25%\), sendo simples de interpretar e útil em boxplots.225


\[\begin{equation} \tag{21.3} IQR = Q3 - Q1 \end{equation}\]


21.9 Parâmetros robustos


21.9.1 O que são parâmetros robustos?

  • Parâmetros robustos são medidas de posição e dispersão que permanecem estáveis mesmo na presença de valores discrepantes.226


21.9.2 Que parâmetros robustos podem ser estimados?

  • Mediana em vez da média aritmética, pois é menos sensível a valores extremos.226

  • MAD (Median Absolute Deviation) em vez do desvio padrão, que pode ser escalonado por 1.483 para comparabilidade.226

  • Qn e Sn como estimadores alternativos de dispersão robusta.226

  • Média e variância Winsorizadas como opções intermediárias, reduzindo a influência dos outliers.226


21.9.3 Por que utilizar parâmetros robustos?

  • Eles garantem maior confiabilidade quando os dados não seguem a normalidade ou apresentam contaminação por outliers.226

  • Permitem análises mais estáveis em estudos exploratórios, evitando decisões equivocadas sobre variabilidade ou tendência central.226



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

8.
Kwak SG, Kim JH. Central limit theorem: the cornerstone of modern statistics. Korean Journal of Anesthesiology. 2017;70(2):144. doi:10.4097/kjae.2017.70.2.144
97.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
108.
Altman DG, Bland JM. Statistics notes Variables and parameters. BMJ. 1999;318(7199):1667–1667. doi:10.1136/bmj.318.7199.1667
109.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370
110.
Ali Z, Bhaskar Sb. Basic statistical tools in research and data analysis. Indian Journal of Anaesthesia. 2016;60(9):662. doi:10.4103/0019-5049.190623
142.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
181.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
197.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364–366. doi:10.1136/bmj.315.7104.364
203.
Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7–11. doi:10.1083/jcb.200611141
204.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659
207.
R Core Team. R: A Language and Environment for Statistical Computing.; 2024. https://www.R-project.org/.
209.
S M. Frequency distribution. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(1):54–56. doi:10.4103/0976-500x.77120
210.
Sturges HA. The Choice of a Class Interval. Journal of the American Statistical Association. 1926;21(153):65–66. doi:10.1080/01621459.1926.10502161
211.
SCOTT DW. On optimal and data-based histograms. Biometrika. 1979;66(3):605–610. doi:10.1093/biomet/66.3.605
212.
Freedman D, Diaconis P. On the histogram as a density estimator:L 2 theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 1981;57(4):453–476. doi:10.1007/bf01025868
213.
Kay M. ggdist: Visualizations of Distributions and Uncertainty in the Grammar of Graphics. IEEE Transactions on Visualization and Computer Graphics. 2024;30(1):414–424. doi:10.1109/TVCG.2023.3327195
214.
Tang Y, Horikoshi M, Li W. ggfortify: Unified Interface to Visualize Statistical Result of Popular R Packages. Vol 8.; 2016. doi:10.32614/RJ-2016-060
215.
Rochon J, Gondan M, Kieser M. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Medical Research Methodology. 2012;12(1). doi:10.1186/1471-2288-12-81
216.
Schmider E, Ziegler M, Danay E, Beyer L, Bühner M. Is It Really Robust? Methodology. 2010;6(4):147–151. doi:10.1027/1614-2241/a000016
217.
Kanji G. 100 Statistical Tests. SAGE Publications Ltd; 2006. doi:10.4135/9781849208499
218.
Curran-Everett D. Explorations in statistics: standard deviations and standard errors. Advances in Physiology Education. 2008;32(3):203–208. doi:10.1152/advan.90123.2008
219.
Altman DG, Bland JM. Statistics Notes: Quartiles, quintiles, centiles, and other quantiles. BMJ. 1994;309(6960):996–996. doi:10.1136/bmj.309.6960.996
220.
S. M. Measures of central tendency: The mean. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(2):140–142. doi:10.4103/0976-500x.81920
221.
S. M. Measures of central tendency: Median and mode. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(3):214–215. doi:10.4103/0976-500x.83300
222.
Manikandan S. Measures of dispersion. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(4):315–316. doi:10.4103/0976-500x.85931
223.
Sahai H, Misra S. Definitions of Sample Variance: Some Teaching Problems to be Overcome. The Statistician. 1992;41(1):55. doi:10.2307/2348636
224.
Leys C, Delacre M, Mora YL, Lakens D, Ley C. How to Classify, Detect, and Manage Univariate and Multivariate Outliers, With Emphasis on Pre-Registration. International Review of Social Psychology. 2019;32(1). doi:10.5334/irsp.289
225.
Rousseeuw PJ, Hubert M. Robust statistics for outlier detection. WIREs Data Mining and Knowledge Discovery. 2011;1(1):73–79. doi:10.1002/widm.2
226.
Daszykowski M, Kaczmarek K, Vander Heyden Y, Walczak B. Robust statistics in data analysis A review. Chemometrics and Intelligent Laboratory Systems. 2007;85(2):203–219. doi:10.1016/j.chemolab.2006.06.016