Capítulo 13 Distribuições e parâmetros


13.1 Distribuições de probabilidade


13.1.1 O que são distribuições de probabilidade?

  • Uma distribuição de probabilidade é uma função que descreve os valores possíveis ou o intervalo de valores de uma variável (eixo horizontal) e a frequência com que cada valor é observado (eixo vertical).76


13.1.2 Como representar distribuições de probabilidade?

  • Tabelas de frequência, polígonos de frequência, gráficos de barras, histogramas e boxplots são formas de representar distribuições de probabilidade.126

  • Tabelas de frequência mostram as categorias de medição e o número de observações em cada uma. É necessário conhecer o intervalo de valores (mínimo e máximo), que é dividido em intervalos arbitrários chamados “intervalos de classe”.126

  • Se houver muitos intervalos, não haverá redução significativa na quantidade de dados, e pequenas variações serão perceptíveis. Se houver poucos intervalos, a forma da distribuição não poderá ser adequadamente determinada.126

  • A quantidade de intervalos pode ser determinada pelo método de Sturges, que é dado pela fórmula \(k = 1 + 3.322 \times \log_{10}(n)\), onde \(k\) é o número de intervalos e \(n\) é o número de observações.127

  • A quantidade de intervalos pode ser determinada pelo método de Scott, que é dado pela fórmula \(h = 3.5 \times \text{sd}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{sd}(x)\) é o desvio padrão e \(n\) é o número de observações.128

  • A quantidade de intervalos pode ser determinada pelo método de Freedman-Diaconis, que é dado pela fórmula \(h = 2 \times \text{IQR}(x) \times n^{-1/3}\), onde \(h\) é a largura do intervalo, \(\text{IQR}(x)\) é o intervalo interquartil e \(n\) é o número de observações.129

  • A largura das classes pode ser determinada dividindo o intervalo total de observações pelo número de classes. Recomenda-se larguras iguais, mas larguras desiguais podem ser usadas quando existirem grandes lacunas nos dados ou em contextos específicos. Os intervalos devem ser mutuamente exclusivos e não sobrepostos, evitando intervalos abertos (ex.: <5, >10).126

  • Polígonos de frequência são gráficos de linhas que conectam os pontos médios de cada barra do histograma. Eles são úteis para comparar duas ou mais distribuições de frequência.126

  • Gráficos de barra verticais ou horizontais representam a distribuição de frequências de uma variável categórica. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do gráfico de barras é igual ao número total de observações.126

  • Histogramas representam a distribuição de frequências de uma variável contínua. A altura de cada barra é proporcional à frequência da classe. A largura da barra é igual à largura da classe. A área de cada barra é proporcional à frequência da classe. A área total do histograma é igual ao número total de observações.126

  • Boxplots representam a distribuição de frequências de uma variável contínua. A linha central divide os dados em duas partes iguais (mediana ou Q2). A caixa inferior representa o primeiro quartil (Q1) e a caixa superior representa o terceiro quartil (Q3). A linha inferior é o mínimo e a linha superior é o máximo. Os valores atípicos são representados por pontos individuais.126




13.1.3 Quais características definem uma distribuição?

  • Uma distribuição pode ser definida por modelos matemáticos e caracterizada por parâmetros de tendência central, dispersão, simetria e curtose.


13.1.4 Quais são as distribuições mais comuns?

  • Distribuções discretas:

    • Uniforme: resultados (finitos) que são igualmente prováveis.REF?

    • Binomial: número de sucessos em k tentativas.REF?

    • Poisson: número de eventos em um intervalo de tempo fixo.REF?

    • Bernoulli: .REF?

    • Geométrica: número de testes até o 1o sucesso.REF?

    • Binomial negativa: número de testes até o k-ésimo sucesso.REF?

    • Hipergeométrica: número de indivíduos na amostra tomados sem reposição.REF?

  • Distribuições contínuas:

    • Uniforme: resultados que possuem a mesma densidade.REF?

    • Exponencial: tempo entre eventos.REF?

    • Normal: .REF?

    • Normal padrão: .REF?

    • Aproximação binomial: número de sucessos em uma grande quantidade de tentativas.REF?

    • Aproximação Poisson: número de ocorrências em um intervalo de tempo fixo.REF?

    • Qui-quadrado: .REF?

    • t-Student: .REF?

    • Weibull: .REF?

    • Log-normal: .REF?

    • Beta: .REF?

    • Gama: .REF?

    • Logística: .REF?

    • Pareto.REF?


13.1.5 Quais são as funções de uma distribuição?

  • Função de massa de probabilidade (probability mass function, pmf).REF?

  • Função de distribuição cumulativa (cumulative distribution function, cdf).REF?

  • Função quantílicas (quantile function, qf).REF?

  • Função geradora de números aleatórios (random function, rf).REF?





13.1.6 O que é a distribuição normal?

  • A distribuição normal (ou gaussiana) é uma distribuição com desvios simétricos positivos e negativos em torno de um valor central.105

  • Em uma distribuição normal, o intervalo de 1 desvio-padrão (±1DP) inclui cerca de 68% dos dados; de 2 desvios-padrão (±2DP) cerca de 95% dos dados; e no intervalo de 3 desvios-padrão (±3DP) cerca de 99% dos dados.105


Distribuições e funções de probabilidade

Figura 13.1: Distribuições e funções de probabilidade


13.1.7 Que métodos podem ser utilizados para identificar a normalidade da distribuição?

  • Histogramas.76

  • Gráficos Q-Q.76

  • Testes de hipótese nula:76

    • Kolmogorov-Smirnov

    • Shapiro-Wilk

    • Anderson-Darling


13.1.8 O que são distribuições não-normais?


13.2 Parâmetros


13.2.1 O que são parâmetros?

  • Parâmetros são informações que definem um modelo teórico, como propriedades de uma coleção de indivíduos.104

  • Parâmetros definem características de uma população inteira, tipicamente não observados por ser inviável ter acesso a todos os indivíduos que constituem tal população.76



13.2.2 O que é uma análise paramétrica?

  • Testes paramétricos possuem suposições sobre as características e/ou parâmetros da distribuição dos dados na população.76

  • Testes paramétricos assumem que: a variável é quantitativa numérica (contínua); os dados foram amostrados de uma população com distribuição normal; a variância da(S) amostra(s) é igual à da população; as amostras foram selecionadas de modo aleatório na população; os valores de cada amostra são independentes entre si.76,105

  • Testes paramétricos são baseados na suposição de que os dados amostrais provêm de uma população com parâmetros fixos determinando sua distribuição de probabilidade.8


13.2.3 O que é uma análise não paramétrica?

  • Testes não-paramétricos fazem poucas suposições, ou menos rigorosas, sobre as características e/ou parâmetros da distribuição dos dados na população.76,105

  • Testes não-paramétricos são úteis quando as suposições de normalidade não podem ser sustentadas.105


13.2.4 Por que as análises paramétricas são preferidas?

  • Em geral, testes paramétricos são mais robustos (isto é, possuem menores erros tipo I e II) que seus testes não-paramétricos correspondentes.76,134

  • Testes não-paramétricos apresentam menor poder estatístico (maior erro tipo II) comparados aos testes paramétricos correspondentes.105


13.2.5 Que parâmetros podem ser estimados?

  • Parâmetros de tendência central.105,135

  • Parâmetros de dispersão.105,135,136

  • Parâmetros de proporção.105,135,137,137

  • Parâmetros de distribuição.135

  • Parâmetros de extremos.105



13.3 Tendência central


13.3.1 Que parâmetros de tendência central podem ser estimados?

  • Média: aritmética, ponderada, geométrica ou harmônica.105,135,138

  • Mediana.105,135,139

  • Moda.105,135,139

  • A posição relativa das medidas de tendência central (média, mediana e moda) depende da forma da distribuição.139

  • Em uma distribuição normal, as três medidas são idênticas.139

  • A média é sempre puxada para os valores extremos, por isso é deslocada para a cauda em distribuições assimétricas.139

  • A mediana fica entre a média e a moda em distribuições assimétricas.139

  • A moda é o valor mais frequente e, portanto, se localiza no pico da distribuição assimétrica.139



13.3.2 Como escolher o parâmetro de tendência central?

  • A mediana é preferida à média quando existem poucos valores extremos na distribuição, alguns valores são indeterminados, ou há uma distribuição aberta, ou os dados são medidos em uma escala ordinal.139

  • A moda é preferida quando os dados são medidos em uma escala nominal.139

  • A média geométrica é preferida quando os dados são medidos em uma escala logarítmica.139


13.4 Dispersão


13.4.1 Que parâmetros de dispersão podem ser estimados?

  • Variância.105,135

  • Desvio-padrão: Informam sobre a dispersão da população e são, portanto, úteis como preditores da variação em novas amostras.136,140,141

  • Erro-padrão: Refletem a incerteza na média e sua dependência do tamanho da amostra.136,140

  • Amplitude.105,135,141

  • Intervalo interquartil.105,135,141

  • Intervalo de confiança: Captura a média populacional correspondente ao nível de significância \(\alpha\) pré-estabelecido.105,135,140,142




13.4.2 Como escolher o parâmetro de dispersão?


  • Desvio-padrão é apropriado quando a média é utilizada como parâmetro de tendência central em distribuições simétricas.141

  • Amplitue ou intervalo interquartil são apropriadas para variáveis ordinais ou distribuições assimétricas.141


13.5 Proporção


13.5.1 Que parâmetros de proporção podem ser estimados?

  • Frequência absoluta.105,135,137

  • Frequência relativa.105,135,137

  • Percentil.105,135,137

  • Quantil: é o ponto de corte que define a divisão da amostra em grupos de tamanhos iguais. Portanto, não se referem aos grupos em si, mas aos valores que os dividem:137

    • Tercil: 2 valores que dividem a amostra em 3 grupos de tamanhos iguais.137

    • Quartil: 3 valores que dividem a amostra em 4 grupos de tamanhos iguais.137

    • Quintil: 4 valores que dividem a amostra em 5 grupos de tamanhos iguais.137

    • Decil: 9 valores que dividem a amostra em 10 grupos de tamanhos iguais.137





13.6 Distribuição


13.6.1 Que parâmetros de distribuição podem ser estimados?


13.7 Extremos


13.7.1 Que parâmetros extremos podem ser estimados?



13.8 Valores discrepantes


13.8.1 O que são valores discrepantes (outliers)?

  • Em termos gerais, um valor discrepante - “fora da curva” ou outlier - é uma observação que possui um valor relativamente grande ou pequeno em comparação com a maioria das observações.143

  • Mais especificamente, um valor discrepante é uma observação incomum que exerce influência indevida em uma análise.143


13.8.2 Como conduzir análises com valores discrepantes?

  • Erros de observação e de medição são uma justificativa válida para descartar observações discrepantes.143

  • Valores discrepantes na variável de desfecho podem exigir uma abordagem mais refinada, especialmente quando representam uma variação real na variável que está sendo medida.143

  • Valores discrepantes em uma (co)variável podem surgir devido a um projeto experimental inadequado; nesse caso, abandonar a observação ou transformar a covariável são opções adequadas.143

  • É importante reportar se existem valores discrepantes e como foram tratados.143




Referências

8.
Kwak SG, Kim JH. Central limit theorem: the cornerstone of modern statistics. Korean Journal of Anesthesiology. 2017;70(2):144. doi:10.4097/kjae.2017.70.2.144
65.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
71.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
76.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375-1380. doi:10.1213/ane.0000000000002370
104.
Altman DG, Bland JM. Statistics notes Variables and parameters. BMJ. 1999;318(7199):1667-1667. doi:10.1136/bmj.318.7199.1667
105.
Ali Z, Bhaskar Sb. Basic statistical tools in research and data analysis. Indian Journal of Anaesthesia. 2016;60(9):662. doi:10.4103/0019-5049.190623
126.
S M. Frequency distribution. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(1):54-56. doi:10.4103/0976-500x.77120
127.
Sturges HA. The Choice of a Class Interval. Journal of the American Statistical Association. 1926;21(153):65-66. doi:10.1080/01621459.1926.10502161
128.
SCOTT DW. On optimal and data-based histograms. Biometrika. 1979;66(3):605-610. doi:10.1093/biomet/66.3.605
129.
Freedman D, Diaconis P. On the histogram as a density estimator:L 2 theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 1981;57(4):453-476. doi:10.1007/bf01025868
130.
R Core Team. R: A language and environment for statistical computing. 2024. https://www.R-project.org/.
131.
R Core Team. R: A language and environment for statistical computing. 2023. https://www.R-project.org/.
132.
Kay M. Ggdist: Visualizations of distributions and uncertainty in the grammar of graphics. 2024;30. doi:10.1109/TVCG.2023.3327195
133.
Tang Y, Horikoshi M, Li W. Ggfortify: Unified Interface to Visualize Statistical Result of Popular r Packages. Vol 8.; 2016. doi:10.32614/RJ-2016-060
134.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364-366. doi:10.1136/bmj.315.7104.364
135.
Kanji G. 100 Statistical Tests.; 2006. doi:10.4135/9781849208499
136.
Curran-Everett D. Explorations in statistics: standard deviations and standard errors. Advances in Physiology Education. 2008;32(3):203-208. doi:10.1152/advan.90123.2008
137.
Altman DG, Bland JM. Statistics Notes: Quartiles, quintiles, centiles, and other quantiles. BMJ. 1994;309(6960):996-996. doi:10.1136/bmj.309.6960.996
138.
S. M. Measures of central tendency: The mean. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(2):140-142. doi:10.4103/0976-500x.81920
139.
S. M. Measures of central tendency: Median and mode. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(3):214-215. doi:10.4103/0976-500x.83300
140.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921-922. doi:10.1038/nmeth.2659
141.
Manikandan S. Measures of dispersion. Journal of Pharmacology and Pharmacotherapeutics. 2011;2(4):315-316. doi:10.4103/0976-500x.85931
142.
Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7-11. doi:10.1083/jcb.200611141
143.
Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3-14. doi:10.1111/j.2041-210x.2009.00001.x
144.
Komsta L. Outliers: Tests for Outliers.; 2022. https://CRAN.R-project.org/package=outliers.