Capítulo 16 Análise descritiva


16.1 Análise descritiva


16.1.1 O que é análise descritiva?

  • Análise descritiva é usada para compreendermos algum aspecto de um conjunto de dados, respondendo a perguntas do tipo “quando?”, “onde?”, “quem?”, “o quê?”, “como?”.156


16.1.2 Como apresentar os resultados descritivos?

  • Variáveis categóricas: Reporte valores de frequência absoluta e relativa (n, percentual).157

  • Organização das tabelas: as variáveis são exibidas em linhas e os grupos são exibidos em colunas.157

  • Calcule percentagens para as colunas (isto é, entre grupos) e não entre linhas.157

  • Em caso de dados perdidos, não inclua uma linha com total de dados perdidos, pois distorce as proporções entre colunas e as análises de tabela de contingência. Indique no texto ou em uma coluna separada o total de dados perdidos por variável.157


16.2 Apresentação de resultados numéricos


16.2.1 O que são casas decimais?

  • O número de casas decimais refere-se à quantidade de dígitos que aparecem após a vírgula decimal.158,159


16.2.2 O que são dígitos significativos?

  • O termo “dígitos significativos” é preferido a “algarismos significativos” ou “dígitos efetivos” e não se relaciona com significância estatística.158,159

  • O número de dígitos significativos é a soma total de dígitos, desconsiderando a vírgula decimal e os zeros à esquerda; os zeros à direita são considerados informativos, salvo exceções.158,159


16.2.3 Como arredondar dados numéricos?

  • Apresentar dados com quantidade excessiva de casas decimais pode dificultar a interpretação e induzir erroneamente uma precisão espúria.158,159

  • A precisão é determinada pelo grau de arredondamento aplicado, medido em casas decimais ou dígitos significativos.158,159


Tabela 16.1: Quantidade de casas decimais e dígitos significativos.
Valor Casas Decimais Dígitos Significativos
0,00789 5 0
0,0456 4 0
45,6 1 2
123,456 3 3
7890,0000 4 4


  • O arredondamento também introduz erros, uma vez que aumenta a imprecisão (isto é, incerteza) em torno do valor original.158,159


Tabela 16.2: Valores originais, arredondamentos e erros de arredondamento por casas decimais.
Valor Casas Decimais Dígitos Significativos 2 Casas decimais [Margem de erro] 1 Casa decimal [Margem de erro] Sem casa decimal [Margem de erro]
0,00789 5 0 0,01 [0,005, 0,015] 0,0 [-0,05, 0,05] 0 [-0,5, 0,5]
0,0456 4 0 0,05 [0,045, 0,055] 0,0 [-0,05, 0,05] 0 [-0,5, 0,5]
45,6 1 2 45,60 [45,595, 45,605] 45,6 [45,55, 45,65] 46 [45,5, 46,5]
123,456 3 3 123,46 [123,455, 123,465] 123,5 [123,45, 123,55] 123 [122,5, 123,5]
7890,0000 4 4 7890,00 [7889,995, 7890,005] 7890,0 [7889,95, 7890,05] 7890 [7889,5, 7890,5]


  • A regra geral é utilizar 2 ou 3 dígitos significativos para tamanhos de efeito e 1 ou 2 dígitos significativos para medidas de variabilidade.159

  • Regra dos 3 dígitos significativos para proporção de risco: em média, o erro de arredondamento é menor que os 0,5% exigidos, de modo que três dígitos significativos são mais precisos do que o necessário.158

  • Regra dos 4 dígitos significativos para proporção de risco: divida a proporção de risco por quatro e arredonde para dois dígitos significativos e, em seguida, relate a proporção para esse número de casas decimais.158


16.3 Tabelas


16.3.1 Por que usar tabelas?

  • Tabelas complementam o texto (e vice-versa), e podem apresentar os dados de modo mais acessível e informativo.160


16.3.2 Que informações incluir nas tabelas?

  • Título ou legenda, uma síntese descritiva (geralmente por meio de parâmetros descritivos), intervalos de confiança e/ou P-valores conforme necessário para adequada interpretação.160,161


16.3.3 Quais são os erros mais comuns de preenchimento de tabelas?

  • Erros tipográficos.162

  • Ausência de rótulos ou unidades nas variáveis.162

  • Relatar estatísticas incorretamente, tais como rotular variáveis contínuas como porcentagens.162

  • Estatísticas descritivas de tendência central (ex.: médias) relatadas sem a estatística de dispersão correspondente (ex.: desvio-padrão).162

  • Desvio-padrão nulo (\(\sigma=0\)).162

  • Valores porcentuais que não correspondem ao numerador dividido pelo denominador.162






16.4 Tabela 1


16.4.1 O que é a ‘Tabela 1’?

  • A ‘Tabela 1’ descreve as características demográficas, sociais e clínicas da amostra, completa ou agrupada por algum fator, geralmente por meio de parâmetros de tendência central e dispersão.167,168


16.4.2 Qual a utilidade da ‘Tabela 1’?

  • Descrever (conhecer) as características da amostra e dos grupos sendo comparados, quando aplicável.168

  • Verificar aderência ao protocolo do estudo, incluindo critérios de inclusão/exclusão, tamanho da amostra e perdas amostrais.168

  • Permitir a replicação do estudo.168

  • Meta-analisar os dados junto a estudos similares.168

  • Avaliar a generalização (validade externa) das conclusões do estudo.168


16.4.3 O que é a falácia da ‘Tabela 1’?

  • Falácia da Tabela 1 ocorre pela interpretação errônea dos P-valores na comparação entre grupos, na linha de base, de um ensaio clínico aleatorizado.169


16.4.4 Como construir a ‘Tabela 1’?

  • A Tabela 1 geralmente é utilizada para descrever as características da amostra estudada, possibilitando a análise de ameaças à validade interna e/ou externa ao estudo.134,170




16.5 Tabela 2


16.5.1 Qual a utilidade da ‘Tabela 2’?

  • A Tabela 2 mostra associações ajustadas multivariadas com o resultado para variáveis resumidas na Tabela 1.167


16.5.2 O que é a falácia da ‘Tabela 2’?

  • A Tabela 2 pode induzir ao erro de interpretação pelas estimativas de efeitos para covariáveis do modelo também serem utilizados para controlar a confusão da exposição.167,171

  • Ao apresentar estimativas de efeito ajustadas para covariáveis juntamente com a estimativa de efeito ajustada para a exposição primária, a Tabela 2 sugere implicitamente que todas estas estimativas podem ser interpretadas de forma semelhante, se não de forma idêntica, como estimativa do efeito total.167,171

  • A falácia da Tabela 2 pode ser evitada limitando-se a tabela a estimativas das medidas primárias do efeito de exposição nos diferentes modelos, com as covariáveis secundárias de “ajuste” relatadas em uma nota de rodapé, juntamente com a forma como foram categorizadas ou modeladas.167


16.5.3 Como construir a ‘Tabela 2’?

  • A Tabela 2 pode ser utilizada para apresentar estimativas de múltiplos efeitos ajustados de um mesmo modelo estatístico.167




16.6 Gráficos


16.6.1 O que são gráficos?

  • Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.172


16.6.2 Que elementos incluir em gráficos?

  • Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.172



16.6.3 Para que servem as barras de erro em gráficos?

  • Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.140,142

  • Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.142

  • Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.142

  • Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.140,142

  • Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.140

  • Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.140

  • O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.142

  • De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.140

  • Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.140


16.6.4 Quais são as boas práticas na elaboração de gráficos?

  • O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.142

  • Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.140,142

  • Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.176

  • Exiba os pontos de dados em boxplots.176

  • Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.176

  • Prefira palhetas de cor adaptadas para daltônicos.176




16.6.5 Como exportar figuras em formato TIFF?




Referências

130.
R Core Team. R: A language and environment for statistical computing. 2024. https://www.R-project.org/.
134.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364-366. doi:10.1136/bmj.315.7104.364
140.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921-922. doi:10.1038/nmeth.2659
142.
Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7-11. doi:10.1083/jcb.200611141
156.
Gerring J. Mere Description. British Journal of Political Science. 2012;42(4):721-746. doi:10.1017/s0007123412000130
157.
Cummings P, Rivara FP. Reporting Statistical Information in Medical Journal Articles. Archives of Pediatrics & Adolescent Medicine. 2003;157(4):321. doi:10.1001/archpedi.157.4.321
158.
Cole TJ. Setting number of decimal places for reporting risk ratios: rule of four. BMJ. 2015;350(apr27 3):h1845-h1845. doi:10.1136/bmj.h1845
159.
Cole TJ. Too many digits: the presentation of numerical data. Archives of Disease in Childhood. 2015;100(7):608-609. doi:10.1136/archdischild-2014-307149
160.
Inskip H, Ntani G, Westbury L, et al. Getting started with tables. Archives of Public Health. 2017;75(1). doi:10.1186/s13690-017-0180-1
161.
Kwak SG, Kang H, Kim JH, et al. The principles of presenting statistical results: Table. Korean Journal of Anesthesiology. 2021;74(2):115-119. doi:10.4097/kja.20582
162.
Barnett A. Automated detection of over- and under-dispersion in baseline tables in randomised controlled trials. F1000Research. 2023;11:783. doi:10.12688/f1000research.123002.2
163.
Gohel D, Skintzos P. Flextable: Functions for Tabular Reporting.; 2023. https://CRAN.R-project.org/package=flextable.
164.
Thériault R. Rempsyc: Convenience functions for psychology. 2023;8:5466. doi:10.21105/joss.05466
165.
Rich B. Table1: Tables of Descriptive Statistics in HTML.; 2023. https://CRAN.R-project.org/package=table1.
166.
Sjoberg DD, Whiting K, Curry M, Lavery JA, Larmarange J. Reproducible summary tables with the gtsummary package. 2021;13:570-580. doi:10.32614/RJ-2021-053
167.
Westreich D, Greenland S. The Table 2 Fallacy: Presenting and Interpreting Confounder and Modifier Coefficients. American Journal of Epidemiology. 2013;177(4):292-298. doi:10.1093/aje/kws412
168.
Chen H, Lu Y, Slye N. Testing for baseline differences in clinical trials. International Journal of Clinical Trials. 2020;7(2):150. doi:10.18203/2349-3259.ijct20201720
169.
Pijls BG. The Table I Fallacy: P Values in Baseline Tables of Randomized Controlled Trials. Journal of Bone and Joint Surgery. 2022;104(16):e71. doi:10.2106/jbjs.21.01166
170.
Hayes-Larson E, Kezios KL, Mooney SJ, Lovasi G. Who is in this study, anyway? Guidelines for a useful Table 1. Journal of Clinical Epidemiology. 2019;114:125-132. doi:10.1016/j.jclinepi.2019.06.011
171.
Bandoli G, Palmsten K, Chambers CD, Jelliffe-Pawlowski LL, Baer RJ, Thompson CA. Revisiting the Table 2 fallacy: A motivating example examining preeclampsia and preterm birth. Paediatric and Perinatal Epidemiology. 2018;32(4):390-397. doi:10.1111/ppe.12474
172.
Park JH, Lee DK, Kang H, et al. The principles of presenting statistical results using figures. Korean Journal of Anesthesiology. 2022;75(2):139-150. doi:10.4097/kja.21508
173.
Wickham H. ggplot2: Elegant graphics for data analysis. 2016. https://ggplot2.tidyverse.org.
174.
Sievert C. Interactive web-based data visualization with r, plotly, and shiny. 2020. https://plotly-r.com.
175.
Wei T, Simko V. R package corrplot: Visualization of a correlation matrix. 2021. https://github.com/taiyun/corrplot.
176.
Weissgerber TL, Winham SJ, Heinzen EP, et al. Reveal, Dont Conceal. Circulation. 2019;140(18):1506-1518. doi:10.1161/circulationaha.118.037777
177.
Xiao N. Ggsci: Scientific Journal and Sci-Fi Themed Color Palettes for Ggplot2.; 2023. https://CRAN.R-project.org/package=ggsci.
178.
Urbanek S, Johnson K. Tiff: Read and Write TIFF Images.; 2022. https://CRAN.R-project.org/package=tiff.