Capítulo 15 Análise descritiva

15.1 Análise descritiva

15.1.1 O que é análise descritiva?

Análise descritiva é usada para compreendermos algum aspecto de um conjunto de dados, respondendo a perguntas do tipo “quando?”, “onde?”, “quem?”, “o quê?”, “como?” e “e daí?”.^49,135

15.1.2 Como apresentar os resultados descritivos?

Variáveis categóricas: Reporte valores de frequência absoluta e relativa (n, percentual).¹³⁶
Organização das tabelas: as variáveis são exibidas em linhas e os grupos são exibidos em colunas.¹³⁶
Calcule percentagens para as colunas (isto é, entre grupos) e não entre linhas.¹³⁶
Em caso de dados perdidos, não inclua uma linha com total de dados perdidos, pois distorce as proporções entre colunas e as análises de tabela de contingência. Indique no texto ou em uma coluna separada o total de dados perdidos por variável.¹³⁶

15.2 Apresentação de resultados numéricos

15.2.1 O que são casas decimais?

O número de casas decimais refere-se à quantidade de dígitos que aparecem após a vírgula decimal.^137,138

15.2.2 O que são dígitos significativos?

O termo “dígitos significativos” é preferido a “algarismos significativos” ou “dígitos efetivos” e não se relaciona com significância estatística.^137,138
O número de dígitos significativos é a soma total de dígitos, desconsiderando a vírgula decimal e os zeros à esquerda; os zeros à direita são considerados informativos, salvo exceções.^137,138

15.2.3 Como arredondar dados numéricos?

Apresentar dados com quantidade excessiva de casas decimais pode dificultar a interpretação e induzir erroneamente uma precisão espúria.^137,138
A precisão é determinada pelo grau de arredondamento aplicado, medido em casas decimais ou dígitos significativos.^137,138

Tabela 15.1: Quantidade de casas decimais e dígitos significativos.
Valor	Casas Decimais	Dígitos Significativos
0,00789	5	0
0,0456	4	0
45,6	1	2
123,456	3	3
7890,0000	4	4

O arredondamento também introduz erros, uma vez que aumenta a imprecisão (isto é, incerteza) em torno do valor original.^137,138

Tabela 15.2: Valores originais, arredondamentos e erros de arredondamento por casas decimais.
Valor	Casas Decimais	Dígitos Significativos	2 Casas decimais [Margem de erro]	1 Casa decimal [Margem de erro]	Sem casa decimal [Margem de erro]
0,00789	5	0	0,01 [0,005, 0,015]	0,0 [-0,05, 0,05]	0 [-0,5, 0,5]
0,0456	4	0	0,05 [0,045, 0,055]	0,0 [-0,05, 0,05]	0 [-0,5, 0,5]
45,6	1	2	45,60 [45,595, 45,605]	45,6 [45,55, 45,65]	46 [45,5, 46,5]
123,456	3	3	123,46 [123,455, 123,465]	123,5 [123,45, 123,55]	123 [122,5, 123,5]
7890,0000	4	4	7890,00 [7889,995, 7890,005]	7890,0 [7889,95, 7890,05]	7890 [7889,5, 7890,5]

A regra geral é utilizar 2 ou 3 dígitos significativos para tamanhos de efeito e 1 ou 2 dígitos significativos para medidas de variabilidade.¹³⁸
Regra dos 3 dígitos significativos para proporção de risco: em média, o erro de arredondamento é menor que os 0,5% exigidos, de modo que três dígitos significativos são mais precisos do que o necessário.¹³⁷
Regra dos 4 dígitos significativos para proporção de risco: divida a proporção de risco por quatro e arredonde para dois dígitos significativos e, em seguida, relate a proporção para esse número de casas decimais.¹³⁷

15.3 Tabelas

15.3.1 Por que usar tabelas?

Tabelas complementam o texto (e vice-versa), e podem apresentar os dados de modo mais acessível e informativo.¹³⁹

15.3.2 Que informações incluir nas tabelas?

Título ou legenda, uma síntese descritiva (geralmente por meio de parâmetros descritivos), intervalos de confiança e/ou P-valores conforme necessário para adequada interpretação.^139,140

15.3.3 Quais são os erros mais comuns de preenchimento de tabelas?

Erros tipográficos.¹⁴¹
Ausência de rótulos ou unidades nas variáveis.¹⁴¹
Relatar estatísticas incorretamente, tais como rotular variáveis contínuas como porcentagens.¹⁴¹
Estatísticas descritivas de tendência central (ex.: médias) relatadas sem a estatística de dispersão correspondente (ex.: desvio-padrão).¹⁴¹
Desvio-padrão nulo (\(\sigma=0\)).¹⁴¹
Valores porcentuais que não correspondem ao numerador dividido pelo denominador.¹⁴¹

O pacote flextable¹⁴² fornece as funções flextable, as_flextable e save_as_docx para criar e salvar tabelas tabelas formatadas em DOCX.

O pacote rempsyc¹⁴³ fornece a função nice_table para criar tabelas formatadas.

O pacote table1¹⁴⁴ fornece a função table1 para construção de tabelas.

O pacote gtsummary¹⁴⁵ fornece a função tbl_summary para construção da ‘Tabela 1’ com dados descritivos.

15.4 Tabela 1

15.4.1 O que é a ‘Tabela 1’?

A ‘Tabela 1’ descreve as características demográficas, sociais e clínicas da amostra, completa ou agrupada por algum fator, geralmente por meio de parâmetros de tendência central e dispersão.^146,147

15.4.2 Qual a utilidade da ‘Tabela 1’?

Descrever (conhecer) as características da amostra e dos grupos sendo comparados, quando aplicável.¹⁴⁷
Verificar aderência ao protocolo do estudo, incluindo critérios de inclusão/exclusão, tamanho da amostra e perdas amostrais.¹⁴⁷
Permitir a replicação do estudo.¹⁴⁷
Meta-analisar os dados junto a estudos similares.¹⁴⁷
Avaliar a generalização (validade externa) das conclusões do estudo.¹⁴⁷

15.4.3 O que é a falácia da ‘Tabela 1’?

Falácia da Tabela 1 ocorre pela interpretação errônea dos P-valores na comparação entre grupos, na linha de base, de um ensaio clínico aleatorizado.¹⁴⁸

15.4.4 Como construir a ‘Tabela 1’?

A Tabela 1 geralmente é utilizada para descrever as características da amostra estudada, possibilitando a análise de ameaças à validade interna e/ou externa ao estudo.^109,149

O pacote table1¹⁴⁴ fornece a função table1 para construção de tabelas.

O pacote gtsummary¹⁴⁵ fornece a função tbl_summary para construção da ‘Tabela 1’ com dados descritivos.

15.5 Tabela 2

15.5.1 Qual a utilidade da ‘Tabela 2’?

A Tabela 2 mostra associações ajustadas multivariadas com o resultado para variáveis resumidas na Tabela 1.¹⁴⁶

15.5.2 O que é a falácia da ‘Tabela 2’?

A Tabela 2 pode induzir ao erro de interpretação pelas estimativas de efeitos para covariáveis do modelo também serem utilizados para controlar a confusão da exposição.^146,150
Ao apresentar estimativas de efeito ajustadas para covariáveis juntamente com a estimativa de efeito ajustada para a exposição primária, a Tabela 2 sugere implicitamente que todas estas estimativas podem ser interpretadas de forma semelhante, se não de forma idêntica, como estimativa do efeito total.^146,150
A falácia da Tabela 2 pode ser evitada limitando-se a tabela a estimativas das medidas primárias do efeito de exposição nos diferentes modelos, com as covariáveis secundárias de “ajuste” relatadas em uma nota de rodapé, juntamente com a forma como foram categorizadas ou modeladas.¹⁴⁶

15.5.3 Como construir a ‘Tabela 2’?

A Tabela 2 pode ser utilizada para apresentar estimativas de múltiplos efeitos ajustados de um mesmo modelo estatístico.¹⁴⁶

O pacote table1¹⁴⁴ fornece a função table1 para construção de tabelas.

O pacote gtsummary¹⁴⁵ fornece a função tbl_summary para construção da ‘Tabela 1’ com dados descritivos.

15.6 Gráficos

15.6.1 O que são gráficos?

Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.¹⁵¹

15.6.2 Que elementos incluir em gráficos?

Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.¹⁵¹

Os pacotes ggplot2¹⁵², plotly¹⁵³ e corrplot¹⁵⁴ fornecem diversas funções para construção de gráficos tais como ggplot, plot_ly e corrplot respectivamente.

15.6.3 Para que servem as barras de erro em gráficos?

Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.^115,117
Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.¹¹⁷
Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.¹¹⁷
Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.^115,117
Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.¹¹⁵
Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.¹¹⁵
O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.¹¹⁷
De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.¹¹⁵
Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.¹¹⁵

15.6.4 Quais são as boas práticas na elaboração de gráficos?

O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.¹¹⁷
Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.^115,117
Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.¹⁵⁵
Exiba os pontos de dados em boxplots.¹⁵⁵
Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.¹⁵⁵
Prefira palhetas de cor adaptadas para daltônicos.¹⁵⁵

O pacote ggsci¹⁵⁶ fornece palhetas de cores tais como pal_lancet, pal_nejm e pal_npg inspiradas em publicações científicas para uso em gráficos.

O pacote grDevices¹⁰⁴ fornece a função dev.new para controlar diversos aspectos do gráfico, tais como tamanho e resolução.

15.6.5 Como exportar figuras em formato TIFF?

.^REF?

O pacote tiff¹⁵⁷ fornece a função writeTIFF para exportar gráficos em formato TIFF.

Referências

49.

Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375-1380. doi:10.1213/ane.0000000000002370

104.

R Core Team. R: A language and environment for statistical computing. 2024. https://www.R-project.org/.

109.

Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364-366. doi:10.1136/bmj.315.7104.364

115.

Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921-922. doi:10.1038/nmeth.2659

117.

Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7-11. doi:10.1083/jcb.200611141

135.

Gerring J. Mere Description. British Journal of Political Science. 2012;42(4):721-746. doi:10.1017/s0007123412000130

136.

Cummings P, Rivara FP. Reporting Statistical Information in Medical Journal Articles. Archives of Pediatrics & Adolescent Medicine. 2003;157(4):321. doi:10.1001/archpedi.157.4.321

137.

Cole TJ. Setting number of decimal places for reporting risk ratios: rule of four. BMJ. 2015;350(apr27 3):h1845-h1845. doi:10.1136/bmj.h1845

138.

Cole TJ. Too many digits: the presentation of numerical data. Archives of Disease in Childhood. 2015;100(7):608-609. doi:10.1136/archdischild-2014-307149

139.

Inskip H, Ntani G, Westbury L, et al. Getting started with tables. Archives of Public Health. 2017;75(1). doi:10.1186/s13690-017-0180-1

140.

Kwak SG, Kang H, Kim JH, et al. The principles of presenting statistical results: Table. Korean Journal of Anesthesiology. 2021;74(2):115-119. doi:10.4097/kja.20582

141.

Barnett A. Automated detection of over- and under-dispersion in baseline tables in randomised controlled trials. F1000Research. 2023;11:783. doi:10.12688/f1000research.123002.2

142.

Gohel D, Skintzos P. Flextable: Functions for Tabular Reporting.; 2023. https://CRAN.R-project.org/package=flextable.

143.

Thériault R. Rempsyc: Convenience functions for psychology. 2023;8:5466. doi:10.21105/joss.05466

144.

Rich B. Table1: Tables of Descriptive Statistics in HTML.; 2023. https://CRAN.R-project.org/package=table1.

145.

Sjoberg DD, Whiting K, Curry M, Lavery JA, Larmarange J. Reproducible summary tables with the gtsummary package. 2021;13:570-580. doi:10.32614/RJ-2021-053

146.

Westreich D, Greenland S. The Table 2 Fallacy: Presenting and Interpreting Confounder and Modifier Coefficients. American Journal of Epidemiology. 2013;177(4):292-298. doi:10.1093/aje/kws412

147.

Chen H, Lu Y, Slye N. Testing for baseline differences in clinical trials. International Journal of Clinical Trials. 2020;7(2):150. doi:10.18203/2349-3259.ijct20201720

148.

Pijls BG. The Table I Fallacy: P Values in Baseline Tables of Randomized Controlled Trials. Journal of Bone and Joint Surgery. 2022;104(16):e71. doi:10.2106/jbjs.21.01166

149.

Hayes-Larson E, Kezios KL, Mooney SJ, Lovasi G. Who is in this study, anyway? Guidelines for a useful Table 1. Journal of Clinical Epidemiology. 2019;114:125-132. doi:10.1016/j.jclinepi.2019.06.011

150.

Bandoli G, Palmsten K, Chambers CD, Jelliffe-Pawlowski LL, Baer RJ, Thompson CA. Revisiting the Table 2 fallacy: A motivating example examining preeclampsia and preterm birth. Paediatric and Perinatal Epidemiology. 2018;32(4):390-397. doi:10.1111/ppe.12474

151.

Park JH, Lee DK, Kang H, et al. The principles of presenting statistical results using figures. Korean Journal of Anesthesiology. 2022;75(2):139-150. doi:10.4097/kja.21508

152.

Wickham H. ggplot2: Elegant graphics for data analysis. 2016. https://ggplot2.tidyverse.org.

153.

Sievert C. Interactive web-based data visualization with r, plotly, and shiny. 2020. https://plotly-r.com.

154.

Wei T, Simko V. R package corrplot: Visualization of a correlation matrix. 2021. https://github.com/taiyun/corrplot.

155.

Weissgerber TL, Winham SJ, Heinzen EP, et al. Reveal, Don’t Conceal. Circulation. 2019;140(18):1506-1518. doi:10.1161/circulationaha.118.037777

156.

Xiao N. Ggsci: Scientific Journal and Sci-Fi Themed Color Palettes for Ggplot2.; 2023. https://CRAN.R-project.org/package=ggsci.

157.

Urbanek S, Johnson K. Tiff: Read and Write TIFF Images.; 2022. https://CRAN.R-project.org/package=tiff.