Capítulo 20 Análise descritiva


20.1 Análise descritiva


20.1.1 O que é análise descritiva?

  • Análise descritiva é usada para compreendermos algum aspecto de um conjunto de dados, respondendo a perguntas do tipo “quando?”, “onde?”, “quem?”, “o quê?”, “como?” e “e daí?”.109,183



20.1.2 Como apresentar os resultados descritivos?

  • Variáveis categóricas: Reporte valores de frequência absoluta e relativa (n, percentual).184

  • Organização das tabelas: as variáveis são exibidas em linhas e os grupos são exibidos em colunas.184

  • Calcule percentagens para as colunas (isto é, entre grupos) e não entre linhas.184

  • Em caso de dados perdidos, não inclua uma linha com total de dados perdidos, pois distorce as proporções entre colunas e as análises de tabela de contingência. Indique no texto ou em uma coluna separada o total de dados perdidos por variável.184


20.2 Apresentação de resultados numéricos


20.2.1 O que são casas decimais?

  • O número de casas decimais refere-se à quantidade de dígitos que aparecem após a vírgula decimal.185,186


20.2.2 O que são dígitos significativos?

  • O termo “dígitos significativos” é preferido a “algarismos significativos” ou “dígitos efetivos” e não se relaciona com significância estatística.185,186

  • O número de dígitos significativos é a soma total de dígitos, desconsiderando a vírgula decimal e os zeros à esquerda; os zeros à direita são considerados informativos, salvo exceções.185,186


20.2.3 Como arredondar dados numéricos?

  • Apresentar dados com quantidade excessiva de casas decimais pode dificultar a interpretação e induzir erroneamente uma precisão espúria.185,186

  • A precisão é determinada pelo grau de arredondamento aplicado, medido em casas decimais ou dígitos significativos.185,186


Tabela 20.1: Quantidade de casas decimais e dígitos significativos.
Valor Casas Decimais Dígitos Significativos
0,00789 5 0
0,0456 4 0
45,6 1 2
123,456 3 3
7890,0000 4 4


  • O arredondamento também introduz erros, uma vez que aumenta a imprecisão (isto é, incerteza) em torno do valor original.185,186


Tabela 20.2: Valores originais, arredondamentos e erros de arredondamento por casas decimais.
Valor Casas Decimais Dígitos Significativos 2 Casas decimais [Margem de erro] 1 Casa decimal [Margem de erro] Sem casa decimal [Margem de erro]
0,00789 5 0 0,01 [0,005, 0,015] 0,0 [-0,05, 0,05] 0 [-0,5, 0,5]
0,0456 4 0 0,05 [0,045, 0,055] 0,0 [-0,05, 0,05] 0 [-0,5, 0,5]
45,6 1 2 45,60 [45,595, 45,605] 45,6 [45,55, 45,65] 46 [45,5, 46,5]
123,456 3 3 123,46 [123,455, 123,465] 123,5 [123,45, 123,55] 123 [122,5, 123,5]
7890,0000 4 4 7890,00 [7889,995, 7890,005] 7890,0 [7889,95, 7890,05] 7890 [7889,5, 7890,5]


  • A regra geral é utilizar 2 ou 3 dígitos significativos para tamanhos de efeito e 1 ou 2 dígitos significativos para medidas de variabilidade.186

  • Regra dos 3 dígitos significativos para proporção de risco: em média, o erro de arredondamento é menor que os 0,5% exigidos, de modo que três dígitos significativos são mais precisos do que o necessário.185

  • Regra dos 4 dígitos significativos para proporção de risco: divida a proporção de risco por quatro e arredonde para dois dígitos significativos e, em seguida, relate a proporção para esse número de casas decimais.185


20.3 Tabelas


20.3.1 Por que usar tabelas?

  • Tabelas complementam o texto (e vice-versa), e podem apresentar os dados de modo mais acessível e informativo.187


20.3.2 Que informações incluir nas tabelas?

  • Título ou legenda, uma síntese descritiva (geralmente por meio de parâmetros descritivos), intervalos de confiança e/ou P-valores conforme necessário para adequada interpretação.187,188


20.3.3 Quais são os tipos de tabelas?


  • Tabela de frequência: apresenta a quantidade de ocorrências (frequência absoluta e relativa) de cada categoria de uma variável; usada com variáveis qualitativas ou quantitativas discretas.REF?

  • Tabela de frequência agrupada: organiza dados contínuos em intervalos de classe (ex: faixas etárias) e mostra as frequências correspondentes.REF?

  • Tabela de contingência (ou tabela cruzada): cruza duas variáveis categóricas, permitindo observar possíveis associações entre elas.REF?

  • Tabela de medidas descritivas: resume variáveis quantitativas com estatísticas como média, mediana, desvio-padrão, mínimo, máximo e quartis.REF?

  • Tabela de comparação entre grupos: apresenta médias, desvios-padrão e ocasionalmente resultados de testes de inferência estatística para comparar dois ou mais grupos.REF?

  • Tabela de resultados de testes estatísticos: exibe valores de estatísticas de teste , P valores e intervalos de confiança; usada para mostrar inferências.REF?

  • Tabela de regressão (ou de modelos estatísticos): mostra os coeficientes de regressão, erros padrão, intervalos de confiança e P valores para cada variável de um modelo.REF?

  • Tabela de séries temporais ou longitudinais: organiza dados medidos em diferentes momentos no tempo, permitindo visualizar tendências ou variações longitudinais.REF?






20.3.4 Quais são os erros mais comuns de preenchimento de tabelas?

  • Erros tipográficos.193

  • Ausência de rótulos ou unidades nas variáveis.193

  • Relatar estatísticas incorretamente, tais como rotular variáveis contínuas como porcentagens.193

  • Estatísticas descritivas de tendência central (ex.: médias) relatadas sem a estatística de dispersão correspondente (ex.: desvio-padrão).193

  • Desvio-padrão nulo (\(\sigma=0\)).193

  • Valores porcentuais que não correspondem ao numerador dividido pelo denominador.193


20.4 Tabela 1


20.4.1 O que é a ‘Tabela 1’?

  • A ‘Tabela 1’ descreve as características demográficas, sociais e clínicas da amostra, completa ou agrupada por algum fator, geralmente por meio de parâmetros de tendência central e dispersão.194,195


20.4.2 Qual a utilidade da ‘Tabela 1’?

  • Descrever (conhecer) as características da amostra e dos grupos sendo comparados, quando aplicável.195

  • Verificar aderência ao protocolo do estudo, incluindo critérios de inclusão/exclusão, tamanho da amostra e perdas amostrais.195

  • Permitir a replicação do estudo.195

  • Meta-analisar os dados junto a estudos similares.195

  • Avaliar a generalização (validade externa) das conclusões do estudo.195


20.4.3 O que é a falácia da ‘Tabela 1’?

  • Falácia da Tabela 1 ocorre pela interpretação errônea dos P-valores na comparação entre grupos, na linha de base, de um ensaio clínico aleatorizado.196


20.4.4 Como construir a ‘Tabela 1’?

  • A Tabela 1 geralmente é utilizada para descrever as características da amostra estudada, possibilitando a análise de ameaças à validade interna e/ou externa ao estudo.197,198




20.5 Tabela 2


20.5.1 Qual a utilidade da ‘Tabela 2’?

  • A Tabela 2 mostra associações ajustadas multivariadas com o resultado para variáveis resumidas na Tabela 1.194


20.5.2 O que é a falácia da ‘Tabela 2’?

  • A Tabela 2 pode induzir ao erro de interpretação pelas estimativas de efeitos para covariáveis do modelo também serem utilizados para controlar a confusão da exposição.194,199

  • Ao apresentar estimativas de efeito ajustadas para covariáveis juntamente com a estimativa de efeito ajustada para a exposição primária, a Tabela 2 sugere implicitamente que todas estas estimativas podem ser interpretadas de forma semelhante, se não de forma idêntica, como estimativa do efeito total.194,199

  • A falácia da Tabela 2 pode ser evitada limitando-se a tabela a estimativas das medidas primárias do efeito de exposição nos diferentes modelos, com as covariáveis secundárias de “ajuste” relatadas em uma nota de rodapé, juntamente com a forma como foram categorizadas ou modeladas.194


20.5.3 Como construir a ‘Tabela 2’?

  • A Tabela 2 pode ser utilizada para apresentar estimativas de múltiplos efeitos ajustados de um mesmo modelo estatístico.194




20.6 Gráficos


20.6.1 O que são gráficos?

  • Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.200


20.6.2 Quais são os tipos de gráficos para variáveis categóricas?

  • Gráfico de barras: Mais usado para comparar frequências absolutas ou relativas entre categorias.REF?


Gráfico de barras simples representando frequências por categoria.

Figura 20.1: Gráfico de barras simples representando frequências por categoria.


  • Gráfico de barras empilhadas: Útil para comparar proporções entre grupos em mais de uma variável categórica.REF?


Gráfico de barras empilhadas representando frequências por categoria.

Figura 20.2: Gráfico de barras empilhadas representando frequências por categoria.


Gráficos de barras represetando médias, barras de erro e dados individuais.

Figura 20.3: Gráficos de barras represetando médias, barras de erro e dados individuais.


20.6.3 Quais são os tipos de gráficos para variáveis numéricas?

  • Histograma: Distribuição de frequência de uma variável contínua. Mostra a forma da distribuição (simétrica, assimétrica, bimodal).REF?


Histograma da variável 'valor'.

Figura 20.4: Histograma da variável ‘valor’.


  • Gráfico de densidade: Similar ao histograma, mas mais suave. Útil para avaliar a distribuição.REF?


Gráfico de densidade da variável 'valor'.

Figura 20.5: Gráfico de densidade da variável ‘valor’.


  • Diagrama de caixa (boxplot): Resume mediana, quartis e valores extremos. Excelente para comparar grupos.REF?


Boxplot por grupo.

Figura 20.6: Boxplot por grupo.


  • Gráfico de violino: Combina boxplot e densidade, mostrando a distribuição da variável. Útil para comparar grupos.REF?


Violin plot por grupo.

Figura 20.7: Violin plot por grupo.


  • Gráfico de pontos (dot plot): Mostra cada valor individualmente, útil para pequenas amostras e para visualizar a distribuição.REF?


Gráfico de pontos da variável 'valor'.

Figura 20.8: Gráfico de pontos da variável ‘valor’.


20.6.4 Quais são os tipos de gráficos para relações entre variáveis?

  • Gráfico de dispersão (scatter plot): Mostra a relação entre duas variáveis quantitativas. Ideal para investigar correlações.REF?


Gráfico de dispersão representando a relação entre duas variáveis.

Figura 20.9: Gráfico de dispersão representando a relação entre duas variáveis.


  • Gráfico de bolhas (bubble chart): Expande o gráfico de dispersão adicionando uma terceira variável (tamanho da bolha).REF?


Gráfico de bolhas representando a relação entre três variáveis.

Figura 20.10: Gráfico de bolhas representando a relação entre três variáveis.


20.6.5 Quais são os tipos de gráficos para séries temporais?

  • Gráfico de linhas: Mostra a evolução de uma variável ao longo do tempo, com pontos conectados por linhas.REF?


Gráfico de linha representando uma série temporal.

Figura 20.11: Gráfico de linha representando uma série temporal.


20.6.6 Quais são os tipos de gráficos para dados multivariados?

  • Gráfico de dispersão: Representa a relação entre duas variáveis, com pontos e uma linha de tendência.REF?


Gráfico de correlação entre duas variáveis com linha de tendência.

Figura 20.12: Gráfico de correlação entre duas variáveis com linha de tendência.


  • Gráfico de matriz de dispersão: Mostra relações entre múltiplas variáveis quantitativas, útil para identificar padrões.REF?


Matriz de dispersão representando relações entre múltiplas variáveis.

Figura 20.13: Matriz de dispersão representando relações entre múltiplas variáveis.


  • Gráfico de calor (heatmap): Representa dados em uma matriz, com cores indicando intensidade ou frequência.REF?


Mapa de calor da correlação entre variáveis.

Figura 20.14: Mapa de calor da correlação entre variáveis.


  • Gráfico de radar (ou gráfico de aranha): Representa várias variáveis em um único gráfico, útil para comparar perfis.REF?


Gráfico radar representando múltiplas variáveis.

Figura 20.15: Gráfico radar representando múltiplas variáveis.


20.6.7 Que elementos incluir em gráficos?

  • Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.200



20.6.8 Para que servem as barras de erro em gráficos?

  • Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.203,204

  • Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.203

  • Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.203

  • Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.203,204

  • Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.204

  • Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.204

  • O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.203

  • De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.204

  • Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.204


20.6.9 Quais são as boas práticas na elaboração de gráficos?

  • O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.203

  • Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.203,204

  • Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.205

  • Exiba os pontos de dados em boxplots.205

  • Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.205

  • Prefira palhetas de cor adaptadas para daltônicos.205




20.6.10 Como exportar figuras em formato TIFF?





Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

97.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
109.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370
181.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
183.
Gerring J. Mere Description. British Journal of Political Science. 2012;42(4):721–746. doi:10.1017/s0007123412000130
184.
Cummings P, Rivara FP. Reporting Statistical Information in Medical Journal Articles. Archives of Pediatrics & Adolescent Medicine. 2003;157(4):321. doi:10.1001/archpedi.157.4.321
185.
Cole TJ. Setting number of decimal places for reporting risk ratios: rule of four. BMJ. 2015;350(apr27 3):h1845–h1845. doi:10.1136/bmj.h1845
186.
Cole TJ. Too many digits: the presentation of numerical data. Archives of Disease in Childhood. 2015;100(7):608–609. doi:10.1136/archdischild-2014-307149
187.
Inskip H, Ntani G, Westbury L, et al. Getting started with tables. Archives of Public Health. 2017;75(1). doi:10.1186/s13690-017-0180-1
188.
Kwak SG, Kang H, Kim JH, et al. The principles of presenting statistical results: Table. Korean Journal of Anesthesiology. 2021;74(2):115–119. doi:10.4097/kja.20582
189.
Gohel D, Skintzos P. flextable: Functions for Tabular Reporting.; 2023. https://CRAN.R-project.org/package=flextable.
190.
Thériault R. rempsyc: Convenience functions for psychology. Journal of Open Source Software. 2023;8:5466. doi:10.21105/joss.05466
191.
Rich B. table1: Tables of Descriptive Statistics in HTML.; 2023. https://CRAN.R-project.org/package=table1.
192.
Sjoberg DD, Whiting K, Curry M, Lavery JA, Larmarange J. Reproducible Summary Tables with the gtsummary Package. The R Journal. 2021;13:570–580. doi:10.32614/RJ-2021-053
193.
Barnett A. Automated detection of over- and under-dispersion in baseline tables in randomised controlled trials. F1000Research. 2023;11:783. doi:10.12688/f1000research.123002.2
194.
Westreich D, Greenland S. The Table 2 Fallacy: Presenting and Interpreting Confounder and Modifier Coefficients. American Journal of Epidemiology. 2013;177(4):292–298. doi:10.1093/aje/kws412
195.
Chen H, Lu Y, Slye N. Testing for baseline differences in clinical trials. International Journal of Clinical Trials. 2020;7(2):150. doi:10.18203/2349-3259.ijct20201720
196.
Pijls BG. The Table I Fallacy: P Values in Baseline Tables of Randomized Controlled Trials. Journal of Bone and Joint Surgery. 2022;104(16):e71. doi:10.2106/jbjs.21.01166
197.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364–366. doi:10.1136/bmj.315.7104.364
198.
Hayes-Larson E, Kezios KL, Mooney SJ, Lovasi G. Who is in this study, anyway? Guidelines for a useful Table 1. Journal of Clinical Epidemiology. 2019;114:125–132. doi:10.1016/j.jclinepi.2019.06.011
199.
Bandoli G, Palmsten K, Chambers CD, Jelliffe-Pawlowski LL, Baer RJ, Thompson CA. Revisiting the Table 2 fallacy: A motivating example examining preeclampsia and preterm birth. Paediatric and Perinatal Epidemiology. 2018;32(4):390–397. doi:10.1111/ppe.12474
200.
Park JH, Lee DK, Kang H, et al. The principles of presenting statistical results using figures. Korean Journal of Anesthesiology. 2022;75(2):139–150. doi:10.4097/kja.21508
201.
Sievert C. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman; Hall/CRC; 2020. https://plotly-r.com.
202.
Wei T, Simko V. R package ’corrplot’: Visualization of a Correlation Matrix.; 2024. https://github.com/taiyun/corrplot.
203.
Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7–11. doi:10.1083/jcb.200611141
204.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659
205.
Weissgerber TL, Winham SJ, Heinzen EP, et al. Reveal, Dont Conceal. Circulation. 2019;140(18):1506–1518. doi:10.1161/circulationaha.118.037777
206.
Xiao N. ggsci: Scientific Journal and Sci-Fi Themed Color Palettes for ggplot2.; 2023. https://CRAN.R-project.org/package=ggsci.
207.
R Core Team. R: A Language and Environment for Statistical Computing.; 2024. https://www.R-project.org/.
208.
Urbanek S, Johnson K. tiff: Read and Write TIFF Images.; 2022. https://CRAN.R-project.org/package=tiff.