Capítulo 67 Gráficos

67.1 Análise descritiva

67.2 Visualização efetiva de dados

67.2.1 Por que começar pela mensagem antes do gráfico?

A figura deve responder a uma pergunta clara (comparação? tendência? composição?) e isso orienta a escolha do tipo de gráfico, dados e anotações. Esboce a mensagem e a pergunta antes de abrir o software.⁵⁵⁹

67.2.2 Como escolher a geometria e “mostrar os dados”?

Prefira geometrias que revelem distribuição/variabilidade (pontos, boxplots, violinos) em vez de médias sozinhas. Sempre que possível, exiba os dados brutos (pontos com jitter) junto da estatística-resumo.⁵⁵⁹

Figura 67.1: Exemplo de gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).

67.3 Gráficos

67.3.1 O que são gráficos?

Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.⁵⁶⁰

67.3.2 O que torna um bom gráfico tão poderoso?

“Não há ferramenta estatística tão poderosa quanto um gráfico bem escolhido”: gráficos ajudam a explorar dados, comunicar resultados e suportar decisões de forma clara e rápida.⁵⁶¹

67.3.3 Que elementos incluir em gráficos?

Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.⁵⁶⁰

67.3.4 Para que servem as barras de erro em gráficos?

Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.^206,259
Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.²⁵⁹
Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.²⁵⁹
Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.^206,259
Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.²⁰⁶
Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.²⁰⁶
O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.²⁵⁹
De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.²⁰⁶
Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.²⁰⁶

Figura 67.2: Exemplos de gráficos com barras de erro e dados brutos.

Figura 67.3: Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.

Os pacotes ggplot2¹⁹⁷, plotly⁵⁶² e corrplot³⁰⁹ fornecem diversas funções para construção de gráficos tais como ggplot, plot_ly e corrplot respectivamente.

67.3.5 Quais são os principais obstáculos para bons gráficos?

Dificuldade técnica, negligência no ensino tradicional e o foco em “beleza” sem clareza podem levar a gráficos ruins, mesmo quando bem intencionados.⁵⁶¹

67.4 Tipos de gráficos

67.4.1 Quais são os tipos de gráficos para variáveis categóricas?

Gráfico de barras: Mais usado para comparar frequências absolutas ou relativas entre categorias.^REF?

Figura 67.4: Gráfico de barras simples representando frequências por categoria.

Gráfico de barras empilhadas: Útil para comparar proporções entre grupos em mais de uma variável categórica.^REF?

Figura 67.5: Gráfico de barras empilhadas representando frequências por categoria.

Figura 67.6: Gráficos de barras represetando médias, barras de erro e dados individuais.

67.4.2 Quais são os tipos de gráficos para variáveis numéricas?

Histograma: Distribuição de frequência de uma variável contínua. Mostra a forma da distribuição (simétrica, assimétrica, bimodal).^REF?

Figura 67.7: Histograma da variável ‘valor’.

Gráfico de densidade: Similar ao histograma, mas mais suave. Útil para avaliar a distribuição.^REF?

Figura 67.8: Gráfico de densidade da variável ‘valor’.

Diagrama de caixa (boxplot): Resume mediana, quartis e valores extremos. Excelente para comparar grupos.^REF?

Figura 67.9: Boxplot por grupo.

Gráfico de violino: Combina boxplot e densidade, mostrando a distribuição da variável. Útil para comparar grupos.^REF?

Figura 67.10: Violin plot por grupo.

Gráfico de pontos (dot plot): Mostra cada valor individualmente, útil para pequenas amostras e para visualizar a distribuição.^REF?

Figura 67.11: Gráfico de pontos da variável ‘valor’.

67.4.3 Quais são os tipos de gráficos para relações entre variáveis?

Gráfico de dispersão (scatter plot): Mostra a relação entre duas variáveis quantitativas. Ideal para investigar correlações.^REF?

Figura 67.12: Gráfico de dispersão representando a relação entre duas variáveis.

Gráfico de bolhas (bubble chart): Expande o gráfico de dispersão adicionando uma terceira variável (tamanho da bolha).^REF?

Figura 67.13: Gráfico de bolhas representando a relação entre três variáveis.

Gr;afico Sankey: Visualiza fluxos entre categorias em diferentes etapas ou grupos. Útil para mostrar proporções e transições.⁵⁶³

Figura 67.14: Sankey plot representando fluxos entre categorias.

Grágfico de parcats: Mostra relações entre múltiplas variáveis categóricas em paralelo. Útil para visualizar fluxos e proporções.^REF?

Figura 67.15: Gráfico de categorias paralelas (parcats) representando transições entre categorias ao longo do tempo.

Gráfico de parts: Mostra a composição percentual de uma variável categórica. Útil para visualizar proporções.^REF?

Figura 67.16: Gráfico de pares representando correlações entre múltiplas variáveis.

67.4.4 Quais são os tipos de gráficos para dados longitudinais?

Gráfico de spaghetti: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis contínuas.^563,564

Figura 67.17: Gráfico spaghetti representando dados longitudinais.

Gráfico de lasagna: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis categóricas.^563,564

Figura 67.18: Gráfico spaghetti representando dados longitudinais.

67.4.5 Quais são os tipos de gráficos para séries temporais?

Gráfico de linhas: Mostra a evolução de uma variável ao longo do tempo, com pontos conectados por linhas.^REF?

Figura 67.19: Gráfico de linha representando uma série temporal.

67.4.6 Quais são os tipos de gráficos para avaliação de resposta longitudinal?

Waterfall plot: Representa a melhor variação percentual individual em relação ao baseline, geralmente ordenada do pior ao melhor respondedor. Pode mascarar a dinâmica temporal e induzir interpretações equivocadas quando usado isoladamente.⁵⁶⁵

Figura 67.20: Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.

Spider plot: Mostra a variação percentual de uma variável ao longo do tempo para cada indivíduo, permitindo visualizar a trajetória longitudinal da resposta. Ainda assim, o uso de percentual de mudança apresenta limitações estatísticas, incluindo assimetria e dependência do valor basal.⁵⁶⁵

Figura 67.21: Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.

67.4.7 Quais são os tipos de gráficos para dados multivariados?

Gráfico de dispersão: Representa a relação entre duas variáveis, com pontos e uma linha de tendência.^REF?

Figura 67.22: Gráfico de correlação entre duas variáveis com linha de tendência.

Gráfico de matriz de dispersão: Mostra relações entre múltiplas variáveis quantitativas, útil para identificar padrões.^REF?

Figura 67.23: Matriz de dispersão representando relações entre múltiplas variáveis.

Gráfico de calor (heatmap): Representa dados em uma matriz, com cores indicando intensidade ou frequência.^REF?

Figura 67.24: Mapa de calor da correlação entre variáveis.

Gráfico de radar (ou gráfico de aranha): Representa várias variáveis em um único gráfico, útil para comparar perfis.^REF?

Figura 67.25: Gráfico radar representando múltiplas variáveis.

67.4.8 Quais são as melhores práticas na elaboração de gráficos?

O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.²⁵⁹
Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.^206,259
Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.²⁴⁰
Exiba os pontos de dados em boxplots.²⁴⁰
Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.²⁴⁰
Prefira palhetas de cor adaptadas para daltônicos.²⁴⁰
Uma boa legenda torna a figura autossuficiente: descreva amostra (n), geometrias, métricas de incerteza, escalas/unidades e mensagem principal. Se houver modelo, indique fórmula/ajustes em nota.⁵⁵⁹
Evite gráficos de barras com médias para variáveis contínuas; prefira pontos/box/violino e, em amostras pequenas, exiba todos os dados.²⁴⁰
Antes de finalizar um gráfico, faça as seguintes perguntas: (1) Mensagem está explícita? (2) Geometria adequada e dados visíveis? (3) Incerteza correta e rotulada? (4) Cores informativas e acessíveis? (5) Escalas comparáveis (se facetou)? (6) Legenda/caption autossuficiente? (7) Diferença clara entre dados e modelos? (8) Arquivo exportado na resolução/tamanho exigidos?⁵⁵⁹

O pacote ggsci⁵⁶⁶ fornece palhetas de cores tais como pal_lancet, pal_nejm e pal_npg inspiradas em publicações científicas para uso em gráficos.

O pacote grDevices¹⁹⁶ fornece a função dev.new para controlar diversos aspectos do gráfico, tais como tamanho e resolução.

O pacote tiff⁵⁶⁷ fornece a função writeTIFF para exportar gráficos em formato TIFF.

67.5 Fluxogramas

67.5.1 O que é um fluxogramas?

.^REF?

O pacote PRISMA2020⁵³³ fornece a função PRISMA_flowdiagram para elaboração do fluxograma de revisões sistemáticas no formato padrão.

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

196.

R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.

197.

Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.

206.

Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659

240.

Weissgerber TL, Winham SJ, Heinzen EP, et al. Reveal, Don’t Conceal. Circulation. 2019;140(18):1506–1518. doi:10.1161/circulationaha.118.037777

259.

Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7–11. doi:10.1083/jcb.200611141

309.

Wei T, Simko V. R package corrplot: Visualization of a Correlation Matrix.; 2024. https://github.com/taiyun/corrplot.

533.

Haddaway NR, Page MJ, Pritchard CC, McGuinness LA. PRISMA2020: An R package and Shiny app for producing PRISMA 2020-compliant flow diagrams, with interactivity for optimised digital transparency and Open Synthesis. Campbell Systematic Reviews. 2022;18:e1230. doi:10.1002/cl2.1230

559.

Midway SR. Principles of Effective Data Visualization. Patterns. 2020;1(9):100141. doi:10.1016/j.patter.2020.100141

560.

Park JH, Lee DK, Kang H, et al. The principles of presenting statistical results using figures. Korean Journal of Anesthesiology. 2022;75(2):139–150. doi:10.4097/kja.21508

561.

Vandemeulebroecke M, Baillie M, Carr D, et al. How can we make better graphs? An initiative to increase the graphical expertise and productivity of quantitative scientists. Pharmaceutical Statistics. 2018;18(1):106–114. doi:10.1002/pst.1912

562.

Sievert C. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman; Hall/CRC; 2020. https://plotly-r.com.

563.

Wise EA, Adams RJ, Lyketsos CG, Leoutsakos JM. Graphical methods for understanding changes in states: Understanding medication use pathways. International Journal of Methods in Psychiatric Research. 2022;31(4). doi:10.1002/mpr.1932

564.

Swihart BJ, Caffo B, James BD, Strand M, Schwartz BS, Punjabi NM. Lasagna Plots. Epidemiology. 2010;21(5):621–625. doi:10.1097/ede.0b013e3181e5b06a

565.

Mercier F, Consalvo N, Frey N, Phipps A, Ribba B. From waterfall plots to spaghetti plots in early oncology clinical development. Pharmaceutical Statistics. 2019;18(5):526–532. doi:10.1002/pst.1944

566.

Xiao N. ggsci: Scientific Journal and Sci-Fi Themed Color Palettes for ggplot2.; 2023. https://CRAN.R-project.org/package=ggsci.

567.

Urbanek S, Johnson K. tiff: Read and Write TIFF Images.; 2022. https://CRAN.R-project.org/package=tiff.