Capítulo 66 Gráficos


66.1 Análise descritiva


66.2 Visualização efetiva de dados


66.2.1 Por que começar pela mensagem antes do gráfico?

  • A figura deve responder a uma pergunta clara (comparação? tendência? composição?) e isso orienta a escolha do tipo de gráfico, dados e anotações. Esboce a mensagem e a pergunta antes de abrir o software.532

66.2.2 Como escolher a geometria e “mostrar os dados”?

  • Prefira geometrias que revelem distribuição/variabilidade (pontos, boxplots, violinos) em vez de médias sozinhas. Sempre que possível, exiba os dados brutos (pontos com jitter) junto da estatística-resumo.532


Exemplo de gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).

Figura 66.1: Exemplo de gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).


66.3 Gráficos


66.3.1 O que são gráficos?

  • Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.533


66.3.2 O que torna um bom gráfico tão poderoso?

  • “Não há ferramenta estatística tão poderosa quanto um gráfico bem escolhido”: gráficos ajudam a explorar dados, comunicar resultados e suportar decisões de forma clara e rápida.534


66.3.3 Que elementos incluir em gráficos?

  • Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.533


66.3.4 Para que servem as barras de erro em gráficos?

  • Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.195,261

  • Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.261

  • Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.261

  • Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.195,261

  • Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.195

  • Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.195

  • O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.261

  • De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.195

  • Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.195


Exemplos de gráficos com barras de erro e dados brutos.

Figura 66.2: Exemplos de gráficos com barras de erro e dados brutos.


Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.

Figura 66.3: Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.



66.3.5 Quais são os principais obstáculos para bons gráficos?

  • Dificuldade técnica, negligência no ensino tradicional e o foco em “beleza” sem clareza podem levar a gráficos ruins, mesmo quando bem intencionados.534


66.4 Tipos de gráficos


66.4.1 Quais são os tipos de gráficos para variáveis categóricas?

  • Gráfico de barras: Mais usado para comparar frequências absolutas ou relativas entre categorias.REF?


Gráfico de barras simples representando frequências por categoria.

Figura 66.4: Gráfico de barras simples representando frequências por categoria.


  • Gráfico de barras empilhadas: Útil para comparar proporções entre grupos em mais de uma variável categórica.REF?


Gráfico de barras empilhadas representando frequências por categoria.

Figura 66.5: Gráfico de barras empilhadas representando frequências por categoria.


Gráficos de barras represetando médias, barras de erro e dados individuais.

Figura 66.6: Gráficos de barras represetando médias, barras de erro e dados individuais.


66.4.2 Quais são os tipos de gráficos para variáveis numéricas?

  • Histograma: Distribuição de frequência de uma variável contínua. Mostra a forma da distribuição (simétrica, assimétrica, bimodal).REF?


Histograma da variável 'valor'.

Figura 66.7: Histograma da variável ‘valor’.


  • Gráfico de densidade: Similar ao histograma, mas mais suave. Útil para avaliar a distribuição.REF?


Gráfico de densidade da variável 'valor'.

Figura 66.8: Gráfico de densidade da variável ‘valor’.


  • Diagrama de caixa (boxplot): Resume mediana, quartis e valores extremos. Excelente para comparar grupos.REF?


Boxplot por grupo.

Figura 66.9: Boxplot por grupo.


  • Gráfico de violino: Combina boxplot e densidade, mostrando a distribuição da variável. Útil para comparar grupos.REF?


Violin plot por grupo.

Figura 66.10: Violin plot por grupo.


  • Gráfico de pontos (dot plot): Mostra cada valor individualmente, útil para pequenas amostras e para visualizar a distribuição.REF?


Gráfico de pontos da variável 'valor'.

Figura 66.11: Gráfico de pontos da variável ‘valor’.


66.4.3 Quais são os tipos de gráficos para relações entre variáveis?

  • Gráfico de dispersão (scatter plot): Mostra a relação entre duas variáveis quantitativas. Ideal para investigar correlações.REF?


Gráfico de dispersão representando a relação entre duas variáveis.

Figura 66.12: Gráfico de dispersão representando a relação entre duas variáveis.


  • Gráfico de bolhas (bubble chart): Expande o gráfico de dispersão adicionando uma terceira variável (tamanho da bolha).REF?


Gráfico de bolhas representando a relação entre três variáveis.

Figura 66.13: Gráfico de bolhas representando a relação entre três variáveis.


  • Gr;afico Sankey: Visualiza fluxos entre categorias em diferentes etapas ou grupos. Útil para mostrar proporções e transições.536


Figura 66.14: Sankey plot representando fluxos entre categorias.


  • Grágfico de parcats: Mostra relações entre múltiplas variáveis categóricas em paralelo. Útil para visualizar fluxos e proporções.REF?


Figura 66.15: Gráfico de categorias paralelas (parcats) representando transições entre categorias ao longo do tempo.


  • Gráfico de parts: Mostra a composição percentual de uma variável categórica. Útil para visualizar proporções.REF?


Gráfico de pares representando correlações entre múltiplas variáveis.

Figura 66.16: Gráfico de pares representando correlações entre múltiplas variáveis.


66.4.4 Quais são os tipos de gráficos para dados longitudinais?

  • Gráfico de spaghetti: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis contínuas.536,537


Gráfico spaghetti representando dados longitudinais.

Figura 66.17: Gráfico spaghetti representando dados longitudinais.


  • Gráfico de lasagna: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis categóricas.536,537


Gráfico spaghetti representando dados longitudinais.

Figura 66.18: Gráfico spaghetti representando dados longitudinais.


66.4.5 Quais são os tipos de gráficos para séries temporais?

  • Gráfico de linhas: Mostra a evolução de uma variável ao longo do tempo, com pontos conectados por linhas.REF?


Gráfico de linha representando uma série temporal.

Figura 66.19: Gráfico de linha representando uma série temporal.


66.4.6 Quais são os tipos de gráficos para avaliação de resposta longitudinal?

  • Waterfall plot: Representa a melhor variação percentual individual em relação ao baseline, geralmente ordenada do pior ao melhor respondedor. Pode mascarar a dinâmica temporal e induzir interpretações equivocadas quando usado isoladamente.538


Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.

Figura 66.20: Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.


  • Spider plot: Mostra a variação percentual de uma variável ao longo do tempo para cada indivíduo, permitindo visualizar a trajetória longitudinal da resposta. Ainda assim, o uso de percentual de mudança apresenta limitações estatísticas, incluindo assimetria e dependência do valor basal.538


Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.

Figura 66.21: Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.


66.4.7 Quais são os tipos de gráficos para dados multivariados?

  • Gráfico de dispersão: Representa a relação entre duas variáveis, com pontos e uma linha de tendência.REF?


Gráfico de correlação entre duas variáveis com linha de tendência.

Figura 66.22: Gráfico de correlação entre duas variáveis com linha de tendência.


  • Gráfico de matriz de dispersão: Mostra relações entre múltiplas variáveis quantitativas, útil para identificar padrões.REF?


Matriz de dispersão representando relações entre múltiplas variáveis.

Figura 66.23: Matriz de dispersão representando relações entre múltiplas variáveis.


  • Gráfico de calor (heatmap): Representa dados em uma matriz, com cores indicando intensidade ou frequência.REF?


Mapa de calor da correlação entre variáveis.

Figura 66.24: Mapa de calor da correlação entre variáveis.


  • Gráfico de radar (ou gráfico de aranha): Representa várias variáveis em um único gráfico, útil para comparar perfis.REF?


Gráfico radar representando múltiplas variáveis.

Figura 66.25: Gráfico radar representando múltiplas variáveis.


66.4.8 Quais são as melhores práticas na elaboração de gráficos?

  • O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.261

  • Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.195,261

  • Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.228

  • Exiba os pontos de dados em boxplots.228

  • Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.228

  • Prefira palhetas de cor adaptadas para daltônicos.228

  • Uma boa legenda torna a figura autossuficiente: descreva amostra (n), geometrias, métricas de incerteza, escalas/unidades e mensagem principal. Se houver modelo, indique fórmula/ajustes em nota.532

  • Evite gráficos de barras com médias para variáveis contínuas; prefira pontos/box/violino e, em amostras pequenas, exiba todos os dados.228

  • Antes de finalizar um gráfico, faça as seguintes perguntas: (1) Mensagem está explícita? (2) Geometria adequada e dados visíveis? (3) Incerteza correta e rotulada? (4) Cores informativas e acessíveis? (5) Escalas comparáveis (se facetou)? (6) Legenda/caption autossuficiente? (7) Diferença clara entre dados e modelos? (8) Arquivo exportado na resolução/tamanho exigidos?532





66.5 Fluxogramas


66.5.1 Quais são os tipos de fluxogramas?




Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

183.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
184.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
195.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659
228.
Weissgerber TL, Winham SJ, Heinzen EP, et al. Reveal, Dont Conceal. Circulation. 2019;140(18):1506–1518. doi:10.1161/circulationaha.118.037777
261.
Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7–11. doi:10.1083/jcb.200611141
303.
Wei T, Simko V. R package corrplot: Visualization of a Correlation Matrix.; 2024. https://github.com/taiyun/corrplot.
502.
Haddaway NR, Page MJ, Pritchard CC, McGuinness LA. PRISMA2020: An R package and Shiny app for producing PRISMA 2020-compliant flow diagrams, with interactivity for optimised digital transparency and Open Synthesis. Campbell Systematic Reviews. 2022;18:e1230. doi:10.1002/cl2.1230
532.
Midway SR. Principles of Effective Data Visualization. Patterns. 2020;1(9):100141. doi:10.1016/j.patter.2020.100141
533.
Park JH, Lee DK, Kang H, et al. The principles of presenting statistical results using figures. Korean Journal of Anesthesiology. 2022;75(2):139–150. doi:10.4097/kja.21508
534.
Vandemeulebroecke M, Baillie M, Carr D, et al. How can we make better graphs? An initiative to increase the graphical expertise and productivity of quantitative scientists. Pharmaceutical Statistics. 2018;18(1):106–114. doi:10.1002/pst.1912
535.
Sievert C. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman; Hall/CRC; 2020. https://plotly-r.com.
536.
Wise EA, Adams RJ, Lyketsos CG, Leoutsakos JM. Graphical methods for understanding changes in states: Understanding medication use pathways. International Journal of Methods in Psychiatric Research. 2022;31(4). doi:10.1002/mpr.1932
537.
Swihart BJ, Caffo B, James BD, Strand M, Schwartz BS, Punjabi NM. Lasagna Plots. Epidemiology. 2010;21(5):621–625. doi:10.1097/ede.0b013e3181e5b06a
538.
Mercier F, Consalvo N, Frey N, Phipps A, Ribba B. From waterfall plots to spaghetti plots in early oncology clinical development. Pharmaceutical Statistics. 2019;18(5):526–532. doi:10.1002/pst.1944
539.
Xiao N. ggsci: Scientific Journal and Sci-Fi Themed Color Palettes for ggplot2.; 2023. https://CRAN.R-project.org/package=ggsci.
540.
Urbanek S, Johnson K. tiff: Read and Write TIFF Images.; 2022. https://CRAN.R-project.org/package=tiff.