Capítulo 67 Gráficos


67.1 Análise descritiva


67.2 Visualização efetiva de dados


67.2.1 Por que começar pela mensagem antes do gráfico?

  • A figura deve responder a uma pergunta clara (comparação? tendência? composição?) e isso orienta a escolha do tipo de gráfico, dados e anotações. Esboce a mensagem e a pergunta antes de abrir o software.559

67.2.2 Como escolher a geometria e “mostrar os dados”?

  • Prefira geometrias que revelem distribuição/variabilidade (pontos, boxplots, violinos) em vez de médias sozinhas. Sempre que possível, exiba os dados brutos (pontos com jitter) junto da estatística-resumo.559


Exemplo de gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).

Figura 67.1: Exemplo de gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).


67.3 Gráficos


67.3.1 O que são gráficos?

  • Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.560


67.3.2 O que torna um bom gráfico tão poderoso?

  • “Não há ferramenta estatística tão poderosa quanto um gráfico bem escolhido”: gráficos ajudam a explorar dados, comunicar resultados e suportar decisões de forma clara e rápida.561


67.3.3 Que elementos incluir em gráficos?

  • Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.560


67.3.4 Para que servem as barras de erro em gráficos?

  • Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.206,259

  • Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.259

  • Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.259

  • Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.206,259

  • Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.206

  • Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.206

  • O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.259

  • De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.206

  • Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.206


Exemplos de gráficos com barras de erro e dados brutos.

Figura 67.2: Exemplos de gráficos com barras de erro e dados brutos.


Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.

Figura 67.3: Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.



67.3.5 Quais são os principais obstáculos para bons gráficos?

  • Dificuldade técnica, negligência no ensino tradicional e o foco em “beleza” sem clareza podem levar a gráficos ruins, mesmo quando bem intencionados.561


67.4 Tipos de gráficos


67.4.1 Quais são os tipos de gráficos para variáveis categóricas?

  • Gráfico de barras: Mais usado para comparar frequências absolutas ou relativas entre categorias.REF?


Gráfico de barras simples representando frequências por categoria.

Figura 67.4: Gráfico de barras simples representando frequências por categoria.


  • Gráfico de barras empilhadas: Útil para comparar proporções entre grupos em mais de uma variável categórica.REF?


Gráfico de barras empilhadas representando frequências por categoria.

Figura 67.5: Gráfico de barras empilhadas representando frequências por categoria.


Gráficos de barras represetando médias, barras de erro e dados individuais.

Figura 67.6: Gráficos de barras represetando médias, barras de erro e dados individuais.


67.4.2 Quais são os tipos de gráficos para variáveis numéricas?

  • Histograma: Distribuição de frequência de uma variável contínua. Mostra a forma da distribuição (simétrica, assimétrica, bimodal).REF?


Histograma da variável 'valor'.

Figura 67.7: Histograma da variável ‘valor’.


  • Gráfico de densidade: Similar ao histograma, mas mais suave. Útil para avaliar a distribuição.REF?


Gráfico de densidade da variável 'valor'.

Figura 67.8: Gráfico de densidade da variável ‘valor’.


  • Diagrama de caixa (boxplot): Resume mediana, quartis e valores extremos. Excelente para comparar grupos.REF?


Boxplot por grupo.

Figura 67.9: Boxplot por grupo.


  • Gráfico de violino: Combina boxplot e densidade, mostrando a distribuição da variável. Útil para comparar grupos.REF?


Violin plot por grupo.

Figura 67.10: Violin plot por grupo.


  • Gráfico de pontos (dot plot): Mostra cada valor individualmente, útil para pequenas amostras e para visualizar a distribuição.REF?


Gráfico de pontos da variável 'valor'.

Figura 67.11: Gráfico de pontos da variável ‘valor’.


67.4.3 Quais são os tipos de gráficos para relações entre variáveis?

  • Gráfico de dispersão (scatter plot): Mostra a relação entre duas variáveis quantitativas. Ideal para investigar correlações.REF?


Gráfico de dispersão representando a relação entre duas variáveis.

Figura 67.12: Gráfico de dispersão representando a relação entre duas variáveis.


  • Gráfico de bolhas (bubble chart): Expande o gráfico de dispersão adicionando uma terceira variável (tamanho da bolha).REF?


Gráfico de bolhas representando a relação entre três variáveis.

Figura 67.13: Gráfico de bolhas representando a relação entre três variáveis.


  • Gr;afico Sankey: Visualiza fluxos entre categorias em diferentes etapas ou grupos. Útil para mostrar proporções e transições.563


Figura 67.14: Sankey plot representando fluxos entre categorias.


  • Grágfico de parcats: Mostra relações entre múltiplas variáveis categóricas em paralelo. Útil para visualizar fluxos e proporções.REF?


Figura 67.15: Gráfico de categorias paralelas (parcats) representando transições entre categorias ao longo do tempo.


  • Gráfico de parts: Mostra a composição percentual de uma variável categórica. Útil para visualizar proporções.REF?


Gráfico de pares representando correlações entre múltiplas variáveis.

Figura 67.16: Gráfico de pares representando correlações entre múltiplas variáveis.


67.4.4 Quais são os tipos de gráficos para dados longitudinais?

  • Gráfico de spaghetti: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis contínuas.563,564


Gráfico spaghetti representando dados longitudinais.

Figura 67.17: Gráfico spaghetti representando dados longitudinais.


  • Gráfico de lasagna: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis categóricas.563,564


Gráfico spaghetti representando dados longitudinais.

Figura 67.18: Gráfico spaghetti representando dados longitudinais.


67.4.5 Quais são os tipos de gráficos para séries temporais?

  • Gráfico de linhas: Mostra a evolução de uma variável ao longo do tempo, com pontos conectados por linhas.REF?


Gráfico de linha representando uma série temporal.

Figura 67.19: Gráfico de linha representando uma série temporal.


67.4.6 Quais são os tipos de gráficos para avaliação de resposta longitudinal?

  • Waterfall plot: Representa a melhor variação percentual individual em relação ao baseline, geralmente ordenada do pior ao melhor respondedor. Pode mascarar a dinâmica temporal e induzir interpretações equivocadas quando usado isoladamente.565


Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.

Figura 67.20: Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.


  • Spider plot: Mostra a variação percentual de uma variável ao longo do tempo para cada indivíduo, permitindo visualizar a trajetória longitudinal da resposta. Ainda assim, o uso de percentual de mudança apresenta limitações estatísticas, incluindo assimetria e dependência do valor basal.565


Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.

Figura 67.21: Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.


67.4.7 Quais são os tipos de gráficos para dados multivariados?

  • Gráfico de dispersão: Representa a relação entre duas variáveis, com pontos e uma linha de tendência.REF?


Gráfico de correlação entre duas variáveis com linha de tendência.

Figura 67.22: Gráfico de correlação entre duas variáveis com linha de tendência.


  • Gráfico de matriz de dispersão: Mostra relações entre múltiplas variáveis quantitativas, útil para identificar padrões.REF?


Matriz de dispersão representando relações entre múltiplas variáveis.

Figura 67.23: Matriz de dispersão representando relações entre múltiplas variáveis.


  • Gráfico de calor (heatmap): Representa dados em uma matriz, com cores indicando intensidade ou frequência.REF?


Mapa de calor da correlação entre variáveis.

Figura 67.24: Mapa de calor da correlação entre variáveis.


  • Gráfico de radar (ou gráfico de aranha): Representa várias variáveis em um único gráfico, útil para comparar perfis.REF?


Gráfico radar representando múltiplas variáveis.

Figura 67.25: Gráfico radar representando múltiplas variáveis.


67.4.8 Quais são as melhores práticas na elaboração de gráficos?

  • O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.259

  • Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.206,259

  • Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.240

  • Exiba os pontos de dados em boxplots.240

  • Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.240

  • Prefira palhetas de cor adaptadas para daltônicos.240

  • Uma boa legenda torna a figura autossuficiente: descreva amostra (n), geometrias, métricas de incerteza, escalas/unidades e mensagem principal. Se houver modelo, indique fórmula/ajustes em nota.559

  • Evite gráficos de barras com médias para variáveis contínuas; prefira pontos/box/violino e, em amostras pequenas, exiba todos os dados.240

  • Antes de finalizar um gráfico, faça as seguintes perguntas: (1) Mensagem está explícita? (2) Geometria adequada e dados visíveis? (3) Incerteza correta e rotulada? (4) Cores informativas e acessíveis? (5) Escalas comparáveis (se facetou)? (6) Legenda/caption autossuficiente? (7) Diferença clara entre dados e modelos? (8) Arquivo exportado na resolução/tamanho exigidos?559





67.5 Fluxogramas


67.5.1 O que é um fluxogramas?




Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

196.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
197.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
206.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659
240.
Weissgerber TL, Winham SJ, Heinzen EP, et al. Reveal, Dont Conceal. Circulation. 2019;140(18):1506–1518. doi:10.1161/circulationaha.118.037777
259.
Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7–11. doi:10.1083/jcb.200611141
309.
Wei T, Simko V. R package corrplot: Visualization of a Correlation Matrix.; 2024. https://github.com/taiyun/corrplot.
533.
Haddaway NR, Page MJ, Pritchard CC, McGuinness LA. PRISMA2020: An R package and Shiny app for producing PRISMA 2020-compliant flow diagrams, with interactivity for optimised digital transparency and Open Synthesis. Campbell Systematic Reviews. 2022;18:e1230. doi:10.1002/cl2.1230
559.
Midway SR. Principles of Effective Data Visualization. Patterns. 2020;1(9):100141. doi:10.1016/j.patter.2020.100141
560.
Park JH, Lee DK, Kang H, et al. The principles of presenting statistical results using figures. Korean Journal of Anesthesiology. 2022;75(2):139–150. doi:10.4097/kja.21508
561.
Vandemeulebroecke M, Baillie M, Carr D, et al. How can we make better graphs? An initiative to increase the graphical expertise and productivity of quantitative scientists. Pharmaceutical Statistics. 2018;18(1):106–114. doi:10.1002/pst.1912
562.
Sievert C. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman; Hall/CRC; 2020. https://plotly-r.com.
563.
Wise EA, Adams RJ, Lyketsos CG, Leoutsakos JM. Graphical methods for understanding changes in states: Understanding medication use pathways. International Journal of Methods in Psychiatric Research. 2022;31(4). doi:10.1002/mpr.1932
564.
Swihart BJ, Caffo B, James BD, Strand M, Schwartz BS, Punjabi NM. Lasagna Plots. Epidemiology. 2010;21(5):621–625. doi:10.1097/ede.0b013e3181e5b06a
565.
Mercier F, Consalvo N, Frey N, Phipps A, Ribba B. From waterfall plots to spaghetti plots in early oncology clinical development. Pharmaceutical Statistics. 2019;18(5):526–532. doi:10.1002/pst.1944
566.
Xiao N. ggsci: Scientific Journal and Sci-Fi Themed Color Palettes for ggplot2.; 2023. https://CRAN.R-project.org/package=ggsci.
567.
Urbanek S, Johnson K. tiff: Read and Write TIFF Images.; 2022. https://CRAN.R-project.org/package=tiff.