Capítulo 20 Gráficos


20.1 Visualização efetiva de dados


20.1.1 Por que começar pela mensagem antes do gráfico?

  • A figura deve responder a uma pergunta clara (comparação? tendência? composição?) e isso orienta a escolha do tipo de gráfico, dados e anotações. Esboce a mensagem e a pergunta antes de abrir o software.237

20.1.2 Como escolher a geometria e “mostrar os dados”?

  • Prefira geometrias que revelem distribuição/variabilidade (pontos, boxplots, violinos) em vez de médias sozinhas. Sempre que possível, exiba os dados brutos (pontos com jitter) junto da estatística-resumo.237


Gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).

Figura 20.1: Gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).


20.2 Gráficos


20.2.1 O que são gráficos?

  • Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.238


20.2.2 O que torna um bom gráfico tão poderoso?

  • “Não há ferramenta estatística tão poderosa quanto um gráfico bem escolhido”: gráficos ajudam a explorar dados, comunicar resultados e suportar decisões de forma clara e rápida.239


20.2.3 Que elementos incluir em gráficos?

  • Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.238


20.2.4 Para que servem as barras de erro em gráficos?

  • Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.208,240

  • Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.240

  • Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.240

  • Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.208,240

  • Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.208

  • Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.208

  • O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.240

  • De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.208

  • Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.208


Exemplos de gráficos com barras de erro e dados brutos.

Figura 20.2: Exemplos de gráficos com barras de erro e dados brutos.


Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.

Figura 20.3: Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.



20.2.5 Quais são os principais obstáculos para bons gráficos?

  • Dificuldade técnica, negligência no ensino tradicional e o foco em “beleza” sem clareza podem levar a gráficos ruins, mesmo quando bem intencionados.239


20.3 Tipos de gráficos


20.3.1 Quais são os tipos de gráficos para variáveis categóricas?

  • Gráfico de barras: Mais usado para comparar frequências absolutas ou relativas entre categorias.REF?


Gráfico de barras simples representando frequências por categoria.

Figura 20.4: Gráfico de barras simples representando frequências por categoria.


  • Gráfico de barras empilhadas: Útil para comparar proporções entre grupos em mais de uma variável categórica.REF?


Gráfico de barras empilhadas representando frequências por categoria.

Figura 20.5: Gráfico de barras empilhadas representando frequências por categoria.


Gráficos de barras represetando médias, barras de erro e dados individuais.

Figura 20.6: Gráficos de barras represetando médias, barras de erro e dados individuais.


20.3.2 Quais são os tipos de gráficos para variáveis numéricas?

  • Histograma: Distribuição de frequência de uma variável contínua. Mostra a forma da distribuição (simétrica, assimétrica, bimodal).REF?


Histograma.

Figura 20.7: Histograma.


  • Gráfico de densidade: Similar ao histograma, mas mais suave. Útil para avaliar a distribuição.REF?


Gráfico de densidade

Figura 20.8: Gráfico de densidade


  • Diagrama de caixa (boxplot): Resume mediana, quartis e valores extremos. Excelente para comparar grupos.REF?


Boxplot por grupo.

Figura 20.9: Boxplot por grupo.


  • Gráfico de violino: Combina boxplot e densidade, mostrando a distribuição da variável. Útil para comparar grupos.REF?


Violin plot por grupo.

Figura 20.10: Violin plot por grupo.


  • Gráfico de pontos (dot plot): Mostra cada valor individualmente, útil para pequenas amostras e para visualizar a distribuição.REF?


Gráfico de pontos.

Figura 20.11: Gráfico de pontos.


20.3.3 Quais são os tipos de gráficos para relações entre variáveis?

  • Gráfico de dispersão (scatter plot): Mostra a relação entre duas variáveis quantitativas. Ideal para investigar correlações.REF?


Gráfico de dispersão representando a relação entre duas variáveis.

Figura 20.12: Gráfico de dispersão representando a relação entre duas variáveis.


  • Gráfico de bolhas (bubble chart): Expande o gráfico de dispersão adicionando uma terceira variável (tamanho da bolha).REF?


Gráfico de bolhas representando a relação entre três variáveis.

Figura 20.13: Gráfico de bolhas representando a relação entre três variáveis.


  • Gráfico Sankey: Visualiza fluxos entre categorias em diferentes etapas ou grupos. Útil para mostrar proporções e transições.243


Figura 20.14: Sankey plot representando fluxos entre categorias.


  • Gráfico de categorias paralelas (parcats): Mostra relações entre múltiplas variáveis categóricas em paralelo. Útil para visualizar fluxos e proporções.REF?


Figura 20.15: Gráfico de categorias paralelas (parcats) representando transições entre categorias ao longo do tempo.


  • Gráfico de pares (pairs plot): Mostra relações entre múltiplas variáveis quantitativas por meio de uma matriz de dispersão.REF?


Gráfico de pares representando correlações entre múltiplas variáveis.

Figura 20.16: Gráfico de pares representando correlações entre múltiplas variáveis.


20.3.4 Quais são os tipos de gráficos para dados longitudinais?

  • Gráfico de spaghetti: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis contínuas.243,244


Gráfico spaghetti representando dados longitudinais.

Figura 20.17: Gráfico spaghetti representando dados longitudinais.


  • Gráfico de lasagna: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis categóricas.243,244


Gráfico de lasanha representando dados longitudinais categóricos.

Figura 20.18: Gráfico de lasanha representando dados longitudinais categóricos.


  • Gráfico nadador (swimmer plot): Representa a duração do acompanhamento individual de cada participante ao longo do tempo, destacando eventos clínicos importantes e pacientes ainda em seguimento.REF?


Code
# reprodutibilidade
set.seed(123)

# 1. Criando dados simulados
n_patients <- 25

df <- data.frame(
  patient = paste0("P", sprintf("%02d", 1:n_patients)),
  # início do acompanhamento
  start_day = sample(0:40, n_patients, replace = TRUE),
  # duração total
  duration = sample(20:140, n_patients, replace = TRUE),
  # evento intermediário
  event_day = sample(10:120, n_patients, replace = TRUE),
  # paciente ainda em seguimento?
  ongoing = sample(c(TRUE, FALSE), n_patients, replace = TRUE)
)

# fim do acompanhamento
df$end_day <- df$start_day + df$duration

# ajustar evento para ficar dentro da linha
df$event_day <- pmin(
  df$start_day + df$event_day,
  df$end_day - 5
)

# ordenar pacientes pela duração
df <- df %>%
  dplyr::arrange(desc(duration)) %>%
  dplyr::mutate(patient = factor(patient, levels = patient))

# 2. Construção do Swimmer Plot
p <- ggplot2::ggplot(df) +
  # linha principal de cada paciente
  ggplot2::geom_segment(
    ggplot2::aes(
      x = start_day,
      xend = end_day,
      y = patient,
      yend = patient
    ),
    linewidth = 1
  ) +
  # ponto do evento clínico
  ggplot2::geom_point(
    ggplot2::aes(
      x = event_day,
      y = patient
    ),
    shape = 18,
    size = 3
  ) +
  # seta para pacientes ainda em seguimento
  ggplot2::geom_segment(
    data = subset(df, ongoing == TRUE),
    ggplot2::aes(
      x = end_day - 5,
      xend = end_day,
      y = patient,
      yend = patient
    ),
    arrow = ggplot2::arrow(length = grid::unit(0.15, "cm")),
    linewidth = 1
  ) +
  # tema
  ggplot2::theme_bw(base_size = 12) +
  ggplot2::labs(
    x = "Dias após início do tratamento",
    y = "Paciente"
  ) +
  ggplot2::theme(
    panel.grid.major.y = ggplot2::element_blank(),
    panel.grid.minor = ggplot2::element_blank()
  )

# 3. Exibir gráfico
print(p)


20.3.5 Quais são os tipos de gráficos para séries temporais?

  • Gráfico de linhas: Mostra a evolução de uma variável ao longo do tempo, com pontos conectados por linhas.REF?


Gráfico de linha representando uma série temporal.

Figura 20.19: Gráfico de linha representando uma série temporal.


20.3.6 Quais são os tipos de gráficos para avaliação de resposta longitudinal?

  • Waterfall plot: Representa a melhor variação percentual individual em relação ao baseline, geralmente ordenada do pior ao melhor respondedor. Pode mascarar a dinâmica temporal e induzir interpretações equivocadas quando usado isoladamente.245


Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.

Figura 20.20: Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.


  • Spider plot: Mostra a variação percentual de uma variável ao longo do tempo para cada indivíduo, permitindo visualizar a trajetória longitudinal da resposta. Ainda assim, o uso de percentual de mudança apresenta limitações estatísticas, incluindo assimetria e dependência do valor basal.245


Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.

Figura 20.21: Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.


20.3.7 Quais são os tipos de gráficos para dados multivariados?

  • Gráfico de dispersão: Representa a relação entre duas variáveis, com pontos e uma linha de tendência.REF?


Gráfico de correlação entre duas variáveis com linha de tendência.

Figura 20.22: Gráfico de correlação entre duas variáveis com linha de tendência.


  • Gráfico de matriz de dispersão: Mostra relações entre múltiplas variáveis quantitativas, útil para identificar padrões.REF?


Matriz de dispersão representando relações entre múltiplas variáveis.

Figura 20.23: Matriz de dispersão representando relações entre múltiplas variáveis.


  • Gráfico de calor (heatmap): Representa dados em uma matriz, com cores indicando intensidade ou frequência.REF?


Mapa de calor da correlação entre variáveis.

Figura 20.24: Mapa de calor da correlação entre variáveis.


  • Gráfico de radar (ou gráfico de aranha): Representa várias variáveis em um único gráfico, útil para comparar perfis.REF?


Gráfico radar representando múltiplas variáveis.

Figura 20.25: Gráfico radar representando múltiplas variáveis.


20.3.8 Quais são as melhores práticas na elaboração de gráficos?

  • O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.240

  • Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.208,240

  • Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.235

  • Exiba os pontos de dados em boxplots.235

  • Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.235

  • Prefira palhetas de cor adaptadas para daltônicos.235

  • Uma boa legenda torna a figura autossuficiente: descreva amostra (n), geometrias, métricas de incerteza, escalas/unidades e mensagem principal. Se houver modelo, indique fórmula/ajustes em nota.237

  • Evite gráficos de barras com médias para variáveis contínuas; prefira pontos/box/violino e, em amostras pequenas, exiba todos os dados.235

  • Checklist: (1) Mensagem está explícita? (2) Geometria adequada e dados visíveis? (3) Incerteza correta e rotulada? (4) Cores informativas e acessíveis? (5) Escalas comparáveis? (6) Legenda autossuficiente? (7) Diferença clara entre dados e modelos? (8) Arquivo exportado na resolução/tamanho exigidos?237





20.4 Fluxogramas


20.4.1 O que é um fluxograma?

  • Fluxogramas são representações visuais que organizam etapas, decisões, relações ou processos por meio de símbolos e setas.248

  • Fluxogramas auxiliam na compreensão de sequências de eventos e na comunicação de conceitos complexos de forma clara e rápida, sendo amplamente utilizados em ensino, pesquisa científica, apresentações e descrição de métodos experimentais.248

  • Fluxogramas não são utilizados apenas para representar processos. Em muitos contextos, também funcionam como ferramentas de planejamento, documentação, comunicação e coordenação entre diferentes participantes de um projeto.249

  • Todo fluxograma representa uma simplificação da realidade. Seu objetivo não é reproduzir todos os detalhes de um processo, mas destacar os elementos mais importantes para compreensão, análise ou comunicação.249

  • Historicamente, os fluxogramas desempenharam não apenas um papel técnico, mas também organizacional, servindo como instrumentos de comunicação entre diferentes participantes do desenvolvimento de sistemas.249


20.4.2 Por que utilizar fluxogramas em artigos científicos?

  • Fluxogramas permitem resumir métodos, processos experimentais e fluxos de participantes de forma mais eficiente do que descrições exclusivamente textuais.248

  • Diagramas bem construídos podem melhorar a aprendizagem, a retenção de informações e a comunicação entre pesquisadores de diferentes áreas e idiomas.248

  • Em apresentações científicas, fluxogramas ajudam o público a acompanhar processos complexos e favorecem a compreensão das relações entre etapas de um estudo.248


20.4.3 Quando utilizar fluxogramas?

  • Descrição de procedimentos laboratoriais.248

  • Protocolos experimentais.248

  • Sequências lineares de etapas.248

  • Fluxo de participantes em estudos clínicos.248

  • Processos decisórios.248


20.4.4 Quais são os elementos de um fluxograma?

  • Fluxogramas podem incluir elementos textuais e gráficos.248

  • Título: deve aparecer em posição de destaque e informar claramente a ideia principal do fluxograma.248

  • Legenda da figura: explica o objetivo geral do diagrama, descreve elementos importantes e define abreviações quando necessário.248

  • Rótulos identificadores: nomeiam componentes, etapas ou objetos representados.248

  • Rótulos explicativos: descrevem o que está acontecendo em cada etapa do processo.248

  • Marcadores de tempo: podem indicar a sequência temporal dos eventos quando o fluxograma representa processos cronológicos.248

  • Setas: representam direção, sequência de eventos, fluxo de informação ou relações entre etapas.248

  • Fluxos divergentes: indicam ramificações, caminhos alternativos ou eventos simultâneos.248

  • Ciclos: são úteis para representar processos repetitivos ou fenômenos cíclicos.248

  • Cores: podem destacar relações entre elementos, diferentes categorias ou estágios de um processo. O uso deve ser consistente ao longo da figura.248

  • Símbolos e ilustrações: ajudam a identificar rapidamente objetos, estruturas ou entidades envolvidas no processo.248

  • Ampliação ou redução de escala (zoom in e zoom out): permitem representar relações entre estruturas em diferentes níveis de detalhe.248


20.4.5 Quais são os princípios de um fluxograma?

  • O fluxo de leitura deve seguir uma direção intuitiva, preferencialmente de cima para baixo ou da esquerda para a direita.248

  • Elementos gráficos semelhantes devem representar conceitos semelhantes ao longo de toda a figura.248

  • Cores, setas, símbolos e legendas devem ser utilizados de forma consistente para facilitar a interpretação.248

  • Um fluxograma deve conter apenas as informações essenciais, evitando excesso de detalhes que possam prejudicar a compreensão.248

  • Títulos, legendas e rótulos explicativos ajudam o leitor a compreender rapidamente o significado da figura.248


Fluxograma baseado no *Preferred Reporting Items for Systematic reviews and Meta-Analyses* (PRISMA).

Figura 20.26: Fluxograma baseado no Preferred Reporting Items for Systematic reviews and Meta-Analyses (PRISMA).


Fluxograma baseado no *Consolidated Standards of Reporting Trials* (CONSORT).

Figura 20.27: Fluxograma baseado no Consolidated Standards of Reporting Trials (CONSORT).




20.4.6 Como construir fluxogramas claros e eficientes?

  • Utilize a mesma convenção gráfica para representar o mesmo conceito em toda a figura.248

  • Evite excesso de elementos visuais que possam gerar sobrecarga cognitiva.248

  • Garanta que o sentido de leitura seja intuitivo e claramente indicado pelas setas ou pela disposição dos elementos.248

  • Explique abreviações, símbolos e cores na legenda sempre que necessário.248

  • Priorize clareza e compreensão em vez de ornamentação visual.248

  • Evite representar detalhes desnecessários. Um fluxograma excessivamente complexo pode comprometer sua principal função: facilitar a compreensão do processo representado.249



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

198.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
199.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
208.
Krzywinski M, Altman N. Error bars. Nature Methods. 2013;10(10):921–922. doi:10.1038/nmeth.2659
235.
Weissgerber TL, Winham SJ, Heinzen EP, et al. Reveal, Dont Conceal. Circulation. 2019;140(18):1506–1518. doi:10.1161/circulationaha.118.037777
237.
Midway SR. Principles of Effective Data Visualization. Patterns. 2020;1(9):100141. doi:10.1016/j.patter.2020.100141
238.
Park JH, Lee DK, Kang H, et al. The principles of presenting statistical results using figures. Korean Journal of Anesthesiology. 2022;75(2):139–150. doi:10.4097/kja.21508
239.
Vandemeulebroecke M, Baillie M, Carr D, et al. How can we make better graphs? An initiative to increase the graphical expertise and productivity of quantitative scientists. Pharmaceutical Statistics. 2018;18(1):106–114. doi:10.1002/pst.1912
240.
Cumming G, Fidler F, Vaux DL. Error bars in experimental biology. The Journal of Cell Biology. 2007;177(1):7–11. doi:10.1083/jcb.200611141
241.
Sievert C. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman; Hall/CRC; 2020. https://plotly-r.com.
242.
Wei T, Simko V. R package corrplot: Visualization of a Correlation Matrix.; 2024. https://github.com/taiyun/corrplot.
243.
Wise EA, Adams RJ, Lyketsos CG, Leoutsakos JM. Graphical methods for understanding changes in states: Understanding medication use pathways. International Journal of Methods in Psychiatric Research. 2022;31(4). doi:10.1002/mpr.1932
244.
Swihart BJ, Caffo B, James BD, Strand M, Schwartz BS, Punjabi NM. Lasagna Plots. Epidemiology. 2010;21(5):621–625. doi:10.1097/ede.0b013e3181e5b06a
245.
Mercier F, Consalvo N, Frey N, Phipps A, Ribba B. From waterfall plots to spaghetti plots in early oncology clinical development. Pharmaceutical Statistics. 2019;18(5):526–532. doi:10.1002/pst.1944
246.
Xiao N. ggsci: Scientific Journal and Sci-Fi Themed Color Palettes for ggplot2.; 2023. https://CRAN.R-project.org/package=ggsci.
247.
Urbanek S, Johnson K. tiff: Read and Write TIFF Images.; 2022. https://CRAN.R-project.org/package=tiff.
248.
Kimber O, Cromley JG, Molnar-Kimber KL. Let Your Ideas Flow: Using Flowcharts to Convey Methods and Implications of the Results in Laboratory Exercises, Articles, Posters, and Slide Presentations. Journal of Microbiology & Biology Education. 2018;19(1). doi:10.1128/jmbe.v19i1.1477
249.
Ensmenger N. The Multiple Meanings of a Flowchart. Information & Culture: A Journal of History. 2016;51(3):321–351. doi:10.1353/lac.2016.0013
250.
Haddaway NR, Page MJ, Pritchard CC, McGuinness LA. PRISMA2020: An R package and Shiny app for producing PRISMA 2020-compliant flow diagrams, with interactivity for optimised digital transparency and Open Synthesis. Campbell Systematic Reviews. 2022;18:e1230. doi:10.1002/cl2.1230
251.
Dayim A. consort: Create Consort Diagram.; 2023. https://CRAN.R-project.org/package=consort.