Capítulo 67 Gráficos
67.2 Visualização efetiva de dados
67.2.1 Por que começar pela mensagem antes do gráfico?
- A figura deve responder a uma pergunta clara (comparação? tendência? composição?) e isso orienta a escolha do tipo de gráfico, dados e anotações. Esboce a mensagem e a pergunta antes de abrir o software.559
67.2.2 Como escolher a geometria e “mostrar os dados”?
- Prefira geometrias que revelem distribuição/variabilidade (pontos, boxplots, violinos) em vez de médias sozinhas. Sempre que possível, exiba os dados brutos (pontos com jitter) junto da estatística-resumo.559
Figura 67.1: Exemplo de gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).
67.3 Gráficos
67.3.1 O que são gráficos?
- Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.560
67.3.2 O que torna um bom gráfico tão poderoso?
- “Não há ferramenta estatística tão poderosa quanto um gráfico bem escolhido”: gráficos ajudam a explorar dados, comunicar resultados e suportar decisões de forma clara e rápida.561
67.3.3 Que elementos incluir em gráficos?
- Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.560
67.3.4 Para que servem as barras de erro em gráficos?
Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.206,259
Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.259
Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.259
Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.206,259
Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.206
Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.206
O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.259
De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.206
Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.206
Figura 67.2: Exemplos de gráficos com barras de erro e dados brutos.
Figura 67.3: Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.
Os pacotes ggplot2197, plotly562 e corrplot309 fornecem diversas funções para construção de gráficos tais como ggplot, plot_ly e corrplot respectivamente.
67.3.5 Quais são os principais obstáculos para bons gráficos?
- Dificuldade técnica, negligência no ensino tradicional e o foco em “beleza” sem clareza podem levar a gráficos ruins, mesmo quando bem intencionados.561
67.4 Tipos de gráficos
67.4.1 Quais são os tipos de gráficos para variáveis categóricas?
- Gráfico de barras: Mais usado para comparar frequências absolutas ou relativas entre categorias.REF?
Figura 67.4: Gráfico de barras simples representando frequências por categoria.
- Gráfico de barras empilhadas: Útil para comparar proporções entre grupos em mais de uma variável categórica.REF?
Figura 67.5: Gráfico de barras empilhadas representando frequências por categoria.
Figura 67.6: Gráficos de barras represetando médias, barras de erro e dados individuais.
67.4.2 Quais são os tipos de gráficos para variáveis numéricas?
- Histograma: Distribuição de frequência de uma variável contínua. Mostra a forma da distribuição (simétrica, assimétrica, bimodal).REF?
Figura 67.7: Histograma da variável ‘valor’.
- Gráfico de densidade: Similar ao histograma, mas mais suave. Útil para avaliar a distribuição.REF?
Figura 67.8: Gráfico de densidade da variável ‘valor’.
- Diagrama de caixa (boxplot): Resume mediana, quartis e valores extremos. Excelente para comparar grupos.REF?
Figura 67.9: Boxplot por grupo.
- Gráfico de violino: Combina boxplot e densidade, mostrando a distribuição da variável. Útil para comparar grupos.REF?
Figura 67.10: Violin plot por grupo.
- Gráfico de pontos (dot plot): Mostra cada valor individualmente, útil para pequenas amostras e para visualizar a distribuição.REF?
Figura 67.11: Gráfico de pontos da variável ‘valor’.
67.4.3 Quais são os tipos de gráficos para relações entre variáveis?
- Gráfico de dispersão (scatter plot): Mostra a relação entre duas variáveis quantitativas. Ideal para investigar correlações.REF?
Figura 67.12: Gráfico de dispersão representando a relação entre duas variáveis.
- Gráfico de bolhas (bubble chart): Expande o gráfico de dispersão adicionando uma terceira variável (tamanho da bolha).REF?
Figura 67.13: Gráfico de bolhas representando a relação entre três variáveis.
- Gr;afico Sankey: Visualiza fluxos entre categorias em diferentes etapas ou grupos. Útil para mostrar proporções e transições.563
Figura 67.14: Sankey plot representando fluxos entre categorias.
- Grágfico de parcats: Mostra relações entre múltiplas variáveis categóricas em paralelo. Útil para visualizar fluxos e proporções.REF?
Figura 67.15: Gráfico de categorias paralelas (parcats) representando transições entre categorias ao longo do tempo.
- Gráfico de parts: Mostra a composição percentual de uma variável categórica. Útil para visualizar proporções.REF?
Figura 67.16: Gráfico de pares representando correlações entre múltiplas variáveis.
67.4.4 Quais são os tipos de gráficos para dados longitudinais?
- Gráfico de spaghetti: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis contínuas.563,564
Figura 67.17: Gráfico spaghetti representando dados longitudinais.
- Gráfico de lasagna: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis categóricas.563,564
Figura 67.18: Gráfico spaghetti representando dados longitudinais.
67.4.5 Quais são os tipos de gráficos para séries temporais?
- Gráfico de linhas: Mostra a evolução de uma variável ao longo do tempo, com pontos conectados por linhas.REF?
Figura 67.19: Gráfico de linha representando uma série temporal.
67.4.6 Quais são os tipos de gráficos para avaliação de resposta longitudinal?
- Waterfall plot: Representa a melhor variação percentual individual em relação ao baseline, geralmente ordenada do pior ao melhor respondedor. Pode mascarar a dinâmica temporal e induzir interpretações equivocadas quando usado isoladamente.565
Figura 67.20: Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.
- Spider plot: Mostra a variação percentual de uma variável ao longo do tempo para cada indivíduo, permitindo visualizar a trajetória longitudinal da resposta. Ainda assim, o uso de percentual de mudança apresenta limitações estatísticas, incluindo assimetria e dependência do valor basal.565
Figura 67.21: Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.
67.4.7 Quais são os tipos de gráficos para dados multivariados?
- Gráfico de dispersão: Representa a relação entre duas variáveis, com pontos e uma linha de tendência.REF?
Figura 67.22: Gráfico de correlação entre duas variáveis com linha de tendência.
- Gráfico de matriz de dispersão: Mostra relações entre múltiplas variáveis quantitativas, útil para identificar padrões.REF?
Figura 67.23: Matriz de dispersão representando relações entre múltiplas variáveis.
- Gráfico de calor (heatmap): Representa dados em uma matriz, com cores indicando intensidade ou frequência.REF?
Figura 67.24: Mapa de calor da correlação entre variáveis.
- Gráfico de radar (ou gráfico de aranha): Representa várias variáveis em um único gráfico, útil para comparar perfis.REF?
Figura 67.25: Gráfico radar representando múltiplas variáveis.
67.4.8 Quais são as melhores práticas na elaboração de gráficos?
O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.259
Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.206,259
Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.240
Exiba os pontos de dados em boxplots.240
Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.240
Prefira palhetas de cor adaptadas para daltônicos.240
Uma boa legenda torna a figura autossuficiente: descreva amostra (n), geometrias, métricas de incerteza, escalas/unidades e mensagem principal. Se houver modelo, indique fórmula/ajustes em nota.559
Evite gráficos de barras com médias para variáveis contínuas; prefira pontos/box/violino e, em amostras pequenas, exiba todos os dados.240
Antes de finalizar um gráfico, faça as seguintes perguntas: (1) Mensagem está explícita? (2) Geometria adequada e dados visíveis? (3) Incerteza correta e rotulada? (4) Cores informativas e acessíveis? (5) Escalas comparáveis (se facetou)? (6) Legenda/caption autossuficiente? (7) Diferença clara entre dados e modelos? (8) Arquivo exportado na resolução/tamanho exigidos?559
O pacote ggsci566 fornece palhetas de cores tais como pal_lancet, pal_nejm e pal_npg inspiradas em publicações científicas para uso em gráficos.
O pacote grDevices196 fornece a função dev.new para controlar diversos aspectos do gráfico, tais como tamanho e resolução.
67.5 Fluxogramas
67.5.1 O que é um fluxogramas?
- .REF?
O pacote PRISMA2020533 fornece a função PRISMA_flowdiagram para elaboração do fluxograma de revisões sistemáticas no formato padrão.
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,