Capítulo 66 Gráficos
66.2 Visualização efetiva de dados
66.2.1 Por que começar pela mensagem antes do gráfico?
- A figura deve responder a uma pergunta clara (comparação? tendência? composição?) e isso orienta a escolha do tipo de gráfico, dados e anotações. Esboce a mensagem e a pergunta antes de abrir o software.532
66.2.2 Como escolher a geometria e “mostrar os dados”?
- Prefira geometrias que revelem distribuição/variabilidade (pontos, boxplots, violinos) em vez de médias sozinhas. Sempre que possível, exiba os dados brutos (pontos com jitter) junto da estatística-resumo.532
Figura 66.1: Exemplo de gráfico que mostra os dados brutos junto com um resumo estatístico (média e dispersão).
66.3 Gráficos
66.3.1 O que são gráficos?
- Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.533
66.3.2 O que torna um bom gráfico tão poderoso?
- “Não há ferramenta estatística tão poderosa quanto um gráfico bem escolhido”: gráficos ajudam a explorar dados, comunicar resultados e suportar decisões de forma clara e rápida.534
66.3.3 Que elementos incluir em gráficos?
- Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.533
66.3.4 Para que servem as barras de erro em gráficos?
Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.195,261
Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.261
Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.261
Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.195,261
Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.195
Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.195
O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.261
De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.195
Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.195
Figura 66.2: Exemplos de gráficos com barras de erro e dados brutos.
Figura 66.3: Exemplos de gráficos com barras de erro e dados brutos em diferentes cenários.
Os pacotes ggplot2184, plotly535 e corrplot303 fornecem diversas funções para construção de gráficos tais como ggplot, plot_ly e corrplot respectivamente.
66.3.5 Quais são os principais obstáculos para bons gráficos?
- Dificuldade técnica, negligência no ensino tradicional e o foco em “beleza” sem clareza podem levar a gráficos ruins, mesmo quando bem intencionados.534
66.4 Tipos de gráficos
66.4.1 Quais são os tipos de gráficos para variáveis categóricas?
- Gráfico de barras: Mais usado para comparar frequências absolutas ou relativas entre categorias.REF?
Figura 66.4: Gráfico de barras simples representando frequências por categoria.
- Gráfico de barras empilhadas: Útil para comparar proporções entre grupos em mais de uma variável categórica.REF?
Figura 66.5: Gráfico de barras empilhadas representando frequências por categoria.
Figura 66.6: Gráficos de barras represetando médias, barras de erro e dados individuais.
66.4.2 Quais são os tipos de gráficos para variáveis numéricas?
- Histograma: Distribuição de frequência de uma variável contínua. Mostra a forma da distribuição (simétrica, assimétrica, bimodal).REF?
Figura 66.7: Histograma da variável ‘valor’.
- Gráfico de densidade: Similar ao histograma, mas mais suave. Útil para avaliar a distribuição.REF?
Figura 66.8: Gráfico de densidade da variável ‘valor’.
- Diagrama de caixa (boxplot): Resume mediana, quartis e valores extremos. Excelente para comparar grupos.REF?
Figura 66.9: Boxplot por grupo.
- Gráfico de violino: Combina boxplot e densidade, mostrando a distribuição da variável. Útil para comparar grupos.REF?
Figura 66.10: Violin plot por grupo.
- Gráfico de pontos (dot plot): Mostra cada valor individualmente, útil para pequenas amostras e para visualizar a distribuição.REF?
Figura 66.11: Gráfico de pontos da variável ‘valor’.
66.4.3 Quais são os tipos de gráficos para relações entre variáveis?
- Gráfico de dispersão (scatter plot): Mostra a relação entre duas variáveis quantitativas. Ideal para investigar correlações.REF?
Figura 66.12: Gráfico de dispersão representando a relação entre duas variáveis.
- Gráfico de bolhas (bubble chart): Expande o gráfico de dispersão adicionando uma terceira variável (tamanho da bolha).REF?
Figura 66.13: Gráfico de bolhas representando a relação entre três variáveis.
- Gr;afico Sankey: Visualiza fluxos entre categorias em diferentes etapas ou grupos. Útil para mostrar proporções e transições.536
Figura 66.14: Sankey plot representando fluxos entre categorias.
- Grágfico de parcats: Mostra relações entre múltiplas variáveis categóricas em paralelo. Útil para visualizar fluxos e proporções.REF?
Figura 66.15: Gráfico de categorias paralelas (parcats) representando transições entre categorias ao longo do tempo.
- Gráfico de parts: Mostra a composição percentual de uma variável categórica. Útil para visualizar proporções.REF?
Figura 66.16: Gráfico de pares representando correlações entre múltiplas variáveis.
66.4.4 Quais são os tipos de gráficos para dados longitudinais?
- Gráfico de spaghetti: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis contínuas.536,537
Figura 66.17: Gráfico spaghetti representando dados longitudinais.
- Gráfico de lasagna: Mostra trajetórias individuais ao longo do tempo, útil para dados longitudinais de variáveis categóricas.536,537
Figura 66.18: Gráfico spaghetti representando dados longitudinais.
66.4.5 Quais são os tipos de gráficos para séries temporais?
- Gráfico de linhas: Mostra a evolução de uma variável ao longo do tempo, com pontos conectados por linhas.REF?
Figura 66.19: Gráfico de linha representando uma série temporal.
66.4.6 Quais são os tipos de gráficos para avaliação de resposta longitudinal?
- Waterfall plot: Representa a melhor variação percentual individual em relação ao baseline, geralmente ordenada do pior ao melhor respondedor. Pode mascarar a dinâmica temporal e induzir interpretações equivocadas quando usado isoladamente.538
Figura 66.20: Gráfico waterfall representando a melhor variação percentual em relação ao baseline para cada paciente.
- Spider plot: Mostra a variação percentual de uma variável ao longo do tempo para cada indivíduo, permitindo visualizar a trajetória longitudinal da resposta. Ainda assim, o uso de percentual de mudança apresenta limitações estatísticas, incluindo assimetria e dependência do valor basal.538
Figura 66.21: Gráfico spider representando a variação percentual do SLD ao longo do tempo para cada paciente.
66.4.7 Quais são os tipos de gráficos para dados multivariados?
- Gráfico de dispersão: Representa a relação entre duas variáveis, com pontos e uma linha de tendência.REF?
Figura 66.22: Gráfico de correlação entre duas variáveis com linha de tendência.
- Gráfico de matriz de dispersão: Mostra relações entre múltiplas variáveis quantitativas, útil para identificar padrões.REF?
Figura 66.23: Matriz de dispersão representando relações entre múltiplas variáveis.
- Gráfico de calor (heatmap): Representa dados em uma matriz, com cores indicando intensidade ou frequência.REF?
Figura 66.24: Mapa de calor da correlação entre variáveis.
- Gráfico de radar (ou gráfico de aranha): Representa várias variáveis em um único gráfico, útil para comparar perfis.REF?
Figura 66.25: Gráfico radar representando múltiplas variáveis.
66.4.8 Quais são as melhores práticas na elaboração de gráficos?
O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.261
Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.195,261
Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.228
Exiba os pontos de dados em boxplots.228
Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.228
Prefira palhetas de cor adaptadas para daltônicos.228
Uma boa legenda torna a figura autossuficiente: descreva amostra (n), geometrias, métricas de incerteza, escalas/unidades e mensagem principal. Se houver modelo, indique fórmula/ajustes em nota.532
Evite gráficos de barras com médias para variáveis contínuas; prefira pontos/box/violino e, em amostras pequenas, exiba todos os dados.228
Antes de finalizar um gráfico, faça as seguintes perguntas: (1) Mensagem está explícita? (2) Geometria adequada e dados visíveis? (3) Incerteza correta e rotulada? (4) Cores informativas e acessíveis? (5) Escalas comparáveis (se facetou)? (6) Legenda/caption autossuficiente? (7) Diferença clara entre dados e modelos? (8) Arquivo exportado na resolução/tamanho exigidos?532
O pacote ggsci539 fornece palhetas de cores tais como pal_lancet, pal_nejm e pal_npg inspiradas em publicações científicas para uso em gráficos.
O pacote grDevices183 fornece a função dev.new para controlar diversos aspectos do gráfico, tais como tamanho e resolução.
66.5 Fluxogramas
66.5.1 Quais são os tipos de fluxogramas?
- .REF?
O pacote PRISMA2020502 fornece a função PRISMA_flowdiagram para elaboração do fluxograma de revisões sistemáticas no formato padrão.
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,