Capítulo 15 Análise descritiva
15.1 Análise descritiva
15.1.1 O que é análise descritiva?
- Análise descritiva é usada para compreendermos algum aspecto de um conjunto de dados, respondendo a perguntas do tipo “quando?”, “onde?”, “quem?”, “o quê?”, “como?” e “e daí?”.49,135
15.1.2 Como apresentar os resultados descritivos?
Variáveis categóricas: Reporte valores de frequência absoluta e relativa (n, percentual).136
Organização das tabelas: as variáveis são exibidas em linhas e os grupos são exibidos em colunas.136
Calcule percentagens para as colunas (isto é, entre grupos) e não entre linhas.136
Em caso de dados perdidos, não inclua uma linha com total de dados perdidos, pois distorce as proporções entre colunas e as análises de tabela de contingência. Indique no texto ou em uma coluna separada o total de dados perdidos por variável.136
15.2 Apresentação de resultados numéricos
15.2.1 O que são casas decimais?
- O número de casas decimais refere-se à quantidade de dígitos que aparecem após a vírgula decimal.137,138
15.2.2 O que são dígitos significativos?
O termo “dígitos significativos” é preferido a “algarismos significativos” ou “dígitos efetivos” e não se relaciona com significância estatística.137,138
O número de dígitos significativos é a soma total de dígitos, desconsiderando a vírgula decimal e os zeros à esquerda; os zeros à direita são considerados informativos, salvo exceções.137,138
15.2.3 Como arredondar dados numéricos?
Apresentar dados com quantidade excessiva de casas decimais pode dificultar a interpretação e induzir erroneamente uma precisão espúria.137,138
A precisão é determinada pelo grau de arredondamento aplicado, medido em casas decimais ou dígitos significativos.137,138
Valor | Casas Decimais | Dígitos Significativos |
---|---|---|
0,00789 | 5 | 0 |
0,0456 | 4 | 0 |
45,6 | 1 | 2 |
123,456 | 3 | 3 |
7890,0000 | 4 | 4 |
- O arredondamento também introduz erros, uma vez que aumenta a imprecisão (isto é, incerteza) em torno do valor original.137,138
Valor | Casas Decimais | Dígitos Significativos | 2 Casas decimais [Margem de erro] | 1 Casa decimal [Margem de erro] | Sem casa decimal [Margem de erro] |
---|---|---|---|---|---|
0,00789 | 5 | 0 | 0,01 [0,005, 0,015] | 0,0 [-0,05, 0,05] | 0 [-0,5, 0,5] |
0,0456 | 4 | 0 | 0,05 [0,045, 0,055] | 0,0 [-0,05, 0,05] | 0 [-0,5, 0,5] |
45,6 | 1 | 2 | 45,60 [45,595, 45,605] | 45,6 [45,55, 45,65] | 46 [45,5, 46,5] |
123,456 | 3 | 3 | 123,46 [123,455, 123,465] | 123,5 [123,45, 123,55] | 123 [122,5, 123,5] |
7890,0000 | 4 | 4 | 7890,00 [7889,995, 7890,005] | 7890,0 [7889,95, 7890,05] | 7890 [7889,5, 7890,5] |
A regra geral é utilizar 2 ou 3 dígitos significativos para tamanhos de efeito e 1 ou 2 dígitos significativos para medidas de variabilidade.138
Regra dos 3 dígitos significativos para proporção de risco: em média, o erro de arredondamento é menor que os 0,5% exigidos, de modo que três dígitos significativos são mais precisos do que o necessário.137
Regra dos 4 dígitos significativos para proporção de risco: divida a proporção de risco por quatro e arredonde para dois dígitos significativos e, em seguida, relate a proporção para esse número de casas decimais.137
15.3 Tabelas
15.3.1 Por que usar tabelas?
- Tabelas complementam o texto (e vice-versa), e podem apresentar os dados de modo mais acessível e informativo.139
15.3.2 Que informações incluir nas tabelas?
- Título ou legenda, uma síntese descritiva (geralmente por meio de parâmetros descritivos), intervalos de confiança e/ou P-valores conforme necessário para adequada interpretação.139,140
15.3.3 Quais são os erros mais comuns de preenchimento de tabelas?
Erros tipográficos.141
Ausência de rótulos ou unidades nas variáveis.141
Relatar estatísticas incorretamente, tais como rotular variáveis contínuas como porcentagens.141
Estatísticas descritivas de tendência central (ex.: médias) relatadas sem a estatística de dispersão correspondente (ex.: desvio-padrão).141
Desvio-padrão nulo (\(\sigma=0\)).141
Valores porcentuais que não correspondem ao numerador dividido pelo denominador.141
O pacote flextable142 fornece as funções flextable, as_flextable e save_as_docx para criar e salvar tabelas tabelas formatadas em DOCX.
O pacote rempsyc143 fornece a função nice_table para criar tabelas formatadas.
O pacote gtsummary145 fornece a função tbl_summary para construção da ‘Tabela 1’ com dados descritivos.
15.4 Tabela 1
15.4.1 O que é a ‘Tabela 1’?
- A ‘Tabela 1’ descreve as características demográficas, sociais e clínicas da amostra, completa ou agrupada por algum fator, geralmente por meio de parâmetros de tendência central e dispersão.146,147
15.4.2 Qual a utilidade da ‘Tabela 1’?
Descrever (conhecer) as características da amostra e dos grupos sendo comparados, quando aplicável.147
Verificar aderência ao protocolo do estudo, incluindo critérios de inclusão/exclusão, tamanho da amostra e perdas amostrais.147
Permitir a replicação do estudo.147
Meta-analisar os dados junto a estudos similares.147
Avaliar a generalização (validade externa) das conclusões do estudo.147
15.4.3 O que é a falácia da ‘Tabela 1’?
- Falácia da Tabela 1 ocorre pela interpretação errônea dos P-valores na comparação entre grupos, na linha de base, de um ensaio clínico aleatorizado.148
15.4.4 Como construir a ‘Tabela 1’?
- A Tabela 1 geralmente é utilizada para descrever as características da amostra estudada, possibilitando a análise de ameaças à validade interna e/ou externa ao estudo.109,149
O pacote gtsummary145 fornece a função tbl_summary para construção da ‘Tabela 1’ com dados descritivos.
15.5 Tabela 2
15.5.1 Qual a utilidade da ‘Tabela 2’?
- A Tabela 2 mostra associações ajustadas multivariadas com o resultado para variáveis resumidas na Tabela 1.146
15.5.2 O que é a falácia da ‘Tabela 2’?
A Tabela 2 pode induzir ao erro de interpretação pelas estimativas de efeitos para covariáveis do modelo também serem utilizados para controlar a confusão da exposição.146,150
Ao apresentar estimativas de efeito ajustadas para covariáveis juntamente com a estimativa de efeito ajustada para a exposição primária, a Tabela 2 sugere implicitamente que todas estas estimativas podem ser interpretadas de forma semelhante, se não de forma idêntica, como estimativa do efeito total.146,150
A falácia da Tabela 2 pode ser evitada limitando-se a tabela a estimativas das medidas primárias do efeito de exposição nos diferentes modelos, com as covariáveis secundárias de “ajuste” relatadas em uma nota de rodapé, juntamente com a forma como foram categorizadas ou modeladas.146
15.5.3 Como construir a ‘Tabela 2’?
- A Tabela 2 pode ser utilizada para apresentar estimativas de múltiplos efeitos ajustados de um mesmo modelo estatístico.146
O pacote gtsummary145 fornece a função tbl_summary para construção da ‘Tabela 1’ com dados descritivos.
15.6 Gráficos
15.6.1 O que são gráficos?
- Gráficos são utilizados para apresentar dados (geralmente em grande quantidade) de modo mais intuitivo e fácil de compreender.151
15.6.2 Que elementos incluir em gráficos?
- Título, eixos horizontal e vertical com respectivas unidades, escalas em intervalos representativos das variáveis, legenda com símbolos, síntese descritiva dos valores e respectiva margem de erro, conforme necessário para adequada interpretação.151
Os pacotes ggplot2152, plotly153 e corrplot154 fornecem diversas funções para construção de gráficos tais como ggplot, plot_ly e corrplot respectivamente.
15.6.3 Para que servem as barras de erro em gráficos?
Barras de erro ajudam ao autor a apresentar as informações que descrevem os dados (por exemplo, em uma análise descritiva) ou sobre as inferências ou conclusões tomadas a partir de dados.115,117
Barras de erro mais longas representam mais imprecisão (maiores erros), enquanto barras mais curtas representam mais precisão na estimativa.117
Barras de erro descritivas geralmente apresentam a amplitude (mínimo-máximo) ou desvio-padrão.117
Barras de erro inferenciais geralmente apresentam o erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido.115,117
Barras de erro com desvio-padrão são úteis para descrever a variabilidade dos dados, enquanto as barras de erro com erro padrão da média são úteis para descrever a precisão do parâmetro estimado (média) e sua relação com o tamanho da amostra.115
Barras de erro com intervalo de confiança são úteis para fornecer uma estimativa da incerteza da estimativa do parâmetro populacional.115
O comprimento das barras de erro sugere graficamente a imprecisão dos dados do estudo, uma vez que o valor verdadeiro da população pode estar em qualquer nível do intervalo da barra.117
De modo contraintuitivo, um espaço entre as barras não garante significância, nem a sobreposição a descarta—depende do tipo de barra.115
Para amostras pequenas é preferível apresentar os dados brutos, uma vez que as barras de erro não serão muito informativas.115
15.6.4 Quais são as boas práticas na elaboração de gráficos?
O tamanho da amostra total e subgrupos, se houver, deve estar descrito na figura ou na sua legenda.117
Para análise inferencial de figuras, as barras de erro representadas por erro-padrão ou intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido são preferíveis à amplitude ou desvio-padrão.115,117
Evite gráficos de barra e mostre a distribuição dos dados sempre que possível.155
Exiba os pontos de dados em boxplots.155
Use jitter simétrico em gráficos de pontos para permitir a visualização de todos os dados.155
Prefira palhetas de cor adaptadas para daltônicos.155
O pacote ggsci156 fornece palhetas de cores tais como pal_lancet, pal_nejm e pal_npg inspiradas em publicações científicas para uso em gráficos.
O pacote grDevices104 fornece a função dev.new para controlar diversos aspectos do gráfico, tais como tamanho e resolução.