Capítulo 10 Variáveis e fatores
10.1 Variáveis
10.1.1 O que são variáveis?
Variáveis são informações que podem variar entre medidas em diferentes indivíduos e/ou repetições.107
Variáveis definem características de uma amostra extraída da população, tipicamente observados por aplicação de métodos de amostragem (isto é, seleção) da população de interesse.108
10.1.2 Como são classificadas as variáveis?
-
Quantitativa
Qualitativa
-
Contínua: representam ordem e magnitude entre valores.
Contínua (números inteiros) vs. Discreta (números racionais).
Intervalo (valor ‘0’ é arbitrário) vs. Razão (valor ‘0’ verdadeiro).
Categórica ordinal (numérica ou nominal): representam ordem, mas não magnitude entre valores.
Categórica nominal (multinominal ou dicotômica): não representam ordem ou magnitude, apenas categorias.
Quanto à interpretação:108–111
Dependente (desfecho)
Independente (preditora, covariável, confundidora, controle)
Mediadora
Moderadora
Modificadora
Auxiliar
Indicadora
O pacote base55 fornece as funções as.numeric e as.character para criar objetos numéricos e categóricos, respectivamente.
O pacote base55 fornece as funções as.Date e as.logical para criar objetos em formato de data e lógicos (VERDADEIRO, FALSO), respectivamente.
10.1.3 Por que é importante classificar as variáveis?
- Identificar corretamente os tipos de variáveis da pesquisa é uma das etapas da escolha dos métodos estatísticos adequados para as análises e representações no texto, tabelas e gráficos.110
10.2 Transformação de variáveis
10.2.1 O que é transformação de variáveis?
Transformação significa aplicar uma função matemática à variável medida em sua unidade original.113
A transformação visa atender aos pressupostos dos modelos estatísticos quanto à distribuição da variável, em geral a distribuição gaussiana.108,113
A dicotomização pode ser interpretada como um caso particular de agrupamento.114
10.2.2 Por que transformar variáveis?
Muitos procedimentos estatísticos supõem que as variáveis — ou seus termos de erro, mais especificamente — são normalmente distribuídas. A violação dessa suposição pode aumentar suas chances de cometer um erro do tipo I ou II.115
Mesmo quando se está usando análises consideradas robustas para violações dessas suposições ou testes não paramétricos (que não assumem explicitamente termos de erro normalmente distribuídos), atender a essas questões pode melhorar os resultados das análises (por exemplo, Zimmerman, 1995).115
10.2.3 Quais transformações de variáveis podem ser aplicadas?
Distribuições com assimetria à direita:115
Raiz quadrada
Logaritmo natural
Logaritmo base 10
Transformação inversa
Figura 10.1: Transformações de variáveis com assimetria à direita (Original, Raiz quadrada, Log natural, Log10, Inversa).
Distribuições com assimetria à esquerda:115
Reflexão e raiz quadrada
Reflexão e logaritmo natural
Reflexão e logaritmo base 10
Reflexão e transformação inversa
Figura 10.2: Transformações de variáveis com assimetria à esquerda (Original, Reflexão + Raiz quadrada, Reflexão + Log natural, Reflexão + Log10, Reflexão + Inversa).
Transformação arco-seno.115
Transformação de Box-Cox.116
Transformação de escore padrão (Z-score).
Escala Mínimo-Máximo (0,1).
Diferenciação.
Categorização.
Dicotomização.
10.3 Centralização de variáveis (centering)
10.3.1 O que é centralização?
- É uma transformação linear em que se subtrai a média da variável de cada observação. O objetivo é recentrar a variável em torno de zero, sem alterar a sua variabilidade.REF?
10.4 Padronização de variáveis
10.4.1 O que é padronização?
- Padronização é a transformação de uma variável contínua para uma escala comum, permitindo comparações entre variáveis medidas em diferentes unidades ou magnitudes.REF?
10.4.2 Por que padronizar?
Facilita a interpretação em análises multivariadas.REF?
Evita que variáveis em escalas maiores dominem os resultados de algoritmos que dependem de distância.REF?
Melhora a comparabilidade entre estudos e bases de dados diferentes..REF?
10.4.3 Quais são os métodos de padronização mais comuns?
\[\begin{equation} \tag{10.1} Z = \frac{X - \mu}{\sigma} \end{equation}\]
\[\begin{equation} \tag{10.2} X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}} \end{equation}\]
Figura 10.3: Comparação entre variáveis originais e padronizadas (Z-score e Min-Max).
10.4.4 Quais são as boas práticas de nomenclatura ao padronizar variáveis?
Usar sufixos como
_zou_stdpara indicar padronização (altura_z,peso_std).REF?Documentar no dicionário de dados como cada variável foi transformada.REF?
Evitar substituir a variável original: manter sempre a versão bruta e a padronizada.REF?
O pacote base55 fornece a função scale para calcular automaticamente a padronização (média = 0, desvio padrão = 1).
10.5 Categorização de variáveis contínuas
10.5.2 Por que não é recomendado categorizar variáveis contínuas?
Nenhum dos argumentos usados para defender a categorização de variáveis se sustenta sob uma análise técnica rigorosa.118
Categorizar variáveis não é necessário para conduzir análises estatísticas. Ao invés de categorizar, priorize as variáveis contínuas.119–121
Em geral, não existe uma justificativa racional (plausibilidade biológica) para assumir que as categorias artificiais subjacentes existam.119–121
Caso exista um ponto de corte ou limiar verdadeiro que discrimine três ou mais grupos independentes, identificar tal ponto de corte ainda é um desafio.122
Categorização de variáveis contínuas aumenta a quantidade de testes de hipótese para comparações pareadas entre os quantis, inflando, portanto, o erro tipo I.123
Categorização de variáveis contínuas requer uma função teórica que pressupõe a homogeneidade da variável dentro dos grupos, levando tanto a uma perda de poder como a uma estimativa imprecisa.123
Categorização de variáveis contínuas pode dificultar a comparação de resultados entre estudos devido aos pontos de corte baseados em dados de um banco usados para definir as categorias.123
O pacote questionr124 fornece a função irec para executar uma interface interativa para codificação de variáveis categóricas.
10.6 Dicotomização de variáveis contínuas
10.6.1 O que são variáveis dicotômicas?
Variáveis dicotômicas (ou binárias) podem representar categorias naturais tipo “presente/ausente”, “sim/não”.REF?
Variáveis dicotômicas podem representar categorias fictícias, criadas a partir de variáveis multinominais, em que cada nível é convertido em uma variável dicotômica indicatoda (dummy).REF?
Dicotomização é considerado um artefato da análise de dados, uma vez que é realizada após a coleta de dados.125
Geralmente são representadas por “1” (presente, sucesso) e “0” (ausente, falha).REF?
10.6.2 Quais argumentos são usados para defender a categorização ou dicotomização de variáveis contínuas?
O argumento principal para dicotomização de variáveis é que tal procedimento facilita e simplifica a apresentação dos resultados, principalmente para o público em geral.114
Os pesquisadores não conhecem as consequências estatísticas da dicotomização.118
Os pesquisadores não conhecem os métodos adequados de análise não-paramétrica, não-linear e robusta.118
As categorias representam características existentes dos participantes da pesquisa, de modo que as análises devam ser feitas por grupos e não por indivíduos.118
A confiabilidade da(s) variável(eis) medida(s) é baixa e, portanto, categorizar os participantes resultaria em uma medida mais confiável.118
10.6.3 Por que não é recomendado dicotomizar variáveis contínuas?
Nenhum dos argumentos usados para defender a dicotomização de variáveis se sustenta sob uma análise técnica rigorosa.118
Dicotomizar variáveis não é necessário para conduzir análises estatísticas. Ao invés de dicotomizar, priorize as variáveis contínuas.119–121
Em geral, não existe uma justificativa racional (plausibilidade biológica) para assumir que as categorias artificiais subjacentes existam.119–121
Dicotomização causa perda de informação e consequentemente perda de poder estatístico para detectar efeitos.118,119
Dicotomização também classifica indivíduos com valores próximos na variável contínua como indivíduos em pontos opostos e extremos, artificialmente sugerindo que são muito diferentes.119
Dicotomização pode diminuir a variabilidade das variáveis.119
Dicotomização pode ocultar não-linearidades presentes na variável contínua.118,119
A média ou a mediana, embora amplamente utilizadas, não são bons parâmetros para dicotomizar variáveis.114,119
Caso exista um ponto de corte ou limiar verdadeiro que discrimine dois grupos independentes, identificar tal ponto de corte ainda é um desafio.122
10.6.4 Quais cenários legitimam a dicotomização das variáveis contínuas?
Quando existem dados e/ou análises que suportem a existência — não apenas a suposição ou teorização — de categorias com um ponto de corte claro e com significado entre elas.118
Quando a distribuição da variável contínua é muito assimétrica, de modo que uma grande quantidade de observações está em um dos extremos da escala.118
10.6.5 Quais métodos são usados para dicotomizar variáveis contínuas?
Em termos de tabelas de contingência 2x2, os seguintes métodos permitem122 a identificação do limiar verdadeiro:
10.7 Fatores
10.7.1 O que são fatores?
Fator é um sinônimo de variável categórica.REF?
Na modelagem, fator é sinônimo de variável preditora, em particular quando se refere à modelagem de efeitos fixos e aleatórios – os fatores (variáveis) são fatores fixos ou fatores aleatórios.REF?
Fatores são variáveis controladas pelos pesquisadores em um experimento para determinar seu efeito na(s) variável(ies) de resposta. Um fator pode assumir apenas um pequeno número de valores, conhecidos como níveis. Os fatores podem ser uma variável categórica ou baseados em uma variável contínua, mas usam apenas um número limitado de valores escolhidos pelos experimentadores.REF?
10.7.2 O que são níveis de um fator?
- Níveis de um fator são as possíveis categorias que descrevem um fator.REF?
O pacote base55 fornece as funções levels e nlevels para listar os níveis e a quantidade deles em um fator.
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,