Capítulo 29 Correlação


29.1 Análise inferencial de correlação


29.1.1 O que é covariância?


29.1.2 O que é correlação?


29.1.3 Qual é a interpretação das medidas de correlação?

  • Os valores de correlação estão no intervalo \([-1; 1]\).113,276,277

  • Valores de correlação positivos representam uma relação direta entre as variáveis, tal que valores maiores de uma variável estão associados a valores maiores de outra variável.276,277

  • Valores de correlação negativos representam uma relação indireta (ou inversa) entre as variáveis, tal que valores maiores (menores) de uma variável estão associados a valores maiores (menores) de outra variável.276,277

  • Valores de correlação próximos de \(0\) representam a inexistência de relação entre as variáveis.276,277


Exemplo de diferentes forças e direção de correlação entre duas variáveis X e Y.

Figura 29.1: Exemplo de diferentes forças e direção de correlação entre duas variáveis X e Y.


29.1.4 Quais precauções devem ser tomadas na interpretação de medidas de correlação?

  • Tamanhos de efeito grande (ou qualquer outro) não representam necessariamente uma relação causa-efeito entre as variáveis.276

  • Tamanhos de efeito grande (ou qualquer outro) não representam necessariamente uma relação de concordância ou confiabilidade entre as variáveis.276

  • Uma escala de medição com representação agregada do constructo na coleta de dados pode subestimar o tamanho do efeito da correlação \(r\) em de cerca de 13% e do coeficiente de determinação \(R^2\) de cerca de 30%.126 Neste caso, a correlação desatenuada \(r_{x'y'}\) pode ser calculada pela equação (29.1), utilizando a correlação observada \(r_{xy}\) e os fatores de correção \(r_{xx'}\) e \(r_{yy'}\) para o número de intervalos nas variáveis X e Y, respectivamennte:126


\[\begin{equation} \tag{29.1} r_{x'y'} = \dfrac{r_{xy}}{r_{xx'}r_{yy'}} \end{equation}\]




  • Os coeficientes de correlação possuem suposições que, se violadas, podem levar a interpretações equivocadas. Nestes cenários, visualizar os dados e as relações entre as variáveis pode contribuir com a interpretação e utilidade dos coeficientes de correlação.279

  • O quarteto de Anscombe é um conjunto de quatro bancos de dados bivariados que possuem a mesma média, variância, correlação e regressão linear (até a 2a casa decimal), mas que são visualmente diferentes e, assim, demonstram a importância da análise gráfica da correlação.279


Tabela 29.1: Quarteto de Anscombe.
ID x1 x2 x3 x4 y1 y2 y3 y4
1 10 10 10 8 8.04 9.14 7.46 6.58
2 8 8 8 8 6.95 8.14 6.77 5.76
3 13 13 13 8 7.58 8.74 12.74 7.71
4 9 9 9 8 8.81 8.77 7.11 8.84
5 11 11 11 8 8.33 9.26 7.81 8.47
6 14 14 14 8 9.96 8.10 8.84 7.04
7 6 6 6 8 7.24 6.13 6.08 5.25
8 4 4 4 19 4.26 3.10 5.39 12.50
9 12 12 12 8 10.84 9.13 8.15 5.56
10 7 7 7 8 4.82 7.26 6.42 7.91
11 5 5 5 8 5.68 4.74 5.73 6.89


Tabela 29.1: Análise descritiva do Quarteto de Anscombe demostrando os conjuntos de dados bivariados com parâmetros quase idênticos.
X1Y1 X2Y2 X3Y3 X4Y4
Observações 11.00 11.00 11.00 11.00
Média x 9.00 9.00 9.00 9.00
Média y 7.50 7.50 7.50 7.50
Variância x 11.00 11.00 11.00 11.00
Variância y 4.13 4.13 4.12 4.12
Correlação 0.82 0.82 0.82 0.82
Coeficiente angular 0.50 0.50 0.50 0.50
Coeficiente linear 3.00 3.00 3.00 3.00
Coeficiente de determinação 0.67 0.67 0.67 0.67


Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.

Figura 29.2: Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.



29.2 Coeficientes de correlação


29.2.1 Quais coeficientes podem ser usados em análises de correlação?

  • Coeficiente de correlação de Pearson (\(r\)).276,277

    • O coeficiente de correlação de Pearson (\(r\)) avalia a força e direção da relação linear entre duas variáveis quantitativas.276,277

    • Tipo: paramétrico.276,277

    • Hipóteses:277

      • Nula (\(H_{0}\)): \(r=0\)

      • Alternativa (\(H_{1}\)): \(r≠0\)

    • Tamanho do efeito:276,277

      • Coeficiente de correlação de Pearson (\(r\))




  • Coeficiente de correlação ponto-bisserial (\(r_{s}\)).276

    • O coeficiente de correlação ponto-bisserial (\(r_{s}\)) avalia a força e direção da relação linear entre uma variável quantitativa e outra dicotômica.276

    • Tipo: paramétrico.276

    • Hipóteses:276

      • Nula (\(H_{0}\)): \(r_{s}=0\)

      • Alternativa (\(H_{1}\)): \(r_{s}≠0\)

    • Tamanho do efeito:276

      • Coeficiente de correlação ponto-bisserial (\(r_{s}\))




  • Coeficiente de correlação de Spearman (\(\rho\)).276,277

    • O coeficiente de correlação de Spearman (\(\rho\)) avalia a força e direção da relação monotônica entre duas variáveis quantitativas.276,277

    • O coeficiente de correlação de Spearman (\(\rho\)) pode ser também definida como a correlação de Pearson (\(r\)) entre as classificações (ranks) das duas variáveis quantitativas.276,277

    • Tipo: não-paramétrico.276,277

    • Hipóteses:276,277

      • Nula (\(H_{0}\)): \(\rho=0\)

      • Alternativa (\(H_{1}\)): \(\rho≠0\)

    • Tamanho do efeito:276,277

      • Coeficiente de correlação de Spearman (\(\rho\))




  • Coeficiente de Kendall (\(\tau\)).276,277

    • O coeficiente Kendall \(\tau\) avalia a força e direção da relação monotônica entre duas variáveis quantitativas ou qualitativas.276,277

    • O coeficiente Kendall \(\tau\) é definido como a proporção de todos os pares concordantes menos a proporção de todos os pares discordantes.276,277

    • Tipo: não-paramétrico.276,277

    • Hipóteses:276,277

      • Nula (\(H_{0}\)): \(\tau=0\)

      • Alternativa (\(H_{1}\)): \(\tau≠0\)

    • Tamanho do efeito:276,277

      • Kendall \(\tau\)




  • Coeficiente de Cramér (\(V\)).REF?

    • O coeficiente Cramér (\(V\)) avalia a força e direção da relação entre duas variáveis qualitativas.REF?

    • Tipo: não-paramétrico.REF?

    • Hipóteses:REF?

      • Nula (\(H_{0}\)): \(V=0\)

      • Alternativa (\(H_{1}\)): \(V≠0\)

    • Tamanho do efeito:REF?

      • Coeficiente Cramer (\(V\))


  • Coeficiente de Sheperd \(\phi\).REF?

    • O coeficiente Phi (\(\phi\)) avalia a força e direção da relação entre duas variáveis dicotômicas.REF?

    • Tipo: não-paramétrico.REF?

    • Hipóteses:REF?

      • Nula (\(H_{0}\)): \(\phi=0\)

      • Alternativa (\(H_{1}\)): \(\phi≠0\)

    • Tamanho do efeito:REF?

      • Coeficiente Phi (\(\phi\))





29.3 Colinearidade


29.3.1 O que é colinearidade?

  • Colinearidade representa a correlação entre duas variáveis.283

  • Colinearidade exata indica uma relação linear perfeita entre duas variáveis.283


29.3.2 Como identificar colinearidade na matriz de correlação?

  • A colinearidade pode ser identificada na matriz de correlação por meio da análise dos coeficientes de correlação entre as variáveis.283

  • Valores de correlação próximos de \(1\) ou \(-1\) indicam colinearidade entre as variáveis.283




Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

113.
Barkan H. Statistics in clinical research: Important considerations. Annals of Cardiac Anaesthesia. 2015;18(1):74. doi:10.4103/0971-9784.148325
126.
Aguinis H, Pierce CA, Culpepper SA. Scale Coarseness as a Methodological Artifact. Organizational Research Methods. 2008;12(4):623–652. doi:10.1177/1094428108318065
142.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
202.
Wei T, Simko V. R package ’corrplot’: Visualization of a Correlation Matrix.; 2024. https://github.com/taiyun/corrplot.
276.
Khamis H. Measures of Association: How to Choose? Journal of Diagnostic Medical Sonography. 2008;24(3):155–162. doi:10.1177/8756479308317006
277.
Allison JS, Santana L, (Jaco) Visagie IJH. A primer on simple measures of association taught at undergraduate level. Teaching Statistics. 2022;44(3):96–103. doi:10.1111/test.12307
278.
Dahlke JA, Wiernik BM. psychmeta: An R Package for Psychometric Meta-Analysis. Applied Psychological Measurement. 2018;43(3):415–416. doi:10.1177/0146621618795933
279.
Anscombe FJ. Graphs in Statistical Analysis. The American Statistician. 1973;27(1):17–21. doi:10.1080/00031305.1973.10478966
280.
Northrop PJ. anscombiser: Create Datasets with Identical Summary Statistics.; 2022. https://CRAN.R-project.org/package=anscombiser.
281.
Makowski D, Wiernik BM, Patil I, Lüdecke D, Ben-Shachar MS. correlation: Methods for Correlation Analysis.; 2022. https://CRAN.R-project.org/package=correlation.
282.
Lüdecke D, Ben-Shachar MS, Patil I, et al. easystats: Framework for Easy Statistical Modeling, Visualization, and Reporting.; 2022. https://easystats.github.io/easystats/.
283.
Kim JH. Multicollinearity and misleading statistical results. Korean Journal of Anesthesiology. 2019;72(6):558–569. doi:10.4097/kja.19087
284.
Schloerke B, Cook D, Larmarange J, et al. GGally: Extension to ’ggplot2’.; 2024. doi:10.32614/CRAN.package.GGally