Capítulo 7 Dados, big data e metadados
7.1 Dados
7.1.1 O que são dados?
“Tudo são dados”.47
Dados coletados em um estudo geralmente contêm erros de mensuração e/ou classificação, dados perdidos e são agrupados por alguma unidade de análise.48
7.1.3 O que são dados primários e secundários?
Dados primários são dados originais coletados intencionalmente para uma determinada análise exploratória ou inferencial planejada a priori.49
Dados secundários compreendem dados coletados inicialmente para análises de um estudo, e são subsequentemente utilizados para outras análises.49
7.2 Big data
7.2.1 O que são big data?
- Big data refere-se a bancos de dados muito grandes com um mecanismo “R” — aleatório (Random), auto-reportado (self-Reported), reportado administrativamente (administratively reported), seletivamente respondido (selectively repondend) — descontrolado ou desconhecido.24
7.3 Metadados
7.3.1 O que são metadados?
Metadados são informações técnicas relacionadas às variáveis do estudo, tais como rótulos, limites de valores plausíveis, códigos para dados perdidos e unidades de medida.50
Metadados também são informações relacionadas ao delineamento e/ou protocolo do estudo, recrutamento dos participantes, e métodos para realização das medidas.50
7.3.2 Quais são as recomendações para os metadados de um banco de dados?
Utilize rótulos padronizados para variáveis e fatores para facilitar o reuso (reprodutibilidade) do conjuntos de dados e scripts de análise.51
Crie rótulos de variáveis concisos, claros e mutuamente exclusivos.51
Evite muitas letras maiúsculas ou outros caracteres especiais que usam a shift.51
Na existência de versões de instrumentos publicadas em diferentes anos, use o ano de publicação das escalas no rótulo.51
Divida o rótulo da variável ou fator em partes e ordene-as do mais geral para o mais particular geral (ex.: experimento -> repetição -> escala -> item).51
O pacote units53 fornece a função valid_udunits para listar as opções de unidades de medida de uma variável.
O pacote janitor54 fornece a função clean_names para formatar de modo padronizado o nome das variáveis utilizando apenas caracteres, números e o símbolo ‘_’.
O pacote Hmisc55 fornece a função contents para criar um objeto com os metadados (nomes, rótulos, unidades, quantidade e níveis das variáveis categóricas, e quantidade de dados perdidos) de um dataframe.