Capítulo 12 Dados e metadados
12.1 Dados
12.1.1 O que são dados?
“Tudo são dados”.160
Dados coletados em um estudo geralmente contêm erros de mensuração e/ou classificação, dados perdidos e são agrupados por alguma unidade de análise.161
12.1.2 O que são dados estruturados?
- Dados estruturados são dados organizados em um formato tabular, como planilhas eletrônicas ou bancos de dados relacionais, onde cada linha representa uma observação e cada coluna representa uma variável ou atributo.REF?
12.1.3 O que são dados não estruturados?
- Dados não estruturados são dados que não possuem um formato ou organização predefinidos, como textos, imagens, vídeos, áudios e sinais biomédicos, tornando sua análise mais complexa em comparação com dados estruturados.REF?
12.2 Big data
12.2.1 O que são grandes dados (big data)?
- Grandes dados (big data) refere-se a bancos de dados muito grandes com um mecanismo “R” descontrolado ou desconhecido: aleatório (Random), auto-reportado (self-Reported), reportado administrativamente (administratively Reported), seletivamente respondido (selectively Responded).89
12.2.2 O que são dados primários e secundários?
Dados primários são dados originais coletados intencionalmente para uma determinada análise exploratória ou inferencial planejada a priori.136
Dados secundários compreendem dados coletados inicialmente para análises de um estudo, e são subsequentemente utilizados para outras análises.136
12.3 Metadados
12.3.1 O que são metadados?
Metadados são informações técnicas relacionadas às variáveis do estudo, tais como rótulos, limites de valores plausíveis, códigos para dados perdidos e unidades de medida.162
Metadados também são informações relacionadas ao delineamento e/ou protocolo do estudo, recrutamento dos participantes, e métodos para realização das medidas.162
12.3.2 Quais são as recomendações para os metadados de um banco de dados?
Utilize rótulos padronizados para variáveis e fatores para facilitar o reuso (reprodutibilidade) do conjuntos de dados e scripts de análise.163
Crie rótulos de variáveis concisos, claros e mutuamente exclusivos.163
Evite muitas letras maiúsculas ou outros caracteres especiais que usam a tecla shift.163
Na existência de versões de instrumentos publicadas em diferentes anos, use o ano de publicação das escalas no rótulo.163
Divida o rótulo da variável ou fator em partes e ordene-as do mais geral para o mais particular geral (ex.: experimento -> repetição -> escala -> item).163
O pacote base31 fornece a função names para declarar o nome de uma variável.
O pacote base31 fornece a função labels para declarar o rótulo de uma variável.
O pacote units164 fornece a função units para declarar as unidades de medida de uma variável.
O pacote units164 fornece a função valid_udunits para listar as opções de unidades de medida de uma variável.
O pacote janitor165 fornece a função clean_names para formatar de modo padronizado o nome das variáveis utilizando apenas caracteres, números e o símbolo ‘_’.
O pacote Hmisc166 fornece a função contents para criar um objeto com os metadados (nomes, rótulos, unidades, quantidade e níveis das variáveis categóricas, e quantidade de dados perdidos) de um dataframe.
12.4 Armazenamento de dados
12.4.1 Como armazenar dados?
Dados devem ser armazenados em três partes: dados brutos, codebooks e metadados ISO.167
Os dados brutos são organizados em colunas com um identificador único — o cabeçalho da coluna.167
Codebooks são documentos que descrevem os dados brutos, incluindo seus cabeçalhos, e respectivos rótulos, tipos de variável, formatos, unidades de medida, códigos para dados categóricos e dados perdidos e limites de valores plausíveis.167
Metadados são informações sobre o estudo, como título, palavras-chave e outras informações relevantes, tais como delineamento, protocolo, recrutamento dos participantes e métodos de medição167
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,