Capítulo 12 Dados e metadados

12.1 Dados

12.1.1 O que são dados?

“Tudo são dados”.¹⁶⁰
Dados coletados em um estudo geralmente contêm erros de mensuração e/ou classificação, dados perdidos e são agrupados por alguma unidade de análise.¹⁶¹

12.1.2 O que são dados estruturados?

Dados estruturados são dados organizados em um formato tabular, como planilhas eletrônicas ou bancos de dados relacionais, onde cada linha representa uma observação e cada coluna representa uma variável ou atributo.^REF?

12.1.3 O que são dados não estruturados?

Dados não estruturados são dados que não possuem um formato ou organização predefinidos, como textos, imagens, vídeos, áudios e sinais biomédicos, tornando sua análise mais complexa em comparação com dados estruturados.^REF?

12.2 Big data

12.2.1 O que são grandes dados (big data)?

Grandes dados (big data) refere-se a bancos de dados muito grandes com um mecanismo “R” descontrolado ou desconhecido: aleatório (Random), auto-reportado (self-Reported), reportado administrativamente (administratively Reported), seletivamente respondido (selectively Responded).⁸⁹

12.2.2 O que são dados primários e secundários?

Dados primários são dados originais coletados intencionalmente para uma determinada análise exploratória ou inferencial planejada a priori.¹³⁶
Dados secundários compreendem dados coletados inicialmente para análises de um estudo, e são subsequentemente utilizados para outras análises.¹³⁶

12.3 Metadados

12.3.1 O que são metadados?

Metadados são informações técnicas relacionadas às variáveis do estudo, tais como rótulos, limites de valores plausíveis, códigos para dados perdidos e unidades de medida.¹⁶²
Metadados também são informações relacionadas ao delineamento e/ou protocolo do estudo, recrutamento dos participantes, e métodos para realização das medidas.¹⁶²

12.3.2 Quais são as recomendações para os metadados de um banco de dados?

Utilize rótulos padronizados para variáveis e fatores para facilitar o reuso (reprodutibilidade) do conjuntos de dados e scripts de análise.¹⁶³
Crie rótulos de variáveis concisos, claros e mutuamente exclusivos.¹⁶³
Evite muitas letras maiúsculas ou outros caracteres especiais que usam a tecla shift.¹⁶³
Na existência de versões de instrumentos publicadas em diferentes anos, use o ano de publicação das escalas no rótulo.¹⁶³
Divida o rótulo da variável ou fator em partes e ordene-as do mais geral para o mais particular geral (ex.: experimento -> repetição -> escala -> item).¹⁶³

O pacote base³¹ fornece a função names para declarar o nome de uma variável.

O pacote base³¹ fornece a função labels para declarar o rótulo de uma variável.

O pacote units¹⁶⁴ fornece a função units para declarar as unidades de medida de uma variável.

O pacote units¹⁶⁴ fornece a função valid_udunits para listar as opções de unidades de medida de uma variável.

O pacote janitor¹⁶⁵ fornece a função clean_names para formatar de modo padronizado o nome das variáveis utilizando apenas caracteres, números e o símbolo ‘_’.

O pacote Hmisc¹⁶⁶ fornece a função contents para criar um objeto com os metadados (nomes, rótulos, unidades, quantidade e níveis das variáveis categóricas, e quantidade de dados perdidos) de um dataframe.

12.4 Armazenamento de dados

12.4.1 Como armazenar dados?

Dados devem ser armazenados em três partes: dados brutos, codebooks e metadados ISO.¹⁶⁷
Os dados brutos são organizados em colunas com um identificador único — o cabeçalho da coluna.¹⁶⁷
Codebooks são documentos que descrevem os dados brutos, incluindo seus cabeçalhos, e respectivos rótulos, tipos de variável, formatos, unidades de medida, códigos para dados categóricos e dados perdidos e limites de valores plausíveis.¹⁶⁷
Metadados são informações sobre o estudo, como título, palavras-chave e outras informações relevantes, tais como delineamento, protocolo, recrutamento dos participantes e métodos de medição¹⁶⁷

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

31.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.

89.

Meng XL. Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. 2018;12(2). doi:10.1214/18-aoas1161sf

136.

Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370

160.

Olson K. What Are Data? Qualitative Health Research. 2021;31(9):1567–1569. doi:10.1177/10497323211015960

161.

Smeden M van. A Very Short List of Common Pitfalls in Research Design, Data Analysis, and Reporting. PRiMER. 2022;6. doi:10.22454/PRiMER.2022.511416

162.

Baillie M, Cessie S le, Schmidt CO, Lusa L, Huebner M. Ten simple rules for initial data analysis. PLOS Computational Biology. 2022;18(2):e1009819. doi:10.1371/journal.pcbi.1009819

163.

Buttliere B. Adopting standard variable labels solves many of the problems with sharing and reusing data. Methodological Innovations. 2021;14(2):205979912110266. doi:10.1177/20597991211026616

164.

Pebesma E, Mailund T, Hiebert J. Measurement Units in R. The R Journal. 2016;8. doi:10.32614/RJ-2016-061

165.

Firke S. janitor: Simple Tools for Examining and Cleaning Dirty Data.; 2023. https://CRAN.R-project.org/package=janitor.

166.

Harrell Jr FE. Hmisc: Harrell Miscellaneous.; 2023. https://CRAN.R-project.org/package=Hmisc.

167.

Reese A. Databases and Documenting Data. Significance. 2007;4(4):184–186. doi:10.1111/j.1740-9713.2007.00265.x