Capítulo 7 Dados, big data e metadados


7.1 Dados


7.1.1 O que são dados?

  • “Tudo são dados”.47

  • Dados coletados em um estudo geralmente contêm erros de mensuração e/ou classificação, dados perdidos e são agrupados por alguma unidade de análise.48


7.1.2 Quais são as fontes de dados?


7.1.3 O que são dados primários e secundários?

  • Dados primários são dados originais coletados intencionalmente para uma determinada análise exploratória ou inferencial planejada a priori.49

  • Dados secundários compreendem dados coletados inicialmente para análises de um estudo, e são subsequentemente utilizados para outras análises.49


7.1.4 O que são dados quantitativos e qualitativos?


7.2 Big data


7.2.1 O que são big data?

  • Big data refere-se a bancos de dados muito grandes com um mecanismo “R” — aleatório (Random), auto-reportado (self-Reported), reportado administrativamente (administratively reported), seletivamente respondido (selectively repondend) — descontrolado ou desconhecido.24


7.3 Metadados


7.3.1 O que são metadados?

  • Metadados são informações técnicas relacionadas às variáveis do estudo, tais como rótulos, limites de valores plausíveis, códigos para dados perdidos e unidades de medida.50

  • Metadados também são informações relacionadas ao delineamento e/ou protocolo do estudo, recrutamento dos participantes, e métodos para realização das medidas.50


7.3.2 Quais são as recomendações para os metadados de um banco de dados?

  • Utilize rótulos padronizados para variáveis e fatores para facilitar o reuso (reprodutibilidade) do conjuntos de dados e scripts de análise.51

  • Crie rótulos de variáveis concisos, claros e mutuamente exclusivos.51

  • Evite muitas letras maiúsculas ou outros caracteres especiais que usam a shift.51

  • Na existência de versões de instrumentos publicadas em diferentes anos, use o ano de publicação das escalas no rótulo.51

  • Divida o rótulo da variável ou fator em partes e ordene-as do mais geral para o mais particular geral (ex.: experimento -> repetição -> escala -> item).51








Referências

24.
Meng XL. Statistical paradises and paradoxes in big data (i): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. 2018;12(2). doi:10.1214/18-aoas1161sf
47.
Olson K. What Are Data? Qualitative Health Research. 2021;31(9):1567-1569. doi:10.1177/10497323211015960
48.
Smeden M van. A very short list of common pitfalls in research design, data analysis, and reporting. PRiMER. 2022;6. doi:10.22454/PRiMER.2022.511416
49.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375-1380. doi:10.1213/ane.0000000000002370
50.
Baillie M, Cessie S le, Schmidt CO, Lusa L, Huebner M. Ten simple rules for initial data analysis. PLOS Computational Biology. 2022;18(2):e1009819. doi:10.1371/journal.pcbi.1009819
51.
Buttliere B. Adopting standard variable labels solves many of the problems with sharing and reusing data. Methodological Innovations. 2021;14(2):205979912110266. doi:10.1177/20597991211026616
52.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
53.
Pebesma E, Mailund T, Hiebert J. Measurement units in r. 2016;8. doi:10.32614/RJ-2016-061
54.
Firke S. Janitor: Simple Tools for Examining and Cleaning Dirty Data.; 2023. https://CRAN.R-project.org/package=janitor.
55.
Harrell Jr FE. Hmisc: Harrell Miscellaneous.; 2023. https://CRAN.R-project.org/package=Hmisc.