Capítulo 45 Simulação computacional

45.1 Simulações computacionais

45.1.1 O que são simulações computacionais?

Simulações computacionais consistem na geração de dados artificiais baseados em regras matemáticas e estatísticas, permitindo testar hipóteses, validar métodos e explorar cenários complexos sem necessidade de dados reais.²⁹
A simulação é frequentemente usada em estatística para avaliar o desempenho de testes, estimadores e modelos sob diferentes condições.^REF?

45.1.2 Por que usar simulações?

Testar o comportamento de métodos estatísticos sob diferentes premissas (ex: normalidade, homocedasticidade, tamanho amostral).^REF?
Avaliar a robustez de algoritmos computacionais.^REF?
Reproduzir processos naturais ou sociais para compreensão teórica.^REF?

45.1.3 Quais são as boas práticas em simulações computacionais?

Defina claramente o objetivo da simulação e as hipóteses a serem testadas, incluindo quais aspectos do fenômeno ou do método você pretende avaliar.⁴²
Use uma semente para o gerador de números aleatórios com set.seed() para garantir a reprodutibilidade dos resultados.^REF?
Documente detalhadamente o processo de simulação, incluindo os parâmetros utilizados, a lógica do algoritmo e as suposições feitas.³⁶¹
Realize múltiplas simulações (ex.: 1000 ou mais) para obter estimativas estáveis e resultados mais robustos e confiáveis.^REF?
Analise os resultados de forma crítica, considerando a variabilidade, as limitações do modelo e possíveis vieses do processo de simulação.^REF?
Use funções vetorizadas para otimizar o desempenho e reduzir o tempo de execução da simulação.^REF?

O pacote base⁵⁵ fornece a função set.seed para especificar uma semente e garantir a reprodutibilidade de computações que envolvem números aleatórios.

45.2 Características

45.2.1 Quais são as características de estudos de simulação computacional?

.^REF?

45.3 Método de Monte Carlo

45.3.1 O que é o método de Monte Carlo?

.³⁶²
No método Markov Chain Monte Carlo (MCMC), o modelo de Markov é usado para gerar amostras de distribuições complexas a partir da simulação de cadeias com distribuição estacionária prescrita.³²¹

Figura 45.1: Convergência do histograma para a PDF teórica da Normal(0,1) com o aumento do tamanho amostral (n = 10, 100, 1000, 10000).

Convergência da média e do desvio-padrão amostral para os valores teóricos (0 e 1, respectivamente) com o aumento do tamanho amostral (n = 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000).

Figura 45.2: Convergência da média e do desvio-padrão amostral para os valores teóricos (0 e 1, respectivamente) com o aumento do tamanho amostral (n = 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000).

O pacote base⁵⁵ fornece a função set.seed para especificar uma semente para reprodutibilidade de computações que envolvem números aleatórios.

O pacote simstudy³⁶³ fornece as funções defData e genData para criar variáveis e simular um banco de dados de acordo com o delineamento pré-especificado, respectivamente.

O pacote faux³⁶⁴ fornece a função sim_design para simular um banco de dados de acordo com o delineamento pré-especificado.

O pacote InteractionPoweR³³⁸ fornece a função generate_interaction para simular bancos de dads com efeitos de interação.

45.4 Diretrizes para redação

45.4.1 Quais são as diretrizes para redação de estudos de simulação computacional?

Visite a rede Enhancing the QUAlity and Transparency Of health Research (EQUATOR Network) para encontrar diretrizes específicas.
Strengthening the reporting of empirical simulation studies: Introducing the STRESS guidelines:³⁶⁵ https://www.equator-network.org/reporting-guidelines/strengthening-the-reporting-of-empirical-simulation-studies-introducing-the-stress-guidelines/

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

29.

Hinsen K. A data and code model for reproducible research and executable papers. Procedia Computer Science. 2011;4:579–588. doi:10.1016/j.procs.2011.04.061

42.

Eglen SJ, Marwick B, Halchenko YO, et al. Toward standard practices for sharing computer code and programs in neuroscience. Nature Neuroscience. 2017;20(6):770–773. doi:10.1038/nn.4550

55.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.

338.

Baranger DAA, Finsaas MC, Goldstein BL, Vize CE, Lynam DR, Olino TM. Tutorial: Power Analyses for Interaction Effects in Cross-Sectional Regressions. Advances in Methods and Practices in Psychological Science. 2023;6(3):25152459231187531. doi:10.1177/25152459231187531

361.

Trisovic A, Lau MK, Pasquier T, Crosas M. A large-scale study on research code quality and execution. Scientific Data. 2022;9(1). doi:10.1038/s41597-022-01143-6

362.

Metropolis N, Ulam S. The Monte Carlo Method. Journal of the American Statistical Association. 1949;44(247):335–341. doi:10.1080/01621459.1949.10483310

363.

Goldfeld K, Wujciak-Jens J. simstudy: Illuminating research methods through data generation. Journal of Open Source Software. 2020;5:2763. doi:10.21105/joss.02763

364.

DeBruine L. faux: Simulation for Factorial Designs.; 2023. doi:10.5281/zenodo.2669586

365.

Monks T, Currie CSM, Onggo BS, Robinson S, Kunc M, Taylor SJE. Strengthening the reporting of empirical simulation studies: Introducing the STRESS guidelines. Journal of Simulation. 2018;13(1):55–67. doi:10.1080/17477778.2018.1442155