Capítulo 50 Simulação computacional


50.1 Simulações computacionais


50.1.1 O que são simulações computacionais?

  • Simulações computacionais consistem na geração de dados artificiais a partir de modelos matemáticos ou probabilísticos, permitindo testar hipóteses, validar métodos e explorar cenários complexos sem necessidade de dados reais.32


50.1.2 Por que estudos de simulação devem ser tratados como experimentos científicos?

  • Simulações são experimentos empíricos, ainda que realizados em ambiente computacional.404

  • Devem seguir princípios de planejamento, incluindo definição clara de objetivos, delineamento de cenários e análise adequada dos resultados.401,404

  • Falhas de planejamento ou de relatório podem levar a interpretações equivocadas do desempenho de métodos estatísticos.404


50.1.3 O que são estudos de simulação estatística?

  • Estudos de simulação estatística são experimentos computacionais nos quais dados artificiais são gerados a partir de um mecanismo probabilístico conhecido.405

  • Diferentemente da análise de dados reais, nas simulações os valores verdadeiros dos parâmetros são definidos pelo pesquisador, permitindo avaliar diretamente se um método estatístico recupera corretamente esses valores.405

  • Estudos de simulação são amplamente utilizados para investigar o comportamento de métodos estatísticos em diferentes cenários e condições de dados.405


50.1.4 Qual é o papel dos estudos de simulação em pesquisa científica?

  • Em muitos problemas estatísticos existem vários métodos possíveis para análise de dados. O desempenho desses métodos depende de suposições que nem sempre são satisfeitas em dados reais, como normalidade das variáveis, ausência de erros de medição ou independência das observações.405

  • Estudos de simulação permitem avaliar como os métodos se comportam quando essas suposições são atendidas ou violadas.405


50.1.5 Por que não avaliar métodos estatísticos apenas com dados reais?

  • Em dados reais, o valor verdadeiro dos parâmetros populacionais geralmente é desconhecido.405

  • Portanto, não é possível saber se um método estatístico estimou corretamente um efeito ou se um teste rejeitou corretamente uma hipótese.405

  • Em simulações, o valor verdadeiro é definido pelo pesquisador, permitindo comparar diretamente o resultado do método com a verdade conhecida.405


50.1.6 Quais são as principais vantagens de estudos de simulação?

  • Permitem avaliar métodos estatísticos quando a verdade é conhecida.405

  • Possibilitam testar diferentes cenários de dados, incluindo situações raras ou difíceis de observar empiricamente.405

  • Permitem investigar sistematicamente o impacto de fatores como tamanho da amostra, distribuição dos dados ou presença de erros de medição.405


50.1.7 Quais são as limitações de estudos de simulação?

  • Os cenários simulados podem ser simplificações da realidade.405

  • Resultados podem depender das suposições adotadas no mecanismo gerador de dados.405

  • Estudos de simulação complexos podem demandar grande poder computacional.405

  • Existe risco de interpretação inadequada se os cenários não forem bem escolhidos ou relatados.405


50.2 Métodos de simulação


50.2.1 Quais são os elementos fundamentais de um estudo de simulação?

  • Objetivo da simulação: Definir o que se pretende investigar, como avaliar um método ou comparar diferentes abordagens.404,405

  • Mecanismo gerador de dados: Especificar como os dados simulados serão gerados, incluindo distribuição, parâmetros e estrutura das variáveis.404,405

  • Métodos de análise: Aplicar aos dados simulados os métodos estatísticos que se deseja avaliar ou comparar.404,405

  • Medidas de desempenho: Avaliar os métodos usando critérios como viés, erro tipo I, poder estatístico ou cobertura de intervalos de confiança.404,405

  • Número de repetições: Repetir a simulação muitas vezes para reduzir o efeito da variabilidade aleatória e obter estimativas mais estáveis.404,405


50.2.2 O que é um cenário de simulação?

  • Um cenário de simulação corresponde a uma combinação específica de parâmetros utilizados no mecanismo gerador de dados.405

  • Cenários podem variar em tamanho da amostra, distribuição das variáveis, intensidade do efeito ou presença de erro de medição.405

  • Avaliar múltiplos cenários permite investigar como o desempenho de um método estatístico muda em diferentes condições de dados.405

  • Em muitos estudos, diferentes cenários correspondem a combinações fatoriais de parâmetros, permitindo tratar o estudo de simulação como um experimento planejado.401


50.2.3 Quais são os principais elementos para avaliar a qualidade de um modelo de simulação?

  • Verificação: processo de confirmar que o modelo computacional implementa corretamente o modelo matemático e seus algoritmos.406

  • Validação: avaliação de quão bem o modelo representa o sistema real dentro do contexto para o qual foi desenvolvido.406

  • Quantificação da incerteza: análise da variabilidade e das incertezas presentes nos dados, parâmetros ou estruturas do modelo.406

  • Análise de sensibilidade: investigação de como mudanças nos parâmetros de entrada afetam os resultados da simulação.406


50.2.4 Por que é necessário repetir muitas simulações?

  • Mesmo em simulações, os resultados variam devido à variabilidade aleatória das amostras geradas.405

  • Por isso, é necessário repetir o processo de geração de dados e análise muitas vezes.405

  • A média dos resultados obtidos ao longo das repetições fornece uma avaliação mais estável do desempenho do método estatístico.405


50.2.5 Quais boas práticas devem ser seguidas em estudos de modelagem e simulação?

  • Defina claramente o objetivo da simulação e as hipóteses a serem testadas, incluindo quais aspectos do fenômeno ou do método você pretende avaliar.48

  • Documente detalhadamente o processo de simulação, incluindo os parâmetros utilizados, a lógica do algoritmo e as suposições feitas.407

  • Compartilhar dados, modelos e códigos sempre que possível para facilitar a reprodutibilidade científica.406







Dados simulados a partir de diferentes distribuições: Normal(0,1), Binomial(1,0.4), Poisson(2) e Exponencial(1).

Figura 50.1: Dados simulados a partir de diferentes distribuições: Normal(0,1), Binomial(1,0.4), Poisson(2) e Exponencial(1).


50.3 Método de Monte Carlo


50.3.1 O que é o método de Monte Carlo?

  • O método de Monte Carlo consiste em utilizar geração repetida de números aleatórios para estimar propriedades de sistemas matemáticos ou estatísticos complexos.408

  • A ideia central é aproximar resultados teóricos por meio da simulação de muitas amostras aleatórias.408

  • No método Markov Chain Monte Carlo (MCMC), o modelo de Markov é usado para gerar amostras de distribuições complexas a partir da simulação de cadeias com distribuição estacionária prescrita.331


Convergência do histograma para a PDF teórica da Normal(0,1) com o aumento do tamanho amostral (n = 10, 100, 1000, 10000).

Figura 50.2: Convergência do histograma para a PDF teórica da Normal(0,1) com o aumento do tamanho amostral (n = 10, 100, 1000, 10000).


Convergência da média e do desvio-padrão amostral para os valores teóricos (0 e 1, respectivamente) com o aumento do tamanho amostral (n = 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000).

Figura 50.3: Convergência da média e do desvio-padrão amostral para os valores teóricos (0 e 1, respectivamente) com o aumento do tamanho amostral (n = 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000).






50.3.2 Como escolher a distribuição adequada em um estudo de simulação?

  • Em estudos de simulação, é comum avaliar múltiplas distribuições para investigar a sensibilidade dos resultados às suposições do modelo.48


50.4 Avaliação de métodos estatísticos em simulações


50.4.1 Quais critérios são usados para avaliar métodos estatísticos em simulações?

  • Erro tipo I: probabilidade de rejeitar uma hipótese nula verdadeira.405

  • Poder estatístico: probabilidade de detectar um efeito quando ele realmente existe.405

  • Viés das estimativas: diferença entre o valor estimado e o valor verdadeiro do parâmetro.405

  • Cobertura de intervalos de confiança: proporção de intervalos que contêm o valor verdadeiro do parâmetro.405

  • Erro de predição: diferença entre valores previstos e valores observados em modelos preditivos.405

  • Estabilidade: grau de consistência do desempenho do método quando diferentes amostras são geradas sob o mesmo cenário de simulação.405

  • Custo computacional: quantidade de recursos computacionais necessários para executar o método, como tempo de processamento ou uso de memória.405

  • Sucesso da computação: proporção de execuções nas quais o método converge ou produz resultados válidos sem falhas numéricas ou problemas de otimização.405


50.4.2 O que é o erro padrão de Monte Carlo?


  • Em estudos de simulação, as estimativas de desempenho de um método estatístico (por exemplo, viés, poder estatístico ou erro tipo I) são calculadas a partir de um número finito de repetições da simulação.404

  • Como cada repetição utiliza uma amostra aleatória diferente, essas estimativas também apresentam variabilidade aleatória.404

  • O erro padrão de Monte Carlo (Monte Carlo standard error, MCSE) quantifica essa variabilidade e indica o grau de incerteza associado às estimativas obtidas na simulação.404

  • O MCSE mede a precisão com que uma medida de desempenho foi estimada a partir do número de repetições realizadas.404

  • Gráficos como zipper (zip) plots podem ser utilizados para avaliar visualmente a cobertura de intervalos de confiança em estudos de simulação.404,411


Cobertura de Intervalos de Confiança em um estudo de simulação.

Figura 50.4: Cobertura de Intervalos de Confiança em um estudo de simulação.



50.5 Diretrizes para redação


50.5.1 Quais são as diretrizes para redação de estudos de simulação computacional?



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

32.
Hinsen K. A data and code model for reproducible research and executable papers. Procedia Computer Science. 2011;4:579–588. doi:10.1016/j.procs.2011.04.061
48.
Eglen SJ, Marwick B, Halchenko YO, et al. Toward standard practices for sharing computer code and programs in neuroscience. Nature Neuroscience. 2017;20(6):770–773. doi:10.1038/nn.4550
62.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
144.
R Core Team. R: A Language and Environment for Statistical Computing.; 2025. https://www.R-project.org/.
376.
Baranger DAA, Finsaas MC, Goldstein BL, Vize CE, Lynam DR, Olino TM. Tutorial: Power Analyses for Interaction Effects in Cross-Sectional Regressions. Advances in Methods and Practices in Psychological Science. 2023;6(3):25152459231187531. doi:10.1177/25152459231187531
401.
Chipman H, Bingham D. Let’s practice what we preach: Planning and interpreting simulation studies with design and analysis of experiments. Canadian Journal of Statistics. 2022;50(4):1228–1249. doi:10.1002/cjs.11719
404.
Morris TP, White IR, Crowther MJ. Using simulation studies to evaluate statistical methods. Statistics in Medicine. 2019;38(11):2074–2102. doi:10.1002/sim.8086
405.
Boulesteix AL, Groenwold RH, Abrahamowicz M, et al. Introduction to statistical simulations in health research. BMJ Open. 2020;10(12):e039921. doi:10.1136/bmjopen-2020-039921
406.
Erdemir A, Mulugeta L, Ku JP, et al. Credible practice of modeling and simulation in healthcare: ten rules from a multidisciplinary perspective. Journal of Translational Medicine. 2020;18(1). doi:10.1186/s12967-020-02540-4
407.
Trisovic A, Lau MK, Pasquier T, Crosas M. A large-scale study on research code quality and execution. Scientific Data. 2022;9(1). doi:10.1038/s41597-022-01143-6
408.
Metropolis N, Ulam S. The Monte Carlo Method. Journal of the American Statistical Association. 1949;44(247):335–341. doi:10.1080/01621459.1949.10483310
409.
Goldfeld K, Wujciak-Jens J. simstudy: Illuminating research methods through data generation. Journal of Open Source Software. 2020;5:2763. doi:10.21105/joss.02763
410.
DeBruine L. faux: Simulation for Factorial Designs.; 2023. doi:10.5281/zenodo.2669586
411.
White IR, Pham TM, Quartagno M, Morris TP. How to check a simulation study. International Journal of Epidemiology. 2023;53(1). doi:10.1093/ije/dyad134
412.
Gasparini A. rsimsum: Summarise results from Monte Carlo simulation studies. Vol 3.; 2018:739. doi:10.21105/joss.00739
413.
Monks T, Currie CSM, Onggo BS, Robinson S, Kunc M, Taylor SJE. Strengthening the reporting of empirical simulation studies: Introducing the STRESS guidelines. Journal of Simulation. 2018;13(1):55–67. doi:10.1080/17477778.2018.1442155