Capítulo 57 Simulação computacional


57.1 Simulações computacionais


57.1.1 O que são simulações computacionais?

  • Simulações computacionais consistem na geração de dados artificiais a partir de modelos matemáticos ou probabilísticos, permitindo testar hipóteses, validar métodos e explorar cenários complexos sem necessidade de dados reais.14


57.1.2 Por que estudos de simulação devem ser tratados como experimentos científicos?

  • Simulações são experimentos empíricos, ainda que realizados em ambiente computacional.482

  • Devem seguir princípios de planejamento, incluindo definição clara de objetivos, delineamento de cenários e análise adequada dos resultados.471,482

  • Falhas de planejamento ou de relatório podem levar a interpretações equivocadas do desempenho de métodos estatísticos.482


57.1.3 O que são estudos de simulação estatística?

  • Estudos de simulação estatística são experimentos computacionais nos quais dados artificiais são gerados a partir de um mecanismo probabilístico conhecido.483

  • Diferentemente da análise de dados reais, nas simulações os valores verdadeiros dos parâmetros são definidos pelo pesquisador, permitindo avaliar diretamente se um método estatístico recupera corretamente esses valores.483

  • Estudos de simulação são amplamente utilizados para investigar o comportamento de métodos estatísticos em diferentes cenários e condições de dados.483


57.1.4 Qual é o papel dos estudos de simulação em pesquisa científica?

  • Em muitos problemas estatísticos existem vários métodos possíveis para análise de dados. O desempenho desses métodos depende de suposições que nem sempre são satisfeitas em dados reais, como normalidade das variáveis, ausência de erros de medição ou independência das observações.483

  • Estudos de simulação permitem avaliar como os métodos se comportam quando essas suposições são atendidas ou violadas.483


57.1.5 Por que não avaliar métodos estatísticos apenas com dados reais?

  • Em dados reais, o valor verdadeiro dos parâmetros populacionais geralmente é desconhecido.483

  • Portanto, não é possível saber se um método estatístico estimou corretamente um efeito ou se um teste rejeitou corretamente uma hipótese.483

  • Em simulações, o valor verdadeiro é definido pelo pesquisador, permitindo comparar diretamente o resultado do método com a verdade conhecida.483


57.1.6 Quais são as principais vantagens de estudos de simulação?

  • Permitem avaliar métodos estatísticos quando a verdade é conhecida.483

  • Possibilitam testar diferentes cenários de dados, incluindo situações raras ou difíceis de observar empiricamente.483

  • Permitem investigar sistematicamente o impacto de fatores como tamanho da amostra, distribuição dos dados ou presença de erros de medição.483


57.1.7 Quais são as limitações de estudos de simulação?

  • Os cenários simulados podem ser simplificações da realidade.483

  • Resultados podem depender das suposições adotadas no mecanismo gerador de dados.483

  • Estudos de simulação complexos podem demandar grande poder computacional.483

  • Existe risco de interpretação inadequada se os cenários não forem bem escolhidos ou relatados.483


57.2 Simulações em todo o fluxo de trabalho estatístico


57.2.1 Qual é o papel das simulações no fluxo de trabalho estatístico?

  • Estudos de simulação são utilizados para avaliar o desempenho de métodos estatísticos, comparando estimadores, testes de hipótese ou modelos preditivos em cenários controlados.484

  • As simulações desempenham um papel amplo, participando de praticamente todas as etapas do fluxo de trabalho estatístico, desde a especificação do modelo até a interpretação dos resultados.484

  • Em uma perspectiva moderna, as simulações podem ser utilizadas em quatro grandes etapas: especificação do modelo; verificação do modelo; inferência estatística; e checagem e validação do modelo.484


57.2.2 Como as simulações auxiliam na especificação de modelos?

  • Simulações podem ser usadas para verificar se um modelo produz dados plausíveis antes mesmo da coleta ou análise dos dados reais.484

  • Essa estratégia é conhecida em contextos bayesianos como prior predictive checking, na qual dados são simulados a partir do modelo proposto para avaliar se os resultados gerados são compatíveis com o conhecimento prévio disponível.484

  • Dessa forma, simulações ajudam a identificar especificações inadequadas ainda nas fases iniciais do desenvolvimento do modelo.484


57.2.3 Como as simulações contribuem para a verificação de modelos?

  • Antes de aplicar um método a dados reais, é importante verificar se ele funciona corretamente quando suas suposições são satisfeitas.484

  • Em muitos casos, a única forma prática de avaliar propriedades como viés, cobertura de intervalos de confiança ou calibração de incerteza é por meio de simulações.484

  • Técnicas modernas, como Simulation-Based Calibration (SBC), utilizam simulações repetidas para verificar se distribuições posteriores e estimativas probabilísticas estão corretamente calibradas.484


57.2.4 Como as simulações podem ser utilizadas diretamente para inferência?

  • Em alguns problemas, o cálculo analítico da distribuição de interesse é impossível ou extremamente difícil.484

  • Nesses casos, simulações podem ser utilizadas diretamente para realizar inferência estatística, estimar parâmetros ou conduzir testes de hipótese.484

  • Métodos como Monte Carlo, Markov Chain Monte Carlo (MCMC) e Approximate Bayesian Computation (ABC) são exemplos de abordagens que utilizam simulações para aproximar distribuições probabilísticas complexas.484


57.2.5 Como as simulações auxiliam na validação de modelos?

  • Após o ajuste de um modelo, simulações podem ser utilizadas para gerar novos conjuntos de dados a partir dos parâmetros estimados.484

  • Esses dados simulados podem ser comparados aos dados observados para verificar se o modelo reproduz adequadamente os padrões presentes na realidade para avaliar a adequação do modelo aos dados.484


57.3 Métodos de simulação


57.3.1 Quais são os elementos fundamentais de um estudo de simulação?

  • Objetivo da simulação: Definir o que se pretende investigar, como avaliar um método ou comparar diferentes abordagens.482,483

  • Mecanismo gerador de dados: Especificar como os dados simulados serão gerados, incluindo distribuição, parâmetros e estrutura das variáveis.482,483

  • Métodos de análise: Aplicar aos dados simulados os métodos estatísticos que se deseja avaliar ou comparar.482,483

  • Medidas de desempenho: Avaliar os métodos usando critérios como viés, erro tipo I, poder estatístico ou cobertura de intervalos de confiança.482,483

  • Número de repetições: Repetir a simulação muitas vezes para reduzir o efeito da variabilidade aleatória e obter estimativas mais estáveis.482,483


57.3.2 O que é um cenário de simulação?

  • Um cenário de simulação corresponde a uma combinação específica de parâmetros utilizados no mecanismo gerador de dados.483

  • Cenários podem variar em tamanho da amostra, distribuição das variáveis, intensidade do efeito ou presença de erro de medição.483

  • Avaliar múltiplos cenários permite investigar como o desempenho de um método estatístico muda em diferentes condições de dados.483

  • Em muitos estudos, diferentes cenários correspondem a combinações fatoriais de parâmetros, permitindo tratar o estudo de simulação como um experimento planejado.471


57.3.3 Quais são os principais elementos para avaliar a qualidade de um modelo de simulação?

  • Verificação: processo de confirmar que o modelo computacional implementa corretamente o modelo matemático e seus algoritmos.485

  • Validação: avaliação de quão bem o modelo representa o sistema real dentro do contexto para o qual foi desenvolvido.485

  • Quantificação da incerteza: análise da variabilidade e das incertezas presentes nos dados, parâmetros ou estruturas do modelo.485

  • Análise de sensibilidade: investigação de como mudanças nos parâmetros de entrada afetam os resultados da simulação.485


57.3.4 Por que é necessário repetir muitas simulações?

  • Mesmo em simulações, os resultados variam devido à variabilidade aleatória das amostras geradas.483

  • Por isso, é necessário repetir o processo de geração de dados e análise muitas vezes.483

  • A média dos resultados obtidos ao longo das repetições fornece uma avaliação mais estável do desempenho do método estatístico.483


57.3.5 Quais boas práticas devem ser seguidas em estudos de modelagem e simulação?

  • Defina claramente o objetivo da simulação e as hipóteses a serem testadas, incluindo quais aspectos do fenômeno ou do método você pretende avaliar.16

  • Documente detalhadamente o processo de simulação, incluindo os parâmetros utilizados, a lógica do algoritmo e as suposições feitas.486

  • Compartilhar dados, modelos e códigos sempre que possível para facilitar a reprodutibilidade científica.485







Dados simulados a partir de diferentes distribuições: Normal(0,1), Binomial(1,0.4), Poisson(2) e Exponencial(1).

Figura 57.1: Dados simulados a partir de diferentes distribuições: Normal(0,1), Binomial(1,0.4), Poisson(2) e Exponencial(1).


57.4 Método de Monte Carlo


57.4.1 O que é o método de Monte Carlo?

  • O método de Monte Carlo consiste em utilizar geração repetida de números aleatórios para estimar propriedades de sistemas matemáticos ou estatísticos complexos.487

  • A ideia central é aproximar resultados teóricos por meio da simulação de muitas amostras aleatórias.487

  • No método Markov Chain Monte Carlo (MCMC), o modelo de Markov é usado para gerar amostras de distribuições complexas a partir da simulação de cadeias com distribuição estacionária prescrita.408


Convergência do histograma para a PDF teórica da Normal(0,1) com o aumento do tamanho amostral (n = 10, 100, 1000, 10000).

Figura 57.2: Convergência do histograma para a PDF teórica da Normal(0,1) com o aumento do tamanho amostral (n = 10, 100, 1000, 10000).


Convergência da média e do desvio-padrão amostral para os valores teóricos (0 e 1, respectivamente) com o aumento do tamanho amostral (n = 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000).

Figura 57.3: Convergência da média e do desvio-padrão amostral para os valores teóricos (0 e 1, respectivamente) com o aumento do tamanho amostral (n = 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000).






57.4.2 Como escolher a distribuição adequada em um estudo de simulação?

  • Em estudos de simulação, é comum avaliar múltiplas distribuições para investigar a sensibilidade dos resultados às suposições do modelo.16


57.5 Avaliação de métodos estatísticos em simulações


57.5.1 Quais critérios são usados para avaliar métodos estatísticos em simulações?

  • Erro tipo I: probabilidade de rejeitar uma hipótese nula verdadeira.483

  • Poder estatístico: probabilidade de detectar um efeito quando ele realmente existe.483

  • Viés das estimativas: diferença entre o valor estimado e o valor verdadeiro do parâmetro.483

  • Cobertura de intervalos de confiança: proporção de intervalos que contêm o valor verdadeiro do parâmetro.483

  • Erro de predição: diferença entre valores previstos e valores observados em modelos preditivos.483

  • Estabilidade: grau de consistência do desempenho do método quando diferentes amostras são geradas sob o mesmo cenário de simulação.483

  • Custo computacional: quantidade de recursos computacionais necessários para executar o método, como tempo de processamento ou uso de memória.483

  • Sucesso da computação: proporção de execuções nas quais o método converge ou produz resultados válidos sem falhas numéricas ou problemas de otimização.483


57.5.2 O que é o erro padrão de Monte Carlo?


  • Em estudos de simulação, as estimativas de desempenho de um método estatístico (por exemplo, viés, poder estatístico ou erro tipo I) são calculadas a partir de um número finito de repetições da simulação.482

  • Como cada repetição utiliza uma amostra aleatória diferente, essas estimativas também apresentam variabilidade aleatória.482

  • O erro padrão de Monte Carlo (Monte Carlo standard error, MCSE) quantifica essa variabilidade e indica o grau de incerteza associado às estimativas obtidas na simulação.482

  • O MCSE mede a precisão com que uma medida de desempenho foi estimada a partir do número de repetições realizadas.482

  • Gráficos como zipper (zip) plots podem ser utilizados para avaliar visualmente a cobertura de intervalos de confiança em estudos de simulação.482,490


Cobertura de Intervalos de Confiança em um estudo de simulação.

Figura 57.4: Cobertura de Intervalos de Confiança em um estudo de simulação.



57.6 Diretrizes para redação


57.6.1 Quais são as diretrizes para redação de estudos de simulação computacional?

  • Visite a rede Enhancing the QUAlity and Transparency Of health Research (EQUATOR Network) para encontrar diretrizes específicas.

  • Strengthening the reporting of empirical simulation studies: Introducing the STRESS guidelines.492



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

14.
Hinsen K. A data and code model for reproducible research and executable papers. Procedia Computer Science. 2011;4:579–588. doi:10.1016/j.procs.2011.04.061
16.
Eglen SJ, Marwick B, Halchenko YO, et al. Toward standard practices for sharing computer code and programs in neuroscience. Nature Neuroscience. 2017;20(6):770–773. doi:10.1038/nn.4550
31.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
159.
R Core Team. R: A Language and Environment for Statistical Computing.; 2025. https://www.R-project.org/.
408.
HÄGGSTRÖM O. Problem Solving is Often a Matter of Cooking Up an Appropriate Markov Chain*. Scandinavian Journal of Statistics. 2007;34(4):768–780. doi:10.1111/j.1467-9469.2007.00561.x
445.
Baranger DAA, Finsaas MC, Goldstein BL, Vize CE, Lynam DR, Olino TM. Tutorial: Power Analyses for Interaction Effects in Cross-Sectional Regressions. Advances in Methods and Practices in Psychological Science. 2023;6(3):25152459231187531. doi:10.1177/25152459231187531
471.
Chipman H, Bingham D. Let’s practice what we preach: Planning and interpreting simulation studies with design and analysis of experiments. Canadian Journal of Statistics. 2022;50(4):1228–1249. doi:10.1002/cjs.11719
482.
Morris TP, White IR, Crowther MJ. Using simulation studies to evaluate statistical methods. Statistics in Medicine. 2019;38(11):2074–2102. doi:10.1002/sim.8086
483.
Boulesteix AL, Groenwold RH, Abrahamowicz M, et al. Introduction to statistical simulations in health research. BMJ Open. 2020;10(12):e039921. doi:10.1136/bmjopen-2020-039921
484.
Bürkner PC, Schmitt M, Radev ST. Simulations in statistical workflows. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. 2026;384(2321). doi:10.1098/rsta.2024.0616
485.
Erdemir A, Mulugeta L, Ku JP, et al. Credible practice of modeling and simulation in healthcare: ten rules from a multidisciplinary perspective. Journal of Translational Medicine. 2020;18(1). doi:10.1186/s12967-020-02540-4
486.
Trisovic A, Lau MK, Pasquier T, Crosas M. A large-scale study on research code quality and execution. Scientific Data. 2022;9(1). doi:10.1038/s41597-022-01143-6
487.
Metropolis N, Ulam S. The Monte Carlo Method. Journal of the American Statistical Association. 1949;44(247):335–341. doi:10.1080/01621459.1949.10483310
488.
Goldfeld K, Wujciak-Jens J. simstudy: Illuminating research methods through data generation. Journal of Open Source Software. 2020;5:2763. doi:10.21105/joss.02763
489.
DeBruine L. faux: Simulation for Factorial Designs.; 2023. doi:10.5281/zenodo.2669586
490.
White IR, Pham TM, Quartagno M, Morris TP. How to check a simulation study. International Journal of Epidemiology. 2023;53(1). doi:10.1093/ije/dyad134
491.
Gasparini A. rsimsum: Summarise results from Monte Carlo simulation studies. V 3.; 2018:739. doi:10.21105/joss.00739
492.
Monks T, Currie CSM, Onggo BS, Robinson S, Kunc M, Taylor SJE. Strengthening the reporting of empirical simulation studies: Introducing the STRESS guidelines. Journal of Simulation. 2018;13(1):55–67. doi:10.1080/17477778.2018.1442155