Capítulo 50 Simulação computacional
50.1 Simulações computacionais
50.1.1 O que são simulações computacionais?
- Simulações computacionais consistem na geração de dados artificiais a partir de modelos matemáticos ou probabilísticos, permitindo testar hipóteses, validar métodos e explorar cenários complexos sem necessidade de dados reais.32
50.1.2 Por que estudos de simulação devem ser tratados como experimentos científicos?
Simulações são experimentos empíricos, ainda que realizados em ambiente computacional.404
Devem seguir princípios de planejamento, incluindo definição clara de objetivos, delineamento de cenários e análise adequada dos resultados.401,404
Falhas de planejamento ou de relatório podem levar a interpretações equivocadas do desempenho de métodos estatísticos.404
50.1.3 O que são estudos de simulação estatística?
Estudos de simulação estatística são experimentos computacionais nos quais dados artificiais são gerados a partir de um mecanismo probabilístico conhecido.405
Diferentemente da análise de dados reais, nas simulações os valores verdadeiros dos parâmetros são definidos pelo pesquisador, permitindo avaliar diretamente se um método estatístico recupera corretamente esses valores.405
Estudos de simulação são amplamente utilizados para investigar o comportamento de métodos estatísticos em diferentes cenários e condições de dados.405
50.1.4 Qual é o papel dos estudos de simulação em pesquisa científica?
Em muitos problemas estatísticos existem vários métodos possíveis para análise de dados. O desempenho desses métodos depende de suposições que nem sempre são satisfeitas em dados reais, como normalidade das variáveis, ausência de erros de medição ou independência das observações.405
Estudos de simulação permitem avaliar como os métodos se comportam quando essas suposições são atendidas ou violadas.405
50.1.5 Por que não avaliar métodos estatísticos apenas com dados reais?
Em dados reais, o valor verdadeiro dos parâmetros populacionais geralmente é desconhecido.405
Portanto, não é possível saber se um método estatístico estimou corretamente um efeito ou se um teste rejeitou corretamente uma hipótese.405
Em simulações, o valor verdadeiro é definido pelo pesquisador, permitindo comparar diretamente o resultado do método com a verdade conhecida.405
50.1.6 Quais são as principais vantagens de estudos de simulação?
Permitem avaliar métodos estatísticos quando a verdade é conhecida.405
Possibilitam testar diferentes cenários de dados, incluindo situações raras ou difíceis de observar empiricamente.405
Permitem investigar sistematicamente o impacto de fatores como tamanho da amostra, distribuição dos dados ou presença de erros de medição.405
50.1.7 Quais são as limitações de estudos de simulação?
Os cenários simulados podem ser simplificações da realidade.405
Resultados podem depender das suposições adotadas no mecanismo gerador de dados.405
Estudos de simulação complexos podem demandar grande poder computacional.405
Existe risco de interpretação inadequada se os cenários não forem bem escolhidos ou relatados.405
50.2 Métodos de simulação
50.2.1 Quais são os elementos fundamentais de um estudo de simulação?
Objetivo da simulação: Definir o que se pretende investigar, como avaliar um método ou comparar diferentes abordagens.404,405
Mecanismo gerador de dados: Especificar como os dados simulados serão gerados, incluindo distribuição, parâmetros e estrutura das variáveis.404,405
Métodos de análise: Aplicar aos dados simulados os métodos estatísticos que se deseja avaliar ou comparar.404,405
Medidas de desempenho: Avaliar os métodos usando critérios como viés, erro tipo I, poder estatístico ou cobertura de intervalos de confiança.404,405
Número de repetições: Repetir a simulação muitas vezes para reduzir o efeito da variabilidade aleatória e obter estimativas mais estáveis.404,405
50.2.2 O que é um cenário de simulação?
Um cenário de simulação corresponde a uma combinação específica de parâmetros utilizados no mecanismo gerador de dados.405
Cenários podem variar em tamanho da amostra, distribuição das variáveis, intensidade do efeito ou presença de erro de medição.405
Avaliar múltiplos cenários permite investigar como o desempenho de um método estatístico muda em diferentes condições de dados.405
Em muitos estudos, diferentes cenários correspondem a combinações fatoriais de parâmetros, permitindo tratar o estudo de simulação como um experimento planejado.401
50.2.3 Quais são os principais elementos para avaliar a qualidade de um modelo de simulação?
Verificação: processo de confirmar que o modelo computacional implementa corretamente o modelo matemático e seus algoritmos.406
Validação: avaliação de quão bem o modelo representa o sistema real dentro do contexto para o qual foi desenvolvido.406
Quantificação da incerteza: análise da variabilidade e das incertezas presentes nos dados, parâmetros ou estruturas do modelo.406
Análise de sensibilidade: investigação de como mudanças nos parâmetros de entrada afetam os resultados da simulação.406
50.2.4 Por que é necessário repetir muitas simulações?
Mesmo em simulações, os resultados variam devido à variabilidade aleatória das amostras geradas.405
Por isso, é necessário repetir o processo de geração de dados e análise muitas vezes.405
A média dos resultados obtidos ao longo das repetições fornece uma avaliação mais estável do desempenho do método estatístico.405
50.2.5 Quais boas práticas devem ser seguidas em estudos de modelagem e simulação?
Defina claramente o objetivo da simulação e as hipóteses a serem testadas, incluindo quais aspectos do fenômeno ou do método você pretende avaliar.48
Documente detalhadamente o processo de simulação, incluindo os parâmetros utilizados, a lógica do algoritmo e as suposições feitas.407
Compartilhar dados, modelos e códigos sempre que possível para facilitar a reprodutibilidade científica.406
O pacote base62 fornece a função set.seed para especificar uma semente e garantir a reprodutibilidade de computações que envolvem números aleatórios.
Figura 50.1: Dados simulados a partir de diferentes distribuições: Normal(0,1), Binomial(1,0.4), Poisson(2) e Exponencial(1).
50.3 Método de Monte Carlo
50.3.1 O que é o método de Monte Carlo?
O método de Monte Carlo consiste em utilizar geração repetida de números aleatórios para estimar propriedades de sistemas matemáticos ou estatísticos complexos.408
A ideia central é aproximar resultados teóricos por meio da simulação de muitas amostras aleatórias.408
No método Markov Chain Monte Carlo (MCMC), o modelo de Markov é usado para gerar amostras de distribuições complexas a partir da simulação de cadeias com distribuição estacionária prescrita.331
Figura 50.2: Convergência do histograma para a PDF teórica da Normal(0,1) com o aumento do tamanho amostral (n = 10, 100, 1000, 10000).
Figura 50.3: Convergência da média e do desvio-padrão amostral para os valores teóricos (0 e 1, respectivamente) com o aumento do tamanho amostral (n = 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000).
O pacote base62 fornece a função set.seed para especificar uma semente para reprodutibilidade de computações que envolvem números aleatórios.
O pacote simstudy409 fornece as funções defData e genData para criar variáveis e simular um banco de dados de acordo com o delineamento pré-especificado, respectivamente.
O pacote faux410 fornece a função sim_design para simular um banco de dados de acordo com o delineamento pré-especificado.
O pacote InteractionPoweR376 fornece a função generate_interaction para simular bancos de dados com efeitos de interação.
50.3.2 Como escolher a distribuição adequada em um estudo de simulação?
- Em estudos de simulação, é comum avaliar múltiplas distribuições para investigar a sensibilidade dos resultados às suposições do modelo.48
50.4 Avaliação de métodos estatísticos em simulações
50.4.1 Quais critérios são usados para avaliar métodos estatísticos em simulações?
Erro tipo I: probabilidade de rejeitar uma hipótese nula verdadeira.405
Poder estatístico: probabilidade de detectar um efeito quando ele realmente existe.405
Viés das estimativas: diferença entre o valor estimado e o valor verdadeiro do parâmetro.405
Cobertura de intervalos de confiança: proporção de intervalos que contêm o valor verdadeiro do parâmetro.405
Erro de predição: diferença entre valores previstos e valores observados em modelos preditivos.405
Estabilidade: grau de consistência do desempenho do método quando diferentes amostras são geradas sob o mesmo cenário de simulação.405
Custo computacional: quantidade de recursos computacionais necessários para executar o método, como tempo de processamento ou uso de memória.405
Sucesso da computação: proporção de execuções nas quais o método converge ou produz resultados válidos sem falhas numéricas ou problemas de otimização.405
50.4.2 O que é o erro padrão de Monte Carlo?
Em estudos de simulação, as estimativas de desempenho de um método estatístico (por exemplo, viés, poder estatístico ou erro tipo I) são calculadas a partir de um número finito de repetições da simulação.404
Como cada repetição utiliza uma amostra aleatória diferente, essas estimativas também apresentam variabilidade aleatória.404
O erro padrão de Monte Carlo (Monte Carlo standard error, MCSE) quantifica essa variabilidade e indica o grau de incerteza associado às estimativas obtidas na simulação.404
O MCSE mede a precisão com que uma medida de desempenho foi estimada a partir do número de repetições realizadas.404
Gráficos como zipper (zip) plots podem ser utilizados para avaliar visualmente a cobertura de intervalos de confiança em estudos de simulação.404,411
Figura 50.4: Cobertura de Intervalos de Confiança em um estudo de simulação.
50.5 Diretrizes para redação
50.5.1 Quais são as diretrizes para redação de estudos de simulação computacional?
Visite a rede Enhancing the QUAlity and Transparency Of health Research (EQUATOR Network) para encontrar diretrizes específicas.
Strengthening the reporting of empirical simulation studies: Introducing the STRESS guidelines:413 https://www.equator-network.org/reporting-guidelines/strengthening-the-reporting-of-empirical-simulation-studies-introducing-the-stress-guidelines/
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,