Capítulo 50 Simulação computacional
50.1 Simulações computacionais
50.1.1 O que são simulações computacionais?
- Simulações computacionais consistem na geração de dados artificiais a partir de modelos matemáticos ou probabilísticos, permitindo testar hipóteses, validar métodos e explorar cenários complexos sem necessidade de dados reais.33
50.1.2 Por que estudos de simulação devem ser tratados como experimentos científicos?
Simulações são experimentos empíricos, ainda que realizados em ambiente computacional.430
Devem seguir princípios de planejamento, incluindo definição clara de objetivos, delineamento de cenários e análise adequada dos resultados.419,430
Falhas de planejamento ou de relatório podem levar a interpretações equivocadas do desempenho de métodos estatísticos.430
50.1.3 O que são estudos de simulação estatística?
Estudos de simulação estatística são experimentos computacionais nos quais dados artificiais são gerados a partir de um mecanismo probabilístico conhecido.431
Diferentemente da análise de dados reais, nas simulações os valores verdadeiros dos parâmetros são definidos pelo pesquisador, permitindo avaliar diretamente se um método estatístico recupera corretamente esses valores.431
Estudos de simulação são amplamente utilizados para investigar o comportamento de métodos estatísticos em diferentes cenários e condições de dados.431
50.1.4 Qual é o papel dos estudos de simulação em pesquisa científica?
Em muitos problemas estatísticos existem vários métodos possíveis para análise de dados. O desempenho desses métodos depende de suposições que nem sempre são satisfeitas em dados reais, como normalidade das variáveis, ausência de erros de medição ou independência das observações.431
Estudos de simulação permitem avaliar como os métodos se comportam quando essas suposições são atendidas ou violadas.431
50.1.5 Por que não avaliar métodos estatísticos apenas com dados reais?
Em dados reais, o valor verdadeiro dos parâmetros populacionais geralmente é desconhecido.431
Portanto, não é possível saber se um método estatístico estimou corretamente um efeito ou se um teste rejeitou corretamente uma hipótese.431
Em simulações, o valor verdadeiro é definido pelo pesquisador, permitindo comparar diretamente o resultado do método com a verdade conhecida.431
50.1.6 Quais são as principais vantagens de estudos de simulação?
Permitem avaliar métodos estatísticos quando a verdade é conhecida.431
Possibilitam testar diferentes cenários de dados, incluindo situações raras ou difíceis de observar empiricamente.431
Permitem investigar sistematicamente o impacto de fatores como tamanho da amostra, distribuição dos dados ou presença de erros de medição.431
50.1.7 Quais são as limitações de estudos de simulação?
Os cenários simulados podem ser simplificações da realidade.431
Resultados podem depender das suposições adotadas no mecanismo gerador de dados.431
Estudos de simulação complexos podem demandar grande poder computacional.431
Existe risco de interpretação inadequada se os cenários não forem bem escolhidos ou relatados.431
50.2 Métodos de simulação
50.2.1 Quais são os elementos fundamentais de um estudo de simulação?
Objetivo da simulação: Definir o que se pretende investigar, como avaliar um método ou comparar diferentes abordagens.430,431
Mecanismo gerador de dados: Especificar como os dados simulados serão gerados, incluindo distribuição, parâmetros e estrutura das variáveis.430,431
Métodos de análise: Aplicar aos dados simulados os métodos estatísticos que se deseja avaliar ou comparar.430,431
Medidas de desempenho: Avaliar os métodos usando critérios como viés, erro tipo I, poder estatístico ou cobertura de intervalos de confiança.430,431
Número de repetições: Repetir a simulação muitas vezes para reduzir o efeito da variabilidade aleatória e obter estimativas mais estáveis.430,431
50.2.2 O que é um cenário de simulação?
Um cenário de simulação corresponde a uma combinação específica de parâmetros utilizados no mecanismo gerador de dados.431
Cenários podem variar em tamanho da amostra, distribuição das variáveis, intensidade do efeito ou presença de erro de medição.431
Avaliar múltiplos cenários permite investigar como o desempenho de um método estatístico muda em diferentes condições de dados.431
Em muitos estudos, diferentes cenários correspondem a combinações fatoriais de parâmetros, permitindo tratar o estudo de simulação como um experimento planejado.419
50.2.3 Quais são os principais elementos para avaliar a qualidade de um modelo de simulação?
Verificação: processo de confirmar que o modelo computacional implementa corretamente o modelo matemático e seus algoritmos.432
Validação: avaliação de quão bem o modelo representa o sistema real dentro do contexto para o qual foi desenvolvido.432
Quantificação da incerteza: análise da variabilidade e das incertezas presentes nos dados, parâmetros ou estruturas do modelo.432
Análise de sensibilidade: investigação de como mudanças nos parâmetros de entrada afetam os resultados da simulação.432
50.2.4 Por que é necessário repetir muitas simulações?
Mesmo em simulações, os resultados variam devido à variabilidade aleatória das amostras geradas.431
Por isso, é necessário repetir o processo de geração de dados e análise muitas vezes.431
A média dos resultados obtidos ao longo das repetições fornece uma avaliação mais estável do desempenho do método estatístico.431
50.2.5 Quais boas práticas devem ser seguidas em estudos de modelagem e simulação?
Defina claramente o objetivo da simulação e as hipóteses a serem testadas, incluindo quais aspectos do fenômeno ou do método você pretende avaliar.50
Documente detalhadamente o processo de simulação, incluindo os parâmetros utilizados, a lógica do algoritmo e as suposições feitas.433
Compartilhar dados, modelos e códigos sempre que possível para facilitar a reprodutibilidade científica.432
O pacote base64 fornece a função set.seed para especificar uma semente e garantir a reprodutibilidade de computações que envolvem números aleatórios.
Figura 50.1: Dados simulados a partir de diferentes distribuições: Normal(0,1), Binomial(1,0.4), Poisson(2) e Exponencial(1).
50.3 Método de Monte Carlo
50.3.1 O que é o método de Monte Carlo?
O método de Monte Carlo consiste em utilizar geração repetida de números aleatórios para estimar propriedades de sistemas matemáticos ou estatísticos complexos.434
A ideia central é aproximar resultados teóricos por meio da simulação de muitas amostras aleatórias.434
No método Markov Chain Monte Carlo (MCMC), o modelo de Markov é usado para gerar amostras de distribuições complexas a partir da simulação de cadeias com distribuição estacionária prescrita.339
Figura 50.2: Convergência do histograma para a PDF teórica da Normal(0,1) com o aumento do tamanho amostral (n = 10, 100, 1000, 10000).
Figura 50.3: Convergência da média e do desvio-padrão amostral para os valores teóricos (0 e 1, respectivamente) com o aumento do tamanho amostral (n = 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000).
O pacote base64 fornece a função set.seed para especificar uma semente para reprodutibilidade de computações que envolvem números aleatórios.
O pacote simstudy435 fornece as funções defData e genData para criar variáveis e simular um banco de dados de acordo com o delineamento pré-especificado, respectivamente.
O pacote faux436 fornece a função sim_design para simular um banco de dados de acordo com o delineamento pré-especificado.
O pacote InteractionPoweR385 fornece a função generate_interaction para simular bancos de dados com efeitos de interação.
50.3.2 Como escolher a distribuição adequada em um estudo de simulação?
- Em estudos de simulação, é comum avaliar múltiplas distribuições para investigar a sensibilidade dos resultados às suposições do modelo.50
50.4 Avaliação de métodos estatísticos em simulações
50.4.1 Quais critérios são usados para avaliar métodos estatísticos em simulações?
Erro tipo I: probabilidade de rejeitar uma hipótese nula verdadeira.431
Poder estatístico: probabilidade de detectar um efeito quando ele realmente existe.431
Viés das estimativas: diferença entre o valor estimado e o valor verdadeiro do parâmetro.431
Cobertura de intervalos de confiança: proporção de intervalos que contêm o valor verdadeiro do parâmetro.431
Erro de predição: diferença entre valores previstos e valores observados em modelos preditivos.431
Estabilidade: grau de consistência do desempenho do método quando diferentes amostras são geradas sob o mesmo cenário de simulação.431
Custo computacional: quantidade de recursos computacionais necessários para executar o método, como tempo de processamento ou uso de memória.431
Sucesso da computação: proporção de execuções nas quais o método converge ou produz resultados válidos sem falhas numéricas ou problemas de otimização.431
50.4.2 O que é o erro padrão de Monte Carlo?
Em estudos de simulação, as estimativas de desempenho de um método estatístico (por exemplo, viés, poder estatístico ou erro tipo I) são calculadas a partir de um número finito de repetições da simulação.430
Como cada repetição utiliza uma amostra aleatória diferente, essas estimativas também apresentam variabilidade aleatória.430
O erro padrão de Monte Carlo (Monte Carlo standard error, MCSE) quantifica essa variabilidade e indica o grau de incerteza associado às estimativas obtidas na simulação.430
O MCSE mede a precisão com que uma medida de desempenho foi estimada a partir do número de repetições realizadas.430
Gráficos como zipper (zip) plots podem ser utilizados para avaliar visualmente a cobertura de intervalos de confiança em estudos de simulação.430,437
Figura 50.4: Cobertura de Intervalos de Confiança em um estudo de simulação.
50.5 Diretrizes para redação
50.5.1 Quais são as diretrizes para redação de estudos de simulação computacional?
Visite a rede Enhancing the QUAlity and Transparency Of health Research (EQUATOR Network) para encontrar diretrizes específicas.
Strengthening the reporting of empirical simulation studies: Introducing the STRESS guidelines:439 https://www.equator-network.org/reporting-guidelines/strengthening-the-reporting-of-empirical-simulation-studies-introducing-the-stress-guidelines/
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,