Machine Learning Gumbel Trick Explained Reparameterization Trick 왜 필요한가? * deterministic하게 작동하는 NN이라면 상관없지만, VAE처럼 어떠한 stochastic distribution에서
Machine Learning Iterative Policy Evaluation의 수렴성 증명 David Silver의 Reinforcement Learning 3강에서는 $q_\pi(s,a)$를 이용해 수렴성을