Machine Learning RL Course by David Silver 요약 이 글은 David Silver의 2015년 Reinforcement Learning 강의를 내 방식으로 일부 재해석해가며
Machine Learning Gumbel Trick Explained Reparameterization Trick 왜 필요한가? * deterministic하게 작동하는 NN이라면 상관없지만, VAE처럼 어떠한 stochastic distribution에서
Machine Learning Iterative Policy Evaluation의 수렴성 증명 David Silver의 Reinforcement Learning 3강에서는 $q_\pi(s,a)$를 이용해 수렴성을