1. 강화학습과 지도학습 강화학습은 머신러닝의 한 종류이지만 지도학습, 비지도학습과 학습 방식이 조금 다르다. 책에서 분류한 바와 같이 지도학습, 비지도학습, 강화학습에는 겹치는 부분이 있긴 하지만 엄연히 차이점이 존재한다. 이 글에서는 그 중에서도 지도학습과 강화학습의 차이점을 나만의 방식으로 풀어보려 한다. 2. 각각의 관점으로 본 강화학습 위 이미지는 InstructGPT에 사용된 Reinforcement Learning with Human Feedback(이하 RLHF)를 설명하기 위해 만든 PPT 페이지이다. 이미지의 상황은 Model이 Prompt를 Input으로 받고 Answer(Completion)을 Output으로 내는데, Output이 가지는 Reward를 최대화하는 쪽으로 학습하는 강..