1개의 포스트
ChatGPT를 만든 기술의 원조 논문. 보상 함수를 쓸 수 없는 과제를 인간의 선호 판단 1% 미만으로 해결한 2017년 논문을 해부하며, 강화학습의 기초부터 현대 AI까지의 여정을 쉽게 풀어낸다.