RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

tl;dr RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback