不用RLHF,匹敌GPT-4!Meta重磅发布LIMA 65B,1000个样本性能飞升,LeCun转赞 人人都知,让ChatGPT称霸天下的秘密武器,便是人类反馈强化学习(RLHF)。... 2 年前 0 0 43