据新智元 9 月 5 日报道,谷歌团队的最新研究提出,用大模型替代人类进行偏好标注,也就是 AI 反馈强化学习(RLAIF)。结果发现,RLAIF 可以在不依赖人类标注员的情况下,产生与 RLHF 相当的改进效果,胜率 50%。同时,谷歌研究再次证明了 RLAIF 和 RLHF,比起监督微调(SFT)胜率都超过了 70%。 原文链接 —- 编译者/作者:Yangz 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
谷歌团队研究证明,AI 标注已达人类水平
2023-09-05 Yangz 来源:区块链网络
LOADING...
相关阅读:
- 埃森哲报告:九成企业领导者正借助人工智能来增强运营韧性2023-09-05
- 亿嘉和:已建立并发布一种基于多模态超融合技术的大模型 YJH-LM2023-09-05
- 美央创新科技完成近亿元 Pre-A 轮融资,致力于引入人工智能等技术改善2023-09-05
- 百度智能云宣布千帆大模型平台 2.0 全面升级发布2023-09-05
- 立昂技术与北京中科闻歌签订战略合作协议,在人工智能超算智算中心2023-09-04