强化学习

强化学习之父Richard Sutton：通往AGI的另一种可能

在Craig Smith近期主持的一期播客中，Richard详细介绍了阿尔伯塔计...

9 月前 0 0 34

用 RLHF 训练、微调大模型，训练自己的gpt4（三）：人类反馈强化学习（RLHF）

用 RLHF 训练、微调大模型，训练自己的gpt4（三）：人类反馈强化学习（RL...

11 月前 0 0 279

Llama 2：详解 Meta 的大语言模型！

人工智能领域正迅猛发展，语言模型成为这场技术革新浪潮的尖兵。这些模型革新了我们与...

1 年前 0 0 196

LLM 的幻觉到底是什么，有什么办法解决？

🍉LLM 时常会出现一些神奇的现象——幻觉 Hallucination，在 AI...

1 年前 0 0 194

LLM幻觉问题全梳理！哈工大团队50页综述重磅发布

【新智元导读】最近，来自哈尔滨工业大学和华为的研究团队发表了一篇长达50页的综...

1 年前 0 0 31

ChatGPT 侵犯用户隐私了吗？

在用户和监管最关怀的数据隐私问题上冒险、经过乱用用户数据、侵略用户隐私的方法加快...

1 年前 0 0 205

利用深度强化学习设计算术电路

随着摩尔定律的放缓，开发其他技能来前进同一技能过程节点上芯片的功用变得越来越重要...

1 年前 0 0 190

国产百亿大模型再增一员！400 亿参数孟子 GPT 发布，各项任务平均提升 10-15%

刚刚，国产大模型明星选手孟子 GPT 上新！ 400 亿参数通用大模型正式发布，...

1 年前 0 0 37

使用 DPO 微调 Llama 2

简介根据人类反馈的强化学习 (Reinforcement Learning f...

1 年前 0 0 339

百度工程师浅析强化学习

本文首要介绍了强化学习（Reinforcement Learning，RL）的基...

1 年前 0 0 51

关于 Llama 2 的一切资源，我们都帮你整理好了

Llama 2 是一个由 Meta 开发的大型语言模型，是 LLaMA 1 的继...

1 年前 0 0 82

0815 早早聊 AGI 资讯｜讯飞星火认知大模型 V2.0 升级发布、美国政府官员参加斯坦福大学 AI 训练营、OpenAI 濒临破产？

0815 早早聊 AGI 资讯｜讯飞星火认知大模型 V2.0 升级发布、美国政府...

1 年前 0 0 59