王小川大模型2个月交卷！开源7B规模里中文最强，GitHub揽星2.2k-六虎

房屋发自凹非寺量子位 | 大众号 QbitAI

整个开源大模型战场，打得乱成一锅粥了！

最新参加战事的是王小川创业的AI公司百川智能，宣告推出70亿中英文预练习大模型baichuan-7B。

速度不慢——此刻距离百川智能在4月中旬官宣创业，开始练习大模型，只过去了2个月时间。

并且在3个中文评价基准C-Eval、AGIEval和Gaokao上，均拿下SOTA。

据官方音讯，baichuan-7B代码采用更为宽松的开源协议，只需简单挂号，就能免费商用。

现在，baichuan-7B大模型已在抱抱脸、Github和魔搭发布，开源内容包含推理代码、INT4量化完成、微调代码，以及预练习模型的权重。

并且北大和清华已经首先成为baichuan-7B的入幕之宾，开始运用其推动相关研讨工作。

万亿token中英文大模型

baichuan-7B，采用了LLaMA一样的模型设计。

作为70亿参数的底座模型，尚未经过监督微调（supervised fine-tuning）和RLHF。

可用于文本生成、文本分类、问答体系、机器翻译等多个范畴。

作为中英双语模型，主要以高质量中文语料为根底，同时交融优质英文数据。

在数据质量方面，经过质量模型对数据进行打分，对原始数据集进行华章级和语句级的准确筛选。

在内容多样性方面，利用自研超大规划局部灵敏哈希聚类体系和语义聚类体系，对数据进行了多层次多粒度的聚类，最终构建的预练习数据包含1.2万亿token，兼顾质量和多样性。

相较于其他同参数规划的开源中文预练习模型，数据量提高了50%以上。

以万亿token为根底，为了更好地提升练习效率，baichuan-7B深度整合模型算子，以加快核算流程。

还针对使命负载和集群装备，自适应优化了模型并行战略以及重核算战略。

经过高效的练习进程调度通讯，baichuan-7B成功完成了核算与通讯的高效重叠，从而到达超线性的练习加快，在千卡集群上练习吞吐到达180+Tflops。

现在开源模型窗口的普遍行情是，长度在2K以内。

这样的处理长度对长文本建模使命，如需求引进外部常识做搜索增强的场景，产生了较大的限制。

为了练习与推理阶段捕获越多的上下文信息，baichuan-7B根据attention算子优化，完成了万等级超长动态窗口的扩张才能，开放了4K上下文窗口。

此外，baichuan-7B还对模型练习流程进行了深度优化，提升了模型收敛速度。

与平等参数规划的模型比较，baichuan-7B在困惑度（PPL）和练习丢失（training loss）等关键性能指标上体现更加优秀。

为了验证模型的各项才能，baichuan-7B在C-Eval、AGIEval和Gaokao三个中文评价基准进行了归纳评价，均取得优异成绩。

（Gaokao是复旦大学研讨团队创建的评测结构，以高考题为数据集，拿来测验大模型在中文语言了解和逻辑推理才能方面的体现。）

在英文评价基准MMLU的评测中，baichuan-7B归纳评分达42.5分，抢先英文开源预练习模型LLaMA-7B。

500亿参数版本推动ing

从2月王小川宣告参加大模型占据已在“准备之中”，到4月中旬官宣新公司百川智能称号，正式参加混战，到现在baichuan-7B的推出，用时大约4个月。

难怪乎试用网友们除了对baichuan-7B进行人肉体验外，不少人还对研制速度进行点赞：

现在，北京大学和清华大学已首先运用baichuan-7B推动相关研讨工作，并方案在未来与百川智能深入协作。

动作迅速的百川智能，背后是怎么样的团队班底？

除了牵头人王小川，前搜狗COO茹立云是已经对外发布的合伙人。

团队方面，以此前搜狗团队为根底，加上来自百度华为微软字节腾讯等公司的人才。

现在，公司还传出对外招聘大模型实习算法工程师的音讯。

公司旨在打造中国版的OpenAI根底大模型及颠覆性上层使用，瞄准搜索、多模态、教育、医疗等范畴。

于今年2月启动筹办后，迅速取得5000万美元（约人民币3.4亿元）启动资金，王小川自掏腰包一部分，还有来自业内好友的个人支撑。

4月正式旗帜鲜明地进入大模型之战时，王小川曾对量子位泄漏，百川智能的大模型已经在练习，年中就会有第一版发布，希望年底追平GPT-3.5。

不过，与当初的说法略有出入，现在与我们见面的模型是70亿参数，而非当时所说的“500亿参数版本”。

Why？？

王小川对此的解释是：

原定方案没有变，仍在顺利推动中。

辣么，也就是说今年夏天，百川智能还会丢出一枚大模型。

到时候已经乱成一锅粥的开源大模型赛事，会有更强烈的纷飞炮火吧？

开源地址：
Hugging Face：huggingface.co/baichuan-in…
Github：github.com/baichuan-in…
Model Scope：modelscope.cn/models/baic…

—联系作者—

—完—

王小川大模型2个月交卷！开源7B规模里中文最强，GitHub揽星2.2k

房屋 发自 凹非寺 量子位 | 大众号 QbitAI

万亿token中英文大模型

500亿参数版本推动ing

相关文章

从赌博中的概率到AI中的概率

利用 Coze 搭建专属 AI 厨师助手

【Jenkins】Pipeline基础及高级用法

50行代码搭建【自己的】文生图Web应用

作者信息

房屋发自凹非寺量子位 | 大众号 QbitAI