房屋 发自 凹非寺 量子位 | 大众号 QbitAI
整个开源大模型战场,打得乱成一锅粥了!
最新参加战事的是王小川创业的AI公司百川智能,宣告推出70亿中英文预练习大模型baichuan-7B。
速度不慢——此刻距离百川智能在4月中旬官宣创业,开始练习大模型,只过去了2个月时间。
并且在3个中文评价基准C-Eval、AGIEval和Gaokao上,均拿下SOTA。
据官方音讯,baichuan-7B代码采用更为宽松的开源协议,只需简单挂号,就能免费商用。
现在,baichuan-7B大模型已在抱抱脸、Github和魔搭发布,开源内容包含推理代码、INT4量化完成、微调代码,以及预练习模型的权重。
并且北大和清华已经首先成为baichuan-7B的入幕之宾,开始运用其推动相关研讨工作。
万亿token中英文大模型
baichuan-7B,采用了LLaMA一样的模型设计。
作为70亿参数的底座模型,尚未经过监督微调(supervised fine-tuning)和RLHF。
可用于文本生成、文本分类、问答体系、机器翻译等多个范畴。
作为中英双语模型,主要以高质量中文语料为根底,同时交融优质英文数据。
在数据质量方面,经过质量模型对数据进行打分,对原始数据集进行华章级和语句级的准确筛选。
在内容多样性方面,利用自研超大规划局部灵敏哈希聚类体系和语义聚类体系,对数据进行了多层次多粒度的聚类,最终构建的预练习数据包含1.2万亿token,兼顾质量和多样性。
相较于其他同参数规划的开源中文预练习模型,数据量提高了50%以上。
以万亿token为根底,为了更好地提升练习效率,baichuan-7B深度整合模型算子,以加快核算流程。
还针对使命负载和集群装备,自适应优化了模型并行战略以及重核算战略。
经过高效的练习进程调度通讯,baichuan-7B成功完成了核算与通讯的高效重叠,从而到达超线性的练习加快,在千卡集群上练习吞吐到达180+Tflops。
现在开源模型窗口的普遍行情是,长度在2K以内。
这样的处理长度对长文本建模使命,如需求引进外部常识做搜索增强的场景,产生了较大的限制。
为了练习与推理阶段捕获越多的上下文信息,baichuan-7B根据attention算子优化,完成了万等级超长动态窗口的扩张才能,开放了4K上下文窗口。
此外,baichuan-7B还对模型练习流程进行了深度优化,提升了模型收敛速度。
与平等参数规划的模型比较,baichuan-7B在困惑度(PPL)和练习丢失(training loss)等关键性能指标上体现更加优秀。
为了验证模型的各项才能,baichuan-7B在C-Eval、AGIEval和Gaokao三个中文评价基准进行了归纳评价,均取得优异成绩。
(Gaokao是复旦大学研讨团队创建的评测结构,以高考题为数据集,拿来测验大模型在中文语言了解和逻辑推理才能方面的体现。)
在英文评价基准MMLU的评测中,baichuan-7B归纳评分达42.5分,抢先英文开源预练习模型LLaMA-7B。
500亿参数版本推动ing
从2月王小川宣告参加大模型占据已在“准备之中”,到4月中旬官宣新公司百川智能称号,正式参加混战,到现在baichuan-7B的推出,用时大约4个月。
难怪乎试用网友们除了对baichuan-7B进行人肉体验外,不少人还对研制速度进行点赞:
现在,北京大学和清华大学已首先运用baichuan-7B推动相关研讨工作,并方案在未来与百川智能深入协作。
动作迅速的百川智能,背后是怎么样的团队班底?
除了牵头人王小川,前搜狗COO茹立云是已经对外发布的合伙人。
团队方面,以此前搜狗团队为根底,加上来自百度华为微软字节腾讯等公司的人才。
现在,公司还传出对外招聘大模型实习算法工程师的音讯。
公司旨在打造中国版的OpenAI根底大模型及颠覆性上层使用,瞄准搜索、多模态、教育、医疗等范畴。
于今年2月启动筹办后,迅速取得5000万美元(约人民币3.4亿元)启动资金,王小川自掏腰包一部分,还有来自业内好友的个人支撑。
4月正式旗帜鲜明地进入大模型之战时,王小川曾对量子位泄漏,百川智能的大模型已经在练习,年中就会有第一版发布,希望年底追平GPT-3.5。
不过,与当初的说法略有出入,现在与我们见面的模型是70亿参数,而非当时所说的“500亿参数版本”。
Why??
王小川对此的解释是:
原定方案没有变,仍在顺利推动中。
辣么,也就是说今年夏天,百川智能还会丢出一枚大模型。
到时候已经乱成一锅粥的开源大模型赛事,会有更强烈的纷飞炮火吧?
开源地址:
Hugging Face:huggingface.co/baichuan-in…
Github:github.com/baichuan-in…
Model Scope:modelscope.cn/models/baic…
—联系 作者—
—完—