ChatGLM-6B 自3月14号发布以来受到了广阔开发者和用户的喜爱,到4月23号 GitHub 的 star 数达到 2 万,累计下载量过 100 万,并连续 12 天居Hugging Face (HF)全球大模型下载榜第一名。
与此一起,有一批依据 ChatGLM-6B 的优秀开源项目出现,比方 ChatGLM-MNN、JittorLLMs、显达、glm-bot、langchain-ChatGLM、ChatGLM-Tuning (LoRA) 等都在各个平台也引起了广泛好评和重视。此外,依据 GLM-130B 的千亿对话模型 ChatGLM 也自3月14号开始了第一阶段的约请制内测,得到了内测用户的好评和支持。谢谢咱们对 ChatGLM 及其 6B 开源版别的大力支持!
接下来,咱们想约请咱们一同推动 ChatGLM-6B 的进一步提升,一同推动模型的发展。
虽然 ChatGLM-6B 已初具契合人类偏好的问答对话才能,在相当多的指令和问题上,其答复仍存在不理解复杂指令和使命含义,缺少范畴概念理解,事实性过错,生成有害内容,对话上下文不一致等诸多问题。
虽然咱们供给的微调代码( PTuing )能够让用户经过自主练习修正部分问题,但由于神经网络的灾难性忘记问题,微调后的模型往往会失掉在通用范畴的对话才能或许因数据较少而缺少泛化才能。
Badcase 反应方案
为了解决这些问题,进一步提升ChatGLM-6B 的才能,咱们启动了ChatGLM-6B Badcase 反应方案:
详细来说,对于在运用 ChatGLM-6B 过程中遇到的表现不佳的 Badcase 对应的详细指令和发问,您能够修正或从头撰写您认为适宜的正确答案,并反应给咱们改善 ChatGLM-6B。
请您确保提交的数据不包含任何个人信息、商业秘密或可能危害国家安全、损害第三方知识产权的内容。
咱们会定期(每2-4周)对数据的有用性与正确性进行挑选,将挑选经过的数据,与通用域的对话数据一同加入到模型练习中,并更新发布开源的模型参数。
您供给的数据不管是否挑选经过,除非获得您的答应或依据国家法律规定和监管要求外,咱们不会将您供给的数据对外揭露。
您供给数据如被挑选经过,您将一起优先获得最新版别的 ChatGLM-6B 模型的体会资历。
此外,如果您愿意,您的用户名还将出现在 ChatGLM-6B Github 页面的数据贡献者名单中,以此留念您对推动大模型开源事业发展的协助。
您的支持和建议将为咱们优化大模型供给连绵不断的动力,在此向您表达咱们最深的敬意与感谢!
参加方案
如果您希望参加这项方案,请填写问卷并按照指示上传您的数据。
- 申请链接:www.wjx.cn/vm/rAoGx9X.…
提交的数据为jsonline格式,每行的内容为
{"prompt": "请依据以下标签为商品编写一段广告\n类型#裤*版型#宽松*风格#性感*图画#线条*裤型#阔腿裤", "response": "宽松的阔腿裤这两年真的吸粉不少,明星时髦达人的心头爱。毕竟好穿时髦,谁都能穿出腿长2米的效果宽松的裤腿,当然是遮肉小能手啊。上身随性自然不拘谨,面料亲肤舒适贴身体会感棒棒哒。系带部分添加规划看点,还让单品的规划感更强。腿部线条若有若无的,性感撩人。颜色敲温柔的,与裤子自身所出现的风格有点反差萌。"}
其中 prompt 部分为模型的输入,response 部分为期望的模型输出。为了保证模型的性能,请在输入中尽可能详细地表述使命的类型和期望的输出格式。完整的数据文件请参阅官方 Github。针对某项详细的使命,为了使模型得到充沛的练习,一般需要100条左右的练习数据。
最终,咱们还是想与咱们、与国内一切大模型从业者共勉,一同加油!
咱们一直在探索、测验和尽力。通用人工智能探索,咱们一直在路上,尽力前行。
–ChatGLM 技术团队
反应方案详细内容,参见官方 Github:
https://github.com/THUDM/ChatGLM-6B/tree/main/improve