新智元报道

编辑:桃子 拉燕

【新智元导读】中文多模态模型IDPChat来了,快速上手教程在此。

中文多模态模型IDPChat和咱们碰头了。

跟着GPT4、文心一言等的发布,预练习大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的使用场景。

咱们以为,未来的AI使用将主要以大模型为中心基石。

而在大模型的范畴,根据根底模型(Foundation model)构建范畴或企业自有的大模型,会是近中期的重要发展趋势。

但在私有化大模型微谐和使用方面,企业和机构仍面临着微调杂乱、布置困难、成本较高级种种工程化挑战。

白海作为AI根底软件服务商,咱们期望能够从AI Infra层面,供给端到端的大模型微调、布置和使用东西,降低大模型微谐和使用的门槛。白海科技IDP渠道现在供给了从大模型数据源接入到大模型微调练习、模型发布的全流程功用。

咱们以IDP渠道为东西支撑,以预练习大语言模型LLaMA和开源文生图预练习模型Stable Diffusion为根底,快速构建了多模态大模型使用IDPChat。开发者们可根据场景需求,快捷地对其进行微调优化。

项目地址:github.com/BaihaiAI/ID…

IDPChat 能做什么

IDPChat现在能够一起支撑文字对话和图片生成。

首先是图画生成,咱们能够让模型根据文字描述画一幅画。

中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU

根底的文字对话聊天示例,可支撑中文。

中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU

IDPChat 快速上手

仅需简略的5步和单GPU,即可快速启用IDPChat。

操作过程如下:

1.修正 ./backend/app/stable_diffusion/generate_image.py 文件,设置 diffusion_path 的值为本地 stable-diffusion 模型存储途径,设置 trans_path 的值为本地中文翻译模型的存储途径

2.修正 ./backend/app/llama/generate_text.py 文件,设置 load_model 的 base 参数值为本地 llama 模型的存储途径

3.执行 build.sh 脚本进行编译

4.编译成功后执行 run.sh 脚本发动服务

5.服务发动成功后,在浏览器中打开http://127.0.0.1:8000

在使用之前,需求下载预备所需的模型,LLaMA、Stable diffusion和相应的翻译模型。

详细所需的环境、模型、和操作过程能够参考github.com/BaihaiAI/ID…

现在发布IDPChat初步版本,打通模型微调的全流程。

后续咱们会继续对模型进行优化和丰富,如多模态部分增加图画描述功用。

当然要实现特定范畴更高质量、针对性的体现,还需求根据范畴数据的finetune和优化。

对 IDPChat 和 IDP 渠道感兴趣的开发者小同伴、场景使用同伴等欢迎关注Github并联系咱们。咱们信任 IDP 渠道和 IDPChat 将成为您探索多模态大模型使用和私有化大模型构建的得力助手。