中文多模态模型问世！IDPChat生成图像文字，只需5步+单GPU-六虎

新智元报道

编辑：桃子拉燕

【新智元导读】中文多模态模型IDPChat来了，快速上手教程在此。

中文多模态模型IDPChat和咱们碰头了。

跟着GPT4、文心一言等的发布，预练习大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的使用场景。

咱们以为，未来的AI使用将主要以大模型为中心基石。

而在大模型的范畴，根据根底模型（Foundation model）构建范畴或企业自有的大模型，会是近中期的重要发展趋势。

但在私有化大模型微谐和使用方面，企业和机构仍面临着微调杂乱、布置困难、成本较高级种种工程化挑战。

白海作为AI根底软件服务商，咱们期望能够从AI Infra层面，供给端到端的大模型微调、布置和使用东西，降低大模型微谐和使用的门槛。白海科技IDP渠道现在供给了从大模型数据源接入到大模型微调练习、模型发布的全流程功用。

咱们以IDP渠道为东西支撑，以预练习大语言模型LLaMA和开源文生图预练习模型Stable Diffusion为根底，快速构建了多模态大模型使用IDPChat。开发者们可根据场景需求，快捷地对其进行微调优化。

项目地址：github.com/BaihaiAI/ID…

IDPChat 能做什么

IDPChat现在能够一起支撑文字对话和图片生成。

首先是图画生成，咱们能够让模型根据文字描述画一幅画。

根底的文字对话聊天示例，可支撑中文。

仅需简略的5步和单GPU，即可快速启用IDPChat。

操作过程如下：

1.修正 ./backend/app/stable_diffusion/generate_image.py 文件，设置 diffusion_path 的值为本地 stable-diffusion 模型存储途径，设置 trans_path 的值为本地中文翻译模型的存储途径

2.修正 ./backend/app/llama/generate_text.py 文件，设置 load_model 的 base 参数值为本地 llama 模型的存储途径

3.执行 build.sh 脚本进行编译

4.编译成功后执行 run.sh 脚本发动服务

5.服务发动成功后，在浏览器中打开http://127.0.0.1:8000

在使用之前，需求下载预备所需的模型，LLaMA、Stable diffusion和相应的翻译模型。

详细所需的环境、模型、和操作过程能够参考github.com/BaihaiAI/ID…

现在发布IDPChat初步版本，打通模型微调的全流程。

后续咱们会继续对模型进行优化和丰富，如多模态部分增加图画描述功用。

当然要实现特定范畴更高质量、针对性的体现，还需求根据范畴数据的finetune和优化。

对 IDPChat 和 IDP 渠道感兴趣的开发者小同伴、场景使用同伴等欢迎关注Github并联系咱们。咱们信任 IDP 渠道和 IDPChat 将成为您探索多模态大模型使用和私有化大模型构建的得力助手。