假期充电，用阿里云 Serverless K8s + AIGC 搭建私人代码助理-六虎

作者：子白、冬岛

AI 技术正在引领科技立异浪潮，跟着 ChatGPT 和 Midjourney 的走红，AIGC 技术正在世界范围内掀起一股 AI 技术浪潮。开源范畴也涌现了许多类似模型，如 FastGPT、Moss、Stable Diffusion 等。这些模型展现出的惊人作用吸引企业和开发者们投身其中，但是复杂繁琐的布置方法成为了拦路虎。阿里云 ASK 供给 Serverless 化的容器服务，用户无需关怀资源及环境配置，能够协助开发者们零门槛快速布置 AI 模型。本文以开源的 FastChat 为例，具体展现如安在 ASK 中快速搭建一个私人代码助理。现在，ASK 已加入阿里云免费试用方案，为开发者、企业供给一定额度的试用资源。 如对 ASK 感兴趣，欢迎我们经过点击文末的 “此处” 拜访并领取。

假期充电，用阿里云 Serverless K8s + AIGC 搭建私人代码助理

作用预览

Cursor + GPT-4 的代码生成是不是觉得很智能，我们经过 FastChat + VSCode 插件也能做到相同的作用！

快速生成一个 Golang Hello World

地址：intranetproxy.alipay.com/skylark/lar…

快速生成一个 Kubernetes Deployment

地址：intranetproxy.alipay.com/skylark/lar…

布景介绍

ASK(Alibaba Serverless Kubernetes)是阿里云容器服务团队供给的一款面向 Serverless 场景的容器产品。用户能够运用 Kubernetes API 直接创立 Workload，免去节点运维烦恼。ASK 作为容器 Serverless 渠道，具有免运维、弹性扩容、兼容 K8s 社区、强阻隔四大特性。

大规模 AI 运用练习和布置首要面对以下应战。

GPU 资源受限且练习本钱较高

大规模 AI 运用在练习及推理时都需求运用 GPU，但是很多开发者短少 GPU 资源。单独购买 GPU 卡，或许购买 ECS 实例都需求较高本钱。

资源异构

并行练习时需求很多的 GPU 资源，这些 GPU 往往是不同系列的。不同 GPU 支撑的 CUDA 版别不同，且跟内核版别、nvidia-container-cli 版别相互绑定，开发者需求关注底层资源，为 AI 运用开发增加了许多难度。

镜像加载慢

AI 类运用镜像经常有几十 GB，下载往往需求几十分钟甚至数小时。

针对上述问题，ASK 供给了完美的解决方案。在 ASK 中能够经过 Kubernetes Workload 十分方便的运用 GPU 资源，无需其前置准备运用，用完即可立即释放，运用本钱低。ASK 屏蔽了底层资源，用户无需关怀 GPU、CUDA 版别等等的依赖问题，只需关怀 AI 运用的本身逻辑即可。一起，ASK 默许就供给了镜像缓存才能，当 Pod 第 2 次创立时能够秒级发动。

布置流程

1. 前提条件

已创立 ASK 集群。具体操作，请参见创立 ASK 集群 [ 1] 。
下载 llama-7b 模型并上传到 OSS 。具体操作，请参见本文附录部分。

2. 运用 Kubectl 创立

替换 yaml 文件中变量

${your-ak} 您的 AK

${your-sk} 您的 SK

${oss-endpoint-url} OSS 的 enpoint

${llama-oss-path} 替换为存放 llama-7b 模型的地址（途径末尾不需求/），如 oss://xxxx/llama-7b-hf

apiVersion: v1
kind: Secret
metadata:
  name: oss-secret
type: Opaque
stringData:
  .ossutilconfig: |
    [Credentials]
    language=ch
    accessKeyID=${your-ak}
    accessKeySecret=${your-sk}
    endpoint=${oss-endpoint-url}
---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: fastchat
  name: fastchat
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: fastchat
  strategy:
    rollingUpdate:
      maxSurge: 100%
      maxUnavailable: 100%
    type: RollingUpdate
  template:
    metadata:
      labels:
        app: fastchat
        alibabacloud.com/eci: "true" 
      annotations:
        k8s.aliyun.com/eci-use-specs: ecs.gn6e-c12g1.3xlarge
    spec:
      volumes:
      - name: data
        emptyDir: {}
      - name: oss-volume
        secret:
          secretName: oss-secret
      dnsPolicy: Default
      initContainers:
      - name: llama-7b
        image: yunqi-registry.cn-shanghai.cr.aliyuncs.com/lab/ossutil:v1
        volumeMounts:
          - name: data
            mountPath: /data
          - name: oss-volume
            mountPath: /root/
            readOnly: true
        command: 
        - sh
        - -c
        - ossutil cp -r ${llama-oss-path} /data/
        resources:
          limits:
            ephemeral-storage: 50Gi
      containers:
      - command:
        - sh
        - -c 
        - "/root/webui.sh"
        image: yunqi-registry.cn-shanghai.cr.aliyuncs.com/lab/fastchat:v1.0.0
        imagePullPolicy: IfNotPresent
        name: fastchat
        ports:
        - containerPort: 7860
          protocol: TCP
        - containerPort: 8000
          protocol: TCP
        readinessProbe:
          failureThreshold: 3
          initialDelaySeconds: 5
          periodSeconds: 10
          successThreshold: 1
          tcpSocket:
            port: 7860
          timeoutSeconds: 1
        resources:
          requests:
            cpu: "4"
            memory: 8Gi
          limits:
            nvidia.com/gpu: 1
            ephemeral-storage: 100Gi
        volumeMounts:
        - mountPath: /data
          name: data
---
apiVersion: v1
kind: Service
metadata:
  annotations:
    service.beta.kubernetes.io/alibaba-cloud-loadbalancer-address-type: internet
    service.beta.kubernetes.io/alibaba-cloud-loadbalancer-instance-charge-type: PayByCLCU
  name: fastchat
  namespace: default
spec:
  externalTrafficPolicy: Local
  ports:
  - port: 7860
    protocol: TCP
    targetPort: 7860
    name: web
  - port: 8000
    protocol: TCP
    targetPort: 8000
    name: api
  selector:
    app: fastchat
  type: LoadBalancer

**
**

3. 等候 FastChat Ready

等候 pod ready 后，在浏览器中拜访 http://${externa-ip}:7860

**发动后需求下载 vicuna-7b 模型，模型大小约 13GB

下载模型时间大概耗时约 20 分钟左右，假如提前做好磁盘快照，经过磁盘快照创立磁盘并挂载到 pod，便是秒级生效

kubectl get po |grep fastchat
# NAME                        READY   STATUS    RESTARTS   AGE
# fastchat-69ff78cf46-tpbvp   1/1     Running   0          20m
kubectl get svc fastchat
# NAME       TYPE           CLUSTER-IP        EXTERNAL-IP    PORT(S)          AGE
# fastchat   LoadBalancer   192.168.230.108   xxx.xx.x.xxx   7860:31444/TCP   22m

作用展现

Case 1：经过控制台运用 FastChat

在浏览器中拜访 http://${externa-ip}:7860，能够直接测试聊天功用。比方运用自然语言让 FastChat 写一段代码。

输入：基于 Nginx 镜像编写 Kubernetes Deployment Yaml 文件

FastChat 输出如下图所示。

Case 2：经过 API 运用 FastChat

FastChat API 监听在 8000 端口，如下所示，经过 curl 发起一个 API 调用，然后返回成果。

curl 命令

curl http://xxx:xxx:xxx:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vicuna-7b-v1.1",
    "messages": [{"role": "user", "content": "golang 生成一个 hello world"}]
  }'

输出成果

{"id":"3xqtJcXSLnBomSWocuLW2b","object":"chat.completion","created":1682574393,"choices":[{"index":0,"message":{"role":"assistant","content":"下面是运用 Go 语言生成 "Hello, World!" 的代码：\n```go\npackage main\n\nimport "fmt"\n\nfunc main() {\n    fmt.Println("Hello, World!")\n}\n```\n运转该代码后，会输出 "Hello, World!"。"},"finish_reason":"stop"}],"usage":null}

Case 3: VSCode 插件

已然有了 API 接口，在 IDE 中怎样快速集成这个才能呢。你是不是想到了 Copilot、Cursor、Tabnine ，那我们就经过 VSCode 插件集成一下 FastChat 看看吧。VSCode 插件几个中心文件：src/extension.ts、package.json 和 tsconfig.json

这三个文件的内容别离如下：

src/extension.ts

import * as vscode from 'vscode';
import axios from 'axios';
import { ExtensionContext, commands, window } from "vscode";
const editor = window.activeTextEditor
export function activate(context: vscode.ExtensionContext) {
    let fastchat = async () => {
        vscode.window.showInputBox({ prompt: '请输入代码提示语' }).then((inputValue) => {
            if (!inputValue) {
                return;
            }
            vscode.window.withProgress({
                location: vscode.ProgressLocation.Notification,
                title: '正在请求...',
                cancellable: false
            }, (progress, token) => {
                return axios.post('http://example.com:8000/v1/chat/completions', {
                    model: 'vicuna-7b-v1.1',
                    messages: [{ role: 'user', content: inputValue }]
                }, {
                    headers: {
                        'Content-Type': 'application/json'
                    }
                }).then((response) => {
                    // const content = JSON.stringify(response.data);
                    const content = response.data.choices[0].message.content;
                    console.log(response.data)
                    const regex = /```.*\n([\s\S]*?)```/
                    const matches = content.match(regex)
                    if (matches && matches.length > 1) {
                        editor?.edit(editBuilder => {
                            let position = editor.selection.active;
                            position && editBuilder.insert(position, matches[1].trim())
                        })
                    }
                }).catch((error) => {
                    console.log(error);
                });
            });
        });
    }
    let command = commands.registerCommand(
        "fastchat",
        fastchat
    )
    context.subscriptions.push(command)
}

package.json

{
    "name": "fastchat",
    "version": "1.0.0",
    "publisher": "yourname",
    "engines": {
        "vscode": "^1.0.0"
    },
    "categories": [
        "Other"
    ],
    "activationEvents": [
        "onCommand:fastchat"
    ],
    "main": "./dist/extension.js",
    "contributes": {
        "commands": [
            {
                "command": "fastchat",
                "title": "fastchat code generator"
            }
        ]
    },
    "devDependencies": {
        "@types/node": "^18.16.1",
        "@types/vscode": "^1.77.0",
        "axios": "^1.3.6",
        "typescript": "^5.0.4"
    }
}

tsconfig.json

{
    "compilerOptions": {
      "target": "ES2018",
      "module": "commonjs",
      "outDir": "./dist",
      "strict": true,
      "esModuleInterop": true,
      "resolveJsonModule": true,
      "declaration": true
    },
    "include": ["src/**/*"],
    "exclude": ["node_modules", "**/*.test.ts"]
  }

好，插件开发完我们就看一下作用。

快速生成一个 Golang Hello World

地址：intranetproxy.alipay.com/skylark/lar…

快速生成一个 Kubernetes Deployment

地址：intranetproxy.alipay.com/skylark/lar…

总结

ASK 作为容器 Serverless 渠道，具有免运维、弹性扩缩容、屏蔽异构资源、镜像加速等才能，十分合适 AI 大模型布置场景，欢迎试用。

附录：

下载 llama-7b 模型

模型地址：

huggingface.co/decapoda-re…

# 假如运用的是阿里云 ECS，需求运转如下命令安装 git-lfs
# yum install git-lfs
git clone https://huggingface.co/decapoda-research/llama-7b-hf
git lfs install
git lfs pull

上传到 OSS

可参阅文档：

help.aliyun.com/document_de…

参阅文档：

[1]创立 ASK 集群

help.aliyun.com/document_de…

[2]ASK 概述

help.aliyun.com/document_de…

点击此处，领取 ASK 免费试用限额资源

假期充电，用阿里云 Serverless K8s + AIGC 搭建私人代码助理

作用预览

布景介绍

布置流程

1. 前提条件

2. 运用 Kubectl 创立

3. 等候 FastChat Ready

作用展现

Case 1：经过控制台运用 FastChat

Case 2：经过 API 运用 FastChat

Case 3: VSCode 插件

总结

附录：

参阅文档：

相关文章

28的前端深漂，焦虑、迷茫萦绕心头

要么干要么滚！推特开始裁员了；深度学习产品应用·随书代码；可分离各种乐器音源的工具包；Transformer教程；前沿论文 | ShowMeAI资讯日报

极智AI | 目标检测实现分享一：详解 YOLOv1 算法实现

I/O 23 暨 AGP 10周年：为什么我还是学不会 Gradle？

作者信息