上一篇文章咱们简单介绍了Vanna.AI – Personalized AI SQL Agent,一篇依据RAG的自然语言生成SQL的工具。 今日咱们来一同深化学习它。假设你和我一样在预备24年的春招,在前端全栈外,再预备一些AIGC的内容是十分有必要的。24年是AI盈利年,AIGC+各种岗位大厂机会会多些,赞同的同学请点赞。

前语

  Vanna为Text2SQL这一AIGC需求,供给了十分棒的开发套件,我感觉要离不开它了。假如您还没有注册Vanna, 请先看Vanna.AI – Personalized AI SQL Agent。现在让咱们从app.vana.ai页面开始,使用Vanna开发AIGC SQL使用。

chinook

Vanna数据平权:非技术人员的数据库自在

  Vanna 默许使用的LLM是chinook,点击会进入到默许的chat robot页面。

Vanna数据平权:非技术人员的数据库自在

  咱们先来分析下,左侧是一些示例问题;右上角的Current Model菜单能够切换其它LLM;默许选中的是Chat谈天页,旁边的Training能够加载咱们要练习的数据,这十分方便。Users是针对用户的办理,Connections是针对连接的办理

架构

Vanna数据平权:非技术人员的数据库自在

  上面是在Vanna github主页上显示的架构图。Vanna 支持Any SQL Database(多种数据库),也支持Any Vector Storage(向量数据库)。也支持多种大语言模型,乃至对接多种AIGC前端(Flask/Streamlit/Slack…)。从这张图,咱们能够看出Vanna是多么的强大!

工作方式

  Vanna生效分为两步,先是用户提交数据库练习(RAG使用中的上传文件),第二步是问答。

Vanna数据平权:非技术人员的数据库自在

  • 数据练习

  咱们交给Vanna RAG使用的数据库文件能够是DDL、文档、也能够给些参阅的SQL查询(few shots),这些数据会被Embedding(LLM需求),然后存储在向量数据库中。

  • 问答

  用户提出的问题首先也会被Embedding,找到相关的DDL/文档/或参阅的SQL(类似计算),构建提示词,发送给LLM, 最后由LLM生成SQL,回来用户。

练习

  • 装置
pip install vanna
  • 给Vanna 自定义大模型或向量数据库
# LLM 使用的是 OpenAI ,向量数据库是ChromaDB
from vanna.openai.openai_chat import OpenAI_Chat
from vanna.chromadb.chromadb_vector import ChromaDB_VectorStore
class MyVanna(ChromaDB_VectorStore, OpenAI_Chat):
    def __init__(self, config=None):
        ChromaDB_VectorStore.__init__(self, config=config)
        OpenAI_Chat.__init__(self, config=config)
vn = MyVanna(config={'api_key': 'sk-...', 'model': 'gpt-4-...'})
  • 练习
  1. 依据DDL 声明进行练习
vn.train(ddl="""
    CREATE TABLE IF NOT EXISTS my-table (
        id INT PRIMARY KEY,
        name VARCHAR(100),
        age INT
    )
""")

   DDL声明包含了表名、字段名、数据类型和数据表间的联系。

  1. 依据文档进行练习

   咱们也能够用文档描述数据

vn.train(documentation="Our business defines XYZ as ...")
  1. 依据SQL练习
vn.train(sql="SELECT name, age FROM my-table WHERE name = 'John Doe'")

  当咱们参加sql 进行练习,这些sql即能够做为few shots,又能够供给DDL上下文,供给SQL信息。

  • 发问
vn.ask("What are the top 10 customers by sales?")

   Vanna 回来SQL:

SELECT c.c_name as customer_name,
        sum(l.l_extendedprice * (1 - l.l_discount)) as total_sales
FROM   snowflake_sample_data.tpch_sf1.lineitem l join snowflake_sample_data.tpch_sf1.orders o
        ON l.l_orderkey = o.o_orderkey join snowflake_sample_data.tpch_sf1.customer c
        ON o.o_custkey = c.c_custkey
GROUP BY customer_name
ORDER BY total_sales desc limit 10;

   假如数据库连接了,咱们将得到以下数据:

Vanna数据平权:非技术人员的数据库自在

   Vanna 连数据表都帮咱们考虑好了。

Vanna数据平权:非技术人员的数据库自在

总结

  • 了解Vanna的架构和工作原理