前语 首期畅聊云原生-作者莅临按期举办,本期主题聚焦咱们热议论题,大数据与AI。本次活动出品人特别约请茄子科技(海外SHAREit Group)联合创始人&首席技能官陈少为,及其团队大数据渠道负责人朱哲。海量的数据规划、快速开展的公司事务对大数据渠道提出了杂乱、苛刻的需求,茄子科技大数据团队自主研发的跨多云自助式大数据渠道 DataCake,让大数据开箱即用,陈少为教师及朱哲教师将与创原会会员展开研讨和剖析,揭开 DataCake 渠道背面的奥秘。
▍主题一:企业需求怎样的大数据渠道
在工业化时代,四大中心出产要素分别是土地、劳动力、资本、技能。进入数字经济时代,数据要素成为了第五要素。数据作为出产要素分配,现已上升到国家的战略高度,数据的运用无疑将成为我国开展数字经济和建设数字我国的强壮动力,一起也逐步成为企业中心竞争力地点,且数据剖析市场潜力巨大,根据数据驱动的企业每年可以额外获得 30% 的数据添加。
大数据范畴有着超越 20 年的开展历史,“大数据”意义的也与时俱进,首要大数据的规划从 PB 级数据到习惯大中小数据,从当年谷歌所说的 PB 级数据剖析,现在扩展到从 GB 到 PB 的通用数据处理计划,愈加契合现代企业数字化的需求;其次数据的界说从仅仅指数据到环绕数据的东西渠道及方法论扩张,比如常见句式,用大数据赋能;最终随着大数据界说及范畴的改变,数据渠道架构的逐步演进,从数据库到数据仓库,再到数据湖,再到现在流行的 Data Lakehouse (湖仓一体)。
茄子科技大数据渠道 DataCake 的负责人朱哲以为,契合现代企业数字化的大数据渠道有必要拥有如下三个特点:
而企业需求怎样的数据渠道,咱们聚焦了3点:
- Data Mesh 更低门槛自助化:从数据到洞悉,从洞悉到决议计划,可以一个角色/人完结;
- Data Lakehouse 更 Data & AI 一致架构:咱们比较认同的是都是 Data-centric AI,data 和 AI 是严密相连的,好的 data workflow 决议了 AI 的上限,好的 AI 才能更多开释 data 的价值;
- Cloud Native 更高性价比:大数据从诞生之处就不是贵重计划,大数据的实质是通用廉价计划。云原生的意义不仅仅在于适配和云端布置,而是真正充沛的运用公有云的特性,比如集群弹性扩缩,做到算力的灵活调度和充沛运用。”
软通动力云原生研讨中心主任马骏指出
架构可扩展性是数据渠道一个很重要的维度,企业构建大数据渠道之初以小规划项目起步,待事务规划添加后再考虑杂乱的处理计划。这时架构的可扩展性就显得十分重要,保证事务数据规划上升后架构横向扩展的才能是要害。
华人运通云服务和信息安全总监赵旭也认同了云原生的重要性
指出华人运通在数据渠道的构建在初期考虑私有云计划,但整体组件跟随不上开源渠道的更新速度,终究逐步转移到公有云上。
▍主题二:数据渠道该如何更好地拥抱 AI
IDC 提出,2023年有望成为 AI 范畴最令人兴奋的一年,生成式 AI 引领的下一代人工智能对个人生活、工作以及每个企业都将发生深远影响,AI 极大扩展了数据处理的才能。
茄子科技朱哲以为 大数据渠道首要是支撑 AI,data workflow 的效率关于AI的迭代和效果至关重要,通常一个算法工程师,70% 时间应该都是在搞数据,20% 时间做试验,10% 时间看 paper。因而做好 data & AI workflow 架构的一致性,用户体验的连贯性,因果链路的关联性,这是数据渠道要完结的首要方针。其实是运用 AI,严格意义上更多是 ML/DL 在数据渠道的运用,站在场景角度,数据渠道每日调度几万到数十万实例,涉及几百到万台机器,自身便是一个事务体系。而如其他场景和事务系一致样,AI 运用的价值取决于投入产出比。而由于在公有云/多云环境的下,拥有了灵活算力,才衍生了更多精密化的策略,才让精密所能带来的收益 beat 了投入本钱。咱们在如下几个场景,获得了明显的收益,实时使命核算本钱,引擎主动挑选,智能算力分配,智能集群扩缩等。”
Smart 品牌全球公司 IT 技能开发总监刘克兴关于数据渠道及 AI 也有自己的观点:
AI 中台是数据中台的未来开展的趋势,随着事务技能的开展,数据中台会向着 AI 中台演进,它环绕智能化服务为中心,它依靠于数据中台供给给它数据服务的才能,而智能化的技能开发才能,又可以供给给数据更快捷和快速的数据剖析和猜测,从而供给了更好的数据服务。因而它们之间又是相互依存、一起进步的联系。在当下主流的生成式AI模型更依靠于大数据底层模型了,底层模型的相当于大数据初期的预处理机制,包含去杂,降噪,整形等基本清洗,保证 AI 层模型的愈加高效运算和迭代。构建牢靠的数据中台会对 AI 有着至关重要的效果,数据中台也将持续下沉成为根底服务的一部分,与 AI 算法模型构成前后队形联系,逐步迭代 AIGC 更老练。”
软通动力云原生研讨中心主任马骏点出
根据已有的 snowflake 商业事例阐述 AI 在大数据渠道的落地现状:
● snowflake与英伟达合作,把用于练习与运转生成式AI的NeMo渠道嵌入snowflake的data cloud 中。数据渠道需求具有AI模型的练习才能,可以运用企业自己的数据来练习新的AI模型,不会面对失去对自家数据的操控的风险,一起在data cloud中扩展AI才能,使客户可以在其受办理数据已驻留的位置创建生成式AI运用,可明显下降本钱和延迟。
● Snowflake宣告了与Nvidia合作的 Snowpark Container Services,旨在协助企业用户办理和运用大型言语模型(LLM),新的容器服务将存储在Snowflake中的企业数据与LLM、模型练习接口、模型办理结构、第三方数据增强运用程序、机器学习模型、API和Snowflake 的原生运用结构连接起来。”
灵智能科技创始人王永海根据事务视角谈道 “数据渠道和 AI 现已密不可分了。在数据渠道中,上游使命对下流使命供给支撑,传统手法很难满意多变的使命需求,这是就需求 Al 的介入有效的完结下流使命支撑。别的,Al 的使命模型练习也需求大数据的支撑,数据渠道进步数据机器可读性的才能,以满意使命模型的练习需求,也是数据渠道很要害的考量目标。所以,在现有的事务场景下,数据渠道与 AI现已是互为融合、互为成就的联系,这是数据渠道建设的要害。
于此一起,顺丰科技大数据范畴技能总监 蔡适择根据现在大模型的安全合规问题也提出了自己的忧虑:
他以为随着大模型的开展,大数据渠道 AI 化是必然的趋势,但当前大模型幻觉、数据安全问题,仍然困扰着咱们把它进行大规划落地,这块也想看看各位同行专家的建议。在我这边的团队,现在也现已把大模型的才能整合进了大数据渠道,重点处理的是从需求智能剖析、开发智能辅佐、作业智能运维、数据智能确诊、数据智能洞悉四大环节五大内容,但的确也仅仅是个辅佐的 Copilot,无法构成面向真正事务而非研发用户的交互式对话体验,由于它没法保证自己是精确的。”
探真科技安全运营总监何诣莘补充到
现在 LLM如此受欢迎我觉得便是在一定程度上下降了咱们关于专业知识的认知门槛,但是关于一些企业自身的“特定问题”,通用大模型在许多时分仍是无法精准掩盖。所以,这种能下降门槛的专有模型或许私有模型仍是有许多或许性,现在的一个障碍或许是如何来下降这种私有化布置的门槛。”
▍主题三:大数据渠道的未来趋势猜测
茄子科技朱哲提出了自己的观点,未来大数据渠道将在云原生及本钱办理、多云、 SaaS 化三个方面开展:
(1)云原生 FinOps
现在国内用云,在大数据场景,大多数还都是 IDC 的传统 Hadoop计划,固定集群。假如用云不用云原生,不做弹性扩缩,还不如回 IDC。咱们自己的计划,在弹性扩缩这边现已做出了不少成绩,在咱们 DataCake Serverless 某集群下,承载近 800 台机器峰值算力需求的本钱,只够搭建80台机器的传统 hadoop 集群。而且,咱们经过实时使命级本钱,智能核算和存储办理等手法,也完结了精密化的大数据本钱度量与管控。
(2)多云
多云有三个层次,一是数据渠道在多个云之间快速搬迁,二是一起办理多云多区域的核算和存储,三是跨多云一致灵活的算力调度。其间第三个现在业界还不老练,主要是云商间的出网流量费用问题,茄子科技现已可以做到榜首、二个层次,为充沛运用多云多区域优势,满意各国多事务合规要求,事务方和数据用户一直运用一个 DataCake 界面,办理多云多区域的使命和元数据,便利做到多云多区域的数据剖析,数仓开发和数据发掘工作。一起也具有了随时跨云搬迁的才能。
(3)SaaS
茄子科技有接触一个创业公司,每天总共云本钱 1000,关于创业公司而言也很贵,但事务又十分依靠各种数据剖析,也想做数据发掘。假如让他们运用咱们SaaS版的DataCake数据渠道,他不需求招大数据开发,运维,数仓等动辄百万的人力,只需求运用现有会写SQL的运营,外加按用量付费,每天花费缺乏1000,关于创业公司而言也很贵,但事务又十分依靠各种数据剖析,也想做数据发掘。假如让他们运用咱们 SaaS 版的 DataCake 数据渠道,他不需求招大数据开发,运维,数仓等动辄百万的人力,只需求运用现有会写 SQL 的运营,外加按用量付费,每天花费缺乏 100 的核算本钱,他就拥有了比肩职业大厂的 Infra 才能。这对出产力的开释是巨大的,所以咱们仍是坚信大数据 SaaS 化是正确且必然的道路。”
福佑货车大数据算法负责人刘尉良以为
多云和混合云是未来的趋势,一起也有不少的问题需求来处理。首要大数据渠道杂乱度的进步,办理多个云环境会添加架构和运营的杂乱性,或许需求不同的东西和技能来办理不同的云环境、其次是网络延迟和数据传输本钱,数据在不同云环境之间的传输或许会遇到网络延迟问题,一起数据传输也或许发生额外的本钱。特别是关于实时渠道;最终,安全与合规方面每个云渠道或许有其自己的安全和合规要求,满意多个渠道的安全和合规要求或许会成为一个挑战。这些是大数据渠道开展有必要要面对和处理的问题。”
在科技一日千里的今天,大数据渠道、AI 和云原生等技能的融合与开展,正引领着新一轮的科技革命。大数据渠道以其强壮的数据办理和剖析才能,为咱们供给了巨大的信息价值。AI 技能的快速开展,使得咱们可以更好地处理杂乱的实际问题。而云原生技能的遍及,则使得运用可以更好地习惯分布式环境,进步运用功能和牢靠性。在未来的开展中,咱们等待看到大数据渠道、AI 和云原生技能的更深度融合,以完结更高效、更智能的运用和服务。