人工智能和机器学习现已为企业带来了许多实际价值,从欺诈检测到聊天机器人再到猜测剖析。可是,ChatGPT斗胆的创意写作技能使人们对AI/ML的希望进步到了新的高度。IT领导者不由要问:AI/ML是否总算准备好超越点状处理方案,处理核心企业问题?

以最大、最古老、最令人困惑的IT问题为例:在整个企业范围内办理和整合数据。如今,跟着数据量、类型、变化和散布在本地和云渠道上不断呈指数级增长,这项作业迫切需求AI/ML技能的协助。正如IDC数据集成和智能软件副总裁Stewart Bond所说:“你需求机器来协助你办理这些。”

AI/ML真的能协助在数据混乱中完成次序吗?答案是肯定的,但业界共识是,咱们仅仅触及了未来或许完成的目标的皮毛。集成软件的老牌公司,如Informatica、IBM和SnapLogic现已添加了AI/ML功用以主动化各种使命,而一批较新的公司,如Tamr、Cinchy和Monte Carlo则将AI/ML作为他们产品的核心。可是,没有哪个公司接近完成能够主动化端到端数据办理和集成进程的AI/ML处理方案。

没有任何产品或服务能够在没有人工干涉的情况下处理每一个数据反常,更不用说重塑混乱的企业数据架构了。可是,这些新的AI/ML驱动处理方案现在能够在各种数据整理和集成作业中大幅减少人工劳动,从数据编目到构建数据管道,再到进步数据质量。

这些成果或许值得关注。但要发生真实持久的影响,需求CDO(首席数据官)的办法,而不是冲动地为一次性项目抓取集成东西。在企业能够确认将哪些AI/ML处理方案运用在何处之前,他们需求对整个数据资产(客户数据、产品数据、买卖数据、事件数据等)有一个衔接的、自上而下的视角,并彻底了解定义这些数据类型的元数据。

企业数据问题的范围

如今,大多数企业都维护着大量的数据存储,每个数据存储都与其自身的运用和用例相关联——云核算加重了这种繁殖,由于业务部门能够快速启动具有自己数据孤岛的云运用。这些数据存储中的一部分或许用于买卖或其他操作活动,而另一部分(首要是数据仓库)则为从事剖析或商业智能的人员供给服务。

为了进一步复杂化问题,Forrester Research的副总裁兼首席剖析师Noel Yuhanna表示,“地球上的每个组织都有超过两打的数据办理东西。这些东西彼此之间没有沟通。”这些东西处理从数据编目到MDM(主数据办理)再到数据治理和数据可调查性等一切业务。一些供货商现已将AI/ML功用融入了他们的产品,而另一些则尚未这样做。

在根本层面上,数据集成的首要目的是映射各种数据源的形式,以便不同的体系能够共享、同步和/或丰厚数据。后者关于构建客户全景视图至关重要。可是,看似简略的使命,如确认同名的客户或公司是否归于同一实体以及哪些记载中的哪些详细信息是正确的,都需求人为干涉。领域专家通常被要求协助树立处理各种反常的规矩。

这些规矩通常存储在集成软件中的规矩引擎中。联系数据库的发明者之一Michael Stonebraker是Tamr的创始人之一,Tamr开发了一个根据机器学习的MDM体系。Stonebraker举了一个实际国际的例子来说明根据规矩的体系的局限性:一家大型媒体公司创立了一个“自制”的MDM体系,该体系现已积累了12年的规矩。

Stonebraker表示:“他们现已编写了300,000条规矩。假如你问某人,你能了解多少规矩,一个典型的数字是500。逼得紧些,我会给你1,000。扭我的胳膊,我会给你2,000。可是50,000或100,000条规矩彻底无法办理。之所以有这么多规矩,是由于有许多特殊情况。”

Tamr 的首席产品官 Anthony Deighton 宣称,他的 MDM 处理方案克服了根据规矩的体系的脆弱性。“根据机器学习的办法的优点在于,当你添加新的数据源,或者更重要的是,当数据自身的形状发生变化时,体系能够优雅地适应这些变化,”他说。可是,与大多数 ML 体系一样,需求运用大量数据进行继续的培训,而且依然需求人类判别来处理差异。

AI/ML 不是灵丹妙药。但它能够为 MDM 以及许多数据集成领域供给非常有价值的主动化。可是,要充分利用这些优势,企业需求整顿自己的次序。

将 AI/ML 融入数据结构

“数据结构”是描绘企业内部有用数据繁杂组合的要害词。确认这个结构的范围首要要知道数据在哪里——并对其进行目录化。这项使命能够经过运用比如 Informatica 的 AI/ML 结合的 CLAIRE 引擎或 IBM 的 Watson 知识目录等处理方案的 AI/ML 才能来部分主动化。其他目录软件供货商包括 Alation、BigID、Denodo 和 OneTrust。

Gartner 研究总监 Robert Thanaraj 对首席数据官的信息是:“你需求设计你的数据结构。购买必要的技能组件,构建并根据你希望的成果进行和谐。”他说,这个结构应该是“元数据驱动的”,由环绕企业数据自身的一切重要信息编织而成。

他给企业的主张是“出资元数据发现”。这包括“组织内部人与人之间协作的形式,人们处理数据的形式,以及他们运用的数据组合。他们回绝哪些数据组合?数据存储在哪里、数据传输在哪里的形式?”

Informatica 的首席产品官 Jittesh Ghai 表示,Informatica 的 CLAIRE 引擎能够协助企业获取元数据洞悉并采纳举动。“咱们将 AI/ML 才能运用于供给猜测性数据……经过将一切元数据维度衔接在一起以供给上下文。”除其他外,这种猜测性数据智能能够协助主动化创立数据管道。“咱们主动生成从各种源项映射到通用元素,并将其粘附到目标体系的形式。”

IDC 的 Stewart Bond 指出,SnapLogic 集成渠道具有相似的管道功用。“由于它们是根据云的,所以它们能够检查……一切其他现已树立了管道的客户,然后找出下一个最佳 Snap:在这个管道中,你应该采纳什么样的下一个最佳举动,根据数百或数千个其他客户所做的作业。”

可是,Bond 调查到,在这两种情况下,体系供给的是主张,而不是体系独立举动。人类有必要承受或回绝这些主张。“现在还没有太多的主动化。我认为即便在映射中,仍有许多时机完成更多的主动化、更多的 AI。”

进步数据质量

据 Bond 说,AI/ML 在进步数据质量方面发生了最大的影响。Forrester 的 Yuhanna 也表示同意:“AI/ML 确真实推动数据质量的进步,”他说。这是由于机器学习能够发现并从大量数据中的形式中学习,并引荐新的规矩或调整,而人类则没有满足的带宽来确认这些规矩或调整。

高质量数据关于处理要害客户、职工、供货商和产品数据的买卖和其他操作体系至关重要。但它还能够让从事剖析的数据科学家的生活变得愈加轻松。

通常说数据科学家有 80% 的时刻都花在整理和准备数据上。Michael Stonebraker 对这个估量表示质疑:他引用了与一位数据科学家的谈话,她说她有 90% 的时刻用于辨认她想要剖析的数据来历,整合结果和整理数据。然后她在剩余的 10% 的时刻里的 90% 用于修复整理过错。任何能够为她节省部分时刻的 AI/ML 数据目录或数据清洗处理方案都将改变游戏规矩。

数据质量永久不是一劳永逸的作业。数据的不断变化以及它经过的很多体系导致了新一类处理方案的呈现:数据可观测性软件。“这个类别正在做的是调查数据在数据管道中的活动进程。它能辨认数据质量问题,”Bond 说。他说到了草创公司 Anomolo 和 Monte Carlo 作为两个宣称“运用 AI/ML 监控数据质量的六个维度”的参加者:准确性、完整性、一致性、唯一性、及时性和有效性

假如这听起来有点像继续测验对 devops 至关重要,那并非偶然。越来越多的公司正在承受 dataops,Bond 说:“你要对仪表板、ETL 作业以及使这些管道运行并剖析这些管道中的数据的事物进行继续测验。” “但你还要为此添加计算操控。”

问题是,调查到的数据问题是事后诸葛亮。在不让管道陷入瘫痪的情况下,你无法阻挠过错的数据传递给用户。但正如 Bond 所说,当 dataops 团队成员运用了一个批改并捕获它时,“那么下次呈现该反常时,机器就能够进行批改。”

未来将有更多智能

数据办理和集成软件供货商将继续快速添加有用的AI/ML功用——以主动化数据发现、映射、转化、管道、治理等。可是,Bond 说到,咱们面临一个黑盒子问题:“每个数据供货商都会说他们的技能是智能的。其间一些依然是虚有其表。但在这些产品的核心深处,的确有一些真实的AI/ML发生。”

对这种智能的需求是显而易见的。“假如咱们要供给数据,而且要在这个异构、多云、碎片化的环境中进行大规模(PB级)处理,咱们需求将AI运用到数据办理中,”Informatica 的 Ghai 说。Ghai 乃至将目光投向了 OpenAI 的 GPT-3 系列大型语言模型。“对我来说,最令人兴奋的是了解人类文本指令的才能,”他说。

可是,没有任何产品具有将数据混乱合理化或在无人干涉的情况下整理数据的智能。“一个彻底主动化的数据基础设施是不或许完成的,”Gartner 的 Thanaraj 说。“在能够主动化、能够增强和依然需求人类参加的补偿之间,有必要达到平衡。”

Stonebraker 说到了另一个限制:AI/ML 人才的严峻短缺。数据办理和集成的AI/ML处理方案并非开箱即用,因而需求AI/ML专业知识进行正确的施行。“假如让企业自己去做,他们总是会犯同样的过错,”他说。“我认为最重要的主张是,假如你对这些东西不熟悉,找一个懂行的协作伙伴。”

这个声明的另一面是,假如你的数据架构根本完善,而且有满足的人才保证你能正确部署AI/ML处理方案,那么数据办理员、剖析师和科学家的大量繁琐作业能够被消除。跟着这些处理方案变得更智能,这些收益将只会添加。


本文作者:Eric Knorr(曾担任Foundry企业网站的主编)

更多内容请关注公号“云原生数据库”