“大数据年代” 的概念最早由闻名咨询公司麦肯锡提出。麦肯锡表示:” 数据已渗透到今日的每个行业和事务功能领域,并已成为重要的出产要素。” 数据在精巧的算法中被挖掘,数据剖析变得至关重要,大家开端达到一个共识:” 数据核算,能够找到新发现。”
博思艾伦咨询公司的合伙人 Josh Suillivan 在其作品《数字年代的企业进化》一书中说到,其团队研究了数百个安排,提炼出构成未来成功安排模型的要素,这类成功安排被称为” 数据公司”。而进化成” 数字公司” 的要害,是” 安排是由数据驱动的”。 在大数据年代,企业不再随便删去数据,而是希望把数据存储起来用于剖析。数据库也成为了企业根底架构必不可少的一部分。
什么是 MPP?
MPP(Massive Parallel Processing,大规划并行处理),一直被誉为当今数据库的干流架构,被广泛用于很多数据库产品中,包含 Greenplum、Teradata、Vertica 等。MPP 数据库是针对剖析作业负载进行了优化的数据库,以满意用户聚合和处理大型数据集的需求。 MPP 剖析型数据库将使命并行的分布到多个服务器和节点上,并在完成核算后,将成果回来并汇总,然后完成对海量数据的剖析处理。
MPP 数据库的优势
数据库集群有可扩展性、高可用性、高功能等很多优势。MPP 数据库的诞生处理了单个 SQL 数据库无法存放海量数据,很难在一台物理机器上完成剖析需求的难题。
海量数据处理才能
MPP 架构的数据库以 PC 服务器为单位,经过如下图所示的集群方式来扩展存储和核算。假定一个宽表有 3 亿条记载,MPP 数据库会尝试在每台 PC 服务器的硬盘上分布 1 亿条记载。数据核算时,一切机器一起并行核算,理论上最高能够把核算时刻下降到单机布置的 1/n(n 为机器数量),节约了海量数据的处理时刻。
对 SQL 的完美兼容
大部分传统 MPP 数据库均完成了对 SQL 的完美兼容,包含 ANSI SQL 2008 规范,以及 SQL 2003 OLAP 扩展。对 SQL 的全面支撑使得 MPP 数据库能够无缝集成业内常见的提取 / 转换 / 加载(ETL)和 BI(商业智能)东西,彻底支撑和认证规范数据库接口。企业只需安排少量的集成作业,就能够运用现有的运用规范 SQL 结构和接口的剖析东西让使用在 数据库上运转,然后避免了企业受制于供货商,协助企业在按捺事务危险的一起推动创新。
核算的高度并行化
MPP 架构给数据库的高并发性带来了极大的弹性。架构赋予数据库数据和查询的主动并行化才能,数据能够做到主动在数据库的一切节点上分区,并以高度协调的方式运用一切节点来规划和履行查询。企业能够依据自身的并发需求扩展集群,达到所需的并发需求。
水平扩展才能
MPP数据库具有良好的水平扩展才能,企业能够依据事务需求,经过添加服务器,用更多的节点支撑更大的剖析需求。
传统 MPP 数据库的瓶颈
尽管 MPP 数据库有很多优势,因此成为很多剖析型数据库产品的干流架构。可是,传统 MPP 数据库也有很多瓶颈和约束。
存算耦合
传统数据仓库的核算和存储是严密耦合的,核算资源和存储资源按某一份额强绑定,因此用户在扩容时,必须一起扩容核算资源和存储资源,在扩容、运维、迁移上都存在必定的应战。企业事务开展的不确定性,当企业遇到负载顶峰时刻,传统数据仓库无法及时扩资源,可能会导致大数据体系无法及时剖析事务数据,失去了充沛挖掘数据价值所带来的商业机会。
事务受限
传统的 MPP 数据库尽管完成了水平扩展,可是由于存算耦合,水平扩展流程杂乱且缓慢。跟着用户的数据规划添加,每次扩缩容进行添加节点的操作时,大量的 I/O 请求会影响事务的处理速度,对事务的持续性会形成必定的影响。当用户负载忽然增大时,无法迅速提高算力以呼应事务改变,在负载下降时也无法缩短以节约本钱。存算的严密耦合,导致用户无法依据实践需求请求资源,动态扩展,导致用户的事务受限。
本钱昂扬
传统数据库价格昂扬的软硬件导致巨大的前期投入。跟着存储和作业负载需求的日益添加,面对数据库的扩容和晋级时,由于传统 MPP 数据库架构存储和核算的严密耦合,往往需要企业花费巨大的运维和时刻本钱,且操作繁琐。
木桶效应
传统 MPP 数据库架构存在” 木桶效应”,数据库全体履行速度取决于最” 短板” 单机(Straggler)的功能。单机毛病会” 拖垮” 整个数据库的功能,导致查询速度变慢。 因此传统的 MPP 架构往往要求新增的 PC 机和之前的 PC 机是相同的老装备,不然任何一个集群的” 短板” 就会影响整个数据库的功能,也就说摩尔定理不论多厉害,MPP 集群拿老机器的存储和功能” 一刀切” 而取低值。
数据孤岛
跟着事务的开展,数据量的添加,和信息化建造的需求,企业会为不同部门建造相应的事务信息化体系。可是 MPP 的水平” 扩展 “才能和事实上的” 静态 “项目施行是对立的。“扩展” 理论上是和时刻相关的一个概念,而根据 PC 机的 MPP 规划并不是” 时刻的朋友 “。由于前面说到的存算耦合和” 木桶效应”,企业在购买新机器的时候,往往会选择” 另起炉灶”,新建一个集群,然后形成” 数据孤岛”,严峻阻止了企业完成大数据方针。
全新的 eMPP:传统 MPP 数据库的进阶版
面对传统 MPP 数据库的短板,OpenPie 团队打造的云原生数据库 PieCloudDB,创造了全新的 eMPP 分布式架构,构建以云原生、剖析型分布式数据库为引擎数据核算渠道。
什么是 eMPP?
eMPP 由 OpenPie 团队打造,全称是 Elastic Massive Parallel Processing(Elastic MPP,弹性大规划并行核算)。
eMPP 超越传统 MPP 架构,更契合云年代的需求。云渠道在信息技术开展过程中具有划年代含义,它带给用户的不仅仅是方便和便利,更是极大的灵敏性和可装备性。用户能够自行界说云主机的装备,界说云主机的数量等,而且能够便捷的添加和删去云主机。一句话来说,云渠道给企业使用架构带来了极大的弹性。
MPP 架构和云渠道相结合,就诞生了 eMPP。为了适应云渠道的弹性,新的 eMPP 架构完成了云上存储核算别离。也就是说,核算资源和存储资源能够在云上完成独立的进行水平扩展。
eMPP 的优势
存算别离赋予 eMPP 数据库 ” 真实” 的弹性。eMPP 架构承继了前文中说到的 MPP 数据库一切优势,并从根本上规避了传统 MPP 数据库的缺点,具有很多优势。
-
弹性扩展
根据云核算渠道、存算别离的 eMPP(弹性大规划并行核算)架构赋予数据库多维度、智能弹性扩展才能,让用户能够依据事务需求进行横向或纵向的弹性弹性。
存储侧支撑规范目标存储,能够充沛利用云核算渠道的优势,让目标存储挨近无限的容量,避免了企业对集群进行扩容时,因核算资源和存储资源的绑定而形成的资源糟蹋,可单独进行核算或者存储资源的扩展,存储扩容性价比高。
核算侧在规划上充沛考虑无状态完成,核算节点能够充沛利用云渠道海量的核算节点池,能够按需扩容和缩容。企业能够灵敏考虑事务和数据量的改变,动态调整 数据库集群中核算节点的数量,用最适合的资源量来满意其事务需求。 -
灵敏敏捷
eMPP 架构核算和存储别离,避免了资源的糟蹋。企业可依据对资源的需求,灵敏的以低本钱和高效的方式,单独地进行存储或核算资源的弹性扩展,提高了资源的利用率,节约空间本钱和能耗开支。 -
降本增效
eMPP 架构带来的动态扩展才能,企业可依据自己对资源的需求进行扩展,避免了资源的糟蹋,相比于传统数据库,具有更高的性价比。 -
高可用性
eMPP 架构中,核算节点不存储用户数据,保证了核算节点的无状态性。无状态的核算节点发动和中止十分简单,企业能够依据自身的需求发动满足的冗余核算节点保证 eMPP 数据库的高可用性。在 eMPP 数据库 中,用户数据存储在云核算渠道的目标存储中,充沛利用云存储的优势保证用户数据高可用性。
PieCloudDB:根据云核算的全新 eMPP 架构
PieCloudDB,选用根据云核算的全新 eMPP(Elastic MPP)弹性并行核算架构,集成了 MPP 数据库的很多优点,并完美处理了根据 PC 的传统 MPP 数据库的缺点。核算和存储别离。存储和核算作为两个独立变量,能够在云端进行独立的弹性弹性,避免了资源的糟蹋。企业可依据事务对资源的需求,灵敏的以低本钱和高效的方式,单独地进行存储或核算资源的弹性扩展,提高了资源的利用率,节约空间本钱和能耗开支。
元数据 – 核算 – 数据别离的三层独立架构让 PieCloudDB 完成了将数据集中存储,而元数据独立存储。企业能够像办理产品数据相同来办理自己的数据产品的元数据。企业能够将一切数据在云中存储,为已有和未来的使用真实完成数据同享。