百度OLAP数据库PALO,亮相2017大数据产业峰会

来源:百度
点击查看产品详情
我们知道,大型互联网公司往往都拥有海量的用户,这些用户产生了海量的数据。

在百度内部,每天有众多业务线、分析师使用着各种BI工具(如Excel、Saiku等)和各类Web报表,以秒级\毫秒级的时延对业务数据进行各个维度的在线分析。近日,受中国信通院和中国通信标准化协会之邀,百度大数据部研发经理牟宇航在“2017大数据产业峰会”上,从产品架构、技术特点切入,对承载这些海量在线分析业务的后台系统——Palo进行了深度的剖析。

他介绍说:一般来讲,我们可将数据库的应用类型分为OLTP(OnLine Transaction Processing ,联机事务处理)和OLAP(OnLine Analysis Processing,联机分析处理)两种。OLTP是传统关系型数据库的应用,其主要面向基本、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,提供直观易懂的查询结果。

OLTP别称为面向交易的处理系统,其基本特征是可以将顾客的原始数据立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这个过程的最大优点是可以即时处理输入的数据、及时回答,因此OLTP又被称为实时系统(Real Time System)。衡量OLTP系统的一个重要指标是系统性能,体现为实时响应时间(Response Time),即从用户在终端输入数据到计算机对这个请求做出回复所需的时间。OLTP 数据库旨在让事务应用程序仅完成对所需数据的写入,以便尽快处理单个事务。

而OLAP的概念最早是由关系数据库之父E.F.Codd博士于1993年提出的,是一种用于组织大型商务数据库和支持商务智能的技术。OLAP数据库分为一个或多个多维数据集,每个多维数据集都由管理员组织和设计,以适应用户检索和分析数据的方式,从而更易于创建和使用所需数据透视表和数据透视图。

千禧年以前,数据库领域并购次数不多,金额也不大。但在其后,OLAP领域美国与欧洲成立了许多小型创业公司,像Vertica、Vectorwise、ParAccell、Exasol都是其中的佼佼者,数据库领域呈现出前所未有的活跃气氛。大数据的出现促进传统数据库领域格局发生了变化,并购渐多。2010年,SAP 率先以58亿美金巨资收购Sybase,掀起OLAP领域并购狂潮,许多IT公司随即也开始进行领域布局。其中具有典型意义的事件有:2010年9月20日,IBM出资17.8亿美元收购Netezza;2010年7月6日,EMC出资3亿美元收购Greenplum。

大规模数据库系统Palo还包括其它关键技术:
  · 批量数据导入的原子更新,MVCC
  · Schema Change/Create Rollup/Data Recovery
  · Shared-nothing,MPP
  · 自动扩展和收缩
  · 基于Hadoop的分布式导入系统

对于在云上使用Palo的用户,需要先把数据放到百度云的对象存储系统BOS,然后Load到Palo集群中。Palo Core中画了很多不同颜色的小方框,表示Palo会把一个集群数据的不同副本打散到不同的物理机上,以实现数据的高可靠。

我们在Palo Core的外围,提供了一个Web Server,作为用户的访问控制台。用户可以通过浏览器来配置自己的账户、创建自己的集群、以及增删节点等等。完成集群创建及数据导入之后,用户可以直接通过自己的MySQL客户端或者JDBC/ODBC,连接云上的Palo集群。

最后,牟宇航与大家分享了Palo的发展计划:我们希望在未来的三个月左右在百度Github上进行开源,希望届时有更多的公司、极客来使用Palo这个产品。也欢迎对分布式技术、数据库技术感兴趣的同学能联系并加入我们的团队,一起打造业界一流的NewSQL数据库。谢谢大家!