百度离线处理Pingo

Pingo为企业搭建统一的批量和流式数据处理系统,让数仓建设和数据挖掘变得如此简单。

联系我们

产品概述

Pingo是统一的批量和流式数据处理系统。它在弹性计算资源管理和改进的数据访问管理层之上,运行优化的Spark计算引擎,提供SQL分析和DataFrame API,支持低延时的流式数据加工和处理,对外提供REST Service任务执行接口。

产品功能

  • ETL

    支持SQL及Spark DataFrame API编写ETL程序,支持Java、Python、Scala编写的第三方或者本地代码。

  • 任务调度

    支持ETL工作流例行调度,支持Notebook中即时查询以及展示结果。

  • 外部数据访问

    支持JDBC、ODBC、数据API的方式进行外部数据访问。

  • 数据缓存

    支持数据缓存,提高数据查询和处理性能。

  • 自动化集群管理

    按需进行存储和计算资源独立扩容,不需要人工干预。

产品架构

产品优势

  • 自动化的集群管理能力

    秒级创建新计算集群,支持动态扩容和缩容,有效降低成本,提供快速、简单、可扩展的实时数据仓库。

  • 统一的数据处理系统

    Pingo以统一的接口支持流式、批量作业,降低了开发和维护成本;同时支持交互式和例行查询,交互式数据调研之后可一键将作业例行化。

  • 良好的易用性和兼容性

    采用业界通用的Spark处理引擎,支持Java、Python、Scala编写的第三方或者本地代码,ETL编写简单易用。支持多种数据源的外部数据访问;支持集成第三方的BI工具。

应用场景

  • 数据仓库

    数据仓库助力企业通过分析数据进而获取洞察力,是商务智能的主要环节。Pingo不需要额外的ETL成本,按需扩容,变革数据团队分析数据的方式,提供快速、简单、可扩展的实时数据仓库,支撑了百度内部的数据仓库建设。

  • 数据挖掘

    在数据仓库基础上,支持高效便捷地查询数据,进行数据洞察和数据挖掘;此外支持Mlib/Deep Learning Lib等机器学习和深度学习库。

QQ群:650596829