数据仓库解决方案

提供一站式数据存储、处理、分析和可视化的大数据平台服务,无需经过繁琐的数据ETL/ELT过程,就可以通过一个简单易用的方式,进行数据访问、加工处理、探查分析和数据可视化。

联系我们

方案概述

百度为您提供一站式数据存储、数据加工、数据管理、数据调度、数据分析可视化等完整的数据仓库解决方案,由离线处理Pingo、数据仓库Palo、大数据可视化Habo多部分组成。该方案将元数据集中到数据平台中,统一对数据进行加工处理和分析。在原始数据产出信息的整个链条中,该方案提供了数据字典、数据血缘等高级的数据治理功能,保证了数据仓库建设的高效性,并对实际业务产生价值。

方案功能

  • 数据采集

    集成多种异构数据源,可将用户存储在各种环境的业务数据进行整合传输至数据仓库系统,包括关系型数据库、大数据存储、本地数据文件等,并对非结构化数据进行自动转换。

  • 数据处理

    支持SQL及Spark DataFrame API编写ETL程序,支持Java、Python、Scala编写的第三方或者本地代码,支持ETL工作流例行调度,可在Notebook中即时查询以及展示结果,对数据处理过程进行监控管理。

  • 查询分析

    高度兼容SQL标准,提供库内分析、窗口函数等高级分析功能,只需执行SQL语句,即可对海量业务数据进行多维分析,毫秒级高性能响应,迅速获知查询结果。

  • 可视化

    通过Habo平台将数据分析结果以图表形式可视化展示,支持多种图表类型和模版配置,支持定时数据更新,自动拉取数据更新表格数据;支持报表导出,方便业务存档。

方案架构

应用场景

  • 商业决策

    在电信、银行、保险、证券等领域,企业需要准确的判断市场并及时做出正确的商业决策;面对大量业务数据,企业需要分析数据以提炼数据价值,并将分析结果呈现给不同级别的业务人员。数据仓库服务提供高性能分布式数据分析服务,集成可视化平台,可帮助企业快速搭建智能BI系统,实现一站式数据分析并生成报表,辅助企业进行商业决策。

  • 数据管理

    在互联网时代,企业的业务数据类型不再是单一的结构化数据,各个业务系统数据类型繁多、体量剧增,企业需要高效的对数据进行分类和管理。数据仓库服务支持多种异构数据源的导入和存储,帮助企业快速同步数据,并进行数据清洗和模型分析,将企业数据按业务主题分类管理,提供标准JDBC接口,支持数据应用到各种业务系统。

  • 实时分析

    对于互联网业务中越来越多的流式数据以及需要实时响应查询结果的场景,数据仓库服务可以将海量数据实时传输和快速聚合,并进行实时数据清洗、处理和分析,作业达百万吞吐性能,可实现秒级响应计算结果,迅速响应业务端各种实时查询需求,对在线大屏、监控报警等应用场景提供实时计算和分析支持。

方案优势

  • 自动化的集群管理能力

    自动创建计算集群,并且能够动态的扩容和缩容,有效降低成本,提供快速、简单、可扩展的数据仓库,且实现自动运维。

  • 数据安全嵌入

    在数据仓库中支持了认证权限访问控制,API Gateway安全域隔离,且支持数据加密、脱敏、水印等安全能力,保证数据不丢失、不泄露。

  • 支持异构的数据处理架构

    数仓方案本身可以兼容下游多个物理集群存储介质,支持数据统一的视图,在逻辑层面进行元数据的计算和管理。

  • 稳定性可靠性保证

    稳定的调度系统对全链路的数据加工过程进行调度执行。多维度多手段的预警和链路分析工作,保证数据的稳定产出。

客户案例

  • 用户行为数据仓库助力企业通过分析用户行为数据进而获取洞察力。百度用户行为数据仓库底层基于数据仓库解决方案,是全百度最大的数据仓库,总量有超百P的数据,每天更新数据超百T,为百度全产品线提供了基础数据服务。
  • 在数据仓库基础上,百度大数据平台管理了全百度的数据资产,支持全百度的数据交换和流通管理,进行数据的分析、计算、报表等功能,而不用让用户把数据拖走到自建集群中,数据仓库解决方案为整个百度大数据平台的建设和发展提供了基础性的支持。
QQ群:650596829