数据挖掘解决方案

基于百度大数据处理引擎,实现数据分析和挖掘全流程交互式可视化,助客户跨入AI时代。

联系我们

方案概述

内置数据预处理、特征工程,支持机器学习和深度学习等丰富的高层算法和框架,集成知识图谱、用户画像、个性化推荐等功能,覆盖模型训练、预测和部署的全流程。提供一站式、交互式、可视化的数据挖掘解决方案。

方案功能

  • 交互式可视化

    代码(notebook)模式,支持Python、R、SQL、Scala等语言对数据和模型进行操作;组件模式,针对特定场景定制交互框和拖拽式操作,所见即所得。

  • 数据预处理算子

    支持常见的数据预处理算子,包含但不仅限于归一化、零值填充、采样、join、PCA等;对算子结果进行适合的可视化展现,更易理解;提供集群化和硬件适配,以加速算子执行。

  • 模型算法和增强服务

    集成传统机器学习算法,LR、GBDT、Clustering等;集成深度学习框架,百度PaddlePaddle和谷歌Tensorflow;多种增强服务:board形式的训练过程可视化、分布式和硬件适配的算法加速、模型debug和fine-tunning。

  • 特征和模型仓库

    以类似表的方式管理特征和模型;提供简洁的多语言API;支持多级命名空间、分组和版本管理。

  • 全流程管理

    从数据预处理到在线预测的整个处理流程都可以托管到作业调度系统例行执行;提供统一的RESTful API;支持流量控制和版本控制;提供多种部署方式,方便与应用结合。

方案架构

方案优势

  • 高效地交互体验

    支持交互框和拖拽式操作,所见即所得。

  • 多语言支持

    支持Python、R、SQL、Scala等操作数据和模型。

  • 模型和特征仓库

    轻松一键(一行代码)导入导出,兼容常见数据和模型格式。

  • 插件化

    插件化方式便捷地集成丰富的数据预处理、特征工程算子以及机器学习算法。

  • 优选的算法

    优选常用算子和算法,提供可视化绑定和加速(包含集群加速和硬件加速)服务。

  • 支持深度学习

    集成百度PaddlePaddle和谷歌Tensorflow。

  • 模型调优

    提供模型的debug和fine-tuning的能力。

  • 云化的在线预测服务

    支持小流量实验、灰度测试等流量控制特性。

  • 全流程把控

    支持workflow全过程管理以及全流程托管。

  • 应用级解决方案

    集成个性化推荐、用户画像以及知识图谱解决方案。

应用场景

  • 数据预处理和特征工程

    将业务原始数据经过分析和处理用于模型训练,帮助工程师边处理,边观察,不断修饰处理结果,最终形成所需的数据或特征。

  • 模型开发

    在特征库中选择所需的特征,尝试不同的模型,并观察模型的评估结果,支持频繁增减特征,调整模型参数,多个版本之间对比。

  • 模型在线预测服务

    支持多版本、小流量及灰度测试等,并可以解决模型预测与现有应用的整合问题,方便快捷地将训练好的模型上线到业务系统。

客户案例

  • 通过数据挖掘解决方案的Notebook服务,帮助其以交互式的方式进行数据处理和特征工程,并将处理过程分布式化,使其快速完成日常的工作,并能直接使用notebook报告模式来做日常汇报。
  • 通过数据挖掘解决方案的Notebook服务,帮助百度深度学习实验室数据团队快速完成数据预处理工作,为后续的深度学习搭建良好的数据基础。
QQ群:650596829