数据平台建设

  • 日志规范【前端(包含客户端,分析用户行为,留存率,跳转)和后端(服务端,供服务错误分析)】
  • 规范日志 -> kafka ->:
    • hadoop,利用hive或者spark进行批处理
    • storm,spark stream,samza, 进行实时处理或时间窗口数据,按业务聚合数据
  • 数据仓库批处理:
    • 数据建模
      • 基础表(核心是流量模型) -> 数据集市(中间结果) -> 数据报表
  • 数据平台基础组建:
    • 调度系统
    • 计算
    • 传输
    • 数据质量
  • 数据产品
    • 报表系统
    • 数据分析(OLAP,可用apache kylin作为olap引擎)
    • 运营活动系统