分享内容从以下三个方面,介绍如何应对大促数据稳定性保障这一难题:
数据全链路压测、数据应用提前预演、数据变更管控检测
实时流式计算压测,核心解决的问题:将机房性能、数据生产平台、存储系统、数据任务等纳入压测范围,通过充分仿真大促态下用户行为,模拟出大促的访问流量,提前验证系统在目标峰值下的性能表现。通过工具化能力建设,赋能用户完成流量预估、数据建模、链路构建、压测执行、结果分析,全链路的压测验证工作。单次压测的资源成本从十几万降低到几千元,人力投入从几十人减少到几人,三年大促0实时数据故障,100%集群性问题提前拦截,95%以上的业务问题提前发现。
离线分布式计算压测,核心解决的问题:针对日志、交易等大促期间数据量成倍数上涨的关键节点通过数据膨胀压测演练提前发现潜在风险,完成数据任务优化。通过工具化能力建设,赋能用户完成风险任务识别、数据膨胀、链路构建、压测执行、结果分析,局部链路的压测验证工作。用户随时可以开展自主压测,单次投入小时级别,资源成本千元以内,三年大促0离线数据产出故障,85%以上的任务性能问题提前发现。
核心解决的问题:针对部分数据应用场景促前没有真实数据(典型例如活动商品数据、红包玩法数据)提供了一套可行的解决方案,包含预演数据构造、预演链路构建,保障实时/离线数据可以提前生成验证数据产品功能。单人投入即可完成一个数据应用场景的预演,两年支持决策数据产品、商家数据产品、媒体屏等核心功能的数据预演,实现0故障。
核心解决的问题:针对实时流式计算任务、离线分布式计算任务,提供多样化的管控策略,减少大促期间因为重要数据任务变更引入的线上问题和故障发生;提供基础质量与规范的变更检测能力,减少变更引入低级错误的可能性。分别与集团内实时与离线的数据生产平台打通,可定制业务专属的管控检测规范,无需额外人力投入。两年支持数据中台上千次变更拦截,大促0变更导致的故障。
阿里巴巴电商大促双11、618等,峰值时段会产生大量的交易、流量数据,这些数据一方面需要通过实时流式计算提供给相关决策层快速做出决策判断、供给平台商家调整运营策略;另一方面需要通过离线分布式计算产出完整的结果数据提供各端进行复盘和策略再调整。如何保障峰值时段每秒亿级数据的平稳计算和全天万亿级数据的稳定产出,是大促数据稳定性保障面临的巨大挑战。
1. 针对具有峰值特性的大数据应用场景的保障难点,例如:数据时效保障、数据质量保障,提供解决问题的思路。
2. 介绍已落地的方案和实践,从数据全链路压测、数据应用提前预演、数据变更管控检测三个方面,介绍核心能力建设,给予存在相似场景痛点的听众启发,在方案制定、架构设计、工具建设等方面有所借鉴
阿里巴巴 数据安全生产平台技术专家。负责集团决策数据产品保障,包括数据质量、指标正确性、数据稳定性;担任部门双11、618大促PTM,组织决策数据产品、商家数据产品、平台数据产品的稳定性专项开展、风险识别与跟踪;负责部门数据安全生产,制定规范、建设工具能力,提升数据运维保障效率
擅长领域:大数据质量测试、稳定性保障、治理