CDA > 课程笔记 > Chap0-课程导读
数据基本概念
引言
感知型企业与数据应用系统的演进
- 敏捷分析平台(BI)
- 行为数据平台(数据挖掘)
- 协同思维平台(数据驱动业务)
- 分析应用平台(数据中台)
- 自主决策平台(职能平台)
EDIT 数字化模型
- 业务运行探索(Exploration)
- 业务宏观分析
- 指标突然下降
- 问题根因诊断(Diagnsis)
- 宏观分析/微观分析
- 内外部原因
- 业务策略指导(Instruction)
- 根据知识库、策略库、流程模板便捷的制定优化策略
- AB 测试
- 算法建模
- 数据算法工具(Tool)
- 各类标签库、指标库、流程库,指导业务人员进行洞察以及调阅等
数据分析分类
企业业务层级 | 决策需求 | 数据产品类型 | 数据范围 | 数据获取方式 |
---|---|---|---|---|
战略 | 做什么?为什么做? | 市场/行业指标型 | 市场/行业外部数据 | 国家统计局、行业报告、市场调研等 |
管理、运营 | 做的如何? | 智能报表型 | 企业内部数据 | 企业业务系统 |
操作 | 如何做? | 智能分析决策型 | 内部+外部数据 | 企业业务系统+外部数据供应商 |
数据分析的方法
- 常用报表
- 即席查询
- 多维分析
- 警报
- 统计分析(以上为描述分析,以下为挖掘阶段)—主要解决根因分析,做统计检验
- 预报—宏观指标预报
- 预测型模型—微观个体进行预测
- 优化—宏观(根据业务进行策略优化)/微观(根据不同个体进行不同策略)
数据分析流程
业务描述性分析流程
- 业务理解
- 数据获取
- 数据处理
- 数据分析
- 结果展现
CRISP-DM 方法论(根因分析、数据挖掘)
- 业务理解
- 数据理解
- 数据准备
- 建模
- 模型评估
- 模型发布
SEMMA 方法论
- 定义业务问题
- 环境评估
- 数据准备
- 循环往复的挖掘过程(探索-抽样-评估-建模-修改)
- 上线发布
- 检视
探索-抽样-评估-建模-修改(SEMMA)
- 抽样(sample):数据分为训练和测视集;由于变量取值过少,采取过采样技术,使损失率到 5%
- 探索(explorer):单变量探索为修改提供指导;双变量探索发现关系
- 修改(modify):异常点和缺失值的补缺;分类型变量采用基于分布方法;区间型变量采用 Ander`s Wave;关键变量进行规范化,考虑偏峰度便于建模
- 建模(model):神经网络;逻辑回归;CHAID 式决策树
- 评估(assess):通过验证集进行结果评估;发现神经网络进行流失预测最精准
不同角色在 EDIT 中的分布
- 探索 E–业务数据分析师
- 诊断 D(根因分析)–业务数据分析师
- 指导 I–建模分析师
- 工具 T–建模分析师
- 数据能力统筹、建设–数据科学家
数据化指标体系
- 是什么?
- 定义、数值(范围;波动性、动态/静态)
- 从哪来?
- 直接定义
- 间接计算/筛选
- 怎么用?
- 场景、业务话题
数据化指标概述
合适的角度
对数据的需求形式(包括信息量、颗粒度以及呈现方式)都有所不同。因此实际情况中通过多层级方式进行展示。
管理层(有代表性、核心突出、波动性强)
整体化数据,当前 kpi 达成情况、不同团队排名,重点关注和预警的问题。- 概况
- 核心
- 信息点突出
运营团队
整体和细分数据,不同时间点的变动情况(特别是关键节点,如产品上下线、活动前后、重大舆情等)- 钻取式数据
- 逻辑
- 有层次感
一线团队
详细到团队及个人的数据,可以拆解到具体行动层面。- 详细
- 及时
- 可操作性
合适的维度与对标
数据是流动的,有对比才有发现。
- 合适的维度:结果维度与操作维度
客单价 转化率 交易量 渠道 种类 平台 - 横向对比:同一时间点,不同样本
变现 时间段 竞争力 - 纵向对比:同一样本,不同时间点
变化 时间线 发展性
获客类指标体系
数据驱动获客
- 客户从哪儿来(接触)
流量 费用 费效比 - 能不能留得住(购买转化)
质量 成长性 成长周期
常用获客指标
- 收入
- 成本
- 时效
客户价值(净收入)= 产品收入-业务费用-营运费用
业务费用
- 获客费用
- 商业渠道:不同月份用户的成本差异
- 用户推荐:推荐人和被推荐人的成本分离
- 其他渠道:预算/新客数
- 促销费用
- 活动成本:直接、间接
- 补贴:奖励券(去复算)
- 支付费用
- 充值取现
- 支付费率
- 其他费用
- 摊销法:摊销主体确认
收入注重构成
- 客户:新/老客户
- 产品:
- 高效产品驱动型(利润高;产品质量)
- 引流产品驱动型(薄利;羊毛党)
- 均衡贡献型(引流、高效;密切)
- 活动驱动型(活动导向、价格敏感;关注)
客户的成长性不同
- 成长价值:成长时间、成长天花板
营销类指标体系
客户购买力提升:价值提升、潜在流失客户激活、拉新作用(宣传)
精准营销
- 合适的客户
- 那些客户会买?(意愿)
- 会买的能买多少?(能力)
- 合适的产品
- 消费
- 恰当的时机
- 促销沟通的时间
- 促销时间段选择
常用营销指标:产品
促销活动热度曲线(浏览、点击、咨询、搜索、新闻报道、微博、抖音、领券)
- 响应率/衰减周期(热度)
反馈/兴趣 - 命中率/覆盖率
产品与客户之间匹配度
命中率衡量合适的产品
覆盖率衡量合适的客户 - 销售额提升度:效果
- 有无其他影响因素(周期性、淡旺季)
- 费效比
- 参与集中度
辅助判断效果
常用营销指标:时机
- 告知客户的时机(数据分析)
- 留给客户购买的时间(经验判断)
- 推送时间(因人而异)
- 推送方式(因人而异)
- 沟通时长(因产品复杂度/价格而异)
- 跟踪时长(因产品复杂度/价格而异)
常用营销指标:效果评估(结果维度)
- 直接效果
- 组合推荐通过客户购买(单品购买、多品购买)命中率衡量组合是否合适
- 间接效果
- 活动增加的销售额(时间维度下活动/非活动销售额对比)
- AB 测试
- 测试组和对照组对比
预警类指标体系
流失预警
- 客户流失 ≠ 业绩流失
- 客户什么时候做选择(时间)
- 让客户少做选择(流程)
问题的特点
快速的拉客增长可能会掩盖老客户的流失增长
- 选择时间点 ≠ 想离开的时间点
- 新客增加 VS 老客流失
常用流失预警指标
- 高频行业(外卖、共享单车)
- 交易类指标:交易额、交易次数、客单价
- 低频行业(投资/理财、奢侈品、电器、电子产品)
- 指标比较:横向(同类客群)、纵向(边际交易额变动)
- 反馈类指标:活动响应率、电话接通率、社群反馈、登录/浏览
常用流失预警指标:挽回可行性
- 是否有联系:余额、高额促销、未清空购买清单
- 时间:呆滞时间、资金交互时间、集中度
案例:客户流失潜伏期识别
- 图表展现:有规律的模式才是有意义的
- 客户行为模式曲线:流失潜伏研究的是 3-9 个月的客户(登录、购买等行为情况)
- 提取曲线的相似因子:识别异常(偏离)、总结特征(波动/突兀消费)
- 突发事件的预测:定时防守、社群防守
产品类指标体系
产品特征
收集容易、标签较少
- 期限特征
- 短/中/长
- 固定开放窗口/非固定开放窗口
- 门槛特征
- 引流产品
- 盈利产品
- 过渡产品
- 现有产品重合度
- 互补产品
- 强势产品
- 试验产品
案例:客户覆盖率及产品线竞争力分析
百分比堆积面积图展现
- 产品 VS 客户覆盖率
- 客户消费稳定性:金额、频次、波动性
- 产品同质性:共有客户重叠率、新增增长率(客户来源判断)
案例:产品上下架业务影响预测
- 产品间转化:多使用面积图/饼图
- 客户群体变化:多使用漏斗图
运营指标体系设计
注意事项
- 数据不足的地方:概率化的定性分析(人为补充)
- 数据过多的地方:分层定量(逻辑拆分)
- 视角转化:指标的加减乘除
- 波动率监控:波动太大或者太小都不是好指标(太大灵敏度过高)
指标展示
监控类指标设定
- 指标名称
- 数值
- 异常程度
- 主要异常因子
- 可能原因
- 关闭提醒
报表元素
- 第一部分 → 说明:数据来源/模型说明/定义阐释
- 第二部分 → 并列(不同主体)/总分(群体)
- 第三部分 → 结论(可有可无)
指标与图表的组合
- 理解指标
- 直接型指标(现状)
- 间接型指标(公式拆解)
- 原因型指标(过程指标;群体对比)
- 预测型指标(结果指标;命中率 → 预测型)
- 理解图表
- 分布型图表(面积图、折线图)
- 特征型图表(条形图)
- 差异性图表(多元折线图、多组条形图)
- 信息型图表(蜘蛛图)
汇总与明细的平衡
- 汇总数据
- 绝对值同样重要
- 横向对比 VS 纵向对比(相对)
- 区分同比和环比(季节性;新业务)
- 识别明显差异(下钻追因)
- 明细数据
- 验证式信息(支持备查)
- 补充式信息