CDA > 课程笔记 > Chap4.统计分析
统计分析基础
分析框架
sequenceDiagram
participant 论断
participant 相关
participant 因果
participant 预测
participant 业务建议
participant 实施
participant 效果评估
论断->>相关: 统计检验
相关->>因果: 业务推理
因果->>预测: 运用知识
预测->>业务建议: 结合业务目标
业务建议->>实施: 提供操作名单
实施->>效果评估: 设置参照组
1.关联性分析框架
关联:
偶然关联
有统计学意义关联
虚假关联(选择、测量或混杂偏倚)
因果关联(有时间先后)
- 间接因果关联
- 直接因果关联
2.统计分析流程
提出问题/明确目标 → 设置指标/收集数据 → 选择统计方法/构造理论模型 → 检验是否通过(否的化就继续循环过程)→ 应用模型(分类研究、结构分析、相关分析、预测决策)
3.统计分析主要内容
统计方法:
- 描述分析
- 统计推断
- 参数估计
- 假设检验
4.两大类统计分析方法
描述性分析:
- 总体规模
- 对比关系
- 集中趋势
- 离散程度
- 偏态峰态
- …
推断性分析:
- 参数估计
- 假设检验
- 列联分析
- 方差分析
- 相关分析
- …
样本与总体
总体:研究所感兴趣的所有个体组成总体
样本:从总体中抽取的部分个体组成样本,样本用于对总体的某些指标作为推断使用
参数和统计量:统计量由样本获取,用于对总体的参数进行估计
- 参数:总体的特征
- 统计量:样本可测的特征
- 抽样分布:从总体随机抽取的样本中给出统计量的概率分布
- 统计推断:根据从总体随机抽取的样本中给定的统计量估计总体参数
正态分布、三大分布(泊松分布、伽马分布、对数正态分布)都属于整体分布
t 分布、F 分布、卡方分布属于抽样分布
- 正态分布(例如:身高,线性回归预测)
- 泊松分布(总体无限大,概率比较小;例如排队时的队伍长短;泊松回归预测)
- 伽马分布(例如:保险行业损失额度;伽马回归预测)
- 对数正态分布(取对数后服从正太分布;例如收入服从对数正态分布,收益率服从正态分布,收入是收益率的积分;对收入取对数后线性回归)
中心极限定理:只要样本量足够大(大于 30),无论总体呈现什么分布,抽样的样本均值总是服从正态分布
参数估计
参数是刻画总体某方面的分布特性的数量。
- 均值的标准误差是衡量估计的均值的变异程度
- 均值的标准误差随样本的标准差变化而变化
- 均值的标准误差(标准误):
- 置信区间:
样本均值 置信度,自由度为样本量-1
1.参数估计的步骤
- 选定参数:确定需要估计的参数
- 总体均值的估计:单总体均值,两总体均值之差
- 总体比例的估计:
- 总体方差(标准差)的估计:
- 选定统计量:确定估计参数的统计量
- 抽样分布:已知或假定模型分布
- 总体均值服从正态分布,则抽样分布服从:
- 总体均值服从正态分布,则抽样分布服从:
- 估计:得出结果
2.矩估计
优点:
- 不依赖总体的分布,简便易行
- 只要 n 充分大,精确度也很高
缺点:
- 精度较差
- 要求总体的某个 k 阶矩存在(柯西分布不存在,因此不适用)
- 要求未知参数能写成总体的原点矩的函数形式
3.极大似然估计
前提:必须知道概率密度。
令一阶偏导数为 0,取到极大似然值。
- 优点:利用了分布函数形式,得到的估计值的精度一般较高
- 缺点:要求必须知道总体的分布函数形式
假设检验
假设检验的示例
- 建立假设
- 设置显著度水平
- 收集数据
- 决策依据
假设检验的基本概念
- 事先对总体分布或总体参数作出某种假设,然后利用样本信息来判断原假设是否成立
- 可分为参数假设检验和非参数假设检验
- 逻辑上类似于“反证法”,统计学上称为“小概率原理”
1.小概率原理
指概率很小的事件在一次试验中几乎不可能出现。
2.基本概念
- 原假设:
- 待检验的假设,用 H0 表示
- 假设总体参数无显著变化
- 备择假设:
- 与原假设相反
3.假设表达式
双侧/单侧
假设检验中的两类错误
- 弃真(α):越小的话 β 越大,因此不追求过分小
- 存伪(β):分布变瘦可降低错误(提高样本量)
假设检验与区间估计的联系
- 相同点:通过样本得到的统计量对总体参数进行推断。
- 区间估计:总体参数 μ 未知,通过样本估计 μ 的置信区间
- 假设检验:先对总体参数 μ 提出假设,再通过样本检验假设是否成立
假设检验的基本步骤
- 提出原假设,确定业务需求
- 选择合适的检验统计量
- 已知总体方差,Z 检验:
- 总体方差未知,t 检验:
- 已知总体方差,Z 检验:
- 确定显著性水平 α
- 常用取值 0.01,0.05
- 计算检验统计量
- 把待检验的值代入统计量中进行计算
- 作出统计决策,接受或拒绝原假设
- α 临界值法 – 最常用
- P 值法 – 最好用
- 置信区间法 – 原理最简单
样本量 2000 对应千分之一的三星显著;
样本量 1000 对应百分之一的二星显著;
样本量 500 对应百分之五的中等显著(一星);
样本量 100 对应百分之十的显著。样本量降低的话可以适当调整 p 值的数值。
配对样本 T 检验
用于检验两配对样本的均值是否有显著性差异(总体应服从或近似服从正态分布),可分为两种:
- 用于同一研究对象分别给予两种不同处理结果
- 对同一研究对象处理结果前后进行比较
检验步骤:
- 提出假设:
- 原假设:
- 备择假设:
- 原假设:
- 建立检验统计量:设两总体 X,Y 分别服从正态分布,两样本之差
则:
A/B 测试优化法
典型过程:
- 确定目标
- 开始做实验
- 借助工具,收集实验数据
- 让数据说话,校验实验结果
- 继续重复步骤,下一次迭代
提交转化率 ✖ 有效转化率 ✖ 购买转化率 = 整体有效率
优化指标:以提高整体有效率为目标,但是也要兼顾每个步骤的指标,重点关注各版本最终带来的有效线索转化情况。