CDA Level-II 数据采集与处理

  • ~2.57K 字
  • 次阅读
  • 条评论
  1. 1. 统计分析基础
    1. 1.1. 分析框架
    2. 1.2. 样本与总体
    3. 1.3. 参数估计
  2. 2. 假设检验
    1. 2.1. 假设检验的示例
    2. 2.2. 假设检验的基本概念
    3. 2.3. 假设检验中的两类错误
    4. 2.4. 假设检验与区间估计的联系
    5. 2.5. 假设检验的基本步骤
    6. 2.6. 配对样本 T 检验
    7. 2.7. A/B 测试优化法

CDA > 课程笔记 > Chap4.统计分析

来源: CDA level 2 级课堂笔记

统计分析基础

分析框架

sequenceDiagram
    participant 论断
    participant 相关
    participant 因果
    participant 预测
    participant 业务建议
    participant 实施
    participant 效果评估

    论断->>相关: 统计检验
    相关->>因果: 业务推理
    因果->>预测: 运用知识
    预测->>业务建议: 结合业务目标
    业务建议->>实施: 提供操作名单
    实施->>效果评估: 设置参照组

1.关联性分析框架

关联:

  • 偶然关联

  • 有统计学意义关联

    • 虚假关联(选择、测量或混杂偏倚)

    • 因果关联(有时间先后)

      • 间接因果关联
      • 直接因果关联

2.统计分析流程

提出问题/明确目标 → 设置指标/收集数据 → 选择统计方法/构造理论模型 → 检验是否通过(否的化就继续循环过程)→ 应用模型(分类研究、结构分析、相关分析、预测决策)

3.统计分析主要内容

统计方法:

  • 描述分析
  • 统计推断
    • 参数估计
    • 假设检验

4.两大类统计分析方法

描述性分析:

  • 总体规模
  • 对比关系
  • 集中趋势
  • 离散程度
  • 偏态峰态

推断性分析:

  • 参数估计
  • 假设检验
  • 列联分析
  • 方差分析
  • 相关分析

样本与总体

总体:研究所感兴趣的所有个体组成总体

样本:从总体中抽取的部分个体组成样本,样本用于对总体的某些指标作为推断使用

参数和统计量:统计量由样本获取,用于对总体的参数进行估计

  • 参数:总体的特征
  • 统计量:样本可测的特征
  • 抽样分布:从总体随机抽取的样本中给出统计量的概率分布
  • 统计推断:根据从总体随机抽取的样本中给定的统计量估计总体参数

正态分布、三大分布(泊松分布、伽马分布、对数正态分布)都属于整体分布

t 分布、F 分布、卡方分布属于抽样分布

  • 正态分布(例如:身高,线性回归预测)
  • 泊松分布(总体无限大,概率比较小;例如排队时的队伍长短;泊松回归预测)
  • 伽马分布(例如:保险行业损失额度;伽马回归预测)
  • 对数正态分布(取对数后服从正太分布;例如收入服从对数正态分布,收益率服从正态分布,收入是收益率的积分;对收入取对数后线性回归)

中心极限定理:只要样本量足够大(大于 30),无论总体呈现什么分布,抽样的样本均值总是服从正态分布

参数估计

参数是刻画总体某方面的分布特性的数量。

  • 均值的标准误差是衡量估计的均值的变异程度
  • 均值的标准误差随样本的标准差变化而变化
  • 均值的标准误差(标准误):
  • 置信区间:
    • 样本均值
    • 置信度,自由度为样本量-1

1.参数估计的步骤

  • 选定参数:确定需要估计的参数
    • 总体均值的估计:单总体均值,两总体均值之差
    • 总体比例的估计:
    • 总体方差(标准差)的估计:
  • 选定统计量:确定估计参数的统计量
  • 抽样分布:已知或假定模型分布
    • 总体均值服从正态分布,则抽样分布服从:
  • 估计:得出结果

2.矩估计

优点:

  • 不依赖总体的分布,简便易行
  • 只要 n 充分大,精确度也很高

缺点:

  • 精度较差
  • 要求总体的某个 k 阶矩存在(柯西分布不存在,因此不适用)
  • 要求未知参数能写成总体的原点矩的函数形式

3.极大似然估计

前提:必须知道概率密度。

令一阶偏导数为 0,取到极大似然值。

  • 优点:利用了分布函数形式,得到的估计值的精度一般较高
  • 缺点:要求必须知道总体的分布函数形式

假设检验

假设检验的示例

  • 建立假设
  • 设置显著度水平
  • 收集数据
  • 决策依据

假设检验的基本概念

  • 事先对总体分布或总体参数作出某种假设,然后利用样本信息来判断原假设是否成立
  • 可分为参数假设检验和非参数假设检验
  • 逻辑上类似于“反证法”,统计学上称为“小概率原理”

1.小概率原理

指概率很小的事件在一次试验中几乎不可能出现。

2.基本概念

  • 原假设:
    • 待检验的假设,用 H0 表示
    • 假设总体参数无显著变化
  • 备择假设:
    • 与原假设相反

3.假设表达式

双侧/单侧

假设检验中的两类错误

  • 弃真(α):越小的话 β 越大,因此不追求过分小
  • 存伪(β):分布变瘦可降低错误(提高样本量)

假设检验与区间估计的联系

  • 相同点:通过样本得到的统计量对总体参数进行推断。
  • 区间估计:总体参数 μ 未知,通过样本估计 μ 的置信区间
  • 假设检验:先对总体参数 μ 提出假设,再通过样本检验假设是否成立

假设检验的基本步骤

  • 提出原假设,确定业务需求
  • 选择合适的检验统计量
    • 已知总体方差,Z 检验:
    • 总体方差未知,t 检验:
  • 确定显著性水平 α
    • 常用取值 0.01,0.05
  • 计算检验统计量
    • 把待检验的值代入统计量中进行计算
  • 作出统计决策,接受或拒绝原假设
    • α 临界值法 – 最常用
    • P 值法 – 最好用
    • 置信区间法 – 原理最简单

样本量 2000 对应千分之一的三星显著;
样本量 1000 对应百分之一的二星显著;
样本量 500 对应百分之五的中等显著(一星);
样本量 100 对应百分之十的显著。样本量降低的话可以适当调整 p 值的数值。

配对样本 T 检验

用于检验两配对样本的均值是否有显著性差异(总体应服从或近似服从正态分布),可分为两种:

  • 用于同一研究对象分别给予两种不同处理结果
  • 对同一研究对象处理结果前后进行比较

检验步骤:

  • 提出假设:
    • 原假设:
    • 备择假设:
  • 建立检验统计量:设两总体 X,Y 分别服从正态分布,两样本之差 则:

A/B 测试优化法

典型过程:

  • 确定目标
  • 开始做实验
  • 借助工具,收集实验数据
  • 让数据说话,校验实验结果
  • 继续重复步骤,下一次迭代

提交转化率 ✖ 有效转化率 ✖ 购买转化率 = 整体有效率

优化指标:以提高整体有效率为目标,但是也要兼顾每个步骤的指标,重点关注各版本最终带来的有效线索转化情况。

赞助喵
非常感谢您的喜欢!
赞助喵
分享这一刻
让朋友们也来瞅瞅!