CDA Level-II 数据采集与处理

  • ~2.38K 字
  • 次阅读
  • 条评论
  1. 1. 数据分类
    1. 1.1. 业务视角
    2. 1.2. 数据管理视角
    3. 1.3. 双重视角看数据
  2. 2. 数据建模
    1. 2.1. 数据建模基本概念
    2. 2.2. 概念、逻辑和物理数据模型
      1. 2.2.1. 两种不同的建模模式:关系和维度
      2. 2.2.2. 企业数据模型是典型的关系建模模式的产物
    3. 2.3. 数据模型的范式规则
    4. 2.4. 3NF 数据平台模型(关系模型)
    5. 2.5. 维度数据平台模型
  3. 3. 数据仓库体系和 ETL
    1. 3.1. OLTP VS OLAP
    2. 3.2. 数据仓库特征
    3. 3.3. 数据集市和多维分析
    4. 3.4. ETL 过程

CDA > 课程笔记 > Chap3.数据模型管理

来源: CDA level 2 级课堂笔记

数据分类

  • 数据是以文本、数字、图形、声音、视频等格式对事实进行表现。

  • 信息是指有上下文的数据。上下文包括:

    • 数据相关的业务术语的定义
    • 数据表达的格式
    • 数据所处的时间范围
    • 数据与特定用法的相关性
  • 知识是基于信息整合形成的观点,是基于信息对模式、趋势的识别、解释、假设和推理。

业务视角

TD FS-LDM(面向金融的数据模型)

数据管理视角

数据分类 描述
主数据 是关于业务实体的数据,描述组织内的“物”。
如:人、地点、客户、产品等
交易数据 (事务数据、业务数据)
描述组织业务运营过程中的内部或外部“事件”。
如:销售订单、通话记录等
统计分析数据 (指标)
是对企业业务活动进行统计分析的数值型数据,即指标。
如:客户数、销售额等
参考数据 是用于将其他数据进行分类或目录整编的数据,规定参考数据是几个允许值之一。
如见客户等级分为 A、B、C 三级
元数据 (数据字典)
是描述数据的数据,帮助理解、获取、使用数据,分为技术元数据、业务元数据等

双重视角看数据

从业务视角到数据管理视角双重查看。

数据建模

  • 构建应用系统的核心
  • 精确地表示业务活动的概念性框架
  • 定义了操作者、行为及业务管理流程的规则
  • 数据模型决定应用系统开发及效率
    • 不良的的数据模型带来性能降低,不精确的查询,缺乏弹性规则和不一致的元数据
    • 精良的数据模型是用户与 IT 专家之间的桥梁,可以通过概念模型、逻辑模型进行描述,对模型进行审

数据建模基本概念

  • 建模技术:借助模型来分析、设计应用系统的技术
  • 模型:现实世界中某些事物的一种抽象表示
  • 抽象:抽取事物的本质特性,忽略事物的其他次要因素
  • 模型:是理解、分析、开发、或改造事物原型的一种常用手段(如:建筑物蓝图)

概念、逻辑和物理数据模型

三种不同从层次模型:概念、逻辑、物理

CDM 描述预设范围内的业务需求;

LDM 详细业务解决方案;

PDM 详细技术解决方案。

两种不同的建模模式:关系和维度

  • 关系:通过准确的业务规则来描述业务如何运作的过程
  • 维度:通过准确的导航描述业务如何被监控的过程

企业数据模型是典型的关系建模模式的产物

  • 主题域模型

    • 处于企业数据模型的顶层,是针对企业关键业务领域业务概念的分类方法和框架
    • 构建企业数据模型,首先设计主题域模型
  • 概念模型

    • 以实体-关系(E-R)理论为基础,通过主题域形式描述概念化的结构
    • 是一种高阶的数据模型
    • 模型特征:
      • 是对主题域模型的进一步细化
      • 定义了企业内主要业务实体及实体间的业务关系
      • 不描述业务实体的数据属性
      • 实体之间可能存在多对多关系,不对数据进行范式化处理
  • 逻辑模型

    • 是对概念模型的进一步分解和细化,通过关键数据属性,描述更多业务细节

    • 描述实体、属性以及实体关系

    • 只包含关键数据属性,而不是全部实体和全部属性

    • 设计时一般遵循“第三范式”,以求达到最小的数据冗余,维护数据的完整性和可扩展性

      • 检查数据模型是否符合第三范式要求,有以下三条检验标准:
      • 每个属性的值唯一,不具有多义性
      • 每个非主属性必须完全依赖于整个主键,而非主键的一部分
      • 关系模式中不存在传递依赖
    • 独立于具体技术,是 IT 人员和业务人员沟通的工具

  • 物理模型(两个层次)

    • 转换模型:创建物理数据库信息,定义和记录数据字典生成数据库元素和记录提供上下文环境,提供数据库结构
    • DBMS 模型:DBMS 模型记录位于 DBMS 模式或系统表之中的物理数据库对象的定义。通过 DBMS 模型自动生成这些对象,主键成为唯一索引、候选键和查询项也成为索引

    关系基数:通过数据库的参照完整性功能、应用程序逻辑、其他事后监测和修正功能得以实现

数据模型的范式规则

范式规则:是根据主键和外键整理数据元素。可归类到不同层次,对每个层次应用更细粒度和规范性搜索正确的主键和外键,确保每个层次都可以包含一个独立的范式。

  • 1NF:确保每个实体都有一个有效的主键,依赖主键,消除冗余分组,确保数据元素原子性,无多值存在
  • 2NF:确保每个实体都有最小的主键,每个数据元素都依赖于完整的主键
  • 3NF:确保每一个实体都没有隐藏的主键,每个数据元素都不依赖于主键之外的数据元素,依赖且仅依赖于完整主键

3NF 数据平台模型(关系模型)

关系模型主要应用于业务系统和传统数据仓库系统中,为了保证数据的一致性以及冗余,所以大部分业务系统的表都是遵循第三范式的。

维度数据平台模型

维度模型主要应用于数据集市系统中。因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。

星型:事实表对多个维度表

雪花型:维度进一步拆分。

数据仓库体系和 ETL

OLTP VS OLAP

OLTP:联机事务处理系统,也称生产系统。它是事件驱动、面向需求的,比如银行的储蓄系统。OLTP 在使用过程中积累大量的数据。是数据库应用的主流。

特点:

  • 对响应时间要求非常高
  • 用户数量非常庞大,主要是操作人员
  • 数据库的各种操作基于索引进行

OLAP:联机分析处理系统。是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分,是数据驱动、面向分析的。是跨部门、面向主题的。

特点:

  • 基础数据来源于生产系统(OLTP)的操作数据
  • 对系统的响应时间合理
  • 用户数量相对较小,主要是业务决策人员和管理人员

数据仓库特征

  • 面向主题
  • 集成
  • 稳定性
  • 随时间而变化(时间维)

数据集市和多维分析

现代多维分析系统一般以数据仓库为基础,即从数据仓库中抽取数据的一个子集并经过必要的聚集存储到数据立方体存储器。

ETL 过程

抽取、转换/清洗、加载。

赞助喵
非常感谢您的喜欢!
赞助喵
分享这一刻
让朋友们也来瞅瞅!