数据挖掘:概念与技术
数据仓库和数据挖掘的OLAP
数据仓库意义
OLAP基本概念,一般结构
数据仓库概念
数据仓库是一个面向主题的,集成的,时变的,非易失的数据集合
构造 * 数据集成 * 数据清理 * 数据统一
多维数据模型
OLAP操作
- 上卷
- 下钻
- 切片分片
- 转轴
星行查询
数据仓库系统结构
设计视图
- 自顶向下
- 数据源
- 数据仓库
- 商务查询
步骤
- 选取商务模型
- 选取商务处理粒度
- 选取维
- 选取度量
三层结构
- 服务器
- OLAP服务器
- 客户
结构模型
- 企业仓库
- 数据集市
- 虚拟仓库
OLAP服务器种类
- 关系OLAP
- 多维OLAP
- 混合OLAP
- 特殊SQL服务器
数据仓库实现
核心是有效计算多个维度上的聚集
compute cube
扩充SQL
- 多数OLAP借助于多维聚集的预计算
- 部分物化
- 并行机制和渐进更新
ROLAP 使用元组和关系列表
- 排序,散列,分组
- 部分分组
- 基于预计算的进一步计算
MOLAP 多维数据模型数组 多路数组聚集
- 数据分块
- 优化访问方单元
ROLAP vs MOLAP
- 借助稀疏数组压缩以及方体计算顺序,MOLAP快得多
- MOLAP不需要查找关键字
- MOLAP使用数组寻址
索引OLAP数据
- 位图索引
- 允许快速检索
- 比较,链接, 聚集操作变为位运算
- 链接索引
- 星型模式
- 复合链接索引
高效OLAP查询
- 确定可以在方体上完成的操作
- 确定使用的物化方体
元数据存储
关于数据的数据
- 数据仓库描述
- 操作元数据
- 汇总算法
- 操作环境到数据仓库的映射
- 系统性能数据
- 商务元数据
后端工具和实用程序
- 数据提取
- 数据清理
- 数据变换
- 装入
- 刷新
数据方进一步发展
发现驱动探查
- selfexp
- inexp
- pathexp
三遍计算
多粒度复杂聚集: 多特征方
其他进展
- 联机查询,返回至今为止的信息,提供交互的,周期性更新的信息
- 最高N查询
数据仓库到数据挖掘
一般数据仓库使用的时间越长,进化的越好
数据仓库应用
- 信息处理
- 分析处理
- 数据挖掘
OLAP和数据挖掘
- 不相交
- OLAP是数据汇总/聚集工具,目的是简化和支持交互数据分析
- 数据挖掘尽可能自动处理,允许用户指导该过程
- 数据挖掘包含数据描述和数据建模,比OLAP宽泛,复杂性也大得多
联机分析处理到联机数据挖掘
联机分析处理重要性 - 数据仓库数据的高质量 - 环绕数据仓库的有价值的信息处理基础 - 基于OLAP探测式数据分析 - 数据挖掘的联机选择
数据预处理
- 数据清理
- 数据集成和转换
- 数据归约
数据清理
遗漏值处理
噪声数据
数据集成和变换
- 数据集成
- 数据变换
数据归约
数据挖掘原语,语言和结构
数据挖掘无法在无人干预到情况下自动的挖掘出人们想要信息。更现实的做法是提供一系列原语供用户进行使用
数据挖掘原语
- 任务相关数据
- 挖掘类型
- 背景知识
- 兴趣度量
- 发现模式和可视化
数据查询语言
- DMQL
- MSQL
- DM OLE DB
- CRIS-DM
图形界面
标准化到GUI还不清晰
数据挖掘系统
同传统DB/DW是否耦合
- 不耦合 组织数据麻烦,
- 松耦合 可以使用其某些机制,但是基于内存,大数据集表现不佳
- 半紧耦合 比较好
- 紧密耦合 高度期望的
概念描述:特征和描述
描述式数据挖掘和预测式数据挖掘
概念描述产生数据到特征和比较描述
大型数据库到概念描述和OLAP区别额
- 复杂的数据类型和聚集
- 用户控制和自动处理
数据泛化和基于汇总的特征
数据泛化将大的任务相关到数据集从较低概念抽象到较高概念的过程。
面向属性归纳
搜寻相关数据,然后考察属性不同值个数进行泛化
- 属性删除
- 属性优化
如何实现
- 查询关系
- 在关系上统计
解析特征:属性相关性分析
引入属性或者维度的相关性分析,过滤掉不相关或者弱相关的属性
步骤如下:
- 数据收集
- 用保守到AOI进行预先分析
- 使用选定的相关分析度量去除弱相关和不相关的度量
- 使用AOI产生概念
挖掘类比较:区分不同的类
具体实现
- 数据收集
- 维相关分析
- 同步泛化
- 导出比较
大型数据库中挖掘描述统计度量
度量中心趋势
度量数据发散
基本统计图形显示