决策支持系统
数据仓库
是一个将从多个数据源中收集来的信息以统一的模式存储在单个站点上的仓储
问题:
- 何时和如何收集数据
- 使用何种模式
- 数据转换和清理
- 如何传播更新
- 汇总何种数据
抽取、转换、加载
数据仓库模式
事实表
雪花模式
面向列的存储
优势:
- 有较好的传输性能
- 相同类型的值存储在一起提高了压缩效率
局限:
- 读写单个元组需要多次IO
数据挖掘
从数据库中发现知识
- 支持度
- 置信度
分类
机器学习
决策树分类器
stateDiagram-v2
天气 --> 取消: 下雨
天气 --> 交通状况: 晴
交通状况 --> 取消: 拥挤
交通状况 --> 进行: 通畅
构造决策树分类器
贪心算法
最优划分
寻找最优划分
其他类型的分类器
- 神经网络分类器
- 贝叶斯分类器
- 支持向量机
回归
值的预测
分类器验证
- 正确性
- 召回率
- 准确率
- 特异性
关联规则
其他类型的关联
聚类
层次聚类
- 凝聚聚类
- 分裂聚类
其他类型的数据挖掘
- 文本挖掘
- 数据可视化