数据库基础知识

更新时间:2023-10-11 08:35

数据库系统与应用 - 第十二章数据挖掘技术

荔波电子科技大学 libo@ 028-83205198

第十二章数据挖掘技术

数据挖掘概述 数据挖掘的主要任务 数据挖掘的主要技术 关联规则挖掘 聚类分析算法 数据挖掘与数据仓库 数据挖掘技术应用领域

2009

电子科技大学李波

12.1 数据挖掘技术背景

数据库、数据仓库和其他信息存储库中的数据量急剧增加。传统的数据库技术无法发现这些数据中隐含的规则和模式。存在“数据爆炸与知识贫困”之间的矛盾。数据挖掘是在大量、不完整和嘈杂的数据中发现潜在的、有价值的模式和数据之间的关系(或知识)的过程。

2009

电子科技大学李波

12.2 数据挖掘的主要流程

数据清理和集成,数据清理消除噪音或不一致的数据。数据选择和转换。数据选择的目的是确定需要分析的数据集,缩小处理范围,从数据库中提取与分析任务相关的数据,提高数据挖掘的质量。数据挖掘是数据挖掘的基础部分,由特征、关联、分类、聚类分析、演化和偏差分析等一组功能模块组成。模式评估与表示就是根据最终用户的决策目的对提取的信息进行分析,区分出最有价值的信息,并通过决策支持工具提交给决策者。

2009

电子科技大学李波

12.2 数据挖掘的主要流程(续)

数据挖掘——知识探索过程的核心

模式回顾

数据挖掘与任务相关数据仓库数据清洗数据集成数据库2009电子科大李波5

选择并变换

12.3 数据挖掘的任务

概念描述:表征、区分、总结、数据比较特征的形成

相关性(相关性和因果关系)尿布啤酒[0.5%, 75%]

分类和预测构建模型表达式来描述和区分不同类别或预测概念:决策树、分类规则、神经网络来预测某些未知或缺失的数值​​

2009

电子科技大学李波

12.3 数据挖掘任务聚类分析类型标记未知:将数据聚类到新类中最大化类内相似性并最小化类间相似性

隔离点分析 隔离点:与通常行为不匹配的数据对象 噪声或均值:欺诈检测、稀有事件分析 趋势与发展分析 趋势与偏差:回归分析 序列模式挖掘、周期分析 基于相似性的分析 其他方向模型或统计分析 2009 电子科技大学 李波 7

12.4 关联规则挖掘示例 某超市销售系统记录了5位顾客的购物清单。

按序列号购买的商品列表 1 啤酒、披萨、牛奶 2 烤鸭、披萨、面酱 3 啤酒、烤鸭、披萨、面酱 4 面酱 5 烤鸭、面酱 经理想了解关系产品之间。顾客买了面,要酱你就买烤鸭吗?要求挖掘出支持度≥2/5(即至少出现两次)的产品之间的相关性。

2009

电子科技大学李波

关联规则挖掘(实例分析)著名的Apriori算法多次扫描数据库,得到如图3所示的表格(支持度<2的项已被省略)单项统计

总支持{啤酒} 2/5{烤鸭} 3/5{面条} 3/5{面酱} 4/5 说明:从个人统计来看,有60%的顾客购买了烤鸭,60%的顾客买了面条,80%的顾客买了面条

2009

电子科技大学李波

关联规则挖掘(续实例分析) 双项统计 {啤酒、面饼} {烤鸭、面饼} {烤鸭、面酱} {面饼、面酱} 支持 2/5 2/5 3/ 5 2/5

双重统计显示,60%的顾客购买了烤鸭和面酱。三个统计{烤鸭、面饼、面酱} 图3 40%的顾客同时购买了烤鸭、面饼和面酱。所以可以推导出以下三个规则: 支持2/5

2009

电子科技大学李波

关联规则挖掘(挖掘结果应用) R1:烤鸭面和面酱。支持度为40%,置信度为66.6%。 R2:烤鸭配面条和面酱。支持度为 40%,置信度为 66.6%。 R3:酱面和煎饼,烤鸭。支持度为 40%,置信度为 50%。 KDD 结果不一定是因果关系。妙用源于人。例如:如果你用R1降低烤鸭的价格来推销面条和面酱,你很可能会破产。如果你用R2降低面价来推销烤鸭,你可能会发财;如果使用R3,就无法调动顾客的积极性。

2009

电子科技大学李波

12.5 矿业分类知识

住房分配示例(监管分类) (1)输入:训练数据集(符合群众利益或领导意图) 姓名 张三李四 王武 张 C 李 D 王 E 职称 高级工程师助理工 助理高级工程师 高级工程师 高级工程师 图 4 工龄 25 20 10 25 30 20 结果得分 5 4 1 3 6 5 家庭规模 3 4 2 2 3 5 身高 1. 7 1. 7 1. 8 1. 7 1 . 7 1. 8 重量 80 85 65 80 85 65 适宜居住面积 85 75 50 75 85 70

住房分配培训数据

2009

电子科技大学李波

分类知识的挖掘(住房分配实例分析) (2)输出从训练数据中“发现”一个住房评分公式(知识) (3)调用特征选择过程。将张三与张C、李四、李D、王五、王E进行比较,发现身高、体重与住房无关,删除(4)交互生成权重机制Total=ΣPiFi,其中Fi为各条件的量化值,Pi为加权值,总分应为居住面积。 (5)根据训练数据调整权重。例如,张三以及与张三条件相似的人应该居住在85平方米等,这样训练集中记录的ΣPiFi正好在居住面积的分数段内。 (6)利用测试数据测试并修改公式Total=ΣPiFi

2009

电子科技大学李波

分类知识挖掘(住房分配实例分析续)

(7) 公式Total=ΣPiFi就是从数据中“挖掘”出来的可以推广使用的分类知识。 KDD首先来源于实践,然后运用于实践。

2009

电子科技大学李波

12.6 基于决策树的分类

节点淘汰率信息增益(熵)理论是大学招生德智体三标准(阈值)的更深层次的例子。决策道德不满意 0.1% 不满意 60%

志(总分)99.9%

身体39.9%

6.9% 失败

入场费33%

2009

电子科技大学李波

基于决策树的分类(高考招生示例,续)

上面的决策树把道德教育放在第一位。绝大多数候选人都符合标准。第一个节点(德育)分流后,候选空间并没有迅速减小(信息增益较小)。如果智育节点提前的话,第一步候选集可以减少到1/3,改善整个系统

效率。事实上的招生过程就采用这种方法。决策树分类技术研究节点集的选择、节点的顺序、阈值的确定公式等,其目的是使分类更准确、更快速。

2009

电子科技大学李波

决策树分类熵信息。增益(信息增益)熵(entropy)。例如,e=1 表示数据集中的正例和负例相等。信息。 Gain(信息增益):给定的属性作为节点,将目标集从训练集中去除的速度(消除率)。

c ( S )=Σ p log p 。 i 2 i i=1

Gain(S,A)是节点比较和熵的减少。信息增益使用所有训练样本,并且对干扰不敏感。

增益(S,A)=熵(S)

|Sv|熵(Sv ).Σ v∈values(A)|S|

2009

电子科技大学李波

决策树分类熵信息。增益(信息增益)

在某些字母值处信息增益很大。信息增益比会惩罚某些值。 |硅||硅| 。 SplitInfo( S, A) Σ log|S| 2|S|

热门文章