【数据挖掘】国科大刘莹老师数据挖掘课程作业 —— 第二次作业

本文介绍: Wri t t en Par t1. 给定包含属性｛He i g h t, Hair, Eye｝和两个类别｛C1, C2｝的数据集。构建基于信息增益（info g a in）的决策树。 Hei g h t Hair Eye Clas s 1 Tall Blond Brown C1 2 Ta

σc,i1exp(−2σc,i2(xi−μc,i2))(6)
对于样本 Z = (Heig h t = Short, Hair = b lond, Eye = b rown) 而言，先计算先验概率

(

)

P(rm C1)

$P (C1)$ 和

(

)

P(rm C2)

$P (C2)$ ，

(

)

P({rm C1}) = frac{5}{9}

$P (C1) = \frac{5}{9}$ ，

(

)

P({rm C2}) = frac{4}{9}

$P (C2) = \frac{4}{9}$ 。针对属性 Heig h t，

(

∣

)

P({rm Height = Short} mid {rm C1}) = frac{2}{5}

$P (Hei g ht = Sho rt ∣ C1) = \frac{2}{5}$ ，

(

∣

)

P({rm Height = Short} m id {rm C2}) = frac{1}{4}

$P (Height = Sho rt ∣ C2) = \frac{1}{4}$ ；针对属性 Hair，

(

∣

)

P({rm Hair = b lond}m id {rm C1}) = frac{2}{5}

$P (Hair = b lo nd ∣ C1) = \frac{2}{5}$ ，

(

∣

)

P({rm Hair = b lond}mid {rm C2}) = frac{1}{2}

$P (Hair = b lo nd ∣ C2) = \frac{1}{2}$ ；针对属性 Eye，

(

∣

)

P({rm Eye = brown}mid {rm C1}) = frac{3}{5}

$P (Eye = b row n ∣ C1) = \frac{3}{5}$ ，

(

∣

)

P({rm Eye= brown}mid {rm C2}) = 0

$P (Eye = b row n ∣ C2) = 0$ 。

因此，

(

∣

)

(

)

(

∣

)

(

∣

)

(

∣

)

0.0533

P({rm C1}mid {rm Z}) = P({rm C1})P({rm Height = Short} mid {rm C1})P({rm Hair = blond} mid {rm C1})P({rm Eye = Brown} mid {rm C1}) = 0.0533

$P (C1 ∣ Z) = P (C1) P (Height = Short ∣ C1) P (Hair = b lo nd ∣ C1) P (Eye = B row n ∣ C1) = 0.0533$ ；

(

∣

)

(

)

(

∣

)

(

∣

)

(

∣

)

P({rm C2}mid {rm Z}) = P({rm C2})P({rm Height = Short} mid {rm C2})P({rm Hair = blond} mid {rm C2})P({rm Eye = Brown} mid {rm C2}) = 0

$P (C2 ∣ Z) = P (C2) P (Height = Short ∣ C2) P (Hair = bl on d ∣ C2) P (Eye = Brown ∣ C2) = 0$ ；

在不考虑平滑的前提下，

(

∣

)

P({rm Eye= brown}mid {rm C2}) = 0

$P (Eye = brown ∣ C2) = 0$ 导致

(

∣

)

P(rm C2mid Z)

$P (C2 ∣ Z)$ 为

$0$ 。所以样本 Z 被分类为 C1。

Lab Part

假设一家超市想推销意大利面。使用“Trans actions.txt”中的数据作为训练数据来构建基于 C5.0 算法的决策树模型，以预测客户是否会购买意大利面。

1. 使用数据集 “Trans actions.txt” 构建决策树，利用其它字段来预测 “pasta” 字段。使用 Field Ops 中的 Type 模块，将除了 COD 字段外的每个字段的 “type” 设置为 “Flag”，将 COD 字段的 “type“ 设置为 “Typeless”，将 “pasta” 字段的 “direct ion” 属性设置为 “out”。使用 Mod el ing 中的 C5.0 模块，选择 “Expert” 并将 “Pruning severity” 设置为

65

65

$65$ ，将 “Mini mum re co rds per child branch” 设置为

95

95

$95$ 。

图

$5$ 为 Clementine 的使用截图。使用数据集 “Transaction.txt” 构建的决策树如图

$6$ 所示。

图 5 Clementine 使用截图

图 6 决策树

虽然横向显示决策树会比较美观，但是缩放严重出现失真，故还是选择了纵向显示。

2. 使用上面创建好的模型对 “roll out.txt” 数据中的

20

20

$20$ 位客户中的每一位进行预测，以确定客户是否会购买意大利面。

图

$7$ 和图

$8$ 分别展示了数据类型配置和对 “roll out.txt” 的预测结果。

图 7 roll out 数据类型配置

图 8 决策树预测结果

前五层的预测规则如下：

tomato souce = 1 [ Mode: 1 ] 
	tunny = 1 [ Mode: 1 ] => 1 
	tunny = 0 [ Mode: 1 ] 
		rice = 1 [ Mode: 1 ] => 1 
		rice = 0 [ Mode: 0 ] 
			brioches = 1 [ Mode: 1 ] => 1 
			brioches = 0 [ Mode: 0 ] 
				frozen vegetables = 1 [ Mode: 1 ] => 1 
				frozen vegetables = 0 [ Mode: 0 ] 
					coffee = 1 [ Mode: 1 ] => 1 
					coffee = 0 [ Mode: 0 ] => 0 
tomato souce = 0 [ Mode: 0 ] 
	rice = 1 [ Mode: 0 ] 
		coffee = 1 [ Mode: 1 ] => 1 
		coffee = 0 [ Mode: 0 ] 
			biscuits = 1 [ Mode: 1 ] => 1 
			biscuits = 0 [ Mode: 0 ] 
				coke = 1 [ Mode: 1 ] => 1 
				coke = 0 [ Mode: 0 ] => 0 
	rice = 0 [ Mode: 0 ] 
		tunny = 1 [ Mode: 0 ] => 0 
		tunny = 0 [ Mode: 0 ] 
			oil = 1 [ Mode: 0 ] => 0 
			oil = 0 [ Mode: 0 ] 
				water = 1 [ Mode: 0 ] => 0 
				water = 0 [ Mode: 0 ] 
					milk = 1 [ Mode: 0 ] => 0 
					milk = 0 [ Mode: 0 ] 
						yoghurt = 1 [ Mode: 0 ] => 0 
						yoghurt = 0 [ Mode: 0 ] 
							coke = 1 [ Mode: 0 ] => 0 
							coke = 0 [ Mode: 0 ] 
								biscuits = 1 [ Mode: 0 ] => 0 
								biscuits = 0 [ Mode: 0 ] 
									brioches = 1 [ Mode: 0 ] => 0 
									brioches = 0 [ Mode: 1 ] 
										coffee = 1 [ Mode: 0 ] => 0 
										coffee = 0 [ Mode: 1 ] 
											frozen vegetables = 1 [ Mode: 0 ] => 0 
											frozen vegetables = 0 [ Mode: 1 ] 
												beer = 1 [ Mode: 0 ] => 0 
												beer = 0 [ Mode: 1 ] 
													juices = 1 [ Mode: 0 ] => 0 
													juices = 0 [ Mode: 1 ] 
														mozzarella = 1 [ Mode: 0 ] => 0 
														mozzarella = 0 [ Mode: 1 ] 
															crackers = 1 [ Mode: 0 ] => 0 
															crackers = 0 [ Mode: 1 ] 
																frozen fish = 1 [ Mode: 0 ] => 0 
																frozen fish = 0 [ Mode: 1 ] => 1

通过对某在线培训系统的标注数据集进行建模，预测其它会员期末考试的结果。数据集来自在线培训系统的日志，数据包括每个会员的在线学习行为。请尝试多种不同的模型、不同的参数，建立高质量的预测模型。

训练集有

873

873

$873$ 条记录，测试集有

461

461

$461$ 条记录。训练集和测试集包含如下变量：

人员 ID	在线总时长（分钟）	在线阅读时长（分钟）	在线测试时长（分钟）	全文阅读次数	智能阅读次数	知识点阅读次数	试题阅读次数
回溯原文次数	题库测试次数	仿真考试次数	仿真考试优秀次数	仿真考试良好次数	仿真考试合格次数	仿真考试不合格次数	Class

1. 对训练数据集进行决策树分类。将除 “人员 ID” 之外的字段设置为输入。将 “Class” 的 “direct ion” 设置为 “out”，“type” 设置为 ”Flag“。自定义 “pr uning severity” 和 “minimum re co rds per child branch”，然后勾选“use global pr uning”。