教学目标: 本课程的教学目的是系统介绍数据挖掘过程、技术(如数据预处理技术、)、经典的数据挖掘技术算法(描述性数据挖掘、预测性数据挖掘算中的分类算法、聚类算法、时间序列分析、关联规则挖掘)等;使得学生掌握数据挖掘的整体框架、概念和技术,了解当前的研究热点和未来的发展方向,通过实现一些经典的算法并应用于特定场景,提升实践能力。
课程内容: 教学内容由课堂教学和实践教学构成,其中课堂教学内容,24学时;实践教学内容,8学时。具体内容安排如下:第1章数据挖掘概述(4学时)1.1数据挖掘概述1.2概念和定义1.3数据挖掘分类、功能第2章认识数据(3学时)2.1数据对象与属性类型2.2数据的基本统计描述2.3数据可视化2.4度量数据的相似性和相异性第3章数据预处理(2学时)3.1数据清理3.2数据集成3.3数据规约3.4数据变换与离散化第4章数据仓库与联机分析处理(4学时)4.1数据仓库:基本概念4.2数据仓库建模4.3数据泛化:面向属性的归纳第5章关联规则挖掘(3学时)5.1基本概念5.2频繁项集挖掘方法5.3模式评估方法第6章分类(4学时)6.1基本概念6.2决策树归纳6.3贝叶斯分类方法6.4基于规则的分类6.5模型评估与选择第7章聚类(4学时)7.1基本概念7.2划分方法7.3层次方法7.4基于密度的方法7.5聚类评估实践教学内容:实验一、熟悉weka数据挖掘平台,掌握添加算法的方法,weka数据格式等内容。(2学时)实验二、利用UCI机器学习数据库http://www.ics.uci.edu/~mlearn/MLRepository.html提供的用于的5组数据源,针对特定的数据集,在weka平台上设计并实现指定的分类或聚类算法,完成相应的挖掘任务,提交实验程序、实验结果及其分析报告。(6学时)
适用学生: 全日制硕士 非全日制硕士 留学硕士 进修硕士 硕博连读 本科直博 全日制博士 留学博士 进修博士 在职专硕 其他
预修课程: 预修课程:概率与统计,线性代数
参考书目: 教材:1. 数据挖掘-概念与技术(加)(原书第三版),韩家炜 (作者), Micheline Kamber (作者), 裴健 (作者), 范明 (译者), 孟小峰 (译者), 机械工业出版社,2014年11月参考书:2. 李航. 统计学习方法. 清华大学出版社, 2012.3. 数据挖掘的应用与实践:大数据时代的案例分析 李涛 厦门大学出版社 2013年10月1日
备注: