Xiamen University
IBM

教育部-IBM公司产学合作专业综合改革项目

厦门大学《数据挖掘原理及实践》精品课程

课程简介

  • 课程名称: 数据挖掘原理及实践
  • 课程层次: 本科
  • 课程属性: 全校性选修课
  • 开课学期: 2016-2017学年第1学期
  • 考核方式: 理论考试 (原理部分), 课程实验报告验收 (实验部分)
  • 课程背景及教学目的:
  • 随着社会经济的发展,信息技术已经与生物医学研究、企业资源管理、经济数据预测、电子商务、金融风险管理等领域进行了广泛的融合,而数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。在各种信息和数据不断激增和汇集的“大数据”时代,如何有效地对信息进行综合分析、管理筛选、有效提取最有价值的信息已成为业界备受关注的技术热点。IBM公司以“智慧的分析洞察”为核心战略构建大数据价值体系,提出了智慧地球等理念。

    数据挖掘技术,结合人工智能模型和模式识别算法,依托数据仓库作为存储数据和资源管理的手段,以联机处理技术提取和分析数据,为管理和决策者提供全面且准确的商业机遇和潜在价值信息,协助企业提升业绩和增强竞争力。

    本课程项目将系统地讲解数据挖掘的基本概念和基本方法,结合IBM SPSS软件工具进行数据挖掘的实验教学,并结合行业案例介绍数据挖掘的最新进展。要求学生通过本课程的学习,认识到数据挖掘在大数据平台架构内所起的重要作用,掌握数据挖掘的原理,理解关联、回归、分类、聚类、预测等技术要点和实践方法,了解数据挖掘的应用情况和发展方向。通过课程习题和实验设计,要求学生掌握用IBM SPSS Modeler等工具进行数据挖掘的实践能力。

  • 教材及参考书目:
  • Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann (影印版: 机械工业出版社), 2011.
    P. N. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining, Boston, MA: Addison Wesley, 2006.
    D. J. Hand, H. Mannila, P. Smyth, Principles of Data Mining, Boston, MA: MIT Press, 2001.
    王周伟, 朱敏,《SPSS统计分析与综合应用》, 上海交通大学出版社, 2012
    张文彤, 钟云飞,《IBM SPSS数据分析与挖掘实战案例精粹》, 清华大学出版社, 2013
    薛薇,《统计分析与SPSS的应用(第3版)》, 中国人民大学出版社, 2011
    杨维忠, 张甜, 《SPSS统计分析与行业应用案例详解 (第2版)》, 清华大学出版社, 2013

    教学团队

    Yunfeng Wu
    吴云峰 副教授, 课程负责人
    Meihong Wu
    吴梅红 副教授
    Kaizhi Liu
    刘恺之 工程师
    Pinnan Chen
    陈品男, 硕士研究生, 理论课助教
    Yitian Liao
    廖逸钿, 实验课助教

    理论部分

    Chapter 1

    第一章: 数据挖掘引言 [课件下载] [课后习题]

    • 1.1 数据挖掘的目的
    • 1.2 IBM大数据平台架构简介
    • 1.3 数据挖掘的概念
    • 1.4 数据仓库简介
    • 1.5 数据挖掘功能简介
    • 1.6 数据挖掘系统的分类
    • 1.7 数据挖掘的使用技术简介
    Chapter 2

    第二章: 数据的属性和表现形式 [课件下载] [课后习题] [编程作业]

    • 2.1 数据的属性
    • 知识点: 数据属性, 数据类型, 记录数据, 图形数据, 有序数据, 数据质量
    • 2.2 数据对象的统计描述
    • 知识点: 均值, 中位数, 众数, 方差, 数据分布
    • 2.3 数据可视化技术
    • 知识点: 基于像素的可视化, 基于几何的投影可视化
    • 2.4 数据的相似性和相异性度量
    • 知识点: 相似性度量, 相异性度量
    Chapter 3

    第三章: 数据预处理 [课件下载] [课后习题]

    • 3.1 数据预处理的目标和主要任务
    • 3.2 数据清理
    • 知识点: 丢失数据, 噪声消除
    • 3.3 数据集成
    • 知识点: 数据冗余
    • 3.4 数据归约
    • 知识点: 维降维, 主成分分析, 量降维, 数据压缩
    • 3.5 数据变换与离散化
    • 知识点: 最大最小规范化, Z分数规范化, 小数定标规范化
    Chapter 4

    第四章: 数据仓库与数据的概念描述 [课件下载] [课后习题]

    • 4.1 数据仓库的基本概念
    • 知识点: 数据仓库的特征, OLTP, OLAP
    • 4.2 数据概化和特征化
    • 知识点: OLAP方法, 面向属性的归纳方法
    • 4.3 数据挖掘中的关联规则
    • 知识点: 关联分析, 支持度, 置信度, Apriori算法, Hash树
    • 4.4 数据挖掘中统计描述的图形显示
    • 知识点: 四分位数, 盒图, 直方图, 散布图, Loess曲线
    Chapter 5

    第五章: 数据的相关和回归分析 [课件下载] [课后习题]

    • 5.1 相关分析
    • 知识点: 相关系数, 偏相关分析
    • 5.2 简单线性回归分析
    • 知识点: 回归函数, 拟合优度检验
    • 5.3 多元线性回归分析
    • 知识点: 独立同分布, 高斯-马尔可夫定理, 最大似然估计
    • 5.4 Logistic回归分析
    • 知识点: Logistic回归方程
    Chapter 6

    第六章: 数据的统计分析 [课件下载] [课后习题] [编程作业]

    • 6.1 随机数据序列的特征分析
    • 知识点: 随机过程的定义, 随机过程的分类, 随机过程的统计描述, 随机过程的数字特征
    • 6.2 数据的概率密度建模
    • 知识点: 概率密度函数, 正态分布, 柯西分布, 学生t分布, 核方法, 非参数建模
    • 6.3 基于概率密度分布的统计分析
    • 知识点: 数学期望, 方差, 偏斜度, 峰度, 高阶矩
    • 6.4 数据序列的自相似度分析
    • 知识点: 分形维度, 去趋势波动分析, 分形标度指数
    Chapter 7

    第七章: 数据挖掘中的关联规则 [课件下载]

    • 7.1 关联规则的基本概念
    • 知识点: 关联分析, 关联规则, 频繁项集
    • 7.2 关联规则的基本术语
    • 知识点: 二元表示, 项集, 支持度, 置信度
    • 7.3 挖掘算法的策略
    • 知识点: 关联规则挖掘算法的主要子任务: 频繁项集的产生, 强规则的产生
    • 7.4 频繁项集的产生
    • 知识点: 先验原理, 单调性, Apriori 算法
    • 7.5 候选的产生剪枝
    • 知识点: Apriori-gen 函数候选项的产生和剪枝
    • 7.6 支持度计算
    • 知识点: Hash树
    • 7.7 计算复杂度
    • 知识点: Apriori 算法复杂度的影响因素, Apriori 算法的时间复杂度
    • 7.8 规则产生
    • 知识点: Apriori 算法的关联规则产生
    Chapter 8

    第八章: 分类和预测 [课件下载] [课后习题]

    • 8.1 分类和预测的基本概念
    • 知识点: 混淆矩阵, 准确度, 精度, 敏感度, 特异度
    • 8.2 决策树归纳分类
    • 知识点: Hunt 算法, ID3 算法, C4.5 算法, CART 算法
    • 8.3 贝叶斯分类
    • 知识点: 先验概率, 后验概率, 条件概率, 全概率公式, 贝叶斯公式
    • 8.4 多层前馈神经网络分类
    • 知识点: 神经元, 激活函数, 最速下降算法, 反向传播算法, 学习速率, 过拟合现象, 交叉确认
    • 8.5 支持向量机分类
    • 知识点: VC维, 决策边界, 支持向量, 松弛变量
    • 8.6 时间序列数据的预测
    • 知识点: 时间序列, 预测, 平稳序列, 非平稳序列, 自回归模型, 移动平均模型, ARIMA模型
    Chapter 9

    第九章: 聚类分析 [课件下载] [课后习题]

    • 9.1 聚类分析的基本概念
    • 知识点: 监督学习, 非监督学习, 簇
    • 9.2 划分方法
    • 知识点: K均值聚类, 欧氏距离, 马氏距离
    • 9.3 层次方法
    • 知识点: 单链簇, 全链簇, 组平均簇
    • 9.4 基于密度的方法
    • 知识点: DBSCAN方法
    • 9.5 基于网格的方法
    • 知识点: 网格单元
    • 9.6 聚类评估方法
    • 知识点: 凝聚度, 分离度
    Chapter 10

    第十章: 数据挖掘的应用和发展趋势 [课件下载]

    • 10.1 IBM大数据价值体系简介
    • 知识点: Hadoop, MapReduce, IBM BigInsights
    • 10.2 大数据时代的数据挖掘新特点
    • 10.3 数据挖掘在科学研究中的应用
    • 10.4 数据挖掘技术的发展趋势

    实验部分

    Experiment 1

    实验1: IBM SPSS 统计分析与数据挖掘实验环境的建立

    • 实验目的: 建立起基于IBM SPSS的数据挖掘和数据分析实验环境。
    • 实验教程:IBM SPSS实验操作指南
    • 实验要求:
    • 1. 熟悉IBM SPSS Statistics 和Modeler工具
      2. 了解SPSS Statistics的统计分析和Modeler的数据挖掘过程
      3. 从 SPSS Modeler 界面访问 SPSS Statistics 图形和报告工具
    Experiment 2

    实验2: IBM SPSS 回归模型的建立

    • 实验目的: 理解回归分析功能和作用,熟悉SPSS回归建模方法,使用回归挖掘模型并以可视化方式显示
    • 案例数据背景:
    • 由外伤或急救等原因所导致的迟发性颅脑血肿等颅脑损伤具有较高的致残率和死亡率。现有某医院的脑外科医生收集了201例在该科室进行过急救治疗的脑外伤病例,要求采用数据挖掘技术分析导致迟发性颅脑损伤的主要影响因素。
      属性指标:性别(男/女),年龄,入院时血循环指标,入院时症状,入院时意识程度,是否手术急救,其余急救措施,是否出现迟发性脑损伤。
    • 实验要求:
    • 1. 用SPSS导入迟发性颅脑损伤数据集SAV文件 (下载地址)
      2. 采用SPSS进行回归建模,分析影响迟发性颅脑损伤的因素
    Experiment 3

    实验3: IBM SPSS 数据分类建模

    • 实验目的: 学会使用决策树,神经网络函数,支持向量机等分类工具建模进行数据集的有效分类
    • 案例数据背景:
    • 乳房肿瘤通过乳腺组织穿刺采样进行分析可以确定其为良性(benign)的或为恶性(malignant)的。医学研究发现乳房肿瘤病灶组织的细胞核显微图像量化特征该肿瘤的性质有密切的关系,要求根据已获得的实验数据对乳房肿瘤是良性还是恶性进行分类。
      属性指标 (下载地址):细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度
    • 实验要求:
    • 1. 将给定的乳腺肿瘤数据集合文本 (下载地址) 导入SPSS, 生成sav数据文件
      2. 每一种属性进行数据分布建模, 计算统计数值
      3. 采用SPSS Modeler进行乳腺肿瘤的分类,建模时可任选决策树,神经网络,支持向量机等分类方法
    Experiment 4

    实验4: IBM SPSS 数据聚类建模

    • 实验目的: 学会使用K-means, 基于层次/密度等聚类方法建模
    • 案例数据背景:
    • 膝关节摆动信号是膝关节在运动时所发出的振动声音。正常的关节表面是光滑的,并且在活动时只发出轻微的声音,但是若受诊者患有骨关节炎或增殖性关节炎,软骨组织则会出现一定程度的损坏,因此在活动时发生磨擦而产生声音。通过分析膝关节摆动信号可以诊断和检测膝关节疾病,在医学检查过程中避免不必要的外科治疗和临床手术。现要求根据已有实验数据对膝关节摆动信号进行聚类分析,筛选分离出健康人和膝关节炎症病人的信号数据。
      属性指标:波形因数,偏斜度,峰度,信息熵,转向计数,均方值方差,分形维度
    • 实验要求:
    • 1. 将给定的膝关节炎症信号数据集合Excel文件 (下载地址) 导入SPSS, 生成sav数据文件
      2. 每一种属性进行数据分布建模, 计算统计数值
      3. 采用SPSS Modeler进行膝关节炎症信号进行聚类建模,建模时可任选K-means, 单链簇, 全链簇, 网格等聚类方法

    Copyright © 2011- 厦门大学ICP备案号89