机器学习与模式识别

Week1 聚类

典型算法

  • k-means
    • 线性的,球状的
  • Chameleon变色龙
    • 基于k紧邻图的层次聚类
  • dbscan
    • 基于密度(近邻)的传销聚类

Week2 聚类进阶

任意形状聚类的现有问题

  1. 谱聚类算法
    1. 时间复杂度通常不低于$O(N^2)$
  2. 基于图的算法 & 基于密度的算法
    1. 时间复杂度通常不低于$O(N^2)$
    2. 需要用户定义关键参数,影响聚类结果
  3. 基于代表点的算法
    1. 所选代表点的数量和分布可能不合适,导致其所反应的聚类信息产生扭曲

基于代表点的算法

基本思路

原始数据集 -> 选取代表点 -> 代表点位置调整(缩骨法) -> 聚合聚类 -> 最终聚类结果

要求

  • 快速选取代表点
    • 利用K-means算法将原始大数据集划分成均匀连续分布的小数据团,将每个中心点作为代表点
  • 代表点保留原始数据集的形状信息
    • 使用直方图密度估计让K-means的起始聚类中心点均匀连续的分布

判断相似度:

  1. 位置近
  2. 密度近
  3. 接触面大

Week3 分类

分类的流程

  1. 将样本转化为等维的数据特征(特征提取)
  2. 样本必须具有相同数量的特征
  3. 兼顾特征的独立性和全面性
  4. 选择与类别相关的特征(特征选择)
  5. 建立分类模型或分类器(分类)

分类模型的评估

  • 真阳性 TP(True Positive)
  • 真阴性 TN(True Negative)
  • 假阳性 FP(False Positive)
  • 假阴性 FN(False Negative)

真假->预测是否正确
PN->预测结果