机器学习笔记

发表于2023-03-06|更新于2023-03-13|笔记

|阅读量:

机器学习与模式识别

Week1 聚类

典型算法

k-means
- 线性的，球状的
Chameleon变色龙
- 基于k紧邻图的层次聚类
dbscan
- 基于密度（近邻）的传销聚类

Week2 聚类进阶

任意形状聚类的现有问题

谱聚类算法
1. 时间复杂度通常不低于$O(N^2)$
基于图的算法 & 基于密度的算法
1. 时间复杂度通常不低于$O(N^2)$
2. 需要用户定义关键参数，影响聚类结果
基于代表点的算法
1. 所选代表点的数量和分布可能不合适，导致其所反应的聚类信息产生扭曲

基于代表点的算法

基本思路

原始数据集 -> 选取代表点 -> 代表点位置调整（缩骨法） -> 聚合聚类 -> 最终聚类结果

要求

快速选取代表点
- 利用K-means算法将原始大数据集划分成均匀连续分布的小数据团，将每个中心点作为代表点
代表点保留原始数据集的形状信息
- 使用直方图密度估计让K-means的起始聚类中心点均匀连续的分布

判断相似度：

位置近
密度近
接触面大

Week3 分类

分类的流程

将样本转化为等维的数据特征（特征提取）
样本必须具有相同数量的特征
兼顾特征的独立性和全面性
选择与类别相关的特征（特征选择）
建立分类模型或分类器（分类）

分类模型的评估

真阳性 TP(True Positive)
真阴性 TN(True Negative)
假阳性 FP(False Positive)
假阴性 FN(False Negative)

真假->预测是否正确
PN->预测结果

文章作者: Peifang

文章链接: https://cprrr.tech/2023/03/06/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 PeiFang's Notes！

Machine Learning