无监督特征选择方法
在无监督方法中 , 我们不需要考虑多标签任务的特性 , 这是因为无标签方法并不依赖于标签 。 典型的无监督特征选择方法包括:
- 主成分分析(PCA)或其它的因子分析方法 。 此类方法会去除掉特征中的冗余信息 , 并为模型抽取出有用的特征 。 请确保在使用 PCA 之前对数据进行标准化处理 , 从而使每个特征对分析的贡献相等 。 另一个使用 PCA 的技巧是 , 我们可以将该算法简化后的数据作为模型可选择使用的额外信息与原始数据连接起来 , 而不是直接使用简化后的数据 。
- 方差阈值 。 这是一种简单有效的降低特征维度的方法 。 我们丢弃具有低方差或离散型的特征 。 可以通过找到一个更好的选择阈值对此进行优化 , 0.5 是一个不错的初始阈值 。
- 聚类 。 通过根据输入数据创建聚类簇来构建新特征 , 然后将相应的聚类分配给每一行输入数据 , 作为一列新的特征 。
文章图片
图 4:K - 均值聚类
上采样方法
当分类数据高度不均衡时 , 可以使用上采样方法为稀有类生成人造样本 , 从而让模型关注稀有类 。 为了在多标签场景下创建新样本 , 我们可以使用多标签合成少数类过采样技术(MLSMOTE) 。
代码链接:https://github.com/niteshsukhwani/MLSMOTE
该方法由原始的 SMOTE 方法修改而来 。 在生成少数类的数据并分配少数标签后 , 我们还通过统计每个标签在相邻数据点中出现的次数来生成其它相关的标签 , 并保留出现频次高于一半统计的数据点的标签 。
【何为多标签分类?这里有几种实用的经典方法】原文链接:https://andy-wang.medium.com/bags-of-tricks-for-multi-label-classification-dc54b87f79ec
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
