【机器学习：异常值检测】新颖性和异常值检测

本文介绍: scikit-learn 中异常值检测算法的比较。LocalOutlier Factor （LOF）不会以黑色显示决策边界，因为当用于异常值检测时，它没有可应用于新数据的预测方法。并且在这里考虑的数据集上表现相当好。众所周知，它对异常值很敏感，因此在异常值检测方面表现不佳。话虽如此，在高维中检测异常值，或者对内围数据的分布没有任何假设，是非常具有挑战性的。仍可与异常值检测一起使用，但需要微调其超参数nu以处理异常值并防止过度拟合。提供非线性单类支持向量的实现，其样本数复杂度呈线性。

许多应用程序需要能够确定新观测值是属于与现有观测值相同的分布（它是异常值），还是应被视为不同的分布值（它是异常值）。通常，此功能用于清理真实数据集。必须做出两个重要的区别：

outlier detection: 异常值检测：	训练数据包含异常值，这些异常值被定义为与其他观测值相去甚远的观测值。因此，异常值检测估计器试图拟合训练数据最集中的区域，忽略偏差观测值。
novelty detection: 新颖性检测：	训练数据不会受到异常值的污染，我们有兴趣检测新的观测值是否为异常值。在这种情况下，anoutlier 也称为新颖性。

异常值检测和新颖性检测都用于异常检测，其中人们有兴趣检测异常或异常观察结果。异常值检测也称为无监督异常检测，新颖性检测也称为半监督异常检测。在异常值检测的上下文中，异常值/异常值不能形成密集聚类，因为可用的估计器假设异常值/异常值位于低密度区域。相反，在新颖性检测的上下文中，新奇/异常可以形成密集的聚类，只要它们位于训练数据的低密度区域，在这种情况下被认为是正常的。

scikit-learn 项目提供了一组机器学习工具，可用于新颖性或异常值检测。该策略是通过从数据中以无监督方式进行对象学习来实现的：

estimator.fit(X_train)

然后，可以使用以下predict方法将新观测值排序为异常值或异常值：

estimator.predict(X_test)

Inliers 标记为 1，而异常值标记为 -1。预测方法使用由估计器计算的原始评分函数的阈值。该评分函数可通过该score_samples方法访问，而阈值可以通过contamination参数控制。

该decision_function方法也是从评分函数中定义的，负值是异常值，非负值是异常值：

estimator.decision_function(X_test)

neighbors.LocalOutlierFactor请注意，默认情况下predict不支持和 score_samples 方法，但只是一个fit_predict方法，decision_function因为此估计器最初用于异常值检测。训练样本的异常分数可通过属性negative_outlier_factor_访问。

如果你真的想用于neighbors.LocalOutlierFactor新颖性检测，即预测标签或计算新未见数据的异常分数，你可以True在拟合估计器之前，使用novelty参数集实例化估计器。在这种情况下，fit_predict不可用。

下表总结了其neighbors.LocalOutlierFactor行为。

方法	异常值检测	新颖性检测
fit_predict	还行	不可用
predict	不可用	仅用于新数据
dicision_function	不可用	仅用于新数据
score_samples	使用`negative_outlier_factor_`	仅用于新数据
negative_outlier_factor	还行	还行

ensemble.IsolationForest并且neighbors.LocalOutlierFactor在这里考虑的数据集上表现相当好。众所周知，它svm.OneClassSVM对异常值很敏感，因此在异常值检测方面表现不佳。话虽如此，在高维中检测异常值，或者对内围数据的分布没有任何假设，是非常具有挑战性的。svm.OneClassSVM仍可与异常值检测一起使用，但需要微调其超参数nu以处理异常值并防止过度拟合。linear_model.SGDOneClassSVM提供非线性单类支持向量的实现，其样本数复杂度呈线性。此实现与内核近似技术一起使用，以获得与默认使用高斯内核类似的svm.OneClassSVM结果。最后，covariance.EllipticEnvelope假设数据是高斯的，并学习一个椭圆。有关不同估计器的更多详细信息，请参阅示例比较玩具数据集上异常值检测的异常检测算法以及以下部分。

为此，Schölkopf 等人引入了单类 SVM，并在svm.OneClassSVM对象的支持向量机模块中实现。它需要选择内核和标量参数来定义边界。 RBF 内核通常被选择，尽管没有确切的公式或算法来设置其带宽参数。这是 scikit-learn实现中的默认值。该nu参数也称为单类支持向量机的余量，对应于在边界之外找到新的但有规律的观测值的概率。

实现了单类 SVM 的在线线性版本linear_model.SGDOneClassSVM。此实现随样本数线性缩放，并且可以与核近似一起使用，以近似于核化svm.OneClassSVM（其复杂性充其量是样本数的二次）的解。有关详细信息，请参见“在线单类 SVM”部分。

集成的实现。ensemble.IsolationForest是基于tree. extraterereegressor的集合。根据隔离森林的原始论文，每棵树的最大深度被设置为

ensemble.IsolationForest允许您向已拟合的模型添加更多树的支撑warm_start=True：

from sklearn.ensemble import IsolationForest
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [0, 0], [-20, 50], [3, 5]])
clf = IsolationForest(n_estimators=10, warm_start=True)
clf.fit(X)  # fit 10 trees  
clf.set_params(n_estimators=20)  # add 10 more trees  
clf.fit(X)  # fit the added trees

（LOF）算法计算一个分数neighbors.LocalOutlierFactor（称为局部异常值因子），以反映观测值的异常程度。它测量给定数据点相对于其相邻点的局部密度偏差。这个想法是检测密度明显低于其相邻样本的样本。

当应用 LOF 进行异常值检测时，没有 predict和decision_function score_samples 方法，而只有一种方法fit_predict。训练样本的异常分数可通过该negative_outlier_factor_属性访问。请注意，predict当 LOF 用于新颖性检测时，即当novelty参数设置为 True时，可以score_samples对新的看不见的数据使用，decision_function但结果predict可能与的结果不同fit_predict。请参阅使用局部异常值因子进行新颖性检测。

要用于neighbors.LocalOutlierFactor新颖性检测，即预测标签或计算新的未查看数据的异常分数，您需要True在拟合估计器之前使用novelty参数集实例化估计器：

lof = LocalOutlierFactor(novelty=True)
lof.fit(X_train)

请注意，fit_predict为避免不一致，在这种情况下不可用。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

异常新颖性检测

【机器学习：异常值检测】新颖性和异常值检测

异常值检测方法概述

新颖性检测

纵向扩展单类 SVM

异常值检测

拟合椭圆包络

隔离林

局部异常因子

使用局部异常因子进行新颖性检测

发表回复取消回复

【机器学习：异常值检测】新颖性和异常值检测

异常值检测方法概述

新颖性检测

纵向扩展单类 SVM

异常值检测

拟合椭圆包络

隔离林

局部异常因子

使用局部异常因子进行新颖性检测

相关文章

发表回复 取消回复

发表回复取消回复