该文档涉及的组件

    SOS 异常检测 (SosOutlierBatchOp)

    Java 类名:com.alibaba.alink.operator.batch.outlier.SosOutlierBatchOp

    Python 类名:SosOutlierBatchOp

    功能介绍

    SOS (Stochastic Outlier Selection)是一种affinity based离群点检测算法。
    它通常用于过滤掉噪音样本,从而使得机器学习的模型更准确。

    参数说明

    名称 中文名称 描述 类型 是否必须? 取值范围 默认值
    predictionCol 预测结果列名 预测结果列名 String
    featureCols 特征列名数组 特征列名数组,默认全选 String[] 所选列类型为 [BIGDECIMAL, BIGINTEGER, BYTE, DOUBLE, FLOAT, INTEGER, LONG, SHORT] null
    groupCols 分组列名数组 分组列名,多列,可选,默认不选 String[] null
    maxOutlierNumPerGroup 每组最大异常点数目 每组最大异常点数目 Integer
    maxOutlierRatio 最大异常点比例 算法检测异常点的最大比例 Double
    maxSampleNumPerGroup 每组最大样本数目 每组最大样本数目 Integer
    outlierThreshold 异常评分阈值 只有评分大于该阈值才会被认为是异常点 Double
    perplexity 邻近因子 邻近因子。它的近似含义是当某个点的近邻个数小于“邻近因子”个时,这个点的离群score会比较高。 Double 4.0
    predictionDetailCol 预测详细信息列名 预测详细信息列名 String
    tensorCol tensor列 tensor列 String 所选列类型为 [BOOL_TENSOR, BYTE_TENSOR, DOUBLE_TENSOR, FLOAT_TENSOR, INT_TENSOR, LONG_TENSOR, STRING, STRING_TENSOR, TENSOR, UBYTE_TENSOR] null
    vectorCol 向量列名 向量列对应的列名,默认值是null String 所选列类型为 [DENSE_VECTOR, SPARSE_VECTOR, STRING, VECTOR] null
    numThreads 组件多线程线程个数 组件多线程线程个数 Integer 1