该文档涉及的组件

多热编码模型 (MultiHotEncoderModel)

Java 类名:com.alibaba.alink.pipeline.feature.MultiHotEncoderModel

Python 类名:MultiHotEncoderModel

功能介绍

由 MultiHotEncoder 组件调用 fit 方法产生,详见 MultiHotEncoder 组件的文档。

参数说明

名称 中文名称 描述 类型 是否必须? 取值范围 默认值
outputCols 输出结果列列名数组 输出结果列列名数组,必选 String[]
selectedCols 选择的列名 计算列对应的列名列表 String[]
encode 编码方法 编码方法 String “VECTOR”, “ASSEMBLED_VECTOR” “ASSEMBLED_VECTOR”
handleInvalid 未知token处理策略 未知token处理策略。“keep”表示用最大id加1代替, “skip”表示补null, “error”表示抛异常 String “KEEP”, “ERROR”, “SKIP” “KEEP”
modelFilePath 模型的文件路径 模型的文件路径 String null
overwriteSink 是否覆写已有数据 是否覆写已有数据 Boolean false
reservedCols 算法保留列名 算法保留列 String[] null
numThreads 组件多线程线程个数 组件多线程线程个数 Integer 1
modelStreamFilePath 模型流的文件路径 模型流的文件路径 String null
modelStreamScanInterval 扫描模型路径的时间间隔 描模型路径的时间间隔,单位秒 Integer 10
modelStreamStartTime 模型流的起始时间 模型流的起始时间。默认从当前时刻开始读。使用yyyy-mm-dd hh:mm:ss.fffffffff格式,详见Timestamp.valueOf(String s) String null

代码示例

见 MultiHotEncoder 组件的文档。