Java 类名:org.alinklab.pipeline.dataproc.RandomSampleFromModel
Python 类名:RandomSampleFromModel
从模型随机采样
名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
---|---|---|---|---|---|---|
selectedCol | 选中的列名 | 计算列对应的列名 | String | ✓ | ||
fieldDelimiter | 字段分隔符 | 字段分隔符 | String | It can’t be empty string. | , | |
groupCol | 分组单列名 | 分组单列名,可选 | String | null | ||
lazyPrintTransformDataEnabled | 是否打印输出数据 | 是否打印输出数据 | Boolean | false | ||
lazyPrintTransformDataNum | 打印的输出数据条数 | 打印的输出数据条数 | Integer | -1 | ||
lazyPrintTransformDataTitle | 打印的输出数据标题 | 打印的输出数据标题 | String | null | ||
lazyPrintTransformStatEnabled | 是否打印输出数据的统计指标 | 是否打印输出数据的统计指标 | Boolean | false | ||
lazyPrintTransformStatTitle | 打印的输出数据统计指标标题 | 打印的输出数据统计指标标题 | String | null | ||
maxSampleNumPerGroup | 每组最大样本数目 | 每组最大样本数目 | Integer | 1 | ||
modelFilePath | 模型的文件路径 | 模型的文件路径 | String | null | ||
outContentLength | 输出的总文本长度 | 输出的总文本长度 | Integer | x >= 0 | 2147483647 | |
outputCol | 输出结果列 | 输出结果列列名,可选,默认null | String | null | ||
outputType | 输出格式 | 输出格式 | OutputType | CSV, JSON, M_TABLE | M_TABLE | |
overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | false | ||
reservedCols | 算法保留列名 | 算法保留列 | String数组 | null | ||
rowDelimiter | 行分隔符 | 行分隔符 | String | It can’t be empty string. | \n | |
selectedCols | 选中的列名数组 | 计算列对应的列名列表 | String数组 | null | ||
numThreads | 组件多线程线程个数 | 组件多线程线程个数 | Integer | 1 | ||
modelStreamFilePath | 模型流的文件路径 | 模型流的文件路径 | String | null | ||
modelStreamScanInterval | 扫描模型路径的时间间隔 | 描模型路径的时间间隔,单位秒 | Integer | 10 | ||
modelStreamStartTime | 模型流的起始时间 | 模型流的起始时间。默认从当前时刻开始读。使用yyyy-mm-dd hh:mm:ss.fffffffff格式,详见Timestamp.valueOf(String s) | String | null |