Java 类名:org.alinklab.pipeline.dataproc.RandomSampleFromModel
Python 类名:RandomSampleFromModel
从模型随机采样
| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
|---|---|---|---|---|---|---|
| selectedCol | 选中的列名 | 计算列对应的列名 | String | ✓ | ||
| fieldDelimiter | 字段分隔符 | 字段分隔符 | String | It can’t be empty string. | , | |
| groupCol | 分组单列名 | 分组单列名,可选 | String | null | ||
| lazyPrintTransformDataEnabled | 是否打印输出数据 | 是否打印输出数据 | Boolean | false | ||
| lazyPrintTransformDataNum | 打印的输出数据条数 | 打印的输出数据条数 | Integer | -1 | ||
| lazyPrintTransformDataTitle | 打印的输出数据标题 | 打印的输出数据标题 | String | null | ||
| lazyPrintTransformStatEnabled | 是否打印输出数据的统计指标 | 是否打印输出数据的统计指标 | Boolean | false | ||
| lazyPrintTransformStatTitle | 打印的输出数据统计指标标题 | 打印的输出数据统计指标标题 | String | null | ||
| maxSampleNumPerGroup | 每组最大样本数目 | 每组最大样本数目 | Integer | 1 | ||
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | null | ||
| outContentLength | 输出的总文本长度 | 输出的总文本长度 | Integer | x >= 0 | 2147483647 | |
| outputCol | 输出结果列 | 输出结果列列名,可选,默认null | String | null | ||
| outputType | 输出格式 | 输出格式 | OutputType | CSV, JSON, M_TABLE | M_TABLE | |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | false | ||
| reservedCols | 算法保留列名 | 算法保留列 | String数组 | null | ||
| rowDelimiter | 行分隔符 | 行分隔符 | String | It can’t be empty string. | \n | |
| selectedCols | 选中的列名数组 | 计算列对应的列名列表 | String数组 | null | ||
| numThreads | 组件多线程线程个数 | 组件多线程线程个数 | Integer | 1 | ||
| modelStreamFilePath | 模型流的文件路径 | 模型流的文件路径 | String | null | ||
| modelStreamScanInterval | 扫描模型路径的时间间隔 | 描模型路径的时间间隔,单位秒 | Integer | 10 | ||
| modelStreamStartTime | 模型流的起始时间 | 模型流的起始时间。默认从当前时刻开始读。使用yyyy-mm-dd hh:mm:ss.fffffffff格式,详见Timestamp.valueOf(String s) | String | null | ||