Java 类名:org.alinklab.app.form.FeatureGeneratorForm
特征生成
分区名称 | 分区描述 | 子分区名称 | 子分区描述 | 参数名称 | 参数描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
---|---|---|---|---|---|---|---|---|---|
数据表 | 数据表 | 无 | 无 | 数据源类型 | 数据源类型 | SourceType | CSV, TSV, AK | AK | |
文件路径 | 文件路径 | String | ✓ | ||||||
列名和类型 | 数据的列名和类型。格式为"colname coltype[, colname2, coltype2[, ...]]",例如"f0 string, f1 bigint, f2 double" | String | |||||||
字段分隔符 | 字段分隔符 | String | It can't be empty string. | , | |||||
行分隔符 | 行分隔符 | String | It can't be empty string. | \n | |||||
参数设置 | 参数设置 | GBDT编码参数 | GBDT编码参数 | 标签列名 | 输入表中的标签列名 | String | ✓ | ||
模型中树的棵数 | 模型中树的棵数 | Integer | 100 | ||||||
树的深度限制 | 树的深度限制 | Integer | 6 | ||||||
原数值特征(直接进入结果) | 原数值特征(直接进入结果) | 原数值特征 | 原数值特征 | String数组 | ✓ | ||||
数值特征 | 数值特征 | 数值特征 | 数值特征 | String数组 | ✓ | ||||
quantile个数 | quantile个数,对所有列有效。 | Integer | 2 | ||||||
是否删除最后一个元素 | 删除最后一个元素是为了保证线性无关性。默认true | Boolean | true | ||||||
类别特征 | 类别特征 | 类别特征 | 类别特征 | String数组 | ✓ | ||||
是否删除最后一个元素 | 删除最后一个元素是为了保证线性无关性。默认true | Boolean | true | ||||||
离散个数阈值 | 离散个数阈值,低于该阈值的离散样本将不会单独成一个组别。 | Integer | -2147483648 | ||||||
Tag特征 | Tag特征 | Tag特征 | Tag特征 | String数组 | ✓ | ||||
分隔符 | 用来分割字符串 | String | It can't be empty string. | ||||||
离散个数阈值 | 离散个数阈值,低于该阈值的离散样本将不会单独成一个组别。 | Integer | -2147483648 | ||||||
哈希特征 | 哈希特征 | 哈希特征 | 哈希特征 | String数组 | ✓ | ||||
向量维度 | 生成向量长度 | Integer | 262144 | ||||||
时间统计特征 | 时间统计特征 | 时间列 | 时间列 | String | ✓ | ||||
时间格式 | 时间格式: unixtime, timestamp, yyyy-mm-dd; 如果时间列是long型,可选是unixtime和timestamp, 默认是unixtime; 列类型是String, 格式是时间格式, 默认值是yyyy-mm-dd; 列类型是timestamp, 不做处理 | String | unixtime | ||||||
截止日期,格式是yyyy-mm-dd | 截止日期,格式是yyyy-mm-dd | String | null | ||||||
统计时间周期 | 统计时间周期 | String数组 | [Ljava.lang.String;@35c09b94 | ||||||
统计特征列 | 统计特征列 | String数组 | ✓ | ||||||
分组列 | 分组列 | String数组 | ✓ | ||||||
序列特征 | 序列特征 | 时间列 | 时间列 | String | ✓ | ||||
时间格式 | 时间格式: unixtime, timestamp, yyyy-mm-dd; 如果时间列是long型,可选是unixtime和timestamp, 默认是unixtime; 列类型是String, 格式是时间格式, 默认值是yyyy-mm-dd; 列类型是timestamp, 不做处理 | String | unixtime | ||||||
截止日期,格式是yyyy-mm-dd | 截止日期,格式是yyyy-mm-dd | String | null | ||||||
分组列 | 分组列 | String数组 | ✓ | ||||||
值列 | 值列 | String | ✓ | ||||||
最近行为的序列长度 | 最近行为的序列长度 | Integer | -1 | ||||||
embedding的向量长度 | embedding的向量长度 | Integer | x >= 1 | 100 | |||||
文本特征 | 文本特征 | 文本列 | 文本列 | String数组 | ✓ | ||||
无 | 无 | 特征生成方式 | 特征生成方式 | FeatureGenerateType | GBDT, NORMAL | NORMAL | |||
输出设置 | 输出设置 | 无 | 无 | 附加列 | 附加列 | String数组 | null | ||
输出向量名称 | 输出向量名称 | String | ✓ | ||||||
预测服务名称 | 预测服务名称 | String | ✓ | ||||||
输出结果地址 | 输出结果地址 | String | ✓ | ||||||
模型地址 | 模型地址 | String | ✓ |