该文档涉及的组件

    从模型随机采样(RandomSampleFromModel)

    Java 类名:org.alinklab.pipeline.dataproc.RandomSampleFromModel

    Python 类名:RandomSampleFromModel

    功能介绍

    从模型随机采样

    参数说明

    名称 中文名称 描述 类型 是否必须? 取值范围 默认值
    selectedCol 选中的列名 计算列对应的列名 String
    fieldDelimiter 字段分隔符 字段分隔符 String It can’t be empty string. ,
    groupCol 分组单列名 分组单列名,可选 String null
    lazyPrintTransformDataEnabled 是否打印输出数据 是否打印输出数据 Boolean false
    lazyPrintTransformDataNum 打印的输出数据条数 打印的输出数据条数 Integer -1
    lazyPrintTransformDataTitle 打印的输出数据标题 打印的输出数据标题 String null
    lazyPrintTransformStatEnabled 是否打印输出数据的统计指标 是否打印输出数据的统计指标 Boolean false
    lazyPrintTransformStatTitle 打印的输出数据统计指标标题 打印的输出数据统计指标标题 String null
    maxSampleNumPerGroup 每组最大样本数目 每组最大样本数目 Integer 1
    modelFilePath 模型的文件路径 模型的文件路径 String null
    outContentLength 输出的总文本长度 输出的总文本长度 Integer x >= 0 2147483647
    outputCol 输出结果列 输出结果列列名,可选,默认null String null
    outputType 输出格式 输出格式 OutputType CSV, JSON, M_TABLE M_TABLE
    overwriteSink 是否覆写已有数据 是否覆写已有数据 Boolean false
    reservedCols 算法保留列名 算法保留列 String数组 null
    rowDelimiter 行分隔符 行分隔符 String It can’t be empty string. \n
    selectedCols 选中的列名数组 计算列对应的列名列表 String数组 null
    numThreads 组件多线程线程个数 组件多线程线程个数 Integer 1
    modelStreamFilePath 模型流的文件路径 模型流的文件路径 String null
    modelStreamScanInterval 扫描模型路径的时间间隔 描模型路径的时间间隔,单位秒 Integer 10
    modelStreamStartTime 模型流的起始时间 模型流的起始时间。默认从当前时刻开始读。使用yyyy-mm-dd hh:mm:ss.fffffffff格式,详见Timestamp.valueOf(String s) String null

    代码示例

    Java 代码