Alink教程(Python版)
该文档涉及的组件

Alink教程(Python版)目录


第1章 Alink快速上手

1.1 Alink是什么

1.2 免费下载、安装

1.3 Alink的功能

1.3.1 丰富的算法库

1.3.2 多样的使用体验

1.3.3SparkML的对比

1.4 关于数据和代码

1.5 简单示例

1.5.1 数据的读/写与显示

1.5.2 批式训练和批式预测

1.5.3 流式处理和流式预测

1.5.4 定义Pipeline,简化操作

1.5.5 嵌入预测服务系统

第2章 系统概况与核心概念

2.1 基本概念

2.2 批式任务与流式任务

2.3 Alink=A+link

2.3.1BatchOperatorStreamOperator

2.3.2link方式是批式算法/流式算法的通用使用方式

2.3.3link的简化

2.3.4 组件的主输出与侧输出

2.4 Pipeline与PipelineModel

2.4.1 概念和定义

2.4.2 深入介绍

2.5 触发Alink任务的执行

2.6 模型信息显示

2.7 文件系统与数据库

2.8 Schema String

第3章 文件系统与数据文件

3.1 文件系统简介

3.1.1 本地文件系统

3.1.2Hadoop文件系统

3.1.3 阿里云OSS文件系统

3.2 数据文件的读入与导出

3.2.1CSV格式

3.2.2TSV格式、LibSVM格式和Text格式

3.2.3AK格式

第4章 数据库与数据表

4.1 简介

4.1.1Catalog的基本操作

4.1.2Source组件和Sink组件

4.2Hive示例

4.3Derby示例

4.4MySQL示例

第5章 支持Flink SQL

5.1 基本操作

5.1.1 注册

5.1.2 运行

5.1.3 内置函数

5.1.4 用户定义函数

5.2 简化操作

5.2.1 单表操作

5.2.2 两表的接(JOIN)操作

5.2.3 两表的集合操作

第6章 用户定义函数(UDF/UDTF)

6.1 用户定义标量函数(UDF

6.1.1 示例数据及问题

6.1.2 UDF的定义

6.1.3 使用UDF处理批式数据

6.1.4 使用UDF处理流式数据

6.2 用户定义表值函数(UDTF

6.2.1 示例数据及问题

6.2.2 UDTF的定义

6.2.3 使用UDTF处理批式数据

6.2.4 使用UDTF处理流式数据

第7章 基本数据处理

7.1 采样

7.1.1 取“前”N个数据

7.1.2 随机采样

7.1.3 加权采样

7.1.4 分层采样

7.2 数据划分

7.3 数值尺度变换

7.3.1 标准化

7.3.2MinMaxScale

7.3.3MaxAbsScale

7.4 向量的尺度变换

7.4.1StandardScaleMinMaxScaleMaxAbsScale

7.4.2 正则化

7.5 缺失值填充

7.6 Python数组、DataFrame形式的数据和Alink批式数据之间的相互转换

7.6.1Python数组与DataFrame形式的数据之间的相互转换

7.6.2Alink批式数据转换为DataFrame形式的数据

7.6.3DataFrame形式的数据转换为Alink批式数据

第8章 线性二分类模型

8.1 线性模型的基础知识

8.1.1 损失函数

8.1.2 经验风险函数与结构风险函数

8.1.3 线性模型与损失函数

8.1.4 逻辑回归与线性支持向量机(Linear SVM

8.2 二分类评估方法

8.2.1 基本指标

8.2.2 综合指标

8.2.3 评估曲线

8.3 数据探索

8.3.1 基本统计

8.3.2 相关性

8.4 训练集和测试集

8.5 逻辑回归模型

8.6 线性支持向量机模型

8.7 模型评估

8.8 特征的多项式扩展

8.9 因子分解机

第9章 朴素贝叶斯模型与决策树模型

9.1 朴素贝叶斯模型

9.2 决策树模型

9.2.1 决策树的分裂指标定义

9.2.2 常用的决策树算法

9.2.3 指标计算示例

9.2.4 分类树与回归树

9.2.5 经典的决策树示例

9.3 数据探索

9.4 使用朴素贝叶斯方法

9.5 蘑菇分类的决策树

第10章 特征的转化

10.1 整体流程

10.1.1 特征哑元化

10.1.2 特征的重要性

10.2 减少模型特征的个数

10.3 离散特征转化

10.3.1 独热编码

10.3.2 特征哈希

第11章 构造新特征

11.1 数据探索

11.2 思路

11.2.1 用户和品牌的各种特征

11.2.2 二分类模型训练

11.3 计算训练集

11.3.1 原始数据划分

11.3.2 计算特征

11.3.3 计算标签

11.4 正负样本配比

11.5 决策树

11.6 集成学习

11.6.1 Bootstrap aggregating

11.6.2 Boosting

11.6.3 随机森林与GBDT

11.7 使用随机森林算法

11.8 使用GBDT算法

第12章 从二分类到多分类

12.1 多分类模型的评估方法

12.1.1 综合指标

12.1.2 关于每个标签值的二分类指标

12.1.3MicroMacroWeighted计算的指标

12.2 数据探索

12.3 使用朴素贝叶斯算法进行多分类

12.4 二分类器组合

12.5Softmax算法

12.6 多层感知器分类器

第13章 常用的多分类算法

13.1 数据准备

13.1.1 读取MNIST数据文件

13.1.2 稠密向量与稀疏向量

13.1.3 标签值的统计信息

13.2 Softmax算法

13.3 二分类器组合

13.4 多层感知器分类器(MLPC

13.5 决策树与随机森林

13.6 K最近邻算法

第14章 在线学习

14.1 整体流程

14.2 数据准备

14.3 特征工程

14.4 使用特征工程处理数据

14.5 在线训练

14.6 模型过滤

第15章 回归的由来

15.1 平均数

15.2 向平均数方向的“回归”

15.3 线性回归

第16章 常用的回归算法

16.1 回归模型的评估指标

16.2 数据探索

16.3 线性回归

16.4 决策树与随机森林

16.5 GBDT

第17章 常用的聚类算法

17.1 聚类评估指标

17.1.1 基本评估指标

17.1.2 基于标签值的评估指标

17.2K-Means聚类算法

17.2.1 算法简介

17.2.2 K-Means实例

17.3高斯混合模型算法

17.3.1 算法介绍

17.3.2 GMM实例

17.4 二分K-Means聚类算法

17.5 基于经纬度的聚类

第18章 批式与流式聚类

18.1 稠密向量与稀疏向量

18.2 使用聚类模型预测流式数据

18.3 流式聚类

第19章 主成分分析

19.1 主成分的含义

19.2 两种计算方式

19.3 在聚类方面的应用

19.4 在分类方面的应用

第20章 超参数搜索

20.1 示例一:尝试正则系数

20.2 示例二:搜索GBDT超参数

20.3 示例三:最佳聚类个数

第21章 文本分析

21.1 数据探索

21.2 分词

21.2.1 中文分词

21.2.2 Tokenizer和RegexTokenizer

21.3 词频统计

21.4 单词的区分度

21.5 抽取关键词

21.5.1 原理简介

21.5.2 示例

21.6 文本相似度

21.6.1 文本成对比较

21.6.2 最相似的TopN

21.7 主题模型

21.7.1 LDA模型

21.7.2 新闻的主题模型

21.7.3 主题与原始分类的对比

21.8 组件使用小结

第22章 单词向量化

22.1 单词向量预训练模型

22.1.1 加载模型

22.1.2 查找相似的单词

22.1.3 单词向量

22.2 将单词映射为向量

第23章 情感分析

23.1 使用提供的特征

23.1.1 使用朴素贝叶斯方法

23.1.2 使用逻辑回归算法

23.2 如何提取特征

23.3 构造更多特征

23.4 模型保存与预测

23.4.1 批式/流式预测任务

23.4.2 嵌入式预测

第24章 构建推荐系统

24.1 与推荐相关的组件介绍

24.2 常用的推荐算法

24.2.1 协同过滤

24.2.2 交替最小二乘法

24.3 数据探索

24.4 评分预测

24.5 根据用户推荐影片

24.6 计算相似影片

24.7 根据影片推荐用户

24.8 计算相似用户