Alink教程(Java版)

第28章 深度文本分析

本章将讲述如何使用深度学习组件进行文本分析。

BERT是Bidirectional Encoder Representations from Transformers的缩写,是一种语言表示模型。通过对所有层中的左、右上下文进行联合调节,从未标记文本中预先训练出BERT模型。基于这个“预训练的BERT模型”,我们可以在很多场景中(譬如,问答系统、情感分析、命名实体识别、文档聚类、语言推理等)轻松地创建专业的模型,只需在“预训练的BERT模型”上增加一个额外的输出层,并针对具体场景的数据进行模型微调即可。

Alink提供了BERT算法系列组件,用于文本相关操作,

    • BertTextClassifier(Bert文本分类器)
    • BertTextPairClassifier(Bert文本对分类器
    • BertTextEmbedding(Bert文本向量化)
    • BertTextRegressor(Bert文本回归
    • BertTextPairRegressor(Bert文本对回归)

上面列的是Pipeline组件,每个又对应着批式/流式组件。譬如:BertTextClassifier涉及训练和预测阶段,对应着批式训练组件BertTextClassifierTrainBatchOp,批式预测组件BertTextClassifierPredictBatchOp和流式预测组件BertTextClassifierPredictStreamOp。BertTextEmbedding只是数据处理流程,对应的批式组件为BertTextEmbeddingBatchOp,对应的流式组件为BertTextEmbeddingStreamOp。