内容搜索是一个非常常用的功能,搜索一切想搜索的内容。
本文以三国演义小说为例
演示网址: https://app.aboutdata.top/sanguo/#/sanguo_home
小笨羊网址: https://xiaobenyang.com/
如有问题,请联系小笨羊微信:
主要包括下面四个内容,
列名 | 列类型 | 说明 |
chapter_id | Int | 章节ID,从1开始 |
chapter_title | String | 章节标题 |
chapter | String | 章节内容 |
可以看出,一共有120章,每章平均长度不到五千字。
列名 | 列类型 | 说明 |
f00 | STRING | 姓名 |
f01 | STRING | 姓 |
f02 | STRING | 名 |
f03 | STRING | 字 |
f04 | STRING | 籍贯郡 |
f05 | STRING | 籍贯县 |
f06 | STRING | 亲属 |
f07 | STRING | 师从 |
f08 | STRING | 别称 |
f09 | STRING | 县令/长 |
f10 | STRING | 太守/相 |
f11 | STRING | 刺史/州牧 |
f12 | STRING | 都尉 |
f13 | STRING | 校尉 |
f14 | STRING | 中郎将 |
f15 | STRING | 将军 |
f16 | STRING | 九卿 |
f17 | STRING | 三公 |
f18 | STRING | 侍中/尚书 |
f19 | STRING | 爵位 |
f20 | STRING | 谥号 |
f21 | STRING | 来源 |
可以看出,三国任务图谱里有4565任,其中姓张的最多,只有34%的人有字,577人是将军。
这里使用AlinkLab "全文搜索" 应用。给定一个或多个关键词,或者表达式,给出最相关的章节,并高亮。
例如搜索 大都督
可以看出,陆逊,曹真,周瑜,吕蒙,司马昭都做过大都督。
我们按照如下几步,介绍如何用AlinkLab做文本搜索。
按照下面的步骤搭建训练模型和部署。如果不想搭建,可以跳过下面步骤,直接查看已搭建好的任务,复制运行。
参数配置如下:
参数名称 | 参数内容 | 说明 |
文件路径 | mylabdata://xiaobengyang.com/name/demo/sanguo.ak | 输入数据,包括三国演义的章节名称和内容 |
文本检索列 | ["chapter_title", "chapter"] | 文本检索列,先分词再按照分词结果检索。 这里选择了两列 chapter_title:章节标题 chapter: 章节内容 |
原始检索列 | ["chapter_id"] | 原始检索列,部分词直接原文匹配。 这里选择了一列: chapter_id:章节ID |
分词方法 | IkAnalysis | 分词方法,一般都是用Ik分词 |
返回数据条数 | 10 | 每个搜索请求,最多返回10条结果 |
检索条件的列名 | search_content | 预测服务输入的列名 |
预测服务名称 | sanguo/三国搜索A | 预测服务名称 |
是否输出原文 | 否 | "是": 输出原文 + 高亮段落 "否": 输出高亮段落,不输出原文 |
https://xiaobenyang.com/discuss-post?id=142
https://xiaobenyang.com/discuss-post?id=163
参数 | 名称 | 说明 |
predServId | 服务ID | 在服务页面上查看服务名称对应的ID |
search_content |