Java 类名:com.alibaba.alink.operator.batch.graph.CommunityDetectionClassifyBatchOp
Python 类名:CommunityDetectionClassifyBatchOp
该算法为半监督的分类算法,原理为用已标记节点的标签信息去预测未标记节点的标签信息。
在算法执行过程中,每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,
每个节点根据相邻节点的标签来更新自己的标签,与该节点相似度越大,其相邻节点对其标注的影响权值越大,
相似节点的标签越趋于一致,其标签就越容易传播。在标签传播过程中,保持已标注数据的标签不变,
使其像一个源头把标签传向未标注数据。 最终,当迭代过程结束时,相似节点的概率分布也趋于相似,
可以划分到同一个类别中,从而完成标签传播过程。
名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
---|---|---|---|---|---|---|
edgeSourceCol | 边表中起点所在列 | 边表中起点所在列 | String | ✓ | ||
edgeTargetCol | 边表中终点所在列 | 边表中终点所在列 | String | ✓ | ||
vertexCol | 输入点表中点所在列 | 输入点表中点所在列 | String | ✓ | ||
vertexLabelCol | 输入点表中标签所在列 | 输入点表中标签所在列 | String | ✓ | ||
asUndirectedGraph | 是否为无向图 | 是否为无向图 | Boolean | true | ||
delta | delta | delta参数 | Double | 0.2 | ||
edgeWeightCol | 边权重列 | 表示边权重的列 | String | 所选列类型为 [BIGDECIMAL, BIGINTEGER, BYTE, DOUBLE, FLOAT, INTEGER, LONG, SHORT] | null | |
k | K值 | 每轮迭代中,设置1/k的node不更新它们的值。这样的设定可能使得社区发现的效果更好。 | Integer | 40 | ||
maxIter | 最大迭代次数 | 最大迭代次数 | Integer | x >= 1 | 50 | |
vertexWeightCol | 点的权重所在列 | 点的权重所在列,如果不输入就自动补为1。 | String | 所选列类型为 [BIGDECIMAL, BIGINTEGER, BYTE, DOUBLE, FLOAT, INTEGER, LONG, SHORT] | null |
from pyalink.alink import * import pandas as pd useLocalEnv(1) df = pd.DataFrame([[3, 1],\ [3, 0],\ [0, 1],\ [0, 2],\ [2, 1],\ [2, 4],\ [5, 4],\ [7, 4],\ [5, 6],\ [5, 8],\ [5, 7],\ [7, 8],\ [6, 8],\ [12, 10],\ [12, 11],\ [12, 13],\ [12, 9],\ [10, 9],\ [8, 9],\ [13, 9],\ [10, 7],\ [10, 11],\ [11, 13]]) edges = BatchOperator.fromDataframe(df, schemaStr="source int, target int") df2 = pd.DataFrame([[2, 0],\ [4, 1],\ [7, 1],\ [8, 1],\ [9, 2],\ [10, 2]]) verteices = BatchOperator.fromDataframe(df2, schemaStr="vertex int, label bigint") communityDetectionClassify = CommunityDetectionClassifyBatchOp()\ .setEdgeSourceCol("source")\ .setEdgeTargetCol("target")\ .setVertexCol("vertex")\ .setVertexLabelCol("label") communityDetectionClassify.linkFrom(edges, verteices).print()
import org.apache.flink.types.Row; import com.alibaba.alink.operator.batch.BatchOperator; import com.alibaba.alink.operator.batch.source.MemSourceBatchOp; import com.alibaba.alink.testutil.AlinkTestBase; import org.junit.Test; import java.util.Arrays; import java.util.List; public class CommunityDetectionClassifyBatchOpTest { @Test public void test() throws Exception { List <Row> edgeRows = Arrays.asList( Row.of(3, 1), Row.of(3, 0), Row.of(0, 1), Row.of(0, 2), Row.of(2, 1), Row.of(2, 4), Row.of(5, 4), Row.of(7, 4), Row.of(5, 6), Row.of(5, 8), Row.of(5, 7), Row.of(7, 8), Row.of(6, 8), Row.of(12, 10), Row.of(12, 11), Row.of(12, 13), Row.of(12, 9), Row.of(10, 9), Row.of(8, 9), Row.of(13, 9), Row.of(10, 7), Row.of(10, 11), Row.of(11, 13)); BatchOperator edges = new MemSourceBatchOp(edgeRows, "source int, target int"); List <Row> vertexRows = Arrays.asList( Row.of(2, 0L), Row.of(4, 1L), Row.of(7, 1L), Row.of(8, 1L), Row.of(9, 2L), Row.of(10, 2L)); BatchOperator verteices = new MemSourceBatchOp(vertexRows,"vertex int, label bigint"); new CommunityDetectionClassifyBatchOp() .setEdgeSourceCol("source") .setEdgeTargetCol("target") .setVertexCol("vertex") .setVertexLabelCol("label") .linkFrom(edges, verteices).print(); } }
vertex | label |
---|---|
0 | 0 |
10 | 2 |
2 | 0 |
12 | 2 |
6 | 1 |
9 | 2 |
1 | 0 |
13 | 2 |
11 | 2 |
3 | 0 |
4 | 1 |
5 | 1 |
8 | 1 |
7 | 1 |