图的构建

  GraphXGraph对象是用户操作图的入口。前面的章节我们介绍过,它包含了边(edges)、顶点(vertices)以及triplets三部分,并且这三部分都包含相应的属性,可以携带额外的信息。

1 构建图的方法

  构建图的入口方法有两种,分别是根据边构建和根据边的两个顶点构建。

  • 根据边构建图(Graph.fromEdges)
  1. def fromEdges[VD: ClassTag, ED: ClassTag](
  2. edges: RDD[Edge[ED]],
  3. defaultValue: VD,
  4. edgeStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY,
  5. vertexStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY): Graph[VD, ED] = {
  6. GraphImpl(edges, defaultValue, edgeStorageLevel, vertexStorageLevel)
  7. }
  • 根据边的两个顶点数据构建(Graph.fromEdgeTuples)
  1. def fromEdgeTuples[VD: ClassTag](
  2. rawEdges: RDD[(VertexId, VertexId)],
  3. defaultValue: VD,
  4. uniqueEdges: Option[PartitionStrategy] = None,
  5. edgeStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY,
  6. vertexStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY): Graph[VD, Int] =
  7. {
  8. val edges = rawEdges.map(p => Edge(p._1, p._2, 1))
  9. val graph = GraphImpl(edges, defaultValue, edgeStorageLevel, vertexStorageLevel)
  10. uniqueEdges match {
  11. case Some(p) => graph.partitionBy(p).groupEdges((a, b) => a + b)
  12. case None => graph
  13. }
  14. }

  从上面的代码我们知道,不管是根据边构建图还是根据边的两个顶点数据构建,最终都是使用GraphImpl来构建的,即调用了GraphImplapply方法。

2 构建图的过程

  构建图的过程很简单,分为三步,它们分别是构建边EdgeRDD、构建顶点VertexRDD、生成Graph对象。下面分别介绍这三个步骤。

2.1 构建边EdgeRDD

  从源代码看构建边EdgeRDD也分为三步,下图的例子详细说明了这些步骤。

4.1

  • 1 从文件中加载信息,转换成tuple的形式,即(srcId, dstId)
  1. val rawEdgesRdd: RDD[(Long, Long)] =
  2. sc.textFile(input).filter(s => s != "0,0").repartition(partitionNum).map {
  3. case line =>
  4. val ss = line.split(",")
  5. val src = ss(0).toLong
  6. val dst = ss(1).toLong
  7. if (src < dst)
  8. (src, dst)
  9. else
  10. (dst, src)
  11. }.distinct()
  • 2 入口,调用Graph.fromEdgeTuples(rawEdgesRdd)

  源数据为分割的两个点ID,把源数据映射成Edge(srcId, dstId, attr)对象, attr默认为1。这样元数据就构建成了RDD[Edge[ED]],如下面的代码

  1. val edges = rawEdges.map(p => Edge(p._1, p._2, 1))
  • 3RDD[Edge[ED]]进一步转化成EdgeRDDImpl[ED, VD]

  第二步构建完RDD[Edge[ED]]之后,GraphX通过调用GraphImplapply方法来构建Graph

  1. val graph = GraphImpl(edges, defaultValue, edgeStorageLevel, vertexStorageLevel)
  2. def apply[VD: ClassTag, ED: ClassTag](
  3. edges: RDD[Edge[ED]],
  4. defaultVertexAttr: VD,
  5. edgeStorageLevel: StorageLevel,
  6. vertexStorageLevel: StorageLevel): GraphImpl[VD, ED] = {
  7. fromEdgeRDD(EdgeRDD.fromEdges(edges), defaultVertexAttr, edgeStorageLevel, vertexStorageLevel)
  8. }

  在apply调用fromEdgeRDD之前,代码会调用EdgeRDD.fromEdges(edges)RDD[Edge[ED]]转化成EdgeRDDImpl[ED, VD]

  1. def fromEdges[ED: ClassTag, VD: ClassTag](edges: RDD[Edge[ED]]): EdgeRDDImpl[ED, VD] = {
  2. val edgePartitions = edges.mapPartitionsWithIndex { (pid, iter) =>
  3. val builder = new EdgePartitionBuilder[ED, VD]
  4. iter.foreach { e =>
  5. builder.add(e.srcId, e.dstId, e.attr)
  6. }
  7. Iterator((pid, builder.toEdgePartition))
  8. }
  9. EdgeRDD.fromEdgePartitions(edgePartitions)
  10. }

  程序遍历RDD[Edge[ED]]的每个分区,并调用builder.toEdgePartition对分区内的边作相应的处理。

  1. def toEdgePartition: EdgePartition[ED, VD] = {
  2. val edgeArray = edges.trim().array
  3. new Sorter(Edge.edgeArraySortDataFormat[ED])
  4. .sort(edgeArray, 0, edgeArray.length, Edge.lexicographicOrdering)
  5. val localSrcIds = new Array[Int](edgeArray.size)
  6. val localDstIds = new Array[Int](edgeArray.size)
  7. val data = new Array[ED](edgeArray.size)
  8. val index = new GraphXPrimitiveKeyOpenHashMap[VertexId, Int]
  9. val global2local = new GraphXPrimitiveKeyOpenHashMap[VertexId, Int]
  10. val local2global = new PrimitiveVector[VertexId]
  11. var vertexAttrs = Array.empty[VD]
  12. //采用列式存储的方式,节省了空间
  13. if (edgeArray.length > 0) {
  14. index.update(edgeArray(0).srcId, 0)
  15. var currSrcId: VertexId = edgeArray(0).srcId
  16. var currLocalId = -1
  17. var i = 0
  18. while (i < edgeArray.size) {
  19. val srcId = edgeArray(i).srcId
  20. val dstId = edgeArray(i).dstId
  21. localSrcIds(i) = global2local.changeValue(srcId,
  22. { currLocalId += 1; local2global += srcId; currLocalId }, identity)
  23. localDstIds(i) = global2local.changeValue(dstId,
  24. { currLocalId += 1; local2global += dstId; currLocalId }, identity)
  25. data(i) = edgeArray(i).attr
  26. //相同顶点srcId中第一个出现的srcId与其下标
  27. if (srcId != currSrcId) {
  28. currSrcId = srcId
  29. index.update(currSrcId, i)
  30. }
  31. i += 1
  32. }
  33. vertexAttrs = new Array[VD](currLocalId + 1)
  34. }
  35. new EdgePartition(
  36. localSrcIds, localDstIds, data, index, global2local, local2global.trim().array, vertexAttrs,
  37. None)
  38. }
  • toEdgePartition的第一步就是对边进行排序。

  按照srcId从小到大排序。排序是为了遍历时顺序访问,加快访问速度。采用数组而不是Map,是因为数组是连续的内存单元,具有原子性,避免了Maphash问题,访问速度快。

  • toEdgePartition的第二步就是填充localSrcIds,localDstIds, data, index, global2local, local2global, vertexAttrs

  数组localSrcIds,localDstIds中保存的是通过global2local.changeValue(srcId/dstId)转换而成的分区本地索引。可以通过localSrcIds、localDstIds数组中保存的索引位从local2global中查到具体的VertexId

  global2local是一个简单的,key值非负的快速hash mapGraphXPrimitiveKeyOpenHashMap, 保存vertextId和本地索引的映射关系。global2local中包含当前partition所有srcIddstId与本地索引的映射关系。

  data就是当前分区的attr属性数组。

  我们知道相同的srcId可能对应不同的dstId。按照srcId排序之后,相同的srcId会出现多行,如上图中的index desc部分。index中记录的是相同srcId中第一个出现的srcId与其下标。

  local2global记录的是所有的VertexId信息的数组。形如:srcId,dstId,srcId,dstId,srcId,dstId,srcId,dstId。其中会包含相同的srcId。即:当前分区所有vertextId的顺序实际值。

  我们可以通过根据本地下标取VertexId,也可以根据VertexId取本地下标,取相应的属性。

  1. // 根据本地下标取VertexId
  2. localSrcIds/localDstIds -> index -> local2global -> VertexId
  3. // 根据VertexId取本地下标,取属性
  4. VertexId -> global2local -> index -> data -> attr object

2.2 构建顶点VertexRDD

  紧接着上面构建边RDD的代码,我们看看方法fromEdgeRDD的实现。

  1. private def fromEdgeRDD[VD: ClassTag, ED: ClassTag](
  2. edges: EdgeRDDImpl[ED, VD],
  3. defaultVertexAttr: VD,
  4. edgeStorageLevel: StorageLevel,
  5. vertexStorageLevel: StorageLevel): GraphImpl[VD, ED] = {
  6. val edgesCached = edges.withTargetStorageLevel(edgeStorageLevel).cache()
  7. val vertices = VertexRDD.fromEdges(edgesCached, edgesCached.partitions.size, defaultVertexAttr)
  8. .withTargetStorageLevel(vertexStorageLevel)
  9. fromExistingRDDs(vertices, edgesCached)
  10. }

  从上面的代码我们可以知道,GraphX使用VertexRDD.fromEdges构建顶点VertexRDD,当然我们把边RDD作为参数传入。

  1. def fromEdges[VD: ClassTag](
  2. edges: EdgeRDD[_], numPartitions: Int, defaultVal: VD): VertexRDD[VD] = {
  3. //1 创建路由表
  4. val routingTables = createRoutingTables(edges, new HashPartitioner(numPartitions))
  5. //2 根据路由表生成分区对象vertexPartitions
  6. val vertexPartitions = routingTables.mapPartitions({ routingTableIter =>
  7. val routingTable =
  8. if (routingTableIter.hasNext) routingTableIter.next() else RoutingTablePartition.empty
  9. Iterator(ShippableVertexPartition(Iterator.empty, routingTable, defaultVal))
  10. }, preservesPartitioning = true)
  11. //3 创建VertexRDDImpl对象
  12. new VertexRDDImpl(vertexPartitions)
  13. }

  构建顶点VertexRDD的过程分为三步,如上代码中的注释。它的构建过程如下图所示:

4.2

  • 1 创建路由表

  为了能通过点找到边,每个点需要保存点到边的信息,这些信息保存在RoutingTablePartition中。

  1. private[graphx] def createRoutingTables(
  2. edges: EdgeRDD[_], vertexPartitioner: Partitioner): RDD[RoutingTablePartition] = {
  3. // 将edge partition中的数据转换成RoutingTableMessage类型,
  4. val vid2pid = edges.partitionsRDD.mapPartitions(_.flatMap(
  5. Function.tupled(RoutingTablePartition.edgePartitionToMsgs)))
  6. }

  上述程序首先将边分区中的数据转换成RoutingTableMessage类型,即tuple(VertexId,Int)类型。

  1. def edgePartitionToMsgs(pid: PartitionID, edgePartition: EdgePartition[_, _])
  2. : Iterator[RoutingTableMessage] = {
  3. val map = new GraphXPrimitiveKeyOpenHashMap[VertexId, Byte]
  4. edgePartition.iterator.foreach { e =>
  5. map.changeValue(e.srcId, 0x1, (b: Byte) => (b | 0x1).toByte)
  6. map.changeValue(e.dstId, 0x2, (b: Byte) => (b | 0x2).toByte)
  7. }
  8. map.iterator.map { vidAndPosition =>
  9. val vid = vidAndPosition._1
  10. val position = vidAndPosition._2
  11. toMessage(vid, pid, position)
  12. }
  13. }
  14. //`30-0`比特位表示边分区`ID`,`32-31`比特位表示标志位
  15. private def toMessage(vid: VertexId, pid: PartitionID, position: Byte): RoutingTableMessage = {
  16. val positionUpper2 = position << 30
  17. val pidLower30 = pid & 0x3FFFFFFF
  18. (vid, positionUpper2 | pidLower30)
  19. }

  根据代码,我们可以知道程序使用int32-31比特位表示标志位,即01: isSrcId ,10: isDstId30-0比特位表示边分区ID。这样做可以节省内存。
RoutingTableMessage表达的信息是:顶点id和它相关联的边的分区id是放在一起的,所以任何时候,我们都可以通过RoutingTableMessage找到顶点关联的边。

  • 2 根据路由表生成分区对象
  1. private[graphx] def createRoutingTables(
  2. edges: EdgeRDD[_], vertexPartitioner: Partitioner): RDD[RoutingTablePartition] = {
  3. // 将edge partition中的数据转换成RoutingTableMessage类型,
  4. val numEdgePartitions = edges.partitions.size
  5. vid2pid.partitionBy(vertexPartitioner).mapPartitions(
  6. iter => Iterator(RoutingTablePartition.fromMsgs(numEdgePartitions, iter)),
  7. preservesPartitioning = true)
  8. }

  我们将第1步生成的vid2pid按照HashPartitioner重新分区。我们看看RoutingTablePartition.fromMsgs方法。

  1. def fromMsgs(numEdgePartitions: Int, iter: Iterator[RoutingTableMessage])
  2. : RoutingTablePartition = {
  3. val pid2vid = Array.fill(numEdgePartitions)(new PrimitiveVector[VertexId])
  4. val srcFlags = Array.fill(numEdgePartitions)(new PrimitiveVector[Boolean])
  5. val dstFlags = Array.fill(numEdgePartitions)(new PrimitiveVector[Boolean])
  6. for (msg <- iter) {
  7. val vid = vidFromMessage(msg)
  8. val pid = pidFromMessage(msg)
  9. val position = positionFromMessage(msg)
  10. pid2vid(pid) += vid
  11. srcFlags(pid) += (position & 0x1) != 0
  12. dstFlags(pid) += (position & 0x2) != 0
  13. }
  14. new RoutingTablePartition(pid2vid.zipWithIndex.map {
  15. case (vids, pid) => (vids.trim().array, toBitSet(srcFlags(pid)), toBitSet(dstFlags(pid)))
  16. })
  17. }

  该方法从RoutingTableMessage获取数据,将vid, 边pid, isSrcId/isDstId重新封装到pid2vid,srcFlags,dstFlags这三个数据结构中。它们表示当前顶点分区中的点在边分区的分布。
想象一下,重新分区后,新分区中的点可能来自于不同的边分区,所以一个点要找到边,就需要先确定边的分区号pid, 然后在确定的边分区中确定是srcId还是dstId, 这样就找到了边。
新分区中保存vids.trim().array, toBitSet(srcFlags(pid)), toBitSet(dstFlags(pid))这样的记录。这里转换为toBitSet保存是为了节省空间。

  根据上文生成的routingTables,重新封装路由表里的数据结构为ShippableVertexPartitionShippableVertexPartition会合并相同重复点的属性attr对象,补全缺失的attr对象。

  1. def apply[VD: ClassTag](
  2. iter: Iterator[(VertexId, VD)], routingTable: RoutingTablePartition, defaultVal: VD,
  3. mergeFunc: (VD, VD) => VD): ShippableVertexPartition[VD] = {
  4. val map = new GraphXPrimitiveKeyOpenHashMap[VertexId, VD]
  5. // 合并顶点
  6. iter.foreach { pair =>
  7. map.setMerge(pair._1, pair._2, mergeFunc)
  8. }
  9. // 不全缺失的属性值
  10. routingTable.iterator.foreach { vid =>
  11. map.changeValue(vid, defaultVal, identity)
  12. }
  13. new ShippableVertexPartition(map.keySet, map._values, map.keySet.getBitSet, routingTable)
  14. }
  15. //ShippableVertexPartition定义
  16. ShippableVertexPartition[VD: ClassTag](
  17. val index: VertexIdToIndexMap,
  18. val values: Array[VD],
  19. val mask: BitSet,
  20. val routingTable: RoutingTablePartition)

  map就是映射vertexId->attrindex就是顶点集合,values就是顶点集对应的属性集,mask指顶点集的BitSet

2.3 生成Graph对象

  使用上述构建的edgeRDDvertexRDD,使用 new GraphImpl(vertices, new ReplicatedVertexView(edges.asInstanceOf[EdgeRDDImpl[ED, VD]])) 就可以生成Graph对象。
ReplicatedVertexView是点和边的视图,用来管理运送(shipping)顶点属性到EdgeRDD的分区。当顶点属性改变时,我们需要运送它们到边分区来更新保存在边分区的顶点属性。
注意,在ReplicatedVertexView中不要保存一个对边的引用,因为在属性运送等级升级后,这个引用可能会发生改变。

  1. class ReplicatedVertexView[VD: ClassTag, ED: ClassTag](
  2. var edges: EdgeRDDImpl[ED, VD],
  3. var hasSrcId: Boolean = false,
  4. var hasDstId: Boolean = false)

3 参考文献

【1】Graphx:构建graph和聚合消息

【2】spark源码