6.13.查找树实现

二叉搜索树依赖于在左子树中找到的键小于父节点的属性,并且在右子树中找到的键大于父代。 我们将这个称为 bst属性。 当我们如上所述实现 Map 接口时,bst 属性将指导我们的实现。 Figure 1说明了二叉搜索树的此属性,展示了没有任何关联值的键。请注意,该属性适用于每个父级和子级。 左子树中的所有键小于根中的键。 右子树中的所有键都大于根。

6.13.查找树实现.figure1

Figure1

现在你知道什么是二叉搜索树,我们将看看如何构造二叉搜索树。Figure 1中的搜索树表示在按照所示的顺序插入以下键之后存在的节点:70,31,93,94,14,23,73。因为 70 是插入树中的第一个键,它是根。接下来,31 小于 70,所以它成为 70 的左孩子。接下来,93 大于 70,所以它成为 70 的右孩子。现在我们有两层的树填充,所以下一个键 94 ,因为 94 大于70 和 93,它成为 93 的右孩子。类似地,14 小于 70 和 31,所以它变成 31 的左孩子。23 也小于 31,所以它必须在左子树 31 中。但是,它大于14,所以它成为 14 的右孩子。

为了实现二叉搜索树,我们将使用类似于我们用于实现链表的节点和引用方法,以及表达式树。但是,因为我们必须能够创建和使用一个空的二叉搜索树,我们的实现将使用两个类。第一个类称为 BinarySearchTree,第二个类称为TreeNodeBinarySearchTree 类具有对作为二叉搜索树的根的TreeNode 的引用。在大多数情况下,外部类中定义的外部方法只是检查树是否为空。如果树中有节点,请求只是传递到 BinarySearchTree 类中定义的私有方法,该方法以 root 作为参数。在树是空的或者我们想要删除树根的键的情况下,我们必须采取特殊的行动。 BinarySearchTree 类构造函数的代码以及一些其他杂项函数如Listing 1所示。

  1. class BinarySearchTree:
  2. def __init__(self):
  3. self.root = None
  4. self.size = 0
  5. def length(self):
  6. return self.size
  7. def __len__(self):
  8. return self.size
  9. def __iter__(self):
  10. return self.root.__iter__()

Listing 1

TreeNode 类提供了许多辅助函数,使得在 BinarySearchTree 类方法中完成的工作更容易。 TreeNode 的构造函数以及这些辅助函数如 Listing 2所示。你可以在列表中看到许多辅助函数根据自己的位置将节点分类为子节点(左或右)和节点具有的子节点类型。 TreeNode 类还将显式地跟踪父节点作为每个节点的属性。当我们讨论 del 操作符的实现时,你会看到为什么这很重要。

Listing 2 中 TreeNode 另一个有趣的方面是我们使用 Python 的可选参数。可选参数使我们能够在几种不同的情况下轻松创建 TreeNode 。有时我们想要构造一个已经同时具有父和子的新 TreeNode 。对于现有的父和子,我们可以传递父和子作为参数。在其他时候,我们将使用键值对创建一个TreeNode,我们不会为父或子传递任何参数。在这种情况下,将使用可选参数的默认值。

  1. class TreeNode:
  2. def __init__(self,key,val,left=None,right=None,
  3. parent=None):
  4. self.key = key
  5. self.payload = val
  6. self.leftChild = left
  7. self.rightChild = right
  8. self.parent = parent
  9. def hasLeftChild(self):
  10. return self.leftChild
  11. def hasRightChild(self):
  12. return self.rightChild
  13. def isLeftChild(self):
  14. return self.parent and self.parent.leftChild == self
  15. def isRightChild(self):
  16. return self.parent and self.parent.rightChild == self
  17. def isRoot(self):
  18. return not self.parent
  19. def isLeaf(self):
  20. return not (self.rightChild or self.leftChild)
  21. def hasAnyChildren(self):
  22. return self.rightChild or self.leftChild
  23. def hasBothChildren(self):
  24. return self.rightChild and self.leftChild
  25. def replaceNodeData(self,key,value,lc,rc):
  26. self.key = key
  27. self.payload = value
  28. self.leftChild = lc
  29. self.rightChild = rc
  30. if self.hasLeftChild():
  31. self.leftChild.parent = self
  32. if self.hasRightChild():
  33. self.rightChild.parent = self

Listing 2

现在我们有了 BinarySearchTree shell 和 TreeNode,现在是时候编写 put 方法,这将允许我们构建二叉搜索树。 put 方法是BinarySearchTree 类的一个方法。此方法将检查树是否已具有根。如果没有根,那么 put 将创建一个新的 TreeNode 并将其做为树的根。如果根节点已经就位,则 put 调用私有递归辅助函数 _put 根据以下算法搜索树:

  • 从树的根开始,搜索二叉树,将新键与当前节点中的键进行比较。如果新键小于当前节点,则搜索左子树。如果新键大于当前节点,则搜索右子树。
  • 当没有左(或右)孩子要搜索时,我们在树中找到应该建立新节点的位置。
  • 要向树中添加节点,请创建一个新的 TreeNode 对象,并将对象插入到上一步发现的节点。Listing 3 展示了在树中插入一个新节点的 Python 代码。_put 函数按照上述步骤递归编写。请注意,当一个新的子节点插入到树中时,currentNode 将作为父节点传递给新的树节点。

我们实现插入的一个重要问题是重复的键不能正确处理。当我们的树被实现时,重复键将在具有原始键的节点的右子树中创建具有相同键值的新节点。这样做的结果是,具有新键的节点将永远不会在搜索期间被找到。处理插入重复键的更好方法是将新键相关联的值替换旧值。我们将修复这个bug作为练习。

  1. def put(self,key,val):
  2. if self.root:
  3. self._put(key,val,self.root)
  4. else:
  5. self.root = TreeNode(key,val)
  6. self.size = self.size + 1
  7. def _put(self,key,val,currentNode):
  8. if key < currentNode.key:
  9. if currentNode.hasLeftChild():
  10. self._put(key,val,currentNode.leftChild)
  11. else:
  12. currentNode.leftChild = TreeNode(key,val,parent=currentNode)
  13. else:
  14. if currentNode.hasRightChild():
  15. self._put(key,val,currentNode.rightChild)
  16. else:
  17. currentNode.rightChild = TreeNode(key,val,parent=currentNode)

Listing 3

put 方法定义后,我们可以通过使用 setitem 方法调用(参见 Listing 4 )put 方法来重载赋值的 [] 运算符。这使得我们可以编写像myZipTree['Plymouth'] = 55446 这样的 Python 语句,就像 Python 字典一样。

  1. def __setitem__(self,k,v):
  2. self.put(k,v)

Listing 4

Figure 2 展示了用于将新节点插入二叉搜索树的过程。 浅阴影的节点指示在插入过程期间访问的节点。

6.13.查找树实现.figure2

Figure 2

一旦树被构造,下一个任务是实现对给定键的值的检索。get 方法比 put 方法更容易,因为它只是递归地搜索树,直到它到达不匹配的叶节点或找到匹配的键。当找到匹配的键时,返回存储在节点的有效载荷中的值。

Listing 5 展示了 getget_getitem 的代码。 _get 方法中的搜索代码使用和 _put 相同的逻辑来选择左或右子节点。请注意,_get 方法返回一个 TreeNode ,这允许 _get 用作其他BinarySearchTree 方法的一个灵活的辅助方法,可能需要利用除了有效载荷之外的 TreeNode 的其他数据。

通过实现 getitem 方法,我们可以编写一个类似于访问字典的 Python 语句,而实际上我们使用的是二叉搜索树,例如 z = myZipTree ['Fargo'] 。正如你所看到的,所有的 getitem 方法都是调用get

  1. def get(self,key):
  2. if self.root:
  3. res = self._get(key,self.root)
  4. if res:
  5. return res.payload
  6. else:
  7. return None
  8. else:
  9. return None
  10. def _get(self,key,currentNode):
  11. if not currentNode:
  12. return None
  13. elif currentNode.key == key:
  14. return currentNode
  15. elif key < currentNode.key:
  16. return self._get(key,currentNode.leftChild)
  17. else:
  18. return self._get(key,currentNode.rightChild)
  19. def __getitem__(self,key):
  20. return self.get(key)

Listing 5

使用 get ,我们可以通过为 BinarySearchTree 写一个contains 方法来实现 in 操作。 contains 方法将简单地调用 get 并在 get 返回值时返回 True,如果返回 None 则返回 False。 contains 的代码如Listing 6所示。

  1. def __contains__(self,key):
  2. if self._get(key,self.root):
  3. return True
  4. else:
  5. return False

Listing 6

回想一下,contains 重载了 in 操作符,允许我们写出如下语句:

  1. if 'Northfield' in myZipTree:
  2. print("oom ya ya")

最后,我们将注意力转向二叉搜索树中最具挑战性的方法,删除一个键(参见 Listing 7)。 第一个任务是通过搜索树来找到要删除的节点。 如果树具有多个节点,我们使用 _get 方法搜索以找到需要删除的 TreeNode。 如果树只有一个节点,这意味着我们删除树的根,但是我们仍然必须检查以确保根的键匹配要删除的键。 在任一情况下,如果未找到键,del 操作符将引发错误。

  1. def delete(self,key):
  2. if self.size > 1:
  3. nodeToRemove = self._get(key,self.root)
  4. if nodeToRemove:
  5. self.remove(nodeToRemove)
  6. self.size = self.size-1
  7. else:
  8. raise KeyError('Error, key not in tree')
  9. elif self.size == 1 and self.root.key == key:
  10. self.root = None
  11. self.size = self.size - 1
  12. else:
  13. raise KeyError('Error, key not in tree')
  14. def __delitem__(self,key):
  15. self.delete(key)

Listing 7

一旦我们找到了我们要删除的键的节点,我们必须考虑三种情况:

  • 要删除的节点没有子节点(参见Figure 3)。
  • 要删除的节点只有一个子节点(见Figure 4)。
  • 要删除的节点有两个子节点(见Figure 5)。第一种情况很简单(见 Listing 8)。 如果当前节点没有子节点,我们需要做的是删除节点并删除对父节点中该节点的引用。 此处的代码如下所示。
  1. if currentNode.isLeaf():
  2. if currentNode == currentNode.parent.leftChild:
  3. currentNode.parent.leftChild = None
  4. else:
  5. currentNode.parent.rightChild = None

Listing 8

6.13.查找树实现.figure3

Figure 3

第二种情况只是稍微复杂一点(见 Listing 9)。如果一个节点只有一个孩子,那么我们可以简单地促进孩子取代其父。此案例的代码展示在下一个列表中。当你看这个代码,你会看到有六种情况要考虑。由于这些情况相对于左孩子或右孩子对称,我们将仅讨论当前节点具有左孩子的情况。决策如下:

  • 如果当前节点是左子节点,则我们只需要更新左子节点的父引用以指向当前节点的父节点,然后更新父节点的左子节点引用以指向当前节点的左子节点。
  • 如果当前节点是右子节点,则我们只需要更新左子节点的父引用以指向当前节点的父节点,然后更新父节点的右子节点引用以指向当前节点的左子节点。
  • 如果当前节点没有父级,则它是根。在这种情况下,我们将通过在根上调用replaceNodeData 方法来替换 keypayloadleftChildrightChild 数据。
  1. else: # this node has one child
  2. if currentNode.hasLeftChild():
  3. if currentNode.isLeftChild():
  4. currentNode.leftChild.parent = currentNode.parent
  5. currentNode.parent.leftChild = currentNode.leftChild
  6. elif currentNode.isRightChild():
  7. currentNode.leftChild.parent = currentNode.parent
  8. currentNode.parent.rightChild = currentNode.leftChild
  9. else:
  10. currentNode.replaceNodeData(currentNode.leftChild.key,
  11. currentNode.leftChild.payload,
  12. currentNode.leftChild.leftChild,
  13. currentNode.leftChild.rightChild)
  14. else:
  15. if currentNode.isLeftChild():
  16. currentNode.rightChild.parent = currentNode.parent
  17. currentNode.parent.leftChild = currentNode.rightChild
  18. elif currentNode.isRightChild():
  19. currentNode.rightChild.parent = currentNode.parent
  20. currentNode.parent.rightChild = currentNode.rightChild
  21. else:
  22. currentNode.replaceNodeData(currentNode.rightChild.key,
  23. currentNode.rightChild.payload,
  24. currentNode.rightChild.leftChild,
  25. currentNode.rightChild.rightChild)

Listing 9

6.13.查找树实现.figure4

Figure 4

第三种情况是最难处理的情况(见Listing 10)。 如果一个节点有两个孩子,那么我们不太可能简单地提升其中一个节点来占据节点的位置。 然而,我们可以在树中搜索可用于替换被调度删除的节点的节点。 我们需要的是一个节点,它将保留现有的左和右子树的二叉搜索树关系。 执行此操作的节点是树中具有次最大键的节点。 我们将这个节点称为后继节点,我们将看一种方法来很快找到后继节点。 继承节点保证没有多于一个孩子,所以我们知道使用已经实现的两种情况删除它。 一旦删除了后继,我们只需将它放在树中,代替要删除的节点。

6.13.查找树实现.figure5

Figure 5

处理第三种情况的代码展示在下一个列表中。 注意,我们使用辅助方法findSuccessorfindMin 来找到后继。 要删除后继,我们使用spliceOut 方法。 我们使用 spliceOut 的原因是它直接找到我们想要拼接的节点,并做出正确的更改。 我们可以递归调用删除,但是我们将浪费时间重新搜索关键节点。

  1. elif currentNode.hasBothChildren(): #interior
  2. succ = currentNode.findSuccessor()
  3. succ.spliceOut()
  4. currentNode.key = succ.key
  5. currentNode.payload = succ.payload

Listing 10

找到后继的代码如下所示(见 Listing 11),是 TreeNode 类的一个方法。此代码利用二叉搜索树的相同属性,采用中序遍历从最小到最大打印树中的节点。在寻找接班人时,有三种情况需要考虑:

  • 如果节点有右子节点,则后继节点是右子树中的最小的键。
  • 如果节点没有右子节点并且是父节点的左子节点,则父节点是后继节点。
  • 如果节点是其父节点的右子节点,并且它本身没有右子节点,则此节点的后继节点是其父节点的后继节点,不包括此节点。第一个条件是对于我们从二叉搜索树中删除节点时唯一重要的条件。但是,findSuccessor 方法具有其他用法,我们将在本章结尾的练习中介绍。

调用 findMin 方法来查找子树中的最小键。你应该说服自己,任何二叉搜索树中的最小值键是树的最左子节点。因此,findMin 方法简单地循环子树的每个节点中的 leftChild 引用,直到它到达没有左子节点的节点。

  1. def findSuccessor(self):
  2. succ = None
  3. if self.hasRightChild():
  4. succ = self.rightChild.findMin()
  5. else:
  6. if self.parent:
  7. if self.isLeftChild():
  8. succ = self.parent
  9. else:
  10. self.parent.rightChild = None
  11. succ = self.parent.findSuccessor()
  12. self.parent.rightChild = self
  13. return succ
  14. def findMin(self):
  15. current = self
  16. while current.hasLeftChild():
  17. current = current.leftChild
  18. return current
  19. def spliceOut(self):
  20. if self.isLeaf():
  21. if self.isLeftChild():
  22. self.parent.leftChild = None
  23. else:
  24. self.parent.rightChild = None
  25. elif self.hasAnyChildren():
  26. if self.hasLeftChild():
  27. if self.isLeftChild():
  28. self.parent.leftChild = self.leftChild
  29. else:
  30. self.parent.rightChild = self.leftChild
  31. self.leftChild.parent = self.parent
  32. else:
  33. if self.isLeftChild():
  34. self.parent.leftChild = self.rightChild
  35. else:
  36. self.parent.rightChild = self.rightChild
  37. self.rightChild.parent = self.parent

Listing 11

我们需要查看二叉搜索树的最后一个接口方法。假设我们想要按中序遍历树中的所有键。我们肯定用字典做,为什么不是树?你已经知道如何使用中序遍历算法按顺序遍历二叉树。然而,编写迭代器需要更多的工作,因为迭代器在每次调用迭代器时只返回一个节点。

Python 为我们提供了一个非常强大的函数,在创建迭代器时使用。该函数称为yieldyield 类似于 return,因为它向调用者返回一个值。然而,yield 采取冻结函数状态的附加步骤,使得下一次调用函数时,它从其早先停止的确切点继续执行。创建可以迭代的对象的函数称为生成函数。

二叉树的 inorder 迭代器的代码展示在下一个列表中。仔细看看这段代码;乍一看,你可能认为代码不是递归的。但是,请记住,iter 覆盖 for x in操作,因此它是递归的!因为它是在 TreeNode 实例上递归的,所以iter 方法在 TreeNode 类中定义。

  1. def __iter__(self):
  2. if self:
  3. if self.hasLeftChild():
  4. for elem in self.leftChild:
  5. yield elem
  6. yield self.key
  7. if self.hasRightChild():
  8. for elem in self.rightChild:
  9. yield elem

此时,你可能需要下载包含完整版本的 BinarySearchTreeTreeNode 类的整个文件。

  1. class TreeNode:
  2. def __init__(self,key,val,left=None,right=None,parent=None):
  3. self.key = key
  4. self.payload = val
  5. self.leftChild = left
  6. self.rightChild = right
  7. self.parent = parent
  8. def hasLeftChild(self):
  9. return self.leftChild
  10. def hasRightChild(self):
  11. return self.rightChild
  12. def isLeftChild(self):
  13. return self.parent and self.parent.leftChild == self
  14. def isRightChild(self):
  15. return self.parent and self.parent.rightChild == self
  16. def isRoot(self):
  17. return not self.parent
  18. def isLeaf(self):
  19. return not (self.rightChild or self.leftChild)
  20. def hasAnyChildren(self):
  21. return self.rightChild or self.leftChild
  22. def hasBothChildren(self):
  23. return self.rightChild and self.leftChild
  24. def replaceNodeData(self,key,value,lc,rc):
  25. self.key = key
  26. self.payload = value
  27. self.leftChild = lc
  28. self.rightChild = rc
  29. if self.hasLeftChild():
  30. self.leftChild.parent = self
  31. if self.hasRightChild():
  32. self.rightChild.parent = self
  33. class BinarySearchTree:
  34. def __init__(self):
  35. self.root = None
  36. self.size = 0
  37. def length(self):
  38. return self.size
  39. def __len__(self):
  40. return self.size
  41. def put(self,key,val):
  42. if self.root:
  43. self._put(key,val,self.root)
  44. else:
  45. self.root = TreeNode(key,val)
  46. self.size = self.size + 1
  47. def _put(self,key,val,currentNode):
  48. if key < currentNode.key:
  49. if currentNode.hasLeftChild():
  50. self._put(key,val,currentNode.leftChild)
  51. else:
  52. currentNode.leftChild = TreeNode(key,val,parent=currentNode)
  53. else:
  54. if currentNode.hasRightChild():
  55. self._put(key,val,currentNode.rightChild)
  56. else:
  57. currentNode.rightChild = TreeNode(key,val,parent=currentNode)
  58. def __setitem__(self,k,v):
  59. self.put(k,v)
  60. def get(self,key):
  61. if self.root:
  62. res = self._get(key,self.root)
  63. if res:
  64. return res.payload
  65. else:
  66. return None
  67. else:
  68. return None
  69. def _get(self,key,currentNode):
  70. if not currentNode:
  71. return None
  72. elif currentNode.key == key:
  73. return currentNode
  74. elif key < currentNode.key:
  75. return self._get(key,currentNode.leftChild)
  76. else:
  77. return self._get(key,currentNode.rightChild)
  78. def __getitem__(self,key):
  79. return self.get(key)
  80. def __contains__(self,key):
  81. if self._get(key,self.root):
  82. return True
  83. else:
  84. return False
  85. def delete(self,key):
  86. if self.size > 1:
  87. nodeToRemove = self._get(key,self.root)
  88. if nodeToRemove:
  89. self.remove(nodeToRemove)
  90. self.size = self.size-1
  91. else:
  92. raise KeyError('Error, key not in tree')
  93. elif self.size == 1 and self.root.key == key:
  94. self.root = None
  95. self.size = self.size - 1
  96. else:
  97. raise KeyError('Error, key not in tree')
  98. def __delitem__(self,key):
  99. self.delete(key)
  100. def spliceOut(self):
  101. if self.isLeaf():
  102. if self.isLeftChild():
  103. self.parent.leftChild = None
  104. else:
  105. self.parent.rightChild = None
  106. elif self.hasAnyChildren():
  107. if self.hasLeftChild():
  108. if self.isLeftChild():
  109. self.parent.leftChild = self.leftChild
  110. else:
  111. self.parent.rightChild = self.leftChild
  112. self.leftChild.parent = self.parent
  113. else:
  114. if self.isLeftChild():
  115. self.parent.leftChild = self.rightChild
  116. else:
  117. self.parent.rightChild = self.rightChild
  118. self.rightChild.parent = self.parent
  119. def findSuccessor(self):
  120. succ = None
  121. if self.hasRightChild():
  122. succ = self.rightChild.findMin()
  123. else:
  124. if self.parent:
  125. if self.isLeftChild():
  126. succ = self.parent
  127. else:
  128. self.parent.rightChild = None
  129. succ = self.parent.findSuccessor()
  130. self.parent.rightChild = self
  131. return succ
  132. def findMin(self):
  133. current = self
  134. while current.hasLeftChild():
  135. current = current.leftChild
  136. return current
  137. def remove(self,currentNode):
  138. if currentNode.isLeaf(): #leaf
  139. if currentNode == currentNode.parent.leftChild:
  140. currentNode.parent.leftChild = None
  141. else:
  142. currentNode.parent.rightChild = None
  143. elif currentNode.hasBothChildren(): #interior
  144. succ = currentNode.findSuccessor()
  145. succ.spliceOut()
  146. currentNode.key = succ.key
  147. currentNode.payload = succ.payload
  148. else: # this node has one child
  149. if currentNode.hasLeftChild():
  150. if currentNode.isLeftChild():
  151. currentNode.leftChild.parent = currentNode.parent
  152. currentNode.parent.leftChild = currentNode.leftChild
  153. elif currentNode.isRightChild():
  154. currentNode.leftChild.parent = currentNode.parent
  155. currentNode.parent.rightChild = currentNode.leftChild
  156. else:
  157. currentNode.replaceNodeData(currentNode.leftChild.key,
  158. currentNode.leftChild.payload,
  159. currentNode.leftChild.leftChild,
  160. currentNode.leftChild.rightChild)
  161. else:
  162. if currentNode.isLeftChild():
  163. currentNode.rightChild.parent = currentNode.parent
  164. currentNode.parent.leftChild = currentNode.rightChild
  165. elif currentNode.isRightChild():
  166. currentNode.rightChild.parent = currentNode.parent
  167. currentNode.parent.rightChild = currentNode.rightChild
  168. else:
  169. currentNode.replaceNodeData(currentNode.rightChild.key,
  170. currentNode.rightChild.payload,
  171. currentNode.rightChild.leftChild,
  172. currentNode.rightChild.rightChild)
  173. mytree = BinarySearchTree()
  174. mytree[3]="red"
  175. mytree[4]="blue"
  176. mytree[6]="yellow"
  177. mytree[2]="at"
  178. print(mytree[6])
  179. print(mytree[2])