2 词块划分

我们将用于实体识别的基本技术是词块划分,它分割和标注多词符的序列,如2.1所示。小框显示词级分词和词性标注,大框显示高级别的词块划分。每个这种较大的框叫做一个词块。就像分词忽略空白符,词块划分通常选择词符的一个子集。同样像分词一样,词块划分器生成的片段在源文本中不能重叠。

Images/chunk-segmentation.png

图 2.1:词符和词块级别的分割与标注

在本节中,我们将在较深的层面探讨词块划分,以词块的定义和表示开始。我们将看到正则表达式和 N-gram 的方法来词块划分,使用 CoNLL-2000 词块划分语料库开发和评估词块划分器。我们将在(5)6回到命名实体识别和关系抽取的任务。