Conll05

Conll05数据集。Paddle深度学习基础中的语义角色标注文档使用这个数据集为例。因为Conll05数据集不是免费公开的,所以默认下载的url是Conll05的测试集(它是公开的)。用户可以将url和md5更改为其Conll数据集。并采用基于维基百科语料库的预训练词向量模型对SRL模型进行初始化。

方法

paddle.dataset.conll05.get_dict()

获取维基百科语料库的单词、动词和标签字典。

paddle.dataset.conll05.get_embedding()

获取基于维基百科语料库的训练词向量。

paddle.dataset.conll05.test()

Conll05测试数据集的creator。

因为训练数据集不是免费公开的,所以用测试数据集进行训练。它返回一个reader creator,reader中的每个样本都有九个特征,包括句子序列、谓词、谓词上下文、谓词上下文标记和标记序列。

返回

训练数据集的reader creator

返回类型 callable