wmt14

WMT14数据集。 原始WMT14数据集太大,所以提供了一组小数据集。 该模块将从 http://paddlepaddle.cdn.bcebos.com/demo/wmt_shrinked_data/wmt14.tgz 下载数据集,并将训练集和测试集解析为paddle reader creator。

方法

paddle.dataset.wmt14.train(dict_size)

WMT14训练集creator。

它返回一个reader creator,reader中的每个样本都是源语言单词ID序列,目标语言单词ID序列和下一个单词ID序列。

返回 训练集reader creator

返回类型 callable

paddle.dataset.wmt14.test(dict_size)

WMT14测试集creator。

它返回一个reader creator,reader中的每个样本都是源语言单词ID序列,目标语言单词ID序列和下一个单词ID序列。

返回 测试集reader creator

返回类型 callable

paddle.dataset.wmt14.convert(path)

将数据集转换为recordio格式。