wmt16
- 方法

wmt16

ACL2016多模式机器翻译。有关更多详细信息，请访问此网站：http://www.statmt.org/wmt16/multimodal-task.html#task1

如果您任务中使用该数据集，请引用以下文章：Multi30K：多语言英语 - 德语图像描述。

@article{elliott-EtAl:2016:VL16, author = {{Elliott}, D. and {Frank}, S. and {Sima”an}, K. and {Specia}, L.}, title = {Multi30K: Multilingual English-German Image Descriptions}, booktitle = {Proceedings of the 6th Workshop on Vision and Language}, year = {2016}, pages = {70–74}, year = 2016 }

方法

paddle.dataset.wmt16.train(src_dict_size, trg_dict_size, src_lang=’en’)

WMT16训练集reader（读取器）。

此功能返回可读取训练数据的reader。 reader返回的每个样本由三个字段组成：源语言单词索引序列，目标语言单词索引序列和下一单词索引序列。

注意：训练数据的原始内容如下： http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/training.tar.gz

paddle.dataset.wmt16使用moses的tokenization脚本提供原始数据集的tokenized版本： https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl

参数

src_dict_size (int) – 源语言词典的大小。三个特殊标记将被添加到所述词典：<S>为起始标记，<E>为结束标记，<UNK>为未知单词。
trg_dict_size (int) – 目标语言字典的大小。三个特殊标记将被添加到所述词典：<S>为起始标记，<E>为结束标记，<UNK>为未知单词。
src_lang (string) – 一个字符串，指示哪种语言是源语言。可用选项包括：英语为“en”，德国为“de”。

读训练集数据的reader

返回类型

callable

paddle.dataset.wmt16.test(src_dict_size, trg_dict_size, src_lang=’en’)

WMT16测试(test)集reader。

此功能返回可读取测试数据的reader。reader返回的每个样本由三个字段组成：源语言单词索引序列，目标语言单词索引序列和下一单词索引序列。

注意：原始测试数据如下： http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/mmt16_task1_test.tar.gz

paddle.dataset.wmt16使用moses的tokenization脚本提供原始数据集的tokenized版本： https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl

参数

src_dict_size (int) – 源语言词典的大小。三个特殊token将被添加到所述词典：<S>为起始标记，<E>为结束标记，<UNK>为未知单词。
trg_dict_size (int) – 目标语言字典的大小。三个特殊token将被添加到所述词典：<S>为起始标记，<E>为结束标记，<UNK>为未知单词。
src_lang (string) – 一个字符串，指示哪种语言是源语言。可用选项包括：英语为“en”，德国为“de”。

读测试集数据的reader

返回类型

callable

paddle.dataset.wmt16.validation(src_dict_size, trg_dict_size, src_lang=’en’)

WMT16验证(validation)集reader。

此功能返回可读取验证数据的reader 。reader返回的每个样本由三个字段组成：源语言单词索引序列，目标语言单词索引序列和下一单词索引序列。

注意：验证数据的原始内容如下：http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/validation.tar.gz

paddle.dataset.wmt16使用moses的tokenization脚本提供原始数据集的tokenized版本：https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl

参数

src_dict_size (int) – 源语言词典的大小。三个特殊token将被添加到所述词典：<S>为起始标记，<E>为结束标记，<UNK>为未知单词。
trg_dict_size (int) – 目标语言字典的大小。三个特殊token将被添加到所述词典：<S>为起始标记，<E>为结束标记，<UNK>为未知单词。
src_lang (string) – 一个字符串，指示哪种语言是源语言。可用选项包括：英语为“en”，德国为“de”。

读集数据的reader

返回类型

callable

paddle.dataset.wmt16.get_dict(lang, dict_size, reverse=False)

返回指定语言的词典(word dictionary)。

参数

lang （string） - 表示哪种语言是源语言的字符串。可用选项包括：英语为“en”，德国为“de”。
dict_size （int） - 指定语言字典的大小。
reverse （bool） - 如果reverse设置为False，则返回的python字典将使用word作为键并使用index作为值。如果reverse设置为True，则返回的python字典将使用index作为键，将word作为值。

返回特定语言的单词词典。

返回类型

dict

paddle.dataset.wmt16.fetch()

下载完整的数据集。

paddle.dataset.wmt16.convert(path, src_dict_size, trg_dict_size, src_lang)

将数据集转换为recordio格式。