imikolov

imikolov的简化版数据集。

此模块将从 http://www.fit.vutbr.cz/~imikolov/rnnlm/ 下载数据集,并将训练集和测试集解析为paddle reader creator。

方法

paddle.dataset.imikolov.build_dict(min_word_freq=50)

从语料库构建一个单词字典,字典的键是word,值是这些单词从0开始的ID。

paddle.dataset.imikolov.train(word_idx, n, data_type=1)

imikolov训练数据集的creator。

它返回一个reader creator, reader中的每个样本的是一个单词ID元组。

参数

  • word_idx (dict) – 词典
  • n (int) – 如果类型是ngram,表示滑窗大小;否则表示序列最大长度
  • data_type (数据类型的成员变量(NGRAM 或 SEQ)) – 数据类型 (ngram 或 sequence)

返回

训练数据集的reader creator

返回类型 callable

paddle.dataset.imikolov.test(word_idx, n, data_type=1)

imikolov测试数据集的creator。

它返回一个reader creator, reader中的每个样本的是一个单词ID元组。

参数

  • word_idx (dict) – 词典
  • n (int) – 如果类型是ngram,表示滑窗大小;否则表示序列最大长度
  • data_type (数据类型的成员变量(NGRAM 或 SEQ)) – 数据类型 (ngram 或 sequence)

返回

测试数据集的reader creator

返回类型 callable

paddle.dataset.imikolov.convert(path)

将数据集转换为recordio格式。