text_to_word_sequence

  1. keras.preprocessing.text.text_to_word_sequence(text,
  2. filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
  3. lower=True,
  4. split=" ")

将一个句子划分为词的列表。

  • 返回: 词的列表(字符串)。

  • 参数

    • text: 字符串。
    • filters: 需要过滤掉的字符列表(或连接)。
      默认:!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n
      包含基本标点符号、制表符、换行符。
    • lower: 布尔值。是否将文本转换为小写。
    • split: 字符串。词的分隔符。

one_hot

  1. keras.preprocessing.text.one_hot(text,
  2. n,
  3. filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
  4. lower=True,
  5. split=" ")

One-hot 将文本编码为大小为 n 的词汇表中的词索引列表。

这是使用 hash 作为散列函数的 hashing_trick 函数的封装器。

  • 返回: 整数列表 [1, n]。每个整数编码一个词(唯一性无法保证)。

  • 参数:

    • text: 字符串。
    • n: 整数。词汇表大小。
    • filters: 需要过滤掉的字符列表(或连接)。
      默认:!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n
      包含基本标点符号、制表符、换行符。
    • lower: 布尔值。是否将文本转换为小写。
    • split: 字符串。词的分隔符。

hashing_trick

  1. keras.preprocessing.text.hashing_trick(text,
  2. n,
  3. hash_function=None,
  4. filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
  5. lower=True,
  6. split=' ')

将文本转换为固定大小散列空间中的索引序列。

  • 返回: 词索引的列表(唯一性无法保证)。

  • 参数:

    • text: 字符串。
    • n: 散列空间的维度。
    • hash_function:默认为 Python hash 函数,
      可以是 ‘md5’ 或任何接受输入字符串并返回 int 的函数。
      注意 hash 是一个不稳定的散列函数,
      因而它在不同的运行环境下是不一致的,
      md5 是一个稳定的散列函数。
    • filters: 需要过滤掉的字符列表(或连接)。
      默认:!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n
      包含基本标点符号、制表符、换行符。
    • lower: 布尔值。是否将文本转换为小写。
    • split: 字符串。词的分隔符。

Tokenizer

  1. keras.preprocessing.text.Tokenizer(num_words=None,
  2. filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
  3. lower=True,
  4. split=" ",
  5. char_level=False)

将文本向量化的类,或/且 将文本转化为序列(词索引的列表,其中在数据集中的第 i 个首次出现的单词索引为 i,从 1 开始)。

  • 参数: 与上面的 text_to_word_sequence 相同。

    • num_words: None 或 整型。 要使用的最大词数 (如果设置,标记化过程将会局限在数据集中最常出现的词中)。
    • char_level: 如果 True,每一个字符都被作为一个标记。
  • 方法:

    • fit_on_texts(texts):

      • 参数:
        • texts: 需要训练的文本列表。
    • texts_to_sequences(texts)

      • 参数:
        • texts: 需要转换为序列的文本列表。
      • 返回: 序列的列表(每个文本输入一个序列)。
    • texts_to_sequences_generator(texts): 以上方法的生成器版本。

      • 返回: 每一次文本输入返回一个序列。
    • texts_to_matrix(texts):

      • 返回: numpy array of shape (len(texts), num_words).
      • 参数:
        • texts: 需要向量化的文本列表。
        • mode: “binary”, “count”, “tfidf”, “freq” 之一 (默认: “binary”)。
    • fit_on_sequences(sequences):

      • 参数:
        • sequences: 需要训练的文本列表。
    • sequences_to_matrix(sequences):

      • 返回: 尺寸为 (len(sequences), num_words) 的 numpy 数组。
      • 参数:
        • sequences: 需要向量化的序列列表。
        • mode: “binary”, “count”, “tfidf”, “freq” 之一 (默认: “binary”)。
  • 属性:

    • word_counts: 在训练时将词(字符串)映射到其出现次数的字典。只在调用 fit_on_text 后才被设置。
    • word_docs: 在训练时将词(字符串)映射到其出现的文档/文本数的字典。只在调用 fit_on_text 后才被设置。
    • word_index: 将词(字符串)映射到索引(整型)的字典。只在调用 fit_on_text 后才被设置。
    • document_count: 整型。标志器训练的文档(文本/序列)数量。只在调用 fit_on_textfit_on_sequences 后才被设置。