数据预处理 - 文本预处理 - 《Keras官方中文文档》

text_to_word_sequence
one_hot
hashing_trick
Tokenizer

text_to_word_sequence

keras.preprocessing.text.text_to_word_sequence(text,
                                               filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
                                               lower=True,
                                               split=" ")

将一个句子划分为词的列表。

返回: 词的列表（字符串）。
参数：
- text: 字符串。
- filters: 需要过滤掉的字符列表（或连接）。
  默认：!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n，
  包含基本标点符号、制表符、换行符。
- lower: 布尔值。是否将文本转换为小写。
- split: 字符串。词的分隔符。

one_hot

keras.preprocessing.text.one_hot(text,
                                 n,
                                 filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
                                 lower=True,
                                 split=" ")

One-hot 将文本编码为大小为 n 的词汇表中的词索引列表。

这是使用 hash 作为散列函数的 hashing_trick 函数的封装器。

返回: 整数列表 [1, n]。每个整数编码一个词（唯一性无法保证）。
参数:
- text: 字符串。
- n: 整数。词汇表大小。
- filters: 需要过滤掉的字符列表（或连接）。
  默认：!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n，
  包含基本标点符号、制表符、换行符。
- lower: 布尔值。是否将文本转换为小写。
- split: 字符串。词的分隔符。

hashing_trick

keras.preprocessing.text.hashing_trick(text, 
                                       n,
                                       hash_function=None,
                                       filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
                                       lower=True,
                                       split=' ')

将文本转换为固定大小散列空间中的索引序列。

返回: 词索引的列表（唯一性无法保证）。
参数:
- text: 字符串。
- n: 散列空间的维度。
- hash_function:默认为 Python hash 函数，
  可以是 ‘md5’ 或任何接受输入字符串并返回 int 的函数。
  注意 hash 是一个不稳定的散列函数，
  因而它在不同的运行环境下是不一致的，
  而 md5 是一个稳定的散列函数。
- filters: 需要过滤掉的字符列表（或连接）。
  默认：!”#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n，
  包含基本标点符号、制表符、换行符。
- lower: 布尔值。是否将文本转换为小写。
- split: 字符串。词的分隔符。

Tokenizer

keras.preprocessing.text.Tokenizer(num_words=None,
                                   filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
                                   lower=True,
                                   split=" ",
                                   char_level=False)

将文本向量化的类，或/且将文本转化为序列（词索引的列表，其中在数据集中的第 i 个首次出现的单词索引为 i，从 1 开始）。

参数: 与上面的 text_to_word_sequence 相同。
- num_words: None 或整型。要使用的最大词数（如果设置，标记化过程将会局限在数据集中最常出现的词中）。
- char_level: 如果 True，每一个字符都被作为一个标记。
方法:
- fit_on_texts(texts):
  - 参数:
    - texts: 需要训练的文本列表。
- texts_to_sequences(texts)
  - 参数:
    - texts: 需要转换为序列的文本列表。
  - 返回: 序列的列表（每个文本输入一个序列）。
- texts_to_sequences_generator(texts): 以上方法的生成器版本。
  - 返回: 每一次文本输入返回一个序列。
- texts_to_matrix(texts):
  - 返回: numpy array of shape (len(texts), num_words).
  - 参数:
    - texts: 需要向量化的文本列表。
    - mode: “binary”, “count”, “tfidf”, “freq” 之一 (默认: “binary”)。
- fit_on_sequences(sequences):
  - 参数:
    - sequences: 需要训练的文本列表。
- sequences_to_matrix(sequences):
  - 返回: 尺寸为 (len(sequences), num_words) 的 numpy 数组。
  - 参数:
    - sequences: 需要向量化的序列列表。
    - mode: “binary”, “count”, “tfidf”, “freq” 之一 (默认: “binary”)。
属性:
- word_counts: 在训练时将词（字符串）映射到其出现次数的字典。只在调用 fit_on_text 后才被设置。
- word_docs: 在训练时将词（字符串）映射到其出现的文档/文本数的字典。只在调用 fit_on_text 后才被设置。
- word_index: 将词（字符串）映射到索引（整型）的字典。只在调用 fit_on_text 后才被设置。
- document_count: 整型。标志器训练的文档（文本/序列）数量。只在调用 fit_on_text 或 fit_on_sequences 后才被设置。