主题模型

  1. 给包含 18.主题模型 - 图1 篇文档的定语料库 18.主题模型 - 图2 ,其中 18.主题模型 - 图3 为第 18.主题模型 - 图4 篇文档,包含 18.主题模型 - 图5 个单词。

    语料库的所有单词来自于词汇表 18.主题模型 - 图6,其中 18.主题模型 - 图7 表示词汇表的大小,第 18.主题模型 - 图8 个单词为 18.主题模型 - 图9

    注意:文档中的单词标记为 18.主题模型 - 图10 ,它表示文档中第 18.主题模型 - 图11 个位置的单词为 18.主题模型 - 图12 。如:文档中第1个位置的单词为 18.主题模型 - 图13 (假设 18.主题模型 - 图14 ),则文档中第一个位置的单词为

    因此这里将 18.主题模型 - 图15 来表示文档中的单词(也称作 token ),用 18.主题模型 - 图16 表示词表中的单词。

  2. BOW:Bag of Words:词在文档中不考虑顺序,这称作词袋模型。