主题模型主题模型 给包含 篇文档的定语料库 ,其中 为第 篇文档,包含 个单词。 语料库的所有单词来自于词汇表 ,其中 表示词汇表的大小,第 个单词为 。 注意:文档中的单词标记为 ,它表示文档中第 个位置的单词为 。如:文档中第1个位置的单词为 (假设 ),则文档中第一个位置的单词为 我 。 因此这里将 来表示文档中的单词(也称作 token ),用 表示词表中的单词。 BOW:Bag of Words:词在文档中不考虑顺序,这称作词袋模型。