三、LDA Model

  1. pLSA模型中,参数 三、LDA Model - 图1 是常数。而在LDA模型中,假设 三、LDA Model - 图2 也是随机变量:

    • 参数 三、LDA Model - 图3 为文档 三、LDA Model - 图4 的主题分布(离散型的),其中 三、LDA Model - 图5。该分布也是一个随机变量,服从分布 三、LDA Model - 图6 (连续型的)。
    • 参数 三、LDA Model - 图7 为主题 三、LDA Model - 图8 的单词分布(离散型的),其中 三、LDA Model - 图9 。该分布也是一个随机变量,服从分布 三、LDA Model - 图10(连续型的)。

    因此 LDA 模型是pLSA 模型的贝叶斯版本。

  2. 例:在pLSA 模型中,给定一篇文档,假设:

    • 主题分布为 {教育:0.5,经济:0.3,交通:0.2} ,它就是 三、LDA Model - 图11
    • 主题教育下的主题词分布为 {大学:0.5,老师:0.2,课程:0.3} ,它就是 三、LDA Model - 图12

    LDA中:

    • 给定一篇文档,主题分布 三、LDA Model - 图13 不再固定 。可能为 {教育:0.5,经济:0.3,交通:0.2} ,也可能为 {教育:0.3,经济:0.5,交通:0.2} ,也可能为 {教育:0.1,经济:0.8,交通:0.1}

      但是它并不是没有规律的,而是服从一个分布 三、LDA Model - 图14 。即:主题分布取某种分布的概率可能较大,取另一些分布的概率可能较小。

    • 主题教育下的主题词分布也不再固定。可能为 {大学:0.5,老师:0.2,课程:0.3},也可能为 {大学:0.8,老师:0.1,课程:0.1}

      但是它并不是没有规律,而是服从一个分布 三、LDA Model - 图15 。即:主题词分布取某种分布的概率可能较大,取另一些分布的概率可能较小。

3.1 文档生成算法

  1. LDA模型的文档生成规则:

    • 根据参数为 三、LDA Model - 图16 的狄利克雷分布随机采样,对每个话题 三、LDA Model - 图17 生成一个单词分布 三、LDA Model - 图18 。每个话题采样一次,一共采样 三、LDA Model - 图19 次。
    • 根据参数为 三、LDA Model - 图20 的狄利克雷分布随机采样,生成文档 三、LDA Model - 图21 的一个话题分布 三、LDA Model - 图22 。每篇文档采样一次。
    • 根据话题分布 三、LDA Model - 图23 来随机挑选一个话题。然后在话题 三、LDA Model - 图24 中,根据单词分布 三、LDA Model - 图25 来随机挑选一个单词。
    • 重复执行挑选话题--> 挑选单词 三、LDA Model - 图26 次,则得到一篇包含 三、LDA Model - 图27 个单词 三、LDA Model - 图28 的文档,记作 三、LDA Model - 图29 。其中: 三、LDA Model - 图30三、LDA Model - 图31 表示文档的第 三、LDA Model - 图32 个单词为 三、LDA Model - 图33
  2. 对于包含 三、LDA Model - 图34 篇文档的数据集 三、LDA Model - 图35 ,假设所有文档都是如此生成。则数据集 三、LDA Model - 图36 的生成规则:

    • 以概率 三、LDA Model - 图37 选中第 三、LDA Model - 图38 篇文档。

    • 根据参数为 三、LDA Model - 图39 的狄利克雷分布随机采样,对每个话题 三、LDA Model - 图40 生成一个单词分布 三、LDA Model - 图41 。每个话题采样一次,一共采样 三、LDA Model - 图42 次。

    • 生成文档 三、LDA Model - 图43

      • 根据参数为 三、LDA Model - 图44 的狄利克雷分布随机采样,生成文档 三、LDA Model - 图45 的一个话题分布 三、LDA Model - 图46 。每篇文档采样一次。
      • 在文档 三、LDA Model - 图47 中,根据话题分布 三、LDA Model - 图48 来随机挑选一个话题。然后在话题 三、LDA Model - 图49 中,根据单词分布 三、LDA Model - 图50 来随机挑选一个单词。
      • 重复执行挑选话题--> 挑选单词 三、LDA Model - 图51 次,则得到一篇包含 三、LDA Model - 图52 个单词 三、LDA Model - 图53 的文档,记作 三、LDA Model - 图54
    • 重复执行上述文档生成规则 三、LDA Model - 图55 次,即得到 三、LDA Model - 图56 篇文档组成的文档集合 三、LDA Model - 图57
  3. 由于两次随机采样,导致 LDA 模型的解会呈现一定程度的随机性。所谓随机性,就是:当多次运行LDA算法,获得解可能会各不相同

    当采样的样本越稀疏,则采样的方差越大,则LDA的解的方差越大。

    • 文档数量越少,则文档的话题分布的采样越稀疏。
    • 文档中的单词越少,则话题的单词分布的采样越稀疏。

3.2 模型原理

  1. 由于使用词袋模型,LDA 生成文档的过程可以分解为两个过程:

    • 三、LDA Model - 图58 :该过程表示,在生成第 三、LDA Model - 图59 篇文档 三、LDA Model - 图60 的时候,先从文档-主题分布 三、LDA Model - 图61 中生成 三、LDA Model - 图62 个主题。

      其中:

      • 三、LDA Model - 图63 表示文档 三、LDA Model - 图64 的第 三、LDA Model - 图65 个单词由主题 三、LDA Model - 图66 生成。
      • 三、LDA Model - 图67 表示文档 三、LDA Model - 图68 一共有 三、LDA Model - 图69 个单词。
    • 三、LDA Model - 图70 :该过程表示,在已知主题为 三、LDA Model - 图71 的条件下,从主题-单词分布 三、LDA Model - 图72 生成 三、LDA Model - 图73 个单词。

      其中:

      • 三、LDA Model - 图74 表示由主题 三、LDA Model - 图75 生成的的第 三、LDA Model - 图76 个单词为 三、LDA Model - 图77
      • 三、LDA Model - 图78 为由 三、LDA Model - 图79 生成的单词的数量。

    三、LDA Model - 图80

3.2.1 主题生成过程

  1. 主题生成过程用于生成第 三、LDA Model - 图81 篇文档 三、LDA Model - 图82 中每个位置的单词对应的主题。

    • 三、LDA Model - 图83 :对应一个狄里克雷分布

    • 三、LDA Model - 图84 :对应一个多项式分布

    • 该过程整体对应一个狄里克雷-多项式 共轭结构:

      三、LDA Model - 图85

  2. 合并文档 三、LDA Model - 图86 中的同一个主题。设 三、LDA Model - 图87 表示文档 三、LDA Model - 图88 中,主题 三、LDA Model - 图89 出现的次数。则有:

    三、LDA Model - 图90

    则有:

    三、LDA Model - 图91

    其中 三、LDA Model - 图92 表示文档 三、LDA Model - 图93 中,各主题出现的次数。

  3. 由于语料库中 三、LDA Model - 图94 篇文档的主题生成相互独立,则得到整个语料库的主题生成概率:

    三、LDA Model - 图95

    .

    三、LDA Model - 图96

3.2.2 单词生成过程

  1. 单词生成过程用于生成数据集 三、LDA Model - 图97 中所有文档的所有主题的单词。

    • 三、LDA Model - 图98 :对应一个狄里克雷分布

    • 三、LDA Model - 图99 :对应一个多项式分布,其中 三、LDA Model - 图100 为数据集 三、LDA Model - 图101 中(将所有单词拼接在一起)由主题 三、LDA Model - 图102 生成的单词。

    • 数据集 三、LDA Model - 图103 中,由主题为 三、LDA Model - 图104 生成的所有单词的分布对应一个狄里克雷-多项式 共轭结构:

      三、LDA Model - 图105

  2. 合并主题 三、LDA Model - 图106 生成的同一个单词。设 三、LDA Model - 图107 表示中主题 三、LDA Model - 图108 生成的单词中,三、LDA Model - 图109 出现的次数。则有:

    三、LDA Model - 图110

    则有:

    三、LDA Model - 图111

    其中 三、LDA Model - 图112 表示由主题 三、LDA Model - 图113 生成的单词的词频。

  3. 考虑数据集 三、LDA Model - 图114 中的所有主题,由于不同主题之间相互独立,则有:

    三、LDA Model - 图115

  4. 这里是按照主题来划分单词,如果按照位置来划分单词,则等价于:

    三、LDA Model - 图116

    注意:这里 三、LDA Model - 图117 的意义发生了变化:

    • 对于前者, 三、LDA Model - 图118 表示由主题 三、LDA Model - 图119 生成的第 三、LDA Model - 图120 个单词。
    • 对于后者, 三、LDA Model - 图121 表示文档 三、LDA Model - 图122 中的第 三、LDA Model - 图123 个单词。

    三、LDA Model - 图124

3.2.3 联合概率

  1. 数据集 三、LDA Model - 图125 的联合概率分布为:

    三、LDA Model - 图126

    其中:

    • 三、LDA Model - 图127 表示文档 三、LDA Model - 图128 中,各主题出现的次数。
    • 三、LDA Model - 图129 表示主题 三、LDA Model - 图130 生成的单词中,各单词出现的次数。

3.2.4 后验概率

  1. 若已知文档 三、LDA Model - 图131 中的主题 三、LDA Model - 图132 ,则有:

    三、LDA Model - 图133

    则有:三、LDA Model - 图134 。这说明参数 三、LDA Model - 图135 的后验分布也是狄里克雷分布。

  2. 若已知主题 三、LDA Model - 图136 及其生成的单词 三、LDA Model - 图137 则有:

    三、LDA Model - 图138

    则有:三、LDA Model - 图139 。这说明参数 三、LDA Model - 图140 的后验分布也是狄里克雷分布。

3.3 模型求解

  1. LDA的求解有两种办法:变分推断法、吉布斯采样法。

3.3.1 吉布斯采样

  1. 对于数据集 三、LDA Model - 图141

    • 其所有的单词 三、LDA Model - 图142 是观测的已知数据,记作 三、LDA Model - 图143
    • 这些单词对应的主题 三、LDA Model - 图144 是未观测数据,记作 三、LDA Model - 图145

    需要求解的分布是:三、LDA Model - 图146 。其中:三、LDA Model - 图147 表示文档 三、LDA Model - 图148 的第 三、LDA Model - 图149 个单词为 三、LDA Model - 图150三、LDA Model - 图151 表示文档 三、LDA Model - 图152 的第 三、LDA Model - 图153 个单词由主题 三、LDA Model - 图154 生成。

  2. 定义 三、LDA Model - 图155 为:去掉 三、LDA Model - 图156 的第 三、LDA Model - 图157 个单词背后的那个生成主题(注:只是对其频数减一):

    三、LDA Model - 图158

    定义 三、LDA Model - 图159 为:去掉 三、LDA Model - 图160 的第 三、LDA Model - 图161 个单词:

    三、LDA Model - 图162

    根据吉布斯采样的要求,需要得到条件分布:

    三、LDA Model - 图163

    根据条件概率有:

    三、LDA Model - 图164

    则有:

    三、LDA Model - 图165

  3. 对于文档 三、LDA Model - 图166 的第 三、LDA Model - 图167 个位置,单词 三、LDA Model - 图168 和对应的主题 三、LDA Model - 图169 仅仅涉及到如下的两个狄里克雷-多项式共轭结构:

    • 文档 三、LDA Model - 图170 的主题分布 三、LDA Model - 图171
    • 已知主题为 三、LDA Model - 图172 的情况下单词的分布 三、LDA Model - 图173

    对于这两个共轭结构,去掉文档 三、LDA Model - 图174 的第 三、LDA Model - 图175 个位置的主题和单词时:

    • 先验分布(狄里克雷分布):保持不变。

    • 文档 三、LDA Model - 图176 的主题分布:主题 三、LDA Model - 图177 频数减少一次,但是该分布仍然是多项式分布。其它 三、LDA Model - 图178 个文档的主题分布完全不受影响。因此有:

      三、LDA Model - 图179

    • 主题 三、LDA Model - 图180 的单词分布:单词 三、LDA Model - 图181 频数减少一次,但是该分布仍然是多项式分布。其它 三、LDA Model - 图182 个主题的单词分布完全不受影响。因此有:

      三、LDA Model - 图183

    • 根据主题分布和单词分布有:

      三、LDA Model - 图184

      其中:

      • 三、LDA Model - 图185 表示去掉文档 三、LDA Model - 图186 的第 三、LDA Model - 图187 个位置的单词和主题之后,第 三、LDA Model - 图188 篇文档中各主题出现的次数。
      • 三、LDA Model - 图189 表示去掉文档 三、LDA Model - 图190 的第 三、LDA Model - 图191 个位置的单词和主题之后,数据集 三、LDA Model - 图192 中,由主题 三、LDA Model - 图193 生成的单词中各单词出现的次数。

      三、LDA Model - 图194

  4. 考虑 三、LDA Model - 图195 。记 三、LDA Model - 图196 ,则有:

    三、LDA Model - 图197

    考虑到主题生成过程和单词生成过程是独立的,则有:

    三、LDA Model - 图198

    考虑到文档 三、LDA Model - 图199 的第 三、LDA Model - 图200 个位置的单词背后的主题选择过程和其它文档、以及本文档内其它位置的主题选择是相互独立的,则有:

    三、LDA Model - 图201

    考虑到文档 三、LDA Model - 图202 的第 三、LDA Model - 图203 个位置的单词选择过程和其它文档、以及本文档内其它位置的单词选择是相互独立的,则有:

    三、LDA Model - 图204

    则有:

    三、LDA Model - 图205

    根据狄里克雷分布的性质有:

    三、LDA Model - 图206

    则有:

    三、LDA Model - 图207

    其中: 三、LDA Model - 图208 为文档 三、LDA Model - 图209 的第 三、LDA Model - 图210 个位置的单词背后的主题在主题表的编号; 三、LDA Model - 图211 为文档 三、LDA Model - 图212 的第 三、LDA Model - 图213 个位置的单词在词汇表中的编号。

  5. 根据上面的推导,得到吉布斯采样的公式(三、LDA Model - 图214):

    三、LDA Model - 图215

    • 第一项刻画了:文档 三、LDA Model - 图216 中,第 三、LDA Model - 图217 个位置的单词背后的主题占该文档所有主题的比例(经过 三、LDA Model - 图218 先验频数调整)。
    • 第二项刻画了:在数据集 三、LDA Model - 图219 中,主题 三、LDA Model - 图220 中,单词 三、LDA Model - 图221 出现的比例(经过 三、LDA Model - 图222 先验频数调整)。
    • 它整体刻画了:文档 三、LDA Model - 图223 中第 三、LDA Model - 图224 个位置的单词为 三、LDA Model - 图225 ,且由主题 三、LDA Model - 图226 生成的可能性。
  6. 令:

    • 三、LDA Model - 图227 为数据集中所有主题的先验频数之和
    • 三、LDA Model - 图228 为数据集中所有单词的先验频数之和
    • 三、LDA Model - 图229 表示去掉文档 三、LDA Model - 图230 位置 三、LDA Model - 图231 的主题之后,文档 三、LDA Model - 图232 剩下的主题总数。它刚好等于 三、LDA Model - 图233,其中 三、LDA Model - 图234 表示文档 三、LDA Model - 图235 中单词总数,也等于该文档中的主题总数。
    • 三、LDA Model - 图236 表示:数据集 三、LDA Model - 图237 中属于主题 三、LDA Model - 图238 的单词总数。
    • 三、LDA Model - 图239 表示去掉文档 三、LDA Model - 图240 位置 三、LDA Model - 图241 的单词之后,数据集 三、LDA Model - 图242 中属于主题 三、LDA Model - 图243 的单词总数,则它等于 三、LDA Model - 图244

    则有:

    三、LDA Model - 图245

    考虑到对于文档 三、LDA Model - 图246 来讲, 三、LDA Model - 图247 是固定的常数,因此有:

    三、LDA Model - 图248

  7. 事实上,上述推导忽略了一个核心假设:考虑到采取词袋假设,LDA 假设同一篇文档中同一个单词(如:喜欢)都由同一个主题生成。

    定义 三、LDA Model - 图249 为:已知所有单词,以及去掉文档 三、LDA Model - 图250 中单词 三、LDA Model - 图251 出现的所有位置(对某个单词,如喜欢,可能在文档中出现很多次)背后的主题的条件下,单词 三、LDA Model - 图252 由主题 三、LDA Model - 图253 生成的概率。

    则有:

    三、LDA Model - 图254

    其中:

    • 三、LDA Model - 图255 表示:去掉单词 三、LDA Model - 图256 出现的所有位置背后的主题之后,文档 三、LDA Model - 图257 剩余的主题中,属于主题 三、LDA Model - 图258 的总频数。则根据定义有:

      三、LDA Model - 图259

      其中 三、LDA Model - 图260 表示文档 三、LDA Model - 图261 中单词总数,也等于该文档中的主题总数;三、LDA Model - 图262 为文档 三、LDA Model - 图263 中单词 三、LDA Model - 图264 出现的次数。

    • 三、LDA Model - 图265 表示:去掉文档 三、LDA Model - 图266 单词 三、LDA Model - 图267 出现的所有位置背后的主题之后,数据集 三、LDA Model - 图268 中由主题 三、LDA Model - 图269 生成的单词 三、LDA Model - 图270 总数。则根据定义有:

      三、LDA Model - 图271

      其中 三、LDA Model - 图272 表示数据集 三、LDA Model - 图273 中属于主题 三、LDA Model - 图274 的单词总数。

    因此得到:

    三、LDA Model - 图275

    这称作基于单词的采样:每个单词采样一次,无论该单词在文档中出现几次。这可以确保同一个文档中,相同的单词由同一个主题生成。

    前面的采样方式称作基于位置的采样:每个位置采样一次。这种方式中,同一个文档的同一个单词如果出现在不同位置则其主题很可能会不同。

3.3.2 模型训练

  1. 定义文档-主题计数矩阵 三、LDA Model - 图276 为:

    三、LDA Model - 图277

    其中第 三、LDA Model - 图278 行代表文档 三、LDA Model - 图279 的主题计数。

    定义主题-单词计数矩阵 三、LDA Model - 图280 为:

    三、LDA Model - 图281

    其中第 三、LDA Model - 图282 行代表 主题 三、LDA Model - 图283 的单词计数

  2. LDA训练的吉布斯采样算法(基于位置的采样)

    • 输入:

      • 单词词典 三、LDA Model - 图284
      • 超参数 三、LDA Model - 图285
      • 主题数量 三、LDA Model - 图286
      • 语料库 三、LDA Model - 图287
    • 输出:

      • 文档-主题分布 三、LDA Model - 图288 的估计量

      • 主题-单词分布 三、LDA Model - 图289 的估计量

        因为这两个参数都是随机变量,因此使用它们的期望来作为一个合适的估计

    • 算法步骤:

      • 设置全局变量:

        • 三、LDA Model - 图290 表示文档 三、LDA Model - 图291 中,主题 三、LDA Model - 图292 的计数。它就是三、LDA Model - 图293 ,也就是 三、LDA Model - 图294 的第 三、LDA Model - 图295 行第 三、LDA Model - 图296 列。
        • 三、LDA Model - 图297 表示主题 三、LDA Model - 图298 中,单词 三、LDA Model - 图299 的计数。它就是三、LDA Model - 图300 ,也就是 三、LDA Model - 图301 的第 三、LDA Model - 图302 行第 三、LDA Model - 图303 列。
        • 三、LDA Model - 图304 表示各文档 三、LDA Model - 图305 中,主题的总计数。它也等于该文档的单词总数,也就是文档长度,也就是 三、LDA Model - 图306的第 三、LDA Model - 图307 行求和。
        • 三、LDA Model - 图308 表示单主题 三、LDA Model - 图309 中,单词的总计数。它也就是 三、LDA Model - 图310的第 三、LDA Model - 图311 行求和。
      • 随机初始化:

        • 对全局变量初始化为 0 。

        • 遍历文档:三、LDA Model - 图312

          • 对文档 三、LDA Model - 图313 中的每一个位置 三、LDA Model - 图314,其中 三、LDA Model - 图315 为文档 三、LDA Model - 图316 的长度:

            • 随机初始化每个位置的单词对应的主题:三、LDA Model - 图317
            • 增加“文档-主题”计数: 三、LDA Model - 图318
            • 增加“文档-主题”总数:三、LDA Model - 图319
            • 增加“主题-单词”计数:三、LDA Model - 图320
            • 增加“主题-单词”总数:三、LDA Model - 图321
      • 迭代下面的步骤,直到马尔科夫链收敛:

        • 遍历文档:三、LDA Model - 图322

          • 对文档 三、LDA Model - 图323 中的每一个位置 三、LDA Model - 图324,其中 三、LDA Model - 图325 为文档 三、LDA Model - 图326 的长度:

            • 删除该位置的主题计数,设 三、LDA Model - 图327

              三、LDA Model - 图328

            • 根据下面的公式,重新采样得到该单词的新主题 三、LDA Model - 图329

              三、LDA Model - 图330

            • 记新的主题在主题表中的编号为 三、LDA Model - 图331,则增加该单词的新的主题计数:

              三、LDA Model - 图332

        • 如果马尔科夫链收敛,则根据下列公式生成文档-主题分布 三、LDA Model - 图333 的估计,以及主题-单词分布 三、LDA Model - 图334 的估计:

          三、LDA Model - 图335

  3. 如果使用基于单词的采样,则训练过程需要调整为针对单词训练,而不是针对位置训练:

    • 对文档 三、LDA Model - 图336 中的每一个词汇 三、LDA Model - 图337,其中 三、LDA Model - 图338 为出现在文档 三、LDA Model - 图339 的词汇构成的词汇表的大小。:

      • 随机初始化每个词汇对应的主题:三、LDA Model - 图340
      • 增加“文档-主题”计数: 三、LDA Model - 图341
      • 增加“文档-主题”总数:三、LDA Model - 图342
      • 增加“主题-单词”计数:三、LDA Model - 图343
      • 增加“主题-单词”总数:三、LDA Model - 图344

      其中 三、LDA Model - 图345 表示文档 三、LDA Model - 图346 中单词 三、LDA Model - 图347 出现的次数。

    • 采样公式:

      三、LDA Model - 图348

    • 主题更新公式:

      三、LDA Model - 图349

  4. 通常训练时对 三、LDA Model - 图350三、LDA Model - 图351 进行批量更新:每采样完一篇文档或者多篇文档时才进行更新,并不需要每次都更新。

    • 每次更新会带来频繁的更新需求,这会带来工程实现上的难题。如分布式训练中参数存放在参数服务器,频繁更新会带来大量的网络通信,网络延时大幅增加。
    • 每次更新会使得后一个位置(或者后一个单词)的采样依赖于前一个采样,因为前一个采样会改变文档的主题分布。这使得采样难以并行化进行,训练速度缓慢。

    这使得训练时隐含一个假设:在同一篇文档的同一次迭代期间,文档-主题 计数、主题-单词 矩阵保持不变。即:参数延迟更新。

3.3.3 模型推断

  1. 理论上可以通过最大似然估计来推断新的文档 三、LDA Model - 图352 的主题分布。设新文档有 三、LDA Model - 图353 个单词,分别为 三、LDA Model - 图354。 假设这些单词背后的主题分别为 三、LDA Model - 图355 。则有:

    三、LDA Model - 图356

    由于单词的生成是独立的,且主题的单词分布是已经求得的,因此有:

    三、LDA Model - 图357

    由于主题的选择是独立的,但是文档的主题分布未知,该主题分布是从狄里克雷分布采样。因此有:

    三、LDA Model - 图358

    其中三、LDA Model - 图359 为文档中主题 三、LDA Model - 图360 的频数。

    因此有:

    三、LDA Model - 图361

    由于 三、LDA Model - 图362 取值空间有 三、LDA Model - 图363 个,则新文档中可能的主题组合有 三、LDA Model - 图364 种,因此最大似然 三、LDA Model - 图365 计算量太大而无法进行。

  2. 有三种推断新文档主题分布的策略。假设训练文档集合为 三、LDA Model - 图366,待推断的文档集合为 三、LDA Model - 图367,二者的合集为 三、LDA Model - 图368

    • 完全训练:

      • 首先单独训练 三、LDA Model - 图369 到模型收敛。
      • 然后加入 三、LDA Model - 图370 ,并随机初始化新文档的主题,继续训练模型到收敛。

      这种做法相当于用 三、LDA Model - 图371 的训练结果为 三、LDA Model - 图372 的主题进行初始化(三、LDA Model - 图373 的部分仍然保持随机初始化)。其推理的准确性较高,但是计算成本非常高。

    • 固定主题:

      • 首先单独训练 三、LDA Model - 图374 到模型收敛。
      • 然后加入 三、LDA Model - 图375 ,并随机初始化新文档的主题,继续训练模型到收敛。训练过程中固定 三、LDA Model - 图376 的主题。

      这种做法只需要在第二轮训练中更新 三、LDA Model - 图377 的主题。

    • 固定单词:

      • 首先单独训练 三、LDA Model - 图378 到模型收敛。
      • 然后训练一篇新文档 三、LDA Model - 图379 。训练过程中,使用训练集合 三、LDA Model - 图380 的主题-单词计数矩阵 三、LDA Model - 图381

      这种做法可以在线推断,它每次只处理一篇新文档(前面两个版本每次处理一批新文档)。