update: 2016-11-29

LDA是我们部们用得比较广泛的主题模型,最常见的用途是找到相似文本用于推荐。这个算法的使用和工程实现都比较简单,但背后的数学原理繁复,所以想下点功夫弄清楚。思路是以做带学,在梳理代码实现的同时,再查阅文献弄清后面的数学公式。

0. 原理简介

参考:

1. 工程实现

1.0 spark

  • 框架UML

  • 模块细节

1.1 sklearn

1.2 jbibblda

结语