原文:http://chentingpc.me/article/?id=616
Topic Modeling(主题模型)是一个比较神奇的东西,之前听说过,没意识到它的重要性。直到唐总的点拨后重新认真看看,可以说文本挖掘的一个基础吧(比较 高级的基础?)。问题的输入是文档,输出是低维空间的主题,是unsupervised算法。基本经历发展是 LSI->pLSI->LDA->various LDA,pLSI和LDA都是生成模型,特别是LDA,这种看待文本的思想是很奇妙的。LDA的思想虽简单,但是利用EM/Gibbs等进行概率推导学起 来就没那么简单(写此文时候这部分还没完全弄清楚;唐总说TM是用一个月来学的问题或用两三个月来学的问题,呼呼,真的假的。。不知道他说这句话时候的要 求是多高)。
仔细看LDA有两三天了,今晚也跑了跑Mallet,也有了感性的认识。下面就把入门的文章整理下吧(这些文章都可以从网上公开下载,所以这里附件其中不算侵权吧。。。):
Survey
- David M. Blei主页上的Topic modeling页面,有很多资料(从tutorial到implementation)
- 自然语言处理中主题模型的发展
- Probabilistic Topic Models.pdf
- Introduction to Probabilistic Topic Models.pdf
Specific
- LSI : Latent semantic indexing a probabilistic analysis.pdf
- pLSI : Probabilistic Latent Semantic Indexing.pdf
- LDA : Latent Dirichlet Allocation.pdf
Video Lecture
- D.Blei的一个很不错的lecture,由于网速原因,我只能看到其课件不能看lecture,但毫无疑问是好lecture(这东西就是D.Blei等人03年提出的)。
- 另一个D. Blei的lecture
Open Source
- Matlab Topic Modeling Toolbox
- Mallet
- Stanford Topic Modeling Toolbox (重点关注)
Derived (not recommended for newcomers)
- dynamic LDA : dynamic_topic_models.pdf
- The Author-Topic Model for Authors and Documents
- Correlated Topic Models
- Automatic Labeling of Multinomial Topic Model