当前位置: 代码迷 >> 综合 >> Introduction to Topic Modeling learning
  详细解决方案

Introduction to Topic Modeling learning

热度:93   发布时间:2023-12-21 16:47:24.0

原文:http://chentingpc.me/article/?id=616

 

Topic Modeling(主题模型)是一个比较神奇的东西,之前听说过,没意识到它的重要性。直到唐总的点拨后重新认真看看,可以说文本挖掘的一个基础吧(比较 高级的基础?)。问题的输入是文档,输出是低维空间的主题,是unsupervised算法。基本经历发展是 LSI->pLSI->LDA->various LDA,pLSI和LDA都是生成模型,特别是LDA,这种看待文本的思想是很奇妙的。LDA的思想虽简单,但是利用EM/Gibbs等进行概率推导学起 来就没那么简单(写此文时候这部分还没完全弄清楚;唐总说TM是用一个月来学的问题或用两三个月来学的问题,呼呼,真的假的。。不知道他说这句话时候的要 求是多高)。

 

仔细看LDA有两三天了,今晚也跑了跑Mallet,也有了感性的认识。下面就把入门的文章整理下吧(这些文章都可以从网上公开下载,所以这里附件其中不算侵权吧。。。):

 

 

Survey

  • David M. Blei主页上的Topic modeling页面,有很多资料(从tutorial到implementation)
  • 自然语言处理中主题模型的发展
  • Probabilistic Topic Models.pdf
  • Introduction to Probabilistic Topic Models.pdf

Specific

  • LSI : Latent semantic indexing a probabilistic analysis.pdf
  • pLSI : Probabilistic Latent Semantic Indexing.pdf
  • LDA : Latent Dirichlet Allocation.pdf

Video Lecture

  • D.Blei的一个很不错的lecture,由于网速原因,我只能看到其课件不能看lecture,但毫无疑问是好lecture(这东西就是D.Blei等人03年提出的)。
  • 另一个D. Blei的lecture

Open Source

  • Matlab Topic Modeling Toolbox
  • Mallet
  • Stanford Topic Modeling Toolbox (重点关注)

Derived (not recommended for newcomers)

  • dynamic LDA : dynamic_topic_models.pdf
  • The Author-Topic Model for Authors and Documents
  • Correlated Topic Models
  • Automatic Labeling of Multinomial Topic Model