天池文本分类比赛
task 4 基本深度学习的文本分类
这次的task开始学习深度学习的方法来处理文本分类的任务,相对于机器学习方法,深度学习处理文本,有如下的优点:
- 处理的文本的维度相对降低
- 考虑单词之间的关系,而不是只进行统计学上的分析
深度学习可以将文本数据提取特征用更低维度的特征来表示,个人感觉类似与SVD。本次的重点内容是FastText.
FastText
最经典的深度神经网络结构三部分组成:
- input layer
- hidden layer
- output layer
需要注意的一点就是input layer后经过Embedding处理,
Facebook-fastText可以查看这个处理方式的具体实现。