学习笔记,仅供参考,有错必究
文章目录
-
- 特征缩放:tf-idf
-
- tf-idf: 词袋的一种简单扩展
-
- 使用逻辑回归进行分类(JTTZGC-ebook-p75)
- 使用正则化对逻辑回归进行优化(JTTZGC-ebook-p76)
特征缩放:tf-idf
tf-idf: 词袋的一种简单扩展
tf-idf是在词袋方法基础上的一种简单扩展,它表示词频-逆文档频率。tf-idf计算的不是数据集中每个单词在每个文档中的原本技术,而是一个归一化的计数,其中每个单词的计数要除以这个单词出现在其中的文档数量 ,即:
b o w (