当前位置: 代码迷 >> 综合 >> (01) 第一讲 NLP(Natural Language Processing)和深度学习入门
  详细解决方案

(01) 第一讲 NLP(Natural Language Processing)和深度学习入门

热度:73   发布时间:2023-09-19 10:51:15.0

1.介绍

1.1 深度学习和机器学习不同的是

大多数传统的机器学习是围绕决策树(decision trees)、逻辑回归(logistic regressions)、朴素贝叶斯(naive bayes)、支持向量机(SVM:support vector machines)等概念。它的本质是由人类仔细审视一个特定的问题,然后设计出与该问题相关的重要特征要素,在手工写代码。因此在机器学习中,是人类研究如何描述数据,总结重要特征。
深度学习是表征学习(representation learning)的一个分支,表征学习的理念是我们向电脑提供原始信号(视觉或语言),电脑自动得出好的中介表征来完成任务,也就是说由机器定义特征。深度学习是自动得到多层学习得到的表征。现在深度学习一般指神经网络。

1.2 基于deep learning的NLP

基于深度学习的NLP的核心想法是以词义(word meaning)为起点。具体而言将表示的词用一个数字向量表示。将单词放到高维向量空间中,这些空间就是语义空间,具有相似含义的词汇在向量空间中形成聚集块。向量空间中也存在方向,表示成分和意义的信息。但由于人类不擅长解读高维空间,因此常常将它映射成二维或三维,降维过程中就会丢失一些信息,因此可能具有误导性。
降维过程中,用了一些方法来表示高维向量空间中的主要含义,比如主成分分析(PAC)、t-SNE(一种常用的非线性降维) 。
向量空间中的坐标轴的意义:目前没有特殊发现,因此是没有实际意义。

1.3 NLP的传统做法

NLP的传统方法一般是做lambda演算基于微积分的语义理论,对每个单词赋予语义函数,然后用准确算法研究如何将词汇意义结合起来,获得语义表达。

1.4 总结

用向量表示所有的语言形式,词的部分、单词、句子、对话,都将他们表示成具有真实值的向量。

  相关解决方案