文本分析
项目3:基于自然语言处理的影评分析
项目简介:通过大量的正面和负面的电影评论对计算机进行自然语言训练,实现计算机对电影评论的基本情感分析,使其能够快速判断出评论是否积极
个人职责:1. 对正面和负面的电影评论进行分词处理,整理成规定的训练数据集格式;
? \2. 对nltk自带的朴素贝叶斯分类器模型进行训练;
\3. 最后模拟业务场景检测训练效果
项目3:2018.08 – 2018.12 智能考试分析系统
**项目描述:**由于公务员、事业单位、国企等面试内容来源较广,面试研发人员往往需要阅读大量的新闻热点以及微信公众号等网页端内容,这使得研发人员投入大量的时间和经历搜索、查找和筛选信息,凭借人的主观臆断往往命中率较低,又由于竞争对手的压力,快、准成为赢家至关重要的因素。该系统包括数据爬取,数据清洗,关键词统计,数据可视化等模块。
**个人职责:**对公务员等面试相关的内容的数据进行清洗,分析对面试研发有用信息,提取热点新闻的关键词,预测热点考点,为公务员等的面试研发准备素材
**所用技术:**1.利用pandas对数据进行预处理,去除无效或干扰信息;
2.利用jieba分词,提取热点新闻的关键词,进行统计;
3.利用numpy,matplotlib,将分析结果可视化,形成结论。
项目2:2018.04 – 2018.08 智能批改英文作文系统
**项目描述:**为了提高批改英文作文的效率,减少人力批改的成本,研发了包括拼写检测、语法检测、统计信息、评分、web前端等几个模块的英文作文自动批阅系统,输入英文作文,极快的给出得分及评分报告。
**个人职责:**拼写检测模块、语法检测模块、评分模块
**所用技术:**1拼写检查模块用PyEnchant对单词进行检查;
2.语法检查模块采用pylinkgrammar库,主要通过语法链对语义解析;
3.评分模块主要采用机器学习的方法对给定的样本数据打分情况进行学习,拟合出最接近样本数据的各项评分权重值,从而实现接近人类的评分结果。
经销商投诉管理系统
开发工具: numpy + matplotlib + gensim + sklearn + nltk + jieba 项目描述:
本项目通过整理经销商投诉邮件,通过LDA主题模型把每个经销商邮件当做一个文档分成若干个主题。在对所有文档中主题通过无监督模型进行聚类,并通过可视化工具对每个类按照概率降序选择前20个特征词进行可视化,最后通过挖掘关键字中潜藏的信息发现经销商投诉的重要信息,并提出解决方案,反馈给供应商。
项目职责:
数据清洗,对中文邮件进行分词和英文邮件进行分词,提取词干,排除停止词,进行词性分析,排除动词和助词等;
数据预处理,对每个邮件构建词袋,并进行归一化,生成TF-IDF等;
模型建立,对于主题的个数采取随机搜索的方式选取F1得分最高对应的超参数,构建LDA模型在 聚类方面,我们对聚类几种常用的模型进行训练,选择轮廓系数接近于1的模型。
项目效果:
通过和同事一起在后期建立模型并进行数据分析,并提出在聚类方面考虑用并结合实际,总结出最优的解决方案反馈给供应商,供应商接受的方案,几个月内投诉邮件有了明显的减少。
项目名称:客服聊天机器人
项目简介:
智能聊天机器人通过对客服工作中的重复性问题和标准化问题进行实时处理,
来辅助人工客服以更加经济高效的方式24小时的为客户提供服务,人工客服
能够集中精力为客户提供更高价值的服务,从而提高了客户的体验度并节约了
运营成本
**个人职责:**分词、建立词袋、TF-IDF矩阵的获取、模型的建立
所用技术:
1、利用jieba中文分词工具包对客户提出的问题进行分词处理
2、利用sklearn获取词袋并通过词袋建立词频逆文档频率(TF-IDF)矩阵
3、利用朴素贝叶斯分类器建立分类模型并对问题进行分类并回答
项目3 : 创美影城智能决策支持系统
软件环境: Linux + Jieba + Nltk + Numpy + Pandas +spyder3 项目描述:
? 项目主要通过对最新电影数据的爬取,获取对新上映影片的影评口碑,剔除水军,反馈给用户
真实影评,升级语音订票功能,提升用户操作体验,并通过人工智能后台,实现客服问题和帮助
问答的一体化智能影城。
项目职责:
应用requests,lxml等模块爬取豆瓣,猫眼,时光网,IMDB等电影相关网站影评数据,存储
MangoDB通过Pandas对影评数据进行清晰,预处理获取数据,然后对通过Jieba分词器分词后对建
立词袋,通过词频逆文档频率,通过朴素贝叶斯算法分类,应用F1对算法进行评估和优化,最终输出每条
评论的好坏
项目名称: 语句主题识别分类
项目描述: 根据样本语义贡献力的大小及语义识别度,提取特征,对未知语句进行分类,从而完成不同语句对应不同的主题
开发环境: python + sklearn
项目职责:
一 . 对数据进行预处理
1 . 获取数据后打乱数据排序,指定 latin 1 编码;
- 划分训练集文本、对应的主题类别及主题对应的名称;
二 创建训练模型以及样本语句的特征重要性提取; - 使用计数矢量化器划分训练集词袋矩阵;
- 使用词频逆文档转换器创建词频逆文档转换器矩阵;
- 创建多项分布朴素贝叶斯分类器模型并进行训练;
三 对测试样本语句进行处理 - 根据测试样本语句创建测试集的词袋矩阵及词频逆文档频率;
- 最后根据模型进行预测测试集的类别;
项目名称: 垃圾邮件分类 C NN
项目描述:采用 卷积神经网络把邮件转换为矩阵读取,通过 tf.flags 的预处理,卷积池化以及合并特征,训练模型,从而使
模型可以对邮件进行分类
开发环境: python +numpy+Tensorflow +ma tplotlib +os+time+re+datetime
项目职责:
一. 定义加载数据的参数(tf.flags.FLAGS) 1 . 通过 tf.flags.DEFINE 定义验证集占训练集的比例,读取 pos 和 neg 文件;
- 单词的维度embe dding_dim dim(128),filter_sizes,num_filters,dropout_keep_prob,惩罚力度,bach_size,epochs,及验证次数和保存模型; 二 加载数据 过滤特殊字符 (Load Data+Clean(
- 以二进制格式读取文件并转化为 utf 8 编码
- 用 split 以空行来分割邮件并去掉两边多余空格,
- 将 pos 和 neg 样本合并,通过正则过滤特殊字符
- 使用 one hot 编码分别 记录 pos 和 neg 样本的 label
三 对加载数据进行预处理 - 计算邮件中最长单词的长度(max_document_length); 2. 使用tensorflow.contrib的learn工具包去填充其它单词的padding保持和max_document_length一样; 3. 通过shuffle打乱数据顺序并重新获得训练集,验证集数据及label; 四. 建立模型并训练 1. 创建session计算图,定义输入数据及label的placeholder及降采样dropout; 2. 高斯初始化,定义权重参数w,及阈值b; 3. 通过conv2d提取文本特征,使用relu激活函数,然后使用max_pool提取最大特征向量,通过tf.concat()将三个池化层合并,并做flat操作; 4. 将结果进行dropout,并做全连接输出,计算loss值及准确率; 五. 创建bach迭代并完成模型训练 1. 先迭代epochs,然后计算每个epoch有多少个bach_sizes,循环遍历bach_sizes,并打乱数据; 2. 执行计算图会话,计算损失值,准确率; 3. 每迭代100次验证一次,打印迭代次数,损失值,准确率; 4. 每迭代500次保存一下模型,最多保存5个模型;
项目名称:基于自然语言处理的影评分析
开发环境:Win10+Spyder+Python+nltk
项目描述:通过大量正面和负面的电影评论对计算机进行自然语言训练,实现计算机
对电影评论的基本情感分析,使其能够快速做出评论是积极的(好评)还
是消极的(差评)判定,从而节省人力。
责任描述:分别对正面和负面的电影评论进行分词处理,然后整理成规定的训练数据
集格式,对nltk 自带的朴素贝叶斯分类器模型进行训练,最后模拟业务场
景检测训练效果。
标准文本加工程序
项目介绍:为标准在线服务网及全国代理提供标准文本数据支撑,为公司数据部门服务的后台程序。
个人职责:解决程序Bug,版本更新
所用技术:项目使用C#语言开发,使用MySQL、SQL server、Oracle 数据库。
调用第三方加工包、md5 等对文本及其题录进行版权控制。
使用socket 以及数据库触发事件与标准在线服务网及数据加工程序进行通信。
项目一:影评情感分析
? 开发应用:TensorFlow,LSTM 神经网络,word2vec, numpy , matplotlib.pyplot
? 项目描述:每个人的观影体验都会有所不同,有好评也有差评,此项目通过使用递归神经网络中的lstm 网络
对已有的大量影评文本数据进行训练,得出情感分析的模型
? 项目职责:个人项目
? 项目思路: 1)构建单词词库的嵌入矩阵
2)形成词和ID 的映射,在已构造的词库中,搜索到单词对应的词向量
3)构建RNN 的网络架构
4)应用大量的数据训练网络模型
5)通过测试数据检测模型效果
项目二:文章摘要提取
? 开发应用:TensorFlow,seq2seq 网络模型,word2vec, numpy , matplotlib.pyplot
? 项目描述:类似于大段文章的标题,生活中有选择性的去读文章,可以节省大量的时间,此项目应用
seq2seq 的网络模型,来提取文章的摘要
? 项目职责:个人项目
? 项目思路: 1)数据的预处理(连词转换,去停用词,构造词向量等)
2)构建seq2seq 的模型
3)应用大量的数据训练网络模型
4 ) 通过测试数据检测模型效果
项目三:文本分类-垃圾邮件处理
? 开发应用:TensorFlow,CNN 神经网络
? 项目描述:随着网络的不断发展,各种垃圾邮件随处可见,浪费了许多的时间,能有效的将这些垃圾邮件
进行分类区分并屏蔽,不失为一个高效做法
? 项目职责:个人项目
? 项目思路: 1)数据处理,构建文本的词向量
2)构建CNN 的网络架构
3)应用大量的数据训练网络模型
4 ) 通过测试数据检测模型效果
文本格式智能审校软件
项目介绍:多数文本初稿格式不规范,审校部门工作量大、重复性高、出错率高。由此开发此软件,
通过图像识别技术,对字号大小、图片格式、段落格式等进行审校,给出建议处理方案。
个人职责:文本格式识别
所用技术:将文本每页转换为jpg 格式图片;
基于Opencv.canny 算法根据灰度图梯度变化对图片进行边缘检测,获取所有边缘;
根据边缘像素大小区别文字和图片,例如五号字体为14px,识别不符合将会提出建议;
在操作界面输出建议修改方案,例如段首缩进、字号大小、图片下方是否有标识等。
推荐系统
项目名称:云app商品推荐系统开发
项目介绍:商品推荐系统的主要功能是收集过往用户的采购信息,以这些信息为参考依据,给
现有app用户推荐他们可能会用到的产品。这些产品采用直销模式,给用户提供更
便捷的服务。
项目职责:在app原商城模块上添加智能推荐系统。主要对注册的用户和们的过往采购商品信
息进行匹配,根据用户的现阶段采购信息预测接下来可能会需要的产品推送给客户。
所用技术:1.用pandas,matplotlib 等模块对过往用户的采购信息进行数据预处理;
2.根据欧氏距离及皮尔逊距离构建相似程度矩阵;
3.根据用户采购商品的相似度做智能推荐;
项目名称:看电影app客服系统
**项目描述:**通过用户输入的问题自动进行语义分析为客户寻找相似的问题和答案
职责描述:1、负责对客户提出的问题进行词干的提取和语义的识别。
? 2、建立词袋矩阵对特征值进行提取。
? 3、建立词频逆文档矩阵来对模型进行语义分析,利用聚类对其进行
? 语音识别。
项目名称:看电影app智能推荐系统**
**项目描述:**根据每个用户对电影的评分,向用户推荐相似用户看过且评分较高的
? 电影
**职责描述:**1、利用爬虫技术爬取豆瓣、猫眼电影等电影网站的数据,主要获取电影名称,用户评分等数据。
2、根据欧氏距离及皮尔逊距离分数构建相似程度矩阵
3、用相似用户的评分做关于相似度的加权平均数作为推荐依据,智
能推荐。
4.对功能模块进行测试并编写测试文档。
问答平台推荐系统
? 项目简介 基于用户 访问的问答活跃度的推荐平台。
? 个人 职责 1 按照皮氏距离得分从高到低的顺序,为每个用户生成除其自身以外的相似 问答 清单
- 相似用户评分 过而被推荐用户不曾评价 过的问答 。按推荐度的降序排列。
3
. 用被推荐者的评分根据相似用户的相似度做加权平均 ,生成推荐列表 。
? 应用技术 聚类算法、 相关性矩阵算法、皮氏距离 、 numpy 、 matplotlib 等 。
项目名称:产品智能推荐系统
项目描述:根据不同公司对不同型号拖拉机的需求,向公司推荐相似公司用过且反响良好的机器
职责描述:1、用pandas,matplotlib 等工具处理初始值,绘制出相关产品在不同时间,不同公司的销售情
况
2、根据欧氏距离及皮尔逊距离分数构建相似程度矩阵
3、用相似用户的评分做关于相似度的加权平均数作为推荐依据,智能推荐。
项目名称:产品智能推荐系统
项目描述:
根据不同用户对产品的需求不同,向用户推荐符合其喜好程度的产品。
职责描述:
? 用pandas,matplotlib 等工具处理初始值,绘制出用户在不同时间购买商品的情况
? 根据欧氏距离及皮尔逊距离分数构建相似程度矩阵
? 用相似用户的评分做关于相似度的加权平均数作为推荐依据,智能推荐
手机数据平台
开发方案:scrapy+redis+mongodb+python3.6.4+linux+django+sklearn+shell
负责模块:推荐系统,数据挖掘
项目描述:利用互联网数据和内部的数据进行数据挖掘和建模
? 1)推荐系统
? a. 根据客户特征和主板方案特征,以客户开模为推荐成功,推荐给类似客户主板方案
? b. 手机ID参考推荐
? c. 根据主流手机公司的新产品的参数信息,使用LDA算法建立模型进行新功能推荐
? 2)销量统计和应用市场等app的数据挖掘
? 提取每个型号的激活数据,分析提取与销量相关的渠道特征值,对后续的销量趋势进行预测
? 提取用户的app使用情况和下载情况,向用户推荐可能会喜欢的应用,推送消息到前端
? 3)趋势分析
? 根据手机互联网信息,预测未来的讨论热点
? 根据禅道系统统计的订单出货量数据进行每周的出货量预测
? 4)需求智能分类
? 使用LDA模型提取每个需求的主要内容,然后通过KNN的方法进行自动聚类
**项目二:**图书通智能管理平台
项目简介:
当下高校图书馆馆藏量日益增加,规模也在不断拓展,在日常的图书借阅和归还工作中,往往对图书管理员造成很大的工作量,在学生借阅图书时,也不能对图书的基本信息一目了然,为了解决这一系列的问题,图书通管理平台应运而生。该项目旨在简化大学图书馆图书的管理工作,其功能包括:书籍的录入和整理、书籍借阅管理功能、简单的统计功能。
**个人职责:**根据每个用户对查询图书的记录,向用户推荐相似类型的图书。
工作内容:
\1. 获取用户的搜索图书的查询记录,并完成数据的预处理
\2. 构建相似程度矩阵
\3. 根据其他相似用户的相似搜索向用户进行智能推荐
项目二:公司自营商城app 实现商品推荐(猜你喜欢)
软件环境:Linux+Pycharm
项目简介:
实现公司自营app’管家帮’中首页部分的商品内容推荐功能,主要根据不同用户,
他们所订购的服务以及曾经购买过的商品,计算相似程度,从而为每一个用户量身推荐商
品内容。
责任描述:
1、调取数据库用户信息,根据用户id 调取用户购买商品信息、用户所属分类,以及其他
相关用户信息;
2、将用户所属分类、购买商品按不同权重划分为不同的分数(量化处理),通过基于用户的
协同过滤推荐算法(推荐引擎),欧氏距离分数或皮尔逊相关系数原理,得出用户相
似度矩阵;
3、针对相似度最高的几个用户按照分数*相似度得出相似用户之间的得分,取最高的几个
得分作为推荐内容。
音乐智能推荐系统 3个月
项目介绍:根据每个用户歌单中播放每首音乐的次数,向相似用户推荐歌曲
个人职责:划分数据集、建模、生成相似度用户名单、生成推荐清单
所用技术:1. 读取数据,用sorted对每个用户歌单中歌曲按照次数进行排序,取出前三十,并使用 corrcoef计算当前用户与其他用户的皮尔逊相关系数,并得到相似度矩阵。
- 根据相似度矩阵排序,取出相似度最高十名用户生成相似用户清单
- 找出当前用户没听过,但相似用户听过的歌曲,排序取出前三进行推荐
项目名称:电影推荐引擎
开发环境:Win10+Spyder+Python+json+numpy
项目描述:根据用户注册时填写的观影名称及评分,为每位登陆电影网站的用户推荐
匹配度最高的电影,使用户能够快速找到自己喜爱的电影。
责任描述:根据用户对电影的评分,计算不同用户之间的皮尔逊相关性系数,保留其
中的正相关系数,从而得到每位用户的相似用户集合,再根据不同相似用
户集合分别得到对应的最匹配电影推荐给用户。