自然语言处理数据集(NLP Datasets)_综合

收集了一些中文自然语言处理数据集地址，在此分享出来。后续会在github中不定时持续更新，欢迎Star。

任务型对话数据、文本分类、实体识别&词性标注、搜索匹配、推荐系统、百科数据、指代消歧、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台
情感/观点/评论倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统
维基百科、新闻语料、百科问答、社区问答、中英翻译语料
中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜
知识图谱的数据集:常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教等
新冠开放知识图谱
《大词林》开源75万核心实体和围绕核心实体的细粒度概念、关系列表
大规模医疗对话数据集:包含110万医学咨询，400万条医患对话
新冠及其他类型肺炎中文医疗对话数据集
MedQuAD：(英文)医学问答数据集
中文医疗对话数据集Chinese medical dialogue data
大规模中文知识图谱数据
中文语音语料:说话人约3200个，音频约900小时，文本约113万条，共有约1300万字
THUOCL（THU Open Chinese Lexicon）中文词库
面向中文处理的12类、百万规模的语义常用词典，包括34万抽象语义库、34万反义语义库、43万同义语义库等
百度知道问答语料库，包括超过580万的问题，938万的答案，5800个分类标签
公司名语料库、机构名语料库