收集了一些中文自然语言处理数据集地址,在此分享出来。后续会在github中不定时持续更新,欢迎Star。
- 任务型对话数据、文本分类、实体识别&词性标注、搜索匹配、推荐系统、百科数据、指代消歧、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台
- 情感/观点/评论 倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统
- 维基百科、新闻语料、百科问答、社区问答、中英翻译语料
- 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜
- 知识图谱的数据集:常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教等
- 新冠开放知识图谱
- 《大词林》开源75万核心实体和围绕核心实体的细粒度概念、关系列表
- 大规模医疗对话数据集:包含110万医学咨询,400万条医患对话
- 新冠及其他类型肺炎中文医疗对话数据集
- MedQuAD:(英文)医学问答数据集
- 中文医疗对话数据集Chinese medical dialogue data
- 大规模中文知识图谱数据
- 中文语音语料:说话人约3200个,音频约900小时,文本约113万条,共有约1300万字
- THUOCL(THU Open Chinese Lexicon)中文词库
- 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等
- 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签
- 公司名语料库、机构名语料库