当前位置: 代码迷 >> 综合 >> 自然语言处理数据集(NLP Datasets)
  详细解决方案

自然语言处理数据集(NLP Datasets)

热度:51   发布时间:2023-09-13 21:23:11.0

收集了一些中文自然语言处理数据集地址,在此分享出来。后续会在github中不定时持续更新,欢迎Star。

  • 任务型对话数据、文本分类、实体识别&词性标注、搜索匹配、推荐系统、百科数据、指代消歧、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台
  • 情感/观点/评论 倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统
  • 维基百科、新闻语料、百科问答、社区问答、中英翻译语料
  • 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜
  • 知识图谱的数据集:常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教等
  • 新冠开放知识图谱
  • 《大词林》开源75万核心实体和围绕核心实体的细粒度概念、关系列表
  • 大规模医疗对话数据集:包含110万医学咨询,400万条医患对话
  • 新冠及其他类型肺炎中文医疗对话数据集
  • MedQuAD:(英文)医学问答数据集
  • 中文医疗对话数据集Chinese medical dialogue data
  • 大规模中文知识图谱数据
  • 中文语音语料:说话人约3200个,音频约900小时,文本约113万条,共有约1300万字
  • THUOCL(THU Open Chinese Lexicon)中文词库
  • 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等
  • 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签
  • 公司名语料库、机构名语料库
  相关解决方案