什么是机器学习的最佳数据集?本文整理了一个高质量、多样化的机器学习数据集榜单。
AUTHORS:
Stacy Stanford, Machine Learning Memoirs Inc.
Roberto Iriondo, Machine Learning Department, Carnegie Mellon University.PUBLISHED:
October 2, 2018
LAST UPDATED:
May 15, 2019
原文链接(需翻墙):
https://medium.com/towards-artificial-intelligence/the-50-best-public-datasets-for-machine-learning-d80e9f030279
文章目录
- Dataset Finders(去哪里寻找数据集)
- General Datasets
-
- - Public Government Datasets (政府公开数据集)
- - Housing Datasets(住房数据集)
- - Geographic Datasets(地理数据集)
- - Finance & Economics Datasets(金融与经济数据集)
- Machine Learning Datasets:
-
- - Imaging Datasets(图像数据集)
- - Sentiment Analysis Datasets(情绪分析数据集)
- - Natural Language Processing Datasets(自然语言处理数据集)
- - Self-driving (Autonomous Driving) Datasets (自动驾驶数据集)
- - Clinical Datasets(临床数据集)
- Source
- Citation:
在搜索 high-quality datasets 时,要记住以下几点:
- 不混乱(messy),否则要花费大量时间来清理数据(cleaning data);
- 不要有太多的行和列,否则难以使用;
- 数据越干净越好,清洗大型数据集将非常非常耗时;
- 要有一个目标,比如要回答一个问题或做一个决策,而这个目标又是可以通过数据来解答的。
Dataset Finders(去哪里寻找数据集)
- Google Dataset Search:与Google Scholar 类似,可以查找到托管在任何位置的数据集,无论是发布者的网站,数字图书馆还是作者的个人网页。
- Kaggle:一个数据科学网站,包含了各种外部贡献的有趣数据集,从拉面评级到篮球数据,甚至是西雅图宠物许可证。
- UCI Machine Learning Repository:UCI机器学习库,Web上最古老的数据集源之一,也是寻找有趣数据集时的第一站。 虽然数据集是用户贡献的,可能具有不同的清洁度(cleanliness),但绝大多数都是干净的。 可以直接下载数据,无需注册。
- VisualData:Discover Computer Vision Datasets,计算机视觉(CV)数据集,支持搜索查询
- Find Datasets | CMU Libraries:感谢Huajin Wang, CMU 搜集的高质量数据集
General Datasets
- Public Government Datasets (政府公开数据集)
- Data.gov:该站点可以下载美国多个政府机构的数据。 数据范围从政府预算到学校绩效评估。 但请注意:大部分数据需要进一步研究。
- Food Environment Atlas:包含地方食物的选择如何影响美国饮食结构的数据。
- School system finances:对美国学校系统财务状况的调查。
- Chronic disease data:有关美国各地区慢性病指标的数据。
- The US National Center for Education Statistics:美国国家教育统计中心,来自美国和世界各地的教育机构和教育人口统计数据。
- The UK Data Service:英国最大的社会、经济和人口数据集。
- Data USA:美国公共数据的全面可视化。
- Housing Datasets(住房数据集)
- Boston Housing Dataset:波士顿住房数据集,包含美国人口普查局(the U.S Census Service)收集的有关波士顿马萨诸塞州(Boston Mass)住房的信息。它来自 StatLib archive,并在整个文献中广泛用于基准(benchmark)算法。
- Geographic Datasets(地理数据集)
- Google-Landmarks-v2:用于地标识别和检索(landmark
recognition and retrieval.)的数据集(改进版)。 该数据集包含来自世界各地的200k+地标的5M+图像,由Wiki Commons社区提供和注释。
- Finance & Economics Datasets(金融与经济数据集)
- Quandl:经济和金融数据的良好来源 - 有助于建立预测经济指标或股票价格的模型。
- World Bank Open Data:世界银行开放数据,涵盖全球人口统计数据(population demographics),大量经济和发展指标的数据集。
- IMF Data:国际货币基金组织(The International Monetary Fund)公布的有关国际金融,债务利率,外汇储备,商品价格和投资的数据。
- Financial Times Market Data:金融时报市场数据,来自世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。
- Google Trends:谷歌趋势数据,分析世界各地的互联网搜索活动和热门新闻报道的数据。
- American Economic Association (AEA):美国经济协会(AEA),寻找美国宏观经济数据的良好来源。
Machine Learning Datasets:
- Imaging Datasets(图像数据集)
- xView:最大的overhead imagery公开可用数据集之一。 包含来自世界各地复杂场景的图像,使用边界框进行注释。
- Labelme:带注释图像的大型数据集。
- ImageNet:根据WordNet层次结构组织的新算法的真实图像数据集,其中成千上万的图像描绘了层次结构的每个节点。
- LSUN:场景理解与许多辅助任务(房间布局估计,显着性预测等)
- MS COCO:通用图像理解和字幕。
- COIL100 :360度旋转的每个角度拍摄的100个不同物体。
- Visual Genome:视觉基因组,非常详细的视觉知识库,带有~100K带注释的图像。
- Google’s Open Images:在知识共享下的900万个图像网站的集合,“已经注释了超过6,000个类别的标签”。
- Labelled Faces in the Wild:13,000张人脸标记图像,用于开发涉及面部识别(facial recognition)的应用程序。
- Stanford Dogs Dataset:包含20,580张图像和120种不同的犬种。
- Indoor Scene Recognition:室内场景识别,一个非常特别的数据集,非常有用,因为大多数场景识别模型都是“在室外”场景下工作的。 包含67个室内类别和15620个图像。
- Sentiment Analysis Datasets(情绪分析数据集)
- Multidomain sentiment analysis dataset:多域情绪分析数据集,一个稍微较旧的数据集,其中包含来自亚马逊的产品评论。
- IMDB reviews:一个较旧的,相对较小的数据集,用于二元情绪分类的,包含25,000个电影评论。
- Stanford Sentiment Treebank:具有情感注释的标准情绪数据集。
- Sentiment140:一个流行的数据集,包含了160,000条已经删除了表情符号的 tweets 。
- Twitter US Airline Sentiment:美国航空公司( US airlines)自2015年2月起的Twitter数据,tweets分类为正面,负面和中性。
- Natural Language Processing Datasets(自然语言处理数据集)
- HotspotQA Dataset:问答数据集,多跳转问题,有助于实现更易于解释的问答系统。由卡内基梅隆大学,斯坦福大学和蒙特利尔大学的NLP研究人员团队收集。
- Enron Dataset:来自Enron高级管理层的电子邮件数据,组织成文件夹。
- Amazon Reviews:包含来自亚马逊的大约3500万条评论,跨度18年。 数据包括产品和用户信息,评级和明文审核。
- Google Books Ngrams:来自Google图书的一系列文字。
- Blogger Corpus:从blogger.com收集的681,288篇博客文章的集合。 每个博客至少包含200个常用英语单词。
- Wikipedia Links data:维基百科的全文。 该数据集包含来自400多万篇文章的近19亿个单词。 可以按段落,短语或段落本身的一部分进行搜索。
- Gutenberg eBooks List:Project Gutenberg的电子书注释列表。
- Hansards text chunks of Canadian Parliament: 来自第36届加拿大议会(Canadian Parliament)记录的130万对文本。
- Jeopardy:来自问答节目Jeopardy的超过200,000个问题的归档。
- Rotten Tomatoes Reviews:存档超过480,000番茄评论(新鲜或腐烂)。
- SMS Spam Collection in English:由5,574条英文短信垃圾邮件组成的数据集。
- Yelp Reviews:Yelp发布的一个开放数据集,包含超过500万条评论。
- UCI’s Spambase:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。
- Self-driving (Autonomous Driving) Datasets (自动驾驶数据集)
- Berkeley DeepDrive BDD100k:是目前AI自动驾驶最大的数据集。包含超过100,000个视频,包括一天中不同时段和天气条件下超过1,100小时的驾驶体验。带注释的图像来自纽约和旧金山地区。
- Baidu Apolloscapes:大型数据集,定义了26种不同的语义项目,如汽车,自行车,行人,建筑物,路灯等。
- Comma.ai:超过7小时的高速公路驾驶。细节包括汽车的速度,加速度,转向角和GPS坐标。
- Oxford’s Robotic Car:牛津的机器人汽车,在一年的时间内,在英国牛津的相同路线重复超过100次。该数据集捕获天气,交通和行人的不同组合,以及建筑和道路工程等长期变化。
- Cityscape Dataset:城市景观数据,一个大型数据集,记录50个不同城市的城市街景。
- CSSAD Dataset:此数据集可用于自动驾驶车辆的感知和导航。数据集严重偏向发达国家的道路。
- KUL Belgium Traffic Sign Dataset:比利时(Belgium)法兰德斯地区数千个物理上不同的交通标志,有超过10000多个交通标志注释(traffic sign annotations)。
- MIT AGE Lab:麻省理工实验室,在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
- LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:智能和安全汽车实验室,加州大学圣地亚哥分校,该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。
- Bosch Small Traffic Light Dataset:用于深度学习的小型交通灯的数据集。
- LaRa Traffic Light Recognition:交通信号灯的另一个数据集。 在巴黎拍摄。
- WPI datasets:交通信号灯,行人和车道检测的数据集。
- Clinical Datasets(临床数据集)
- MIMIC-III:麻省理工学院计算生理学实验室(MIT Lab for Computational Physiology)开发的公开数据集,包括与约40,000名重症监护病人相关的去识别健康数据。 它包括人口统计学,生命体征,实验室测试,药物等。
Source
[1] https://cloud.google.com/public-datasets/
[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907
[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec
[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets
[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
[6] https://www.dataquest.io/blog/free-datasets-for-projects/
[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/
[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning
[9] http://lib.stat.cmu.edu/datasets/
[10] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html
[11] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html
[12] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/
[13] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets
[14] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/
[15] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/
[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab
[17] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/
[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/
Citation:
原文引用方式:
Stanford, et al., “The Best Public Datasets for Machine Learning and Data Science”, Towards AI, 2018
BibTex citation:
@misc{stanford_2018,title={The Best Public Datasets for Machine Learning and Data Science}, url={https://towardsai.net/datasets}, note={https://towardsai.net/datasets},journal={Medium}, publisher={Towards AI}, author={Stanford, Stacy and Iriondo, Roberto}, year={2018}, month={Oct}
}
最后感谢谷歌翻译,
另外还可参考:https://zhuanlan.zhihu.com/p/48691462 最强数据集集合:50个最佳机器学习公共数据集丨资源
Happy machine learning!