浏览机器学习数据集的世界:哪里可以找到最好的机器学习数据集

推特
推特
LinkedIn
共有
脸谱网
fb-share-icon

许多公司正转向外部数据集,以成功推出人工智能。我们现在所处的时代,寻找数据集比以往任何时候都要容易,它们对机器学习模型的性能也变得越来越重要。有许多网站都有数据仓库,这些数据涵盖了令人难以置信的各种主题——从稀有青蛙的图像,一直到手写样本。无论您的机器学习(ML)项目是什么,您都可能会找到一个相关的数据集作为起点。

在本文中,我们收集了40多个到一些最好的ML数据存储库和可用数据集的链接。为了便于使用,我们已经按照项目类型和行业对它们进行了分类。最好记住,虽然这些数据集通常是很好的起点,但您的用例可能需要在现成可用的数据之上添加额外的标签。

机器学习的数据集

我需要什么资料?

在开始搜索正确的数据集之前,你会考虑问自己一些关键问题来指导你的努力:

  • 我想用人工智能完成什么?
  • 我是否有足够的内部数据可以用于这个项目?
  • 我希望我有什么数据?
  • 我需要我的数据涵盖哪些用例?
  • 我需要我的数据覆盖哪些边缘情况?

这些只是开始提问,帮助您更清楚地了解您需要的特定类型的数据。如果您使用的是受保护的类(即特定种族、性别、性取向或其他因素的人),则需要付出额外的努力,以确保您的数据集适当地代表这些人。在任何情况下,在搜索数据时都要有意识;机器学习项目很容易因为使用低质量的数据而脱轨。

为什么是现成的数据集?

您的团队可能最终决定使用现成的数据集来训练您的模型。这些选择在人工智能领域越来越普遍,原因只有一个:构建人工智能非常困难。由于多种因素,大多数人工智能项目未能实现部署:

  • 低预算。我投资人工智能通常需要大量资金。
  • 缺乏人才。技能差距不仅存在于技术领域,还存在于人工智能和机器学习领域。该行业缺乏足够的高技能人才来启动所有现有的人工智能计划,更不用说未来的计划了。随着行业的发展,这种差距可能会越来越大。
  • 在AI之旅的早期。必须适当地建立组织才能建立人工智能。这意味着他们需要有正确的内部流程,正确的战略和正确的合作,以实现成功。
  • 数据质量低或数据不足。这是最后一块被证明是人工智能最大的障碍之一。ML模型通常需要大量数据才能准确执行。根据用例的不同,获取这些数据可能具有挑战性。此外,将低质量的数据转换为高质量的标记数据可能是一个耗时、低效的过程。

鉴于对许多组织来说,实现部署仍然很困难,所以他们转向第三方寻求帮助也就不足为奇了。为了解决数据瓶颈,公司正在购买或访问免费的现成数据集。这些可以证明是构建ML模型的有用起点,或者在某些情况下为所有用例提供了足够的覆盖范围。让我们来谈谈它们的好处:

  • 遵从性。客户和当局对数据安全的要求越来越高,这使得企业使用内部数据变得更加困难。一些公司在工作中自然可以获取大量数据,但这并不意味着这些数据可以用于ML模型,尤其是在侵犯客户隐私的情况下。
  • 减少偏见。随着企业意识到减少模型偏见的重要性,负责任的人工智能的话题比以往任何时候都更频繁地被讨论。当公司依赖内部数据时,很难发现和减少偏差。但有了现成的数据集,你可以研究数据的来源,以了解他们在创建数据时是否已经纳入了偏见检查。受信任的提供者将提供多样化、高质量的数据集。
  • 快速的上市时间。收集和准备数据是一项非常耗时的任务,也是数据科学家花费大部分时间在项目上的任务。对于现成的数据集,大部分工作已经完成了(尽管显然您需要自己检查数据集的质量)。在一个速度很重要的行业,这导致了更快的上市时间。
  • 成本效益。汇总、审查和准备内部数据可能是一个成本高昂的过程。与该替代方案相比,在线提供的许多现成数据集是免费或便宜的。如果您的AI预算不是很高,那么利用现成的数据集可能是正确的途径。

现成数据集的许多好处有助于克服AI开发中的常见挑战。使用现成的数据集无疑是一个有用的策略来考虑ML模型的实现。

查找数据集的最佳地点

互联网上到处都是现成的高质量数据集。以下列表涵盖了许多在线搜索和发现数据集的最佳地点,没有特定的顺序。我们从数据存储库开始,然后列出特定用例的最佳数据集。

数据存储库

数据存储库的特点是收集来自整个网络的数据集。

卡格尔

卡格尔拥有最大的在线数据集图书馆之一,涵盖了体育、医学和政府等一系列主题。它的平台是社区驱动的,这意味着用户可以上传自己的数据集。考虑到数据的不同来源,彻底检查您从Kaggle中使用的任何数据集的质量是很重要的。Kaggle还提供了关于机器学习主题的讨论以及关于关键过程的教程。

谷歌数据集

谷歌提供一个数据集搜索引擎,你可以搜索数据集的名字。该引擎允许您根据几个特性(如文件类型、主题、最新更新和相关性)对数据集进行排序。它还可以从互联网上的数千个数据库中获取数据集,因此您可以真正地通过广泛的选项进行搜索。数据集的上传者包括国际组织,如哈佛大学和世界卫生组织。

论文和代码

论文和代码有超过4000个(并且还在增加)可用的数据集。这些数据集由社区上传。您可以通过模式、任务和语言轻松地过滤这些数据集。数据库中还包括到其他提供多种数据集的数据库的链接。

数据天赋

数据天赋链接到70多个机器学习数据集,并包括有用的信息,如源代码和项目想法。例如,在一个以手写数字为特征的数据集列表中,DataFlair建议创建一个图像分类算法来从纸张中识别手写数字。这个网站是很有用的,可以作为新想法的出发点。

EliteDataScience

EliteDataScience包括一个免费数据集和他们最喜欢的聚合器的管理列表。这些数据集是按用例组织的,所以您将发现用于深度学习、自然语言处理、web抓取等的数据集。

UCI毫升库

UCI超过500个机器学习数据集,可按文件类型、任务、应用领域和主题进行排序。他们的许多数据集包括学术论文的链接,你可以用它们来进行基准测试。

Github公共数据集

Github提供公共数据集的开源集合。查看目录,选择一个主题,从农业到运输,以及介于两者之间的许多选项。Github还包括一个通用机器学习模型集合。大多数链接的数据集都是免费的。

Azure公共数据集

微软Azure有一个公共数据集的数据库,开发人员可以使用它进行原型设计和测试。这些类别包括美国政府和机构数据、其他统计和科学数据以及在线服务数据。此外,您还可以阅读有关SQL以及如何构建移动和web应用程序的文档。

雪花数据市场

雪花为数据科学家、商业智能和分析专业人士,以及所有希望数据驱动决策的人提供访问超过650个实时和随时可查询的数据集,这些数据集来自超过175个第三方数据提供商和数据服务提供商。

AWS上开放数据的注册

AWS具有一个注册表,该注册表提供通过AWS资源可用的数据集。用户可以分享自己的数据集或添加如何使用特定数据集的示例。在注册表中有超过280个可搜索的数据集。

KDNuggets

KDNuggets有一个全面的数据存储库列表,您可以在其中找到各种各样的数据集。该列表包括超过75个存储库,其中一些是国际性的。

阿彭

188亚博提供各种现成的训练数据集。我们的目录包括250多个授权数据集,跨越80种语言,包括多种方言。这些数据集涵盖了许多机器学习用例,包括语音识别和自然语言处理,并涵盖了一系列文件类型(文本、图像、视频、语音和音频)。例如:

  • 完全转录的语音数据集广播,呼叫中心,车内,和电话应用
  • 发音词汇,包括通用词汇和特定领域词汇(例如名称、地点、自然数)
  • 词性标记的词汇和同义词典
  • 表示形态信息和命名实体的文本语料库。

我们只提供最高质量的数据集,以支持您的人工智能需求。

计算机视觉数据集

这些数据库和数据集包括为您的计算机视觉项目服务的图像数据。

ImageNet

ImageNet是根据WordNet层次结构组织的名词的选择,其中每个节点有数千个相关的图像。库中的数据对研究人员是免费的。

MNIST数据库

MNIST以手写数字图像为特征。它包括60000个示例的培训集和10000个示例的测试集。

IMDB-Wiki数据集

IMDB-Wiki数据集提供最大的面部图像集合,有超过50万张图像。许多图片来自名人和维基百科。每张图片都附有性别和年龄标签。

LabelMe数据集

LabelMe数据集是使用LabelMe注释工具构建的。该工具使用户能够勾勒出对象的轮廓,并向该对象添加标签。该数据集可用于图像识别项目。

女士可可数据集

女士可可代表Microsoft通用对象在上下文数据集,并为通用对象在上下文挑战发布。它包含超过12万幅图像,每幅图像都有多个与目标检测、分割和其他图像注释技术相关的标签。一套图像中有91个类别。

Chars74K

Chars74K顾名思义,包括74000张图片。这些数据包括自然图像中的字符识别(例如,餐馆标识的图像)。

动力学- 700

动力学- 700包括一个YouTube视频链接的选择标签与以人为重点的行动。有超过65万个视频片段,涵盖了700个人类行为。

Places2数据库

Places2数据库是麻省理工学院发布的一个数据集,拥有超过1000万张400多个场景的图像。它可以帮助进行场景分类和场景解析的项目。

打开图片

打开图片dataset是具有对象位置注释的最大数据集之一。它有超过900万张图像,每个图像都标有对象边界框、分割和其他注释。总共有1600万个边界框,跨越600个类。

MPII人体姿势数据集

MPII人体姿势数据集包括410个人体姿势的25000张图片。图像中包含了大约40000个不同的人,每个图像都有带注释的身体关节。这些图像是从YouTube视频中收集的。

自然语言处理数据集

以下数据集提供了可用于自然语言处理项目的跨文本和音频的自然语言示例。这些示例包括情感分析、语音识别、转录等。

谷歌博客语料库

谷歌博客语料库包括来自blogger.com的近70万篇博客文章。每一篇文章至少有200个英语单词。总的来说,博客文章中包含了许多常见的英语单词。

Yelp评论

Yelp评论涵盖了餐厅的排名和评论,数据集中包含了与这个主题相关的丰富信息。该数据集提供用于情感分析的评论功能。

维基百科语料库

维基百科语料库是一个由必应搜索数据汇编的问答对数据集。它有超过3000个问题,提供了29000个回答句子,其中1500个被标记为回答句子。

M-AI实验室语音数据集

M-AI实验室语音数据集包括近1000小时的音频与转录。女性和男性的声音在几种语言中都有体现。

LibriSpeech

LibriSpeech包括大约1000小时的语音数据,已经被分割和对齐。这些数据来自LibriVox项目的有声读物。

WordNet

WordNet是一个按意思分组的英语单词数据库。有117,000个同义词集(根据同义词配对的单词),然后将它们链接到相关的同义词集。在您的下一个文本分类项目中使用此方法。

OpinRank数据集

OpinRank数据集以Edmunds和TripAdvisor策划的30万条评论为特色。它们按旅游目的地、酒店和其他相关因素进行分类。

多域人气数据集

多域人气数据集包括四个领域的Amazon.com产品评论:DVD、书籍、厨房和电子产品。每个域名都有几千条评论,附带1到5个星级。顾名思义,这可能是情绪分析项目的有用数据集。

微博情感分析

微博情感分析数据集包括超过150万条分类推文。数据集的每一行都有一个排名:1表示积极情绪,0表示消极情绪。

20个新闻组

20个新闻组包含20,000个文档,顾名思义,来自20多个不同的新闻组。其中包含了许多主题,其中一些是相对相似的。数据集包括三个版本:一个是初始版本,一个是删除日期的版本,一个是删除副本的版本。

数据集由工业

为了获得特定行业的数据,值得一提的是一些有价值的资源。

美国政府数据门户

美国政府数据门户包括美国承诺提供的所有政府数据。通过访问门户,您可以搜索超过300000个数据集(例如,学生贷款数据或医疗保健提供商收费数据)。行业:政府

欧洲联盟开放数据门户

欧洲联盟开放数据门户提供了一种搜索欧盟机构数据的方法,如人口数据、教育等。行业:政府

世界卫生组织

世界卫生组织特色数据涵盖世界饥饿、医疗保健和疾病等重要主题。行业:医疗保健

Broad研究所

Broad研究所提供了许多涵盖癌症相关主题的数据集,从排序到分类。行业:医疗保健

谷歌财经

谷歌财经包括超过40年的股票市场数据,并不断实时更新。金融行业:

伯克利DeepDrive

伯克利DeepDrive是由加州大学伯克利分校创建的,包含了超过10万个不同地理、环境和天气情况的视频剪辑。这些剪辑被标注了边界盒检测对象,车道标记,和各种形式的分割。数据集可以用来帮助训练自动驾驶汽车。行业:汽车

Level5

Level5是由拼车公司Lyft创建的。该数据集的特点是原始传感器摄像头和激光雷达数据,由多辆自动驾驶汽车在一个特定的地理区域捕获。数据集被标记为特定目标对象的3D边界框。行业:汽车

美国农业部开放数据目录

美国农业部开放数据目录包括美国农业部收集的数据。主题范围从美国农业的生产率测量到食源性疾病的成本估算,等等。工业:农业

Fashion-MNIST

Fashion-MNIST包括近60,000张图片和10,000张时装行业产品的测试图片,横跨10个类别。这些对产品分类项目很有用。行业:零售业

电子商务搜索相关性

电子商务搜索相关性数据集的功能包括产品的链接、这些产品在页面上的排名、提供该结果的搜索查询以及其他相关属性。这些数据来自5个主要的英语电子商务网站。行业:零售业

要找到这里没有提到的行业中的数据集,只需亚博技术支持专业的系统平台使用适当的行业标记搜索上面的数据存储库。

首席数据科学家陈蒙初的专家见解

选择数据库时要考虑什么

在开始一个新项目时,最好不要立即急于获取任何可用的数据集。后退一步,看看您的应用程序或服务将要服务的用户需求。有时,相同的产品设计机会可以通过不同的人工智能驱动功能来解决。您确定的潜在解决方案可以依赖于在不同的ML模型之间进行选择,这些模型可能有不同的价格点来开发和构建,并且可能需要不同的方法来训练数据。一旦你准备好继续前进,这里有一些建议,当你没有专门的预算来管理自己的收藏时,选择公开可用的数据集来启动你的开发。

数据集的子集?

在选择数据集时,不要害怕整个数据集的复杂性。有时,您可以提取整体的一个子集,而这正是您的ML项目所需要的。

合并多个数据集?

有时,您选择的数据集可能与开发模型所需的数据不完全匹配。考虑组合多个数据集(或子集),以形成一个训练集,该训练集更接近您想要处理的用例的总体总体。

API可用?

许多数据集都带有api或库,以方便数据访问和转换。这可以为你在旅途早期节省宝贵的时间。

示例项目?

你也可以出去找一些人,他们的项目利用了流行的数据集,并通过像Github这样的存储库公开了他们的工作。在选择数据时,可以使用它们的源代码、模型,甚至是预先训练过的模型作为基础,或者仅仅作为参考。

许可问题?

就像软件一样,数据集也有不同类型的许可证。有些可能需要您分享您在特定数据集上的工作。其他人可能会限制您的应用程序仅用于非商业用途。一个典型的策略是将代码与数据集尽可能分离。确保安全的最好方法是在为应用程序选择数据集之前寻求法律建议。

短期/长期考虑?

在做出短期决策时,比如选择第一个数据集,最好考虑它的长期影响。从全局来看,当您需要从公共域数据集过渡到自己策划的数据集时,您可能会在开始时发现第二个最佳选择可能会为您节省大量时间、精力和预算。

我们能为您做些什么

当您决定进一步丰富现有数据集时,您可以利用我们的数据收集和注释服务以及我们的平台来获得机器学习模型所需的大规模数据。作为我们领域的全球领导者,我们的客户受益于我们的能力,快速交付大量高质量的数据类型,包括图像、视频、语音、音频和文本,以满足您特定的人工智能程序需求。我们提供多种数据解决方案和服务,以最适合您的需求,包括我们的188亚博.拥有超过25年的专业经验,我们将与您一起最大限度地优化您的数据管道效率。

为了讨论您的培训数据需求,联系我们

网站部署人工智能与世界级的训练数据
语言