数据集资源中心


为从事世界级人工智能应用的团队创建和策划



形象

现成的数据集集合



我们的高质量可授权数据集可以快速启动您的AI项目

我们提供广泛的“现成”数据集目录,超过250个可授权数据集,包括超过11000小时的音频、超过25000个图像和超过870万个单词,涵盖80种语言和多种方言。我们的现成数据集旨在有效提高准确性和整体性能,并快速提供高质量的大规模数据集,以满足特定AI计划的需要。在我们的产品中,您可以找到多种数据类型的数据集,包括图像、视频、语音、音频和文本。我们不断构建新的数据集,以满足全球客户群的需求。


188亚博

形象 形象 形象




形象

开源公共资源数据集集合


我们的数据科学家为您的Al项目策划的建议


机器学习和人工智能应用需要大量数据进行训练。您可以从我们推荐的资源中搜索要访问、修改、重用和共享的开放数据集。使用这些公开可用的数据集来影响AI和ML应用程序的开发,或者如果您想要一个简单的数据集来对解决方案进行基准测试,或者在处理真实数据集之前比较不同的算法。这些开放数据集是考虑访问位于组织范围之外的数据的一个很好的选择。


数据集查找器



形象
使用Kaggle查找数据集,探索和构建模型,并与其他数据科学家和机器学习工程师合作。探索和分析超过50000个公共数据集的集合,从骨骼x光到拳击比赛的结果。
了解更多
形象
通过可搜索的界面,从UC Irvine探索500多个机器学习存储库数据集。数据集涵盖许多主题,大小不一,从少数情况(或“实例”)到4300多万,从只有1或2个变量(或“属性”)到100多万个变量。
了解更多


计算机视觉



计算机视觉通过模拟人类视觉系统的部分复杂性,使计算机能够以与人类相同的方式识别和处理图像和视频中的对象。利用机器学习进行图像应用,例如使自动驾驶汽车能够感知周围环境、面部识别应用、增强和混合现实,或在医疗保健中自动执行在x射线和MRI扫描中发现症状的任务。使用丰富的计算机视觉数据集建立一个健壮的计算机视觉模型。


形象
使用1000多个高质量开放数据集加速AI开发。从50多种应用程序场景、30多种注释类型和10多种数据格式中进行选择。
了解更多
形象
这些数据集包括各种各样的主题,从识别物体到重建3D房间,从在视频中找到一个人到在照片中识别一件衬衫。数据集可以按发布日期或主题排序,用户可以使用关键字搜索以找到适合其需要的图像。
了解更多
形象
使用这些开放的数据集来构建面部识别应用程序、虚拟现实小工具、感官检测、全息成像等等。
了解更多
形象
超过3000个机器学习数据集。按任务和模式查找数据集,比较一段时间内的使用情况,浏览基准测试等等。
了解更多
形象
计算机视觉机器学习模型的开放源代码数据集涵盖了广泛的领域——动物、棋盘游戏、自动驾驶汽车、医学、热成像、空中无人机图像,甚至合成生成的数据。您可以自由下载任何格式的图像和注释:VOC XML、COCO JSON、YOLOv3平面文本文件,甚至TFRecords。
了解更多


言语语料库



录制和转录新的语音语料库以创建声学模型和培训语音识别引擎可能非常耗时和昂贵。使用语音音频文件和文本转录的开放数据库,快速、廉价地构建转录语音orpora,其中包含各种声学条件下许多说话人的话语。


形象
OpenSLR是语音资源的中心,拥有语音和语言资源,如语音识别训练语料库和与语音识别相关的软件。
了解更多

坎德维尔


用于自动语音识别(ASR)和文本到语音(TTS)的语音语料库集合。
了解更多

艾德雷森


该数据集共有71358个单词,13311个不同的单词,单个说话人大约10小时28分钟的语音,记录频率为48Khz,共包含3632个Wave格式的音频文件。音频文件的范围从0.67秒到50.08秒。
了解更多
形象
旨在提供语音数据,以获取声学语音知识,并用于开发和评估自动语音识别系统。共包含6300个句子,来自美国8个主要方言区的630名发言者每人说10个句子。
了解更多

VoxCeleb


视听数据集,由从上传到YouTube的采访视频中提取的人类语音短片组成。该数据集包含7000多名演讲者、100多万次发言和2000多小时的音频和视频。
了解更多

姆桑


这是一个Twitter语料库,旨在代表和分析针对意大利某些少数群体的仇恨言论:特别是移民,还有穆斯林和罗姆人。包含tweets的ID及其注释。
了解更多

沃克斯福格


用于语音识别引擎的转录语音;分类并提供所有提交的音频文件(语音语料库)和声学模型。
了解更多

霍米克


来自韩国国立语言研究所(NIKL)的约120小时韩语阅读语音语料库。
了解更多

西迪奎拉蒂夫


乌尔都语数据集包含从乌尔都语脱口秀节目中收集的乌尔都语情感话语。它包含四种基本情绪的400句话:愤怒、快乐、中立和情绪。有38名发言者(27名男性和11名女性)。
了解更多
形象
Common Voice dataset是一个开放源代码的语音数据集,目前由60种语言的7000多个验证小时组成,包括年龄、性别和口音等人口统计元数据,有助于训练语音识别引擎的准确性。数据集中的每个条目都由一个唯一的MP3和相应的文本文件组成。
了解更多
形象
一个句子和翻译的大型数据库,以查看单词在句子上下文中的使用示例。
了解更多
形象
该数据集由音频对话及其转录本组成,包含1495个NIST sphere格式(SPH)的音频对话、1495个STM格式的转录本、带发音的词典(159848个条目)以及用于语言建模的选定单语数据。
了解更多


形象

数据收集



如果您的特定用例需要更定制的数据集,我们将数据收集作为独立服务以及多组件可交付成果的一部分提供,例如ASR语音数据库,该数据库通常包括音频数据、转录、发音词典和特定语言的文档或带注释的图像数据集。我们的数据收集服务涵盖各种环境的各种数据类型和收集方法,以最好地满足您独特的数据需求。

了解更多


形象 形象 形象