
产品目录
虽然开放数据或公共数据集很方便,但我们提供了一个广泛的“现成的”目录,涵盖80种语言、多种方言的250多个可授权数据集,适用于各种常见的人工智能用例。我们很高兴地宣布30多个新的数据集,为我们的客户提供即时的价值。在我们的产品中,您可以找到语音识别数据集,机器学习算法的学习数据集,所有这些都是用最先进的可用数据科学创建的。

速度
立即提供支持您的AI / ML项目

成本效益
许可数据集比自定义数据收集更经济

专业知识
20多年的数据收集体验

支持所有数据类型
图像,视频,语音,音频和文本

规模
提供正确数量的数据来有效地训练您的模型

质量
提高质量,最大限度地减少AI型号的偏差
数据集名称 | 产品类别 | 常用案件 | 记录装置 | 单元 |
---|
数据集名称 | 产品类别 | 常用案件 | 记录装置 | 单元 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
135 | 文本 | ASR, TTS,语言建模 | N / A. | 12000个单词 | 添加引用 | sqi_alb_phon. | Appen Global. | 发音字典 | 阿尔巴尼亚 | 阿尔巴尼亚 | N / A. | N / A. | N / A. | N / A. | 12,000 | N / A. | 文本 | 阿尔巴尼亚人(阿尔巴尼亚)的发音词典 | ||
136 | 文本 | ASR, TTS,语言建模 | N / A. | 45,000个字 | 添加引用 | amh_ETH_PHON | Appen Global. | 发音字典 | 阿姆哈里克 | 埃塞俄比亚 | N / A. | N / A. | N / A. | N / A. | 45,000 | N / A. | 文本 | Amharic(埃塞俄比亚)的发音词典 | ||
141 | 文本 | ASR, TTS,语言建模 | N / A. | 11,000字 | 添加引用 | ara_DZA_PHON | Appen Global. | 发音字典 | 阿拉伯 | 阿尔及利亚 | N / A. | N / A. | N / A. | N / A. | 11,000 | N / A. | 文本 | 阿拉伯语(阿尔及利亚)的发音词典 | ||
20. | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 29个小时 | 添加引用 | EAR_ASR001. | Appen Global. | 会话演讲 | 阿拉伯 | 阿尔及利亚 | 低背景噪音(家庭/办公室) | 496. | 2 | 要求可以办到 | 11327 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 对于大多数呼叫来说,收集并转账都会收集和转账,对于较少数量的呼叫,只收集了一半的谈话并转录 |
阿拉伯语(阿尔及利亚东部)会话电话 | |
137 | 文本 | ASR, TTS,语言建模 | N / A. | 40000个单词 | 添加引用 | ara_egy_phon. | Appen Global. | 发音字典 | 阿拉伯 | 埃及 | N / A. | N / A. | N / A. | N / A. | 40,000 | N / A. | 文本 | 阿拉伯语(埃及)发音词典 | ||
114 | 声音的 | ASR,虚拟助理,聊天机器人 | 移动电话 | 352小时 | 添加引用 | ARE_ASR001_CN | Appen中国 | 脚本演讲 | 阿拉伯 | 埃及 | 低背景噪音(家庭/办公室) | 627. | 1 | 128908年 | 207576年 | 16 | 波 | 数据集包含具有相应文本提示的音频 文本提示不发音 |
阿拉伯语(埃及)脚本智能手机 | |
139 | 文本 | ASR, TTS,语言建模 | N / A. | 13000个单词 | 添加引用 | ARA_IRQ_POS. | Appen Global. | 言语字典的一部分 | 阿拉伯 | 伊拉克 | N / A. | N / A. | N / A. | N / A. | 13,000. | N / A. | 文本 | 阿拉伯语(伊拉克)词典的一部分 | ||
138 | 文本 | ASR, TTS,语言建模 | N / A. | 15000个单词 | 添加引用 | ARA_IRQ_PHON. | Appen Global. | 发音字典 | 阿拉伯 | 伊拉克 | N / A. | N / A. | N / A. | N / A. | 15,000 | N / A. | 文本 | 人名 | 阿拉伯语(伊拉克)发音词典 | |
140 | 文本 | ASR, TTS,语言建模 | N / A. | 48,000个单词 | 添加引用 | ARA_LBY_PHON. | Appen Global. | 发音字典 | 阿拉伯 | 利比亚 | N / A. | N / A. | N / A. | N / A. | 48,000 | N / A. | 文本 | 阿拉伯语(利比亚)发音词典 | ||
65 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 12个小时 | 添加引用 | MSA_ASR001. | 全球手机 | 脚本演讲 | 阿拉伯 | 突尼斯 | 低背景噪音(家庭/办公室) | 78 | 1 | 4,908 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
阿拉伯语(现代标准阿拉伯语)脚本麦克风 | |
112 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 33个小时 | 添加引用 | ary_asr001. | Appen Global. | 会话演讲 | 阿拉伯 | 摩洛哥 | 低背景噪音 | 180 | 2 | 80544 | 23836年 | 8. | 一条法律 | 每个发言者参加1到4个对话。扬声器由一个唯一的4位扬声器ID标识,该扬声器ID被记录在人口统计文件中 转录在原始脚本中可用,并具有伴随发音词典的完全可逆的罗马风格版本 有产品转录的英文翻译(ARY_MT001, ARY_ASRMT001) |
阿拉伯语(摩洛哥)会话电话 | |
113 | 文本 | Mt,Chatbot,会话ai | N / A. | 80,544个话语 | 添加引用 | ary_mt001 | Appen Global. | 会话翻译 | 阿拉伯 | 摩洛哥 | N / A. | 180 | N / A. | 80430年 | 23844年 | N / A. | 文本 | 相应的音频、转录、完全可逆的罗马化转录和发音词典数据可用(ARY_ASR001, ARY_ASRMT001) | 阿拉伯语(摩洛哥)会话电话翻译 | |
143 | 文本 | ASR, TTS,语言建模 | N / A. | 写下六万字 | 添加引用 | ara_MAR_PHON | Appen Global. | 发音字典 | 阿拉伯 | 摩洛哥 | N / A. | N / A. | N / A. | N / A. | 60,000 | N / A. | 文本 | 阿拉伯语(摩洛哥)发音字典 | ||
144 | 文本 | ASR, TTS,语言建模 | N / A. | 40000个单词 | 添加引用 | ARB_N / A_PHON. | Appen Global. | 发音字典 | 阿拉伯 | N / A. | N / A. | N / A. | N / A. | N / A. | 40,000 | N / A. | 文本 | 阿拉伯语(N/A)发音字典 | ||
115 | 声音的 | ASR,虚拟助理,聊天机器人 | 移动电话 | 322小时 | 添加引用 | ARS_ASR001_CN. | Appen中国 | 脚本演讲 | 阿拉伯 | 沙特阿拉伯 | 低背景噪音(家庭/办公室) | 227 | 1 | 104,574 | 156,282 | 16 | 波 | 数据集包含具有相应文本提示的音频 文本提示不发音 300-1000提示每位发言者涵盖一般内容,包括教育,体育,娱乐,旅游,文化和技术 |
阿拉伯语(沙特阿拉伯)脚本智能手机 | |
146 | 文本 | ASR, TTS,语言建模 | N / A. | 17000个单词 | 添加引用 | ARA_SDN_PHON. | Appen Global. | 发音字典 | 阿拉伯 | 苏丹 | N / A. | N / A. | N / A. | N / A. | 17,000. | N / A. | 文本 | 阿拉伯语(苏丹语)发音词典 | ||
145 | 文本 | ASR, TTS,语言建模 | N / A. | 75,000字 | 添加引用 | ARA_ARE_PHON. | Appen Global. | 发音字典 | 阿拉伯 | 阿拉伯联合酋长国(阿联酋) | N / A. | N / A. | N / A. | N / A. | 75000年 | N / A. | 文本 | 阿拉伯语(阿拉伯联合酋长国(阿联酋))发音词典 | ||
120 | 声音的 | ASR,虚拟助理,聊天机器人 | 移动电话 | 170小时 | 添加引用 | ARU_ASR001_CN. | Appen中国 | 脚本演讲 | 阿拉伯 | 阿拉伯联合酋长国(阿联酋) | 低背景噪音(家庭/办公室) | 133 | 1 | 42352年 | 85,775. | 16 | 波 | 数据集包含具有相应文本提示的音频 文本提示不发音 |
阿拉伯语(阿拉伯联合酋长国)脚本智能手机 | |
70 | 声音的 | ASR、虚拟助理 | 手机和座机 | 48小时 | 添加引用 | 阿拉伯联合酋长国MCA(现代阿拉伯口语) | 差别 | 脚本演讲 | 阿拉伯 | 阿拉伯联合酋长国(阿联酋) | 低背景噪音 | 880. | 1 | 43000年 | 要求可以办到 | 8. | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 49每个扬声器提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目,语音富裕和单词和单词和自动的控制 |
阿拉伯语(阿拉伯联合酋长国(UAE))脚本电话 | |
71 | 声音的 | ASR、虚拟助理 | 手机和座机 | 31小时 | 添加引用 | 阿拉伯联合酋长国东方电信(现代标准阿拉伯语) | 差别 | 脚本演讲 | 阿拉伯 | 阿拉伯联合酋长国(阿联酋) | 低背景噪音 | 500. | 1 | 24,500 | 要求可以办到 | 8. | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 49每个扬声器提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目,语音富裕和单词和单词和自动的控制 |
阿拉伯语(阿拉伯联合酋长国(UAE))脚本电话 | |
9. | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 86小时 | 添加引用 | CGA_ASR001 | Appen Global. | 脚本演讲 | 阿拉伯 | 阿拉伯联合酋长国(阿联酋) - 沙特阿拉伯 | 低背景噪音(家庭/办公室) | 150 | 4. | 42,000. | 19245年 | 16 | 一条法律 | 完全转录与声事件标签派生自speech hdat约定 数据集伴随着包含所有转录单词的发音词典 所有抄录完全vowelized 280每位发言者提示,包括来自一组15,10个单个孤立的数字0-10,8位序列(随机生成),200个语音平衡句子的30个人名称(名字和姓氏),30 x 10-wind语音平衡字符串 |
阿拉伯语(阿拉伯联合酋长国(阿拉伯联合酋长国)/沙特阿拉伯)脚本麦克风 | |
127 | 文本 | ner,内容分类,搜索引擎 | N / A. | 20,774句 | 添加引用 | ARB_NER001 | Appen Global. | 新闻网 | 标准阿拉伯语 | N / A. | N / A. | N / A. | N / A. | 20,774 | 要求可以办到 | N / A. | 文本 | 阿拉伯语新闻文本 | ||
147 | 文本 | ASR, TTS,语言建模 | N / A. | 40000个单词 | 添加引用 | asm_IND_PHON | Appen Global. | 发音字典 | assamese. | 印度 | N / A. | N / A. | N / A. | N / A. | 40,000 | N / A. | 文本 | 阿萨姆(印度)的发音词典 | ||
121 | 声音的 | 婴儿监视器,安全和其他消费者应用 | 移动电话 | 3个小时 | 添加引用 | cry_asr001. | Appen中国 | 人体声音 | N / A. | 中国 | 低背景噪音(家庭/办公室) | One hundred. | 1 | N / A. | N / A. | 16 | 波 | 婴儿哭泣0-3岁,每个持续约2分钟。 | 婴儿哭了 | |
4. | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 31小时 | 添加引用 | bah_asr001. | Appen Global. | 会话演讲 | 印度尼西亚 | 印尼 | 低背景噪音 | 1,002 | 2 | 30,695 | 11480年 | 8. | 波 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 在很大一部分电话中,只有一半的通话被收集和记录下来 |
巴哈萨印度尼西亚会话电话 | |
150 | 文本 | ASR, TTS,语言建模 | N / A. | 10,000字 | 添加引用 | EUS_ESP_PHON. | Appen Global. | 发音字典 | 巴斯克 | 西班牙 | N / A. | N / A. | N / A. | N / A. | 10,000 | N / A. | 文本 | 巴斯克(西班牙)的发音词典 | ||
6. | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 47小时 | 添加引用 | BEN_ASR001 | Appen Global. | 会话演讲 | 孟加拉语 | 孟加拉国 | 混合(车内、路边、家庭/办公室) | 1,000 | 2 | 108923年 | 17,922 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 |
孟加拉语(孟加拉国)会话式电话 | |
151 | 文本 | ASR, TTS,语言建模 | N / A. | 29,000字 | 添加引用 | Ben_ind_Phon. | Appen Global. | 发音字典 | 孟加拉语 | 印度 | N / A. | N / A. | N / A. | N / A. | 29,000. | N / A. | 文本 | 孟加拉(印度)的发音词典 | ||
7. | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 38小时 | 添加引用 | BUL_ASR001 | Appen Global. | 会话演讲 | 保加利亚 | 保加利亚 | 低背景噪音(家庭/办公室) | 217 | 2 | 86,453 | 22,342 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 200个电话通话记录为这个项目 - 100个扬声器使每个(1固定电话,1来自移动)2所调用的100个呼叫接收机池 |
保加利亚会话式电话 | |
152 | 文本 | ASR, TTS,语言建模 | N / A. | 55,000字 | 添加引用 | bul_bgr_phon. | Appen Global. | 发音字典 | 保加利亚 | 保加利亚 | N / A. | N / A. | N / A. | N / A. | 55,000. | N / A. | 文本 | 保加利亚语(保加利亚)的发音词典 | ||
111 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 22小时 | 添加引用 | BUL_ASR002 | 全球手机 | 脚本演讲 | 保加利亚 | 保加利亚 | 低背景噪音(家庭/办公室) | 77 | 1 | 8,674 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
保加利亚(保加利亚)脚本麦克风 | |
268 | 图片 | 文档处理,文档搜索 | 相机,扫描 | 4362份文件 | 添加引用 | IMG_OCR_B2B | Appen Global. | 文件OCR. | N / A. | N / A. | 混合照明条件 | N / A. | N / A. | N / A. | N / A. | N / A. | jpg. | 扫描和照片的企业对企业的文件,包含打印文本。48%优质图像,包括采购订单、付款通知或汇款通知、订单确认和送货单;52%的标准质量图像,在各种不同的挑战条件下,在更广泛的类别,包括投诉或退货,送货通知,送货单,邓宁,货物收据,发票,要约,订单确认,付款凭条,付款通知或汇款通知,采购订单,收据,和供应商装载 | 企业对企业打印文本文档OCR | |
269 | 图片 | 文档处理,文档搜索 | 相机,扫描 | 26,020个文件 | 添加引用 | IMG_OCR_B2C_Other | Appen Global. | 文件OCR. | N / A. | N / A. | 混合照明条件 | N / A. | N / A. | N / A. | N / A. | N / A. | jpg. | 扫描和拍摄商业到消费者和杂项其他类别文件的照片:37%发票,42%的收据,1%文件,表格,2%手写形式和文件,2%菜单,11%产品标签,2%的海报,3%的路牌。在23岁以上的地区收集6种语言:阿拉伯语11%,英语43%,4%法国人,德国人,24%西班牙语,14%俄罗斯 | 业务对消费者/其他文本文档OCR | |
155 | 文本 | ASR, TTS,语言建模 | N / A. | 10,000字 | 添加引用 | yue_HKG_POS | Appen Global. | 言语字典的一部分 | 广东话 | 中国 | N / A. | N / A. | N / A. | N / A. | 10,000 | N / A. | 文本 | 传统的 | 语音字典粤语(中国)部分 | |
153 | 文本 | ASR, TTS,语言建模 | N / A. | 37000个单词 | 添加引用 | yue_CHN_PHON | Appen Global. | 发音字典 | 广东话 | 中国 | N / A. | N / A. | N / A. | N / A. | 37,000. | N / A. | 文本 | 简化 | 粤语(中国)发音词典 | |
154 | 文本 | ASR, TTS,语言建模 | N / A. | 40000个单词 | 添加引用 | yue_CHN_PHON | Appen Global. | 发音字典 | 广东话 | 中国 | N / A. | N / A. | N / A. | N / A. | 40,000 | N / A. | 文本 | 传统的 | 粤语(中国)发音词典 | |
156 | 文本 | ASR, TTS,语言建模 | N / A. | 10,000字 | 添加引用 | cat_ESP_PHON | Appen Global. | 发音字典 | 加泰罗尼亚语的 | 西班牙 | N / A. | N / A. | N / A. | N / A. | 10,000 | N / A. | 文本 | 加泰罗尼亚人(西班牙)的发音词典 | ||
157 | 文本 | ASR, TTS,语言建模 | N / A. | 20,000个字 | 添加引用 | CEB_PHL_PHON. | Appen Global. | 发音字典 | CEBUANO. | 菲律宾 | N / A. | N / A. | N / A. | N / A. | 20,000 | N / A. | 文本 | Cebuano(菲律宾)发音词典 | ||
265 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 200小时 | 添加引用 | 外国人_asr001_cn. | Appen中国 | 脚本演讲 | 中文(外国人) | 跨国 | 低背景噪音 | 309. | 1 | 16 | 波 | 该数据库包含200小时外国人来自以下国家说中国话的:阿根廷,埃及,澳大利亚,俄罗斯,菲律宾,哈萨克斯坦,韩国,吉尔吉斯斯坦,加拿大,吉隆坡,肯尼亚,老挝,马来西亚,毛里求斯,美国,蒙古,南非,日本,塔吉克斯坦,泰国,土耳其,香港,新加坡,印度,印尼,越南 未经韩国,巴西或未成年人记录的数据没有数据。 每个会议持续大约一小时;句子持续时间范围在3-10秒之间 内容是个人阅读的形式,同时在家庭/办公环境中记录在移动电话上。 敏感数据和个人信息已被擦洗。 |
中文(外国人)(多国)讲稿 | |||
10 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 39小时 | 添加引用 | CRO_ASR001 | Appen Global. | 会话演讲 | 克罗地亚 | 克罗地亚 | 低背景噪音(家庭/办公室) | 200. | 2 | 要求可以办到 | 23919年 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 200个电话通话记录为这个项目 - 100个扬声器使每个(1固定电话,1来自移动)2所调用的100个呼叫接收机池 |
克罗地亚(克罗地亚)会话电话 | |
158 | 文本 | ASR, TTS,语言建模 | N / A. | 20,000个字 | 添加引用 | hrv_hrv_phon. | Appen Global. | 发音字典 | 克罗地亚 | 克罗地亚 | N / A. | N / A. | N / A. | N / A. | 20,000 | N / A. | 文本 | 克罗地亚语(克罗地亚)发音词典 | ||
11 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 11个小时 | 添加引用 | CRO_ASR002 | 全球手机 | 脚本演讲 | 克罗地亚 | 克罗地亚 | 低背景噪音(家庭/办公室) | 94 | 1 | 4499年 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
克罗地亚语(克罗地亚)脚本麦克风 | |
116 | 声音的 | ASR,虚拟助理,聊天机器人 | 移动电话 | 263小时 | 添加引用 | CRO_ASR003_CN | Appen中国 | 脚本演讲 | 克罗地亚 | 克罗地亚 | 低背景噪音(家庭/办公室) | 243 | 1 | 73467年 | 136,140 | 16 | 波 | 数据集包含具有相应文本提示的音频 | 克罗地亚(克罗地亚)脚本智能手机 | |
159 | 文本 | ASR, TTS,语言建模 | N / A. | 50,000字 | 添加引用 | ces_CZE_PHON | Appen Global. | 发音字典 | 捷克语 | 捷克共和国 | N / A. | N / A. | N / A. | N / A. | 50,000 | N / A. | 文本 | 捷克(捷克共和国)发音词典 | ||
12 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 31小时 | 添加引用 | CZE_ASR001 | 全球手机 | 脚本演讲 | 捷克语 | 捷克共和国 | 低背景噪音(家庭/办公室) | 102 | 1 | 12,425 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
捷克语(捷克共和国)脚本麦克风 | |
13 | 声音的 | ASR、虚拟助理 | 固定电话只 | 93小时 | 添加引用 | 捷克语音DAT(e)数据集 | 差别 | 脚本演讲 | 捷克语 | 捷克共和国 | 低背景噪音 | 1,000 | 1 | 52,000 | 要求可以办到 | 8. | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 52每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目,以及语音富裕的单词和句子 |
捷克(捷克共和国)脚本电话 | |
161 | 文本 | ASR, TTS,语言建模 | N / A. | 100000个单词 | 添加引用 | dan_DNK_POS | Appen Global. | 言语字典的一部分 | 丹麦 | 丹麦 | N / A. | N / A. | N / A. | N / A. | 100,000 | N / A. | 文本 | 丹麦语(丹麦语)语音词典的一部分 | ||
160 | 文本 | ASR, TTS,语言建模 | N / A. | 107000个单词 | 添加引用 | dan_dnk_phon. | Appen Global. | 发音字典 | 丹麦 | 丹麦 | N / A. | N / A. | N / A. | N / A. | 107,000. | N / A. | 文本 | 丹麦语(丹麦)发音词典 | ||
90 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 53小时 | 添加引用 | Speecon Danish. | 差别 | 脚本演讲 | 丹麦 | 丹麦 | 混合(办公室,娱乐,汽车,公共场所) | 600(550名成人演讲者和50名儿童扬声器) | 4. | 170,000. | 要求可以办到 | 16 | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 290每个成人发言者提示和每名儿童发言者的提示包括数字,自然数,字符串,个人,地方和商业名称,成人扬声器的应用程序词,指挥(玩具,电话和一般)为儿童发言者,语音富有的单词和句子对成人发言者的自由和挑剔的自发反应 |
丹麦语(丹麦)脚本麦克风 | |
15 | 声音的 | ASR,自动标题,关键字斑点 | 麦克风 | 51小时 | 添加引用 | DAR_BRC001 | Appen Global. | 广播演讲 | 达里语 | 阿富汗 | 低背景噪音(工作室) | N / A. | 1 | 要求可以办到 | 要求可以办到 | N / A. | 波 | 数据集已完全转录和时间戳 发音词典,目前无法使用,但可根据要求开发 DataSet仅仅是言论,不包括音乐或广告 数据类型包括:访谈节目,访谈,新闻广播(不包括锚新闻阅读) |
达里(阿富汗)播出 | |
14 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 40小时 | 添加引用 | DAR_ASR001 | Appen Global. | 会话演讲 | 达里语 | 阿富汗 | 低背景噪音 | 500. | 2 | 要求可以办到 | 11168年 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 DataSet仅仅是言论,不包括音乐或广告 |
达里(阿富汗)会话电话 | |
162 | 文本 | ASR, TTS,语言建模 | N / A. | 30000个单词 | 添加引用 | prs_AFG_PHON | Appen Global. | 发音字典 | 达里语 | 阿富汗 | N / A. | N / A. | N / A. | N / A. | 30,000 | N / A. | 文本 | 达里语(阿富汗)的发音词典 | ||
163 | 文本 | ASR, TTS,语言建模 | N / A. | 20,000个字 | 添加引用 | luo_ken_phon. | Appen Global. | 发音字典 | Dholuo | 肯尼亚 | N / A. | N / A. | N / A. | N / A. | 20,000 | N / A. | 文本 | Dholuo(肯尼亚)发音词典 | ||
258 | 声音的 | ASR,会话AI,语音分析 | 记录笔/麦克风 | 84.6小时 | 添加引用 | dongbei_asr001_cn. | Appen中国 | 会话演讲 | 东北方言 | 中国 | 低背景噪音 | 268 | 1 | 16 | 波 | 音频;不包括转录 录音资料涵盖19个地区:沈阳市和平区、沈河区、皇姑区、大东区、铁西区、绿园区、朝阳区、宽城区、二道区、南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区 东北郊区口音不包括在内,没有未成年人被记录在案。 每个录音会话包含20-30分钟的免费对话,在2-5人之间。 敏感数据和个人信息已被擦洗。 |
中国东北方言会话 | |||
259 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 75.2小时 | 添加引用 | DONGBEI_ASR002_CN | Appen中国 | 会话演讲 | 东北方言 | 中国 | 低背景噪音 | 185 | 1 | 8. | 波 | 音频;不包括转录 录音资料涵盖19个地区:沈阳市和平区、沈河区、皇姑区、大东区、铁西区、绿园区、朝阳区、宽城区、二道区、南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区 东北郊区口音不包括在内,没有未成年人被记录在案。 每个录音会话包含20-30分钟的免费对话,在2-5人之间。 敏感数据和个人信息已被擦洗。 |
中国东北方言会话 | |||
91 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 47小时 | 添加引用 | 荷兰语,来自比利时 | 差别 | 脚本演讲 | 荷兰 | 比利时 | 混合(办公室,娱乐,汽车,公共场所) | 600(550名成人演讲者和50名儿童扬声器) | 4. | 170,000. | 要求可以办到 | 16 | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 290每个成人发言者提示和每名儿童发言者的提示包括数字,自然数,字符串,个人,地方和商业名称,成人扬声器的应用程序词,指挥(玩具,电话和一般)为儿童发言者,语音富有的单词和句子对成人发言者的自由和挑剔的自发反应 |
荷兰语(比利时)脚本麦克风 | |
33 | 声音的 | ASR、虚拟助理 | 麦克风 | 80小时 | 添加引用 | 佛兰芒语音DAT(ii)FDB-1000(固定射线) | 差别 | 脚本演讲 | 荷兰 | 比利时 | 低背景噪音 | 1,000 | 1 | 52,000 | 要求可以办到 | 8. | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 52个提示,包括数字,自然数字,字母串,个人,地点和业务名称,确认项目(是,不是+模糊),通用的命令和控制项目,语音丰富的句子和单词,自发项目的控制 |
荷兰语(比利时)脚本电话 | |
19 | 声音的 | ASR,虚拟助手,汽车HMI和娱乐 | 麦克风和手机 | 27小时 | 添加引用 | 荷兰语和佛兰芒语音 | 差别 | 脚本演讲 | 荷兰 | 荷兰 - 比利时 | 混合(车内) | 302. | 5. | 15,100. | 要求可以办到 | 16和8. | 一条法律 | 数据集已完全转录,并附上发音词典和验证报告 每位成人演讲者125个提示,包括数字、自然数字、字母串、个人、地点和公司名称(有些是自发的)、通用的命令和控制项目、语音丰富的单词和句子以及自发的讲话提示 |
荷兰语(荷兰和比利时)编写在车内 | |
66 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 36个小时 | 添加引用 | NLD_ASR001. | Appen Global. | 会话演讲 | 荷兰 | 荷兰 | 低背景噪音 | 200. | 2 | 要求可以办到 | 14964年 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 200个电话通话记录为这个项目 - 100个扬声器使每个(1固定电话,1来自移动)2所调用的100个呼叫接收机池 |
荷兰语(荷兰)的电话对话 | |
164 | 文本 | ASR, TTS,语言建模 | N / A. | 45,000个字 | 添加引用 | nld_nld_phon. | Appen Global. | 发音字典 | 荷兰 | 荷兰 | N / A. | N / A. | N / A. | N / A. | 45,000 | N / A. | 文本 | 荷兰语(荷兰)的发音词典 | ||
92 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 68小时 | 添加引用 | 荷兰语来自荷兰 | 差别 | 脚本演讲 | 荷兰 | 荷兰 | 混合(办公室,娱乐,汽车,公共场所) | 600(550名成人演讲者和50名儿童扬声器) | 4. | 170,000. | 要求可以办到 | 16 | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 290每个成人发言者提示和每名儿童发言者的提示包括数字,自然数,字符串,个人,地方和商业名称,成人扬声器的应用程序词,指挥(玩具,电话和一般)为儿童发言者,语音富有的单词和句子对成人发言者的自由和挑剔的自发反应 |
荷兰(荷兰)脚本麦克风 | |
122 | 图片 | 面部识别 | 相机 | 14948张图片 | 添加引用 | IMG_FACE_KEN_CN | Appen中国 | 人类的脸 | N / A. | 肯尼亚 | 混合背景和照明条件 | 99 | N / A. | N / A. | N / A. | N / A. | jpg. | 图像包含9种不同的照明条件的所有组合,参与者面部和智能手机之间的2个不同的距离,7种不同的相机角度 每人随机32图像包括遮挡,如太阳镜,面具,假发或帽子 随机拍摄的36张照片包括不同的面部表情,包括凝视、张嘴、撅嘴、微笑和皱眉 照明条件:室内正常光、室外正常光、室内背光、室外背光、室内普通暗光、全黑屏补光、点光源(白光、路灯)、霓虹灯、侧眩光) 镜头角度:前、左45°、右45°、左15°、右15°、上30°、下30° |
东非面部影像 | |
21 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 28小时 | 添加引用 | ENA_ASR001. | Appen Global. | 会话演讲 | 英语 | 埃及 | 低背景噪音 | 250 | 2 | 要求可以办到 | 5,619 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 平均电话长度:10-15分钟 |
英语(阿拉伯语-黎凡特/埃及)会话电话 | |
166 | 文本 | ASR, TTS,语言建模 | N / A. | 157,000字 | 添加引用 | Eng_aus_phon. | Appen Global. | 发音字典 | 英语 | 澳大利亚 | N / A. | N / A. | N / A. | N / A. | 157,000. | N / A. | 文本 | 英语(澳大利亚)发音词典 | ||
2 | 声音的 | ASR、虚拟助理 | 手机和座机 | 92小时 | 添加引用 | aus_asr001. | Appen Global. | 脚本演讲 | 英语 | 澳大利亚 | 低背景噪音(家庭/办公室) | 500. | 1 | 82,500. | 35137年 | 8. | 一条法律 | 完全转录到speech hdat类型约定 数据集伴随着包含所有转录单词的发音词典 每个演讲者有162个提示(阅读演讲),包括数字,自然数字,字母串,个人,地点,公司名称,确认项目(是,否+模糊),通用的命令和控制项目(从215个),语音丰富的句子和单词 |
英语(澳大利亚)脚本电话 | |
3. | 声音的 | ASR、虚拟助理 | 手机和座机 | 118小时 | 添加引用 | aus_asr002. | Appen Global. | 脚本演讲 | 英语 | 澳大利亚 | 混合 | 1,000 | 1 | 75000年 | 18,952 | 8. | 一条法律 | 完全转录到speech hdat类型约定 数据集伴随着包含所有转录单词的发音词典 每位演讲者有75个提示,包括数字,自然数字,字母串,个人,地点和公司名称,确认项目(是,否+模糊),通用的命令和控制项目,语音丰富的句子和单词 提示是“读”和“引起的”项目的混合,其中5个每脚本的提示是“自发的免费演讲” |
英语(澳大利亚)脚本电话 | |
168 | 文本 | ASR, TTS,语言建模 | N / A. | 3000个单词 | 添加引用 | eng_CAN_POS | Appen Global. | 言语字典的一部分 | 英语 | 加拿大 | N / A. | N / A. | N / A. | N / A. | 3,000 | N / A. | 文本 | 英语(加拿大)语音词典的一部分 | ||
167 | 文本 | ASR, TTS,语言建模 | N / A. | 50,000字 | 添加引用 | eng_can_phon. | Appen Global. | 发音字典 | 英语 | 加拿大 | N / A. | N / A. | N / A. | N / A. | 50,000 | N / A. | 文本 | 英语(加拿大)发音词典 | ||
22 | 声音的 | ASR、虚拟助理 | 手机和座机 | 144小时 | 添加引用 | ENC_ASR001 | Appen Global. | 脚本演讲 | 英语 | 加拿大 | 混合 | 1,000 | 1 | 99000年 | 12483年 | 8. | 法律或wav | 完全转录到Sala II / SpeemDAT类型的惯例 数据集伴随着包含所有转录单词的发音词典 每位演讲者提供99个提示,包括数字、自然数字、字母串、个人、地点和企业名称、确认项目(是、否+模糊)、通用的命令和控制项目、语音丰富的句子和单词 |
英语(加拿大)脚本电话 | |
170 | 文本 | ASR, TTS,语言建模 | N / A. | 18,000字 | 添加引用 | Eng_hkg_phon. | Appen Global. | 发音字典 | 英语 | 香港 | N / A. | N / A. | N / A. | N / A. | 18000年 | N / A. | 文本 | 英文(香港)发音字典 | ||
271 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 143小时 | 添加引用 | ENI_ASR003. | Appen Global. | 会话演讲 | 英语 | 印度 | 混合(家庭,汽车,公共场所,户外) | 272 | 1 | 要求可以办到 | 要求可以办到 | 16 | 波 | 两个人对话涵盖了广泛的通用主题,包括服装,文化,教育,金融,食品,健康,历史,热情好客,保险,媒体/娱乐,运动,旅行/度假,天气和工作。 每位演讲者参与多达12个5-15分钟的对话。 发音词典,目前无法使用,但可根据要求开发 |
英语(印度)会话智能手机 | |
25 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 67小时 | 添加引用 | ENI_ASR002. | Appen Global. | 会话演讲 | 英语 | 印度 | 低背景噪音 | 540. | 2 | 77,565 | 11,646 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 271个电话对话被记录在这个项目中 |
英语(印度)会话电话 | |
172 | 文本 | ASR, TTS,语言建模 | N / A. | 13000个单词 | 添加引用 | eng_IND_POS | Appen Global. | 言语字典的一部分 | 英语 | 印度 | N / A. | N / A. | N / A. | N / A. | 13,000. | N / A. | 文本 | 英语(印度)词语字典的一部分 | ||
171 | 文本 | ASR, TTS,语言建模 | N / A. | 写下六万字 | 添加引用 | eng_ind_phon. | Appen Global. | 发音字典 | 英语 | 印度 | N / A. | N / A. | N / A. | N / A. | 60,000 | N / A. | 文本 | 英语(印度)发音词典 | ||
24 | 声音的 | ASR、虚拟助理 | 手机和座机 | 217小时 | 添加引用 | ENI_ASR001. | Appen Global. | 脚本演讲 | 英语 | 印度 | 混合 | 2358年 | 1 | 117,900 | 9,190 | 8. | 一条法律 | 完全转录到speech hdat类型约定。 数据集伴随着包含所有转录单词的发音词典[SAMPA] 每个演讲者有49个提示,包括数字,自然数字,字母串,个人,地点和公司名称,确认项目(是,否+模糊),通用的命令和控制项目,语音丰富的句子和单词 |
英语(印度)脚本电话 | |
173 | 文本 | ASR, TTS,语言建模 | N / A. | 12000个单词 | 添加引用 | Eng_Irl_Phon. | Appen Global. | 发音字典 | 英语 | 爱尔兰 | N / A. | N / A. | N / A. | N / A. | 12,000 | N / A. | 文本 | 英语(爱尔兰)发音词典 | ||
174 | 文本 | ASR, TTS,语言建模 | N / A. | 50,000字 | 添加引用 | eng_nzl_phon. | Appen Global. | 发音字典 | 英语 | NZ. | N / A. | N / A. | N / A. | N / A. | 50,000 | N / A. | 文本 | 英语(nz)发音词典 | ||
23 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 53小时 | 添加引用 | ENF_ASR001. | Appen Global. | 会话演讲 | 英语 | 菲律宾 | 低背景噪音 | 450. | 2 | 41602 | 7,272 | 8. | 法律或wav | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 平均电话长度:10-15分钟 |
英语(菲律宾)会话电话 | |
169 | 文本 | ASR, TTS,语言建模 | N / A. | 5000个单词 | 添加引用 | eng_phl_phon. | Appen Global. | 发音字典 | 英语 | 菲律宾 | N / A. | N / A. | N / A. | N / A. | 5000 | N / A. | 文本 | 英语(菲律宾)发音词典 | ||
165 | 文本 | ASR, TTS,语言建模 | N / A. | 5000个单词 | 添加引用 | Eng_are_Phon. | Appen Global. | 发音字典 | 英语 | 阿拉伯联合酋长国(阿联酋) | N / A. | N / A. | N / A. | N / A. | 5000 | N / A. | 文本 | 英语(阿拉伯联合酋长国)发音词典 | ||
67 | 声音的 | ASR、虚拟助理 | 手机和座机 | 33个小时 | 添加引用 | 阿拉伯联合酋长国所说的东方英语 | 差别 | 脚本演讲 | 英语 | 阿拉伯联合酋长国(阿联酋) | 低背景噪音 | 500. | 1 | 25500年 | 要求可以办到 | 8. | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 51每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目,语音富句和单词和自发项目进行控制 |
英语(阿拉伯联合酋长国(阿联酋))脚本电话 | |
104 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 150小时 | 添加引用 | UKE_ASR001. | Appen Global. | 会话演讲 | 英语 | 英国 | 低背景噪音 | 1,150 | 2 | 298,562 | 24,193 | 8. | 波 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 |
英语(英国)会话电话 | |
255 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 50小时 | 添加引用 | UKE_ASR001B | Appen Global. | 会话演讲 | 英语 | 英国 | 低背景噪音 | 1,150 | 2 | 要求可以办到 | 13192年 | 8. | 波 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 |
英语(英国)会话电话 | |
176 | 文本 | ASR, TTS,语言建模 | N / A. | 155,000字 | 添加引用 | Eng_GBR_POS. | Appen Global. | 言语字典的一部分 | 英语 | 英国 | N / A. | N / A. | N / A. | N / A. | 155,000. | N / A. | 文本 | 英语(英国)语音词典的一部分 | ||
175 | 文本 | ASR, TTS,语言建模 | N / A. | 195000个单词 | 添加引用 | Eng_gbr_phon. | Appen Global. | 发音字典 | 英语 | 英国 | N / A. | N / A. | N / A. | N / A. | 195000年 | N / A. | 文本 | 英语(联合王国)发音词典 | ||
99 | 声音的 | TTS | 耳机麦克风 | 11个小时 | 添加引用 | TC-STAR女性基线声音劳拉 | 差别 | 脚本演讲 | 英语 | 英国 | 低背景噪音(工作室) | 1 | 1 | 要求可以办到 | 要求可以办到 | 96 | 要求可以办到 | 数据集包括手动正交转录,自动分割成音素,自动生成音调标记(其中手动检查一定百分比的语音段和音调标记) 数据集配有一个语音词典与POS,引理和音标 |
英语(英国)脚本麦克风 - 单身女 | |
One hundred. | 声音的 | TTS | 耳机麦克风 | 7个小时 | 添加引用 | TC-Star男性基线语音伊恩 | 差别 | 脚本演讲 | 英语 | 英国 | 低背景噪音(工作室) | 1 | 1 | 要求可以办到 | 要求可以办到 | 96 | 要求可以办到 | 数据集包括手动正交转录,自动分割成音素,自动生成音调标记(其中手动检查一定百分比的语音段和音调标记) 数据集配有一个语音词典与POS,引理和音标 |
英语(英国)脚本麦克风-单身男性 | |
272 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 50小时 | 添加引用 | USE_ASR004 | Appen Global. | 会话演讲 | 英语 | 美国 | 混合(家庭,汽车,公共场所,户外) | 要求可以办到 | 1 | 要求可以办到 | 要求可以办到 | 16 | 波 | 两个人对话涵盖了广泛的通用主题,包括服装,文化,教育,金融,食品,健康,历史,热情好客,保险,媒体/娱乐,运动,旅行/度假,天气和工作。 每位演讲者参与多达12个5-15分钟的对话。 发音词典,目前无法使用,但可根据要求开发 |
英语(美国 - 非洲裔)对话的智能手机 | |
266 | 文本 | 虚拟助手,Chatbot | N / A. | 952,677消息 | 添加引用 | ENG_SMS001 | Appen Global. | SMS文本消息 | 英语 | 美国 | N / A. | 要求可以办到 | N / A. | 952677年 | 要求可以办到 | N / A. | 文本 | 此数据集包含2个参与者之间的线程短信对话,使用iMessage和Android SMS。所有信息都是美式英语。包含时间戳和文本信息交换,元数据包括性别、年龄范围和参与者之间的关系。从所有参与者获得同意,数据集不包含PII。 | 英语(美国)对话短信 - 螺纹 | |
267 | 文本 | 虚拟助手,Chatbot | N / A. | 106,649消息 | 添加引用 | Eng_sms001a. | Appen Global. | SMS文本消息 | 英语 | 美国 | N / A. | 390 | N / A. | 106,649. | 要求可以办到 | N / A. | 文本 | 这是ENG_SMS001的子集。此数据集包含2个参与者之间的线程短信对话,使用iMessage和Android SMS。所有信息都是美式英语。包含时间戳和文本信息交换,元数据包括性别、年龄范围和参与者之间的关系。从所有参与者获得同意,数据集不包含PII。 | 英语(美国)对话短信 - 螺纹 | |
270 | 文本 | 虚拟助手,Chatbot | N / A. | 351,826消息 | 添加引用 | ENG_SMS002 | Appen Global. | WhatsApp短信 | 英语 | 美国 | N / A. | 要求可以办到 | N / A. | 351,826. | 要求可以办到 | N / A. | 文本 | 该数据集包含使用WhatsApp的2个参与者之间的线程文本消息对话。所有信息都是美式英语。包含时间戳和文本信息交换,元数据包括性别、年龄范围和参与者之间的关系。从所有参与者获得同意,数据集不包含PII。 | 英语(美国)会话WhatsApp -线程 | |
107 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 1000小时 | 添加引用 | USE_ASR003 | Appen Global. | 会话演讲 | 英语 | 美国 | 低背景噪音 | 2,000 | 1 | 500,000. | 52586年 | 16 | 波 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 谈话涵盖各种主题,包括:学习/专业/工作,家乡,生活安排,天气和季节,准时,电视节目/电影) |
英语(美国)会话智能手机 | |
178 | 文本 | ASR, TTS,语言建模 | N / A. | 263000个单词 | 添加引用 | Eng_USA_POS. | Appen Global. | 言语字典的一部分 | 英语 | 美国 | N / A. | N / A. | N / A. | N / A. | 263,000. | N / A. | 文本 | 英语(美国)语音词典的一部分 | ||
177 | 文本 | ASR, TTS,语言建模 | N / A. | 330,000字 | 添加引用 | eng_USA_PHON | Appen Global. | 发音字典 | 英语 | 美国 | N / A. | N / A. | N / A. | N / A. | 33万 | N / A. | 文本 | 英语(美国)发音词典 | ||
93 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 53小时 | 添加引用 | 美国speech English数据库 | 差别 | 脚本演讲 | 英语 | 美国 | 混合(办公室,娱乐,汽车,公共场所) | 600(550名成人演讲者和50名儿童扬声器) | 4. | 170,000. | 要求可以办到 | 16 | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 290每个成人发言者提示和每名儿童发言者的提示包括数字,自然数,字符串,个人,地方和商业名称,成人扬声器的应用程序词,指挥(玩具,电话和一般)为儿童发言者,语音富有的单词和句子对成人发言者的自由和挑剔的自发反应 |
英语(美国)脚本麦克风 | |
106 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 62小时 | 添加引用 | USE_ASR001 | Appen Global. | 脚本演讲 | 英语 | 美国 | 低背景噪音(工作室) | 200. | 2 | 80,000 | 18318年 | 48 | 法律或wav | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 每位演讲者要阅读400个提示,包括数字、自然数字、人名和城市名、电话号码、通用的指挥和控制项目、语音丰富的句子和单词 |
英语(美国)脚本麦克风 | |
128 | 文本 | ner,内容分类,搜索引擎 | N / A. | 22,768句子 | 添加引用 | Eng_ner001. | Appen Global. | 新闻网 | 英语 | N / A. | N / A. | N / A. | N / A. | 22768年 | 要求可以办到 | N / A. | 文本 | 英语网新闻文本 | ||
132 | 文本 | ner,内容分类,搜索引擎 | N / A. | 19584句 | 添加引用 | FAR_NER001 | Appen Global. | 新闻网 | 伊朗波斯 | 伊朗 | N / A. | N / A. | N / A. | 19584年 | 要求可以办到 | N / A. | 文本 | 波斯语/波斯语新闻文本 | ||
182 | 文本 | ASR, TTS,语言建模 | N / A. | 10,000字 | 添加引用 | fin_fin_pos. | Appen Global. | 言语字典的一部分 | 芬兰 | 芬兰 | N / A. | N / A. | N / A. | N / A. | 10,000 | N / A. | 文本 | 芬兰语(芬兰)语音词典的一部分 | ||
125 | 图片 | 文档处理,文档搜索 | 相机 | 7293张图片 | 添加引用 | IMG_OCR_FIN_CN. | Appen中国 | 文件OCR. | 芬兰 | 芬兰 | 混合照明条件 | 4. | N / A. | N / A. | N / A. | N / A. | jpg. | 包含文本的图像,如广告牌/外包装/标识/杂志/菜单等。 | 芬兰(芬兰)印刷文本OCR | |
181 | 文本 | ASR, TTS,语言建模 | N / A. | 85000个字 | 添加引用 | fin_fin_phon. | Appen Global. | 发音字典 | 芬兰 | 芬兰 | N / A. | N / A. | N / A. | N / A. | 85,000. | N / A. | 文本 | 芬兰语(芬兰)的发音词典 | ||
142 | 文本 | ASR, TTS,语言建模 | N / A. | 4000个单词 | 添加引用 | fra_dza_phon. | Appen Global. | 发音字典 | 法语 | 阿尔及利亚 | N / A. | N / A. | N / A. | N / A. | 4,000 | N / A. | 文本 | 阿拉伯语字母 | 法语(阿尔及利亚)发音词典 | |
5. | 声音的 | ASR、虚拟助理 | 固定电话只 | 76小时 | 添加引用 | 比利时法语演说 - (ii)FDB-1000(固定地1BF) | 差别 | 脚本演讲 | 法语 | 比利时 | 低背景噪音 | 1,000 | 1 | 53000年 | 要求可以办到 | 8. | 一条法律 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 53每位发言者提示,包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目,语音富裕和单词和自发项目进行控制 |
法语(比利时)脚本电话 | |
36 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 9小时 | 添加引用 | FRC_ASR003 | Appen Global. | 会话演讲 | 法语 | 加拿大 | 混合 | 68 | 2 | 要求可以办到 | 6,022 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 平均电话长度:10-15分钟 对于大多数呼叫来说,只收集谈话的一半,但是,对于较少数量的呼叫来说,每个扬声器(在线/超出线)都被收集并转录 |
法语(加拿大)会话电话 | |
183 | 文本 | ASR, TTS,语言建模 | N / A. | 67000个单词 | 添加引用 | fra_can_phon. | Appen Global. | 发音字典 | 法语 | 加拿大 | N / A. | N / A. | N / A. | N / A. | 67000年 | N / A. | 文本 | 法语(加拿大)的发音词典 | ||
35 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 46小时 | 添加引用 | FRC_ASR002 | Appen Global. | 脚本演讲 | 法语 | 加拿大 | 低背景噪音(家庭/办公室) | 150 | 1 | 22,500 | 10755年 | 16 | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 150每个扬声器提示包括数字,数字字符串(随机生成),地址和语音富裕句子和单词 |
法语(加拿大)脚本麦克风 | |
34 | 声音的 | ASR、虚拟助理 | 移动电话 | 131小时 | 添加引用 | FRC_ASR001 | Appen Global. | 脚本演讲 | 法语 | 加拿大 | 混合 | 1,000 | 1 | 100,000 | 11697年 | 8. | 一条法律 | 完全转录到speech hdat类型约定 数据集伴随着包含所有转录单词的发音词典[SAMPA] 100个提示每位发言者包括数字,自然数,字符串,个人,地方和商业名称,确认项目(是,否+模糊),通用命令和控制项目,语音富裕的句子和单词 |
法语(加拿大)脚本电话 | |
275 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 159小时 | 添加引用 | frf_asr004. | Appen Global. | 会话演讲 | 法语 | 法国 | 混合(家庭,汽车,公共场所,户外) | 298 | 1 | 要求可以办到 | 要求可以办到 | 16 | 波 | 两个人对话涵盖了广泛的通用主题,包括服装,文化,教育,金融,食品,健康,历史,热情好客,保险,媒体/娱乐,运动,旅行/度假,天气和工作。 每位演讲者参与多达12个5-15分钟的对话。 发音词典,目前无法使用,但可根据要求开发 |
法语会话智能手机 | |
40 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 25小时 | 添加引用 | frf_asr001. | Appen Global. | 会话演讲 | 法语 | 法国 | 低背景噪音 | 563. | 2 | 要求可以办到 | 11,922 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 在大多数电话中,两位发言人(内联/外联)都被接话和录音,但在少数电话中,只有一半的通话被接话和录音 |
法国(法国)会话电话 | |
39 | 声音的 | ASR,虚拟助手,汽车HMI和娱乐 | 麦克风和手机 | 113小时 | 添加引用 | 法国SpeechDat车载 | 差别 | 脚本演讲 | 法语 | 法国 | 混合(车内) | 300 | 5. | 37,500. | 要求可以办到 | 16和8. | 要求可以办到 | 数据集已完全转录,并附上发音词典和验证报告 每位发言者大约125个提示,包括数字,自然数,字符串,个人,地点和商业名称(一些自发的),通用命令和控制项目,语音富有的单词和句子以及提示自发演讲 113.7小时 |
法国(法国)车内 | |
185 | 文本 | ASR, TTS,语言建模 | N / A. | 95,000字 | 添加引用 | fra_FRA_POS | Appen Global. | 言语字典的一部分 | 法语 | 法国 | N / A. | N / A. | N / A. | N / A. | 95,000 | N / A. | 文本 | 法语(法国)语音词典的一部分 | ||
184 | 文本 | ASR, TTS,语言建模 | N / A. | 112,000字 | 添加引用 | fra_fra_phon. | Appen Global. | 发音字典 | 法语 | 法国 | N / A. | N / A. | N / A. | N / A. | 112,000 | N / A. | 文本 | 法国(法国)的发音词典 | ||
41 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 26小时 | 添加引用 | frf_asr003. | 全球手机 | 脚本演讲 | 法语 | 法国 | 低背景噪音(家庭/办公室) | 98 | 1 | 10,273 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
法国(法国)脚本麦克风 | |
37 | 声音的 | ASR、虚拟助理 | 固定电话只 | 41小时 | 添加引用 | 法国SpeechDat (II)身上- 1000 | 差别 | 脚本演讲 | 法语 | 法国 | 低背景噪音(家庭/办公室) | 1,017 | 1 | 48,000 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 48每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
法国(法国)脚本电话 | |
38 | 声音的 | ASR、虚拟助理 | 固定电话只 | 305小时 | 添加引用 | 法语SpeemDAT(ii)FDB-5000 | 差别 | 脚本演讲 | 法语 | 法国 | 低背景噪音 | 5,040 | 1 | 237000年 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 47每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
法国(法国)脚本电话 | |
60 | 声音的 | ASR、虚拟助理 | 固定电话只 | 45个小时 | 添加引用 | 卢森堡法国语音(ii)FDB-500(固定地1LF) | 差别 | 脚本演讲 | 法语 | 卢森堡 | 低背景噪音 | 614. | 1 | 32,000 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 53每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
法国(卢森堡)电话 | |
273 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 104小时 | 添加引用 | DEU_ASR004 | Appen Global. | 会话演讲 | 德国 | 德国 | 混合(家庭,汽车,公共场所,户外) | 198 | 1 | 要求可以办到 | 要求可以办到 | 16 | 波 | 两个人对话涵盖了广泛的通用主题,包括服装,文化,教育,金融,食品,健康,历史,热情好客,保险,媒体/娱乐,运动,旅行/度假,天气和工作。 每位演讲者参与多达12个5-15分钟的对话。 发音词典,目前无法使用,但可根据要求开发 |
德语会话智能手机 | |
186 | 文本 | ASR, TTS,语言建模 | N / A. | 146000个字 | 添加引用 | deu_deu_phon. | Appen Global. | 发音字典 | 德国 | 德国 | N / A. | N / A. | N / A. | N / A. | 146,000. | N / A. | 文本 | 德语发音词典 | ||
16 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 16个小时 | 添加引用 | DEU_ASR001 | Appen Global. | 脚本演讲 | 德国 | 德国 | 低背景噪音(工作室) | 127 | 2 | 12,700. | 6,826 | 16 | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 每个扬声器读取100个提示,包括数字,自然数,个人和城市名称,电话号码,通用命令和控制项目,语音富裕的句子和单词 |
德国(德国)脚本麦克风 | |
18 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 25小时 | 添加引用 | DEU_ASR003 | 全球手机 | 脚本演讲 | 德国 | 德国 | 低背景噪音(家庭/办公室) | 77 | 1 | 10,085 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
德国(德国)脚本麦克风 | |
42 | 声音的 | ASR、虚拟助理 | 固定电话只 | 31小时 | 添加引用 | (二)FDB-1000 | 差别 | 脚本演讲 | 德国 | 德国 | 低背景噪音(家庭/办公室) | 988. | 1 | 43000年 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 44每位发言者提示,包括数字,自然数,字符串,个人,地点和业务名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
德国(德国)电话 | |
43 | 声音的 | ASR、虚拟助理 | 固定电话只 | 268小时 | 添加引用 | 德国语音DAT(ii)FDB-4000 | 差别 | 脚本演讲 | 德国 | 德国 | 低背景噪音(家庭/办公室) | 4,000 | 1 | 160,000 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 40每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
德国(德国)电话 | |
61 | 声音的 | ASR、虚拟助理 | 固定电话只 | 33个小时 | 添加引用 | 卢森堡德国语音DAT(ii)FDB-500(固定地1LG) | 差别 | 脚本演讲 | 德国 | 卢森堡 | 低背景噪音 | 500. | 1 | 26,500 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 53每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
德语(卢森堡)电话 | |
187 | 文本 | ASR, TTS,语言建模 | N / A. | 15000个单词 | 添加引用 | deu_che_phon. | Appen Global. | 发音字典 | 德国 | 瑞士 | N / A. | N / A. | N / A. | N / A. | 15,000 | N / A. | 文本 | 德语(瑞士)发音词典 | ||
94 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 53小时 | 添加引用 | speech德语(瑞士)数据库 | 差别 | 脚本演讲 | 德国 | 瑞士 | 混合(办公室,娱乐,汽车,公共场所) | 600(550名成人演讲者和50名儿童扬声器) | 4. | 170,000. | 要求可以办到 | 16 | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 290每个成人发言者提示和每名儿童发言者的提示包括数字,自然数,字符串,个人,地方和商业名称,成人扬声器的应用程序词,指挥(玩具,电话和一般)为儿童发言者,语音富有的单词和句子对成人发言者的自由和挑剔的自发反应 |
德语(瑞士)脚本麦克风 | |
68 | 声音的 | ASR、虚拟助理 | 手机和座机 | 31小时 | 添加引用 | 东方人:土耳其人说德语 | 差别 | 脚本演讲 | 德国 | 火鸡 | 低背景噪音 | 300 | 1 | 15600年 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 52个提示,包括数字,自然数字,字母串,个人,地点和业务名称,确认项目(是,否+模糊),通用的命令和控制项目,语音丰富的句子和单词 |
德国(土耳其)电话 | |
188 | 文本 | ASR, TTS,语言建模 | N / A. | 5000个单词 | 添加引用 | ell_grc_phon. | Appen Global. | 发音字典 | 希腊语 | 希腊 | N / A. | N / A. | N / A. | N / A. | 5000 | N / A. | 文本 | 希腊(希腊)发音词典 | ||
117 | 声音的 | ASR,虚拟助理,聊天机器人 | 移动电话 | 191小时 | 添加引用 | gre_asr001_cn. | Appen中国 | 脚本演讲 | 希腊语 | 希腊 | 低背景噪音(家庭/办公室) | 287 | 1 | 54,113 | 68,271 | 16 | 波 | 数据集包含具有相应文本提示的音频 | 希腊(希腊)脚本智能手机 | |
189 | 文本 | ASR, TTS,语言建模 | N / A. | 35000个单词 | 添加引用 | grn_PRY_PHON | Appen Global. | 发音字典 | 瓜拉尼 | 巴拉圭 | N / A. | N / A. | N / A. | N / A. | 35000年 | N / A. | 文本 | 瓜拉尼(巴拉圭)发音词典 | ||
190 | 文本 | ASR, TTS,语言建模 | N / A. | 15000个单词 | 添加引用 | hat_HTI_PHON | Appen Global. | 发音字典 | 海地克里奥尔 | 海地 | N / A. | N / A. | N / A. | N / A. | 15,000 | N / A. | 文本 | 海地克里奥尔(海地)发音词典 | ||
45 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 33个小时 | 添加引用 | HAU_ASR002 | Appen Global. | 会话演讲 | 豪萨语 | 尼日利亚 | 低背景噪音 | 200. | 2 | 要求可以办到 | 7,949 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 200个电话通话记录为这个项目 - 100个扬声器使每个(1固定电话,1来自移动)2所调用的100个呼叫接收机池 |
Hausa(尼日利亚)会话电话 | |
191 | 文本 | ASR, TTS,语言建模 | N / A. | 11,000字 | 添加引用 | hau_nga_phon. | Appen Global. | 发音字典 | 豪萨语 | 尼日利亚 | N / A. | N / A. | N / A. | N / A. | 11,000 | N / A. | 文本 | Hausa(尼日利亚)的发音词典 | ||
44 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 20小时 | 添加引用 | HAU_ASR001 | 全球手机 | 脚本演讲 | 豪萨语 | 喀麦隆 | 低背景噪音(家庭/办公室) | 103 | 1 | 7,895 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
豪萨脚本麦克风 | |
46 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 34小时 | 添加引用 | HEB_ASR001 | Appen Global. | 会话演讲 | 希伯来语 | 以色列 | 低背景噪音 | 200. | 2 | 要求可以办到 | 19250年 | 8. | 法律或wav | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 200个电话通话记录为这个项目 - 100个扬声器使每个(1固定电话,1来自移动)2所调用的100个呼叫接收机池 |
希伯来语(以色列)会话电话 | |
192 | 文本 | ASR, TTS,语言建模 | N / A. | 31000个字 | 添加引用 | heb_isr_phon. | Appen Global. | 发音字典 | 希伯来语 | 以色列 | N / A. | N / A. | N / A. | N / A. | 31,000. | N / A. | 文本 | 希伯来语(以色列)发音词典 | ||
48 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 32小时 | 添加引用 | HIN_ASR002 | Appen Global. | 会话演讲 | 印地语 | 印度 | 混合 | 996 | 2 | 要求可以办到 | 12266年 | 8. | 波 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 在大多数电话中,两位发言人(内联/外联)都被接话和录音,但在少数电话中,只有一半的通话被接话和录音 |
印地语(印度)会话电话 | |
193 | 文本 | ASR, TTS,语言建模 | 35000个单词 | 添加引用 | hin_ind_phon. | Appen Global. | 发音字典 | 印地语 | 印度 | N / A. | N / A. | N / A. | N / A. | 35000年 | N / A. | 文本 | 印地语(印度)发音字典 | |||
47 | 声音的 | ASR、虚拟助理 | 移动电话 | 224小时 | 添加引用 | HIN_ASR001 | Appen Global. | 脚本演讲 | 印地语 | 印度 | 低背景噪音 | 1920年 | 1 | 96000年 | 9,853 | 8. | 一条法律 | 完全转录到speech hdat类型约定 数据集伴随着包含所有转录单词的发音词典[SAMPA] 每个扬声器50点的提示,包括数字,自然数,个人,企业和地名,网址,确认事项(是,否+模糊),通用命令和控制项目,音素丰富的句子和单词 |
印地语(印度)脚本电话 | |
126 | 视频 | 健身应用,动作分类,手势识别 | 移动电话 | 2000个视频 | 添加引用 | ved_human_body_cn. | Appen中国 | 人体 | N / A. | 中国 | 混合背景和照明条件 | 1000 | N / A. | N / A. | N / A. | N / A. | mp4 | 视频剪辑长约10-20秒 | 人体运动 | |
194 | 文本 | ASR, TTS,语言建模 | N / A. | 500字 | 添加引用 | hun_hun_phon. | Appen Global. | 发音字典 | 匈牙利 | 匈牙利 | N / A. | N / A. | N / A. | N / A. | 500. | N / A. | 文本 | 匈牙利语(匈牙利)发音字典 | ||
118 | 声音的 | ASR,虚拟助理,聊天机器人 | 移动电话 | 286小时 | 添加引用 | hun_asr001_cn. | Appen中国 | 脚本演讲 | 匈牙利 | 匈牙利 | 低背景噪音(家庭/办公室) | 254 | 1 | 94,031. | 201,921 | 16 | 波 | 数据集包含具有相应文本提示的音频 | 匈牙利语(匈牙利)脚本智能手机 | |
49 | 声音的 | ASR、虚拟助理 | 固定电话只 | 65小时 | 添加引用 | 匈牙利语演说(e) | 差别 | 脚本演讲 | 匈牙利 | 匈牙利 | 低背景噪音 | 1,000 | 1 | 48,000 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 48每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
匈牙利语(匈牙利)脚本电话 | |
195 | 文本 | ASR, TTS,语言建模 | N / A. | 30000个单词 | 添加引用 | ibo_NGA_PHON | Appen Global. | 发音字典 | 伊博人 | 尼日利亚 | N / A. | N / A. | N / A. | N / A. | 30,000 | N / A. | 文本 | Igbo(尼日利亚)的发音词典 | ||
149 | 文本 | ASR, TTS,语言建模 | N / A. | 10,000字 | 添加引用 | ind_idn_pos. | Appen Global. | 言语字典的一部分 | 印度尼西亚 | 印尼 | N / A. | N / A. | N / A. | N / A. | 10,000 | N / A. | 文本 | 印度尼西亚语(印度尼西亚)的言语字典的一部分 | ||
148 | 文本 | ASR, TTS,语言建模 | N / A. | 95,000字 | 添加引用 | ind_IDN_PHON | Appen Global. | 发音字典 | 印度尼西亚 | 印尼 | N / A. | N / A. | N / A. | N / A. | 95,000 | N / A. | 文本 | 印度尼西亚(印尼)的发音词典 | ||
262 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 100小时 | 添加引用 | NMG_ASR001_CN | Appen中国 | 会话演讲 | 内蒙古 | 中国 | 低背景噪音 | 200. | 1 | 16 | 波 | 音频;不包括转录 录音范围包括:锡林郭勒盟、通辽、呼和浩特。每段录音包含2人之间约30分钟的自由对话。 |
中国内蒙古语会话演讲 | |||
32 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 30个小时 | 添加引用 | FAR_ASR002 | Appen Global. | 会话演讲 | 伊朗波斯语 | 伊朗 | 混合 | 1,000 | 2 | 要求可以办到 | 12358年 | 8. | 波 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 |
伊朗波斯语(伊朗)的电话对话 | |
31 | 声音的 | ASR、虚拟助理 | 手机和座机 | 85小时 | 添加引用 | FAR_ASR001 | Appen Global. | 脚本演讲 | 伊朗波斯语 | 伊朗 | 混合 | 789. | 1 | 38400年 | 8,716. | 8. | 一条法律 | 完全被转录为Orientel类型约定 数据集伴随着包含所有转录单词的发音词典[SAMPA] 48个提示,包括数字,自然数字,字母串,个人,地点和业务名称,确认项目(是,否+模糊),通用的命令和控制项目,语音丰富的句子和单词 |
伊朗波斯语(波斯语)(伊朗)脚本电话 | |
180 | 文本 | ASR, TTS,语言建模 | N / A. | 1,400,000字 | 添加引用 | pes_IRN_POS | Appen Global. | 言语字典的一部分 | 伊朗波斯 | 伊朗 | N / A. | N / A. | N / A. | N / A. | 1,400,000. | N / A. | 文本 | 伊朗语波斯语(伊朗)语言词典的一部分 | ||
179 | 文本 | ASR, TTS,语言建模 | N / A. | 80000个单词 | 添加引用 | pes_IRN_PHON | Appen Global. | 发音字典 | 伊朗波斯 | 伊朗 | N / A. | N / A. | N / A. | N / A. | 80,000 | N / A. | 文本 | 伊朗波斯语(伊朗)的发音词典 | ||
276 | 声音的 | ASR,会话AI,语音分析 | 移动电话 | 256小时 | 添加引用 | ITA_ASR005 | Appen Global. | 会话演讲 | 意大利 | 意大利 | 混合(家庭,汽车,公共场所,户外) | 482. | 1 | 要求可以办到 | 要求可以办到 | 16 | 波 | 两个人对话涵盖了广泛的通用主题,包括服装,文化,教育,金融,食品,健康,历史,热情好客,保险,媒体/娱乐,运动,旅行/度假,天气和工作。 每位演讲者参与多达12个5-15分钟的对话。 发音词典,目前无法使用,但可根据要求开发 |
意大利语(意大利)会话智能手机 | |
52 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 36个小时 | 添加引用 | ITA_ASR003. | Appen Global. | 会话演讲 | 意大利 | 意大利 | 低背景噪音 | 200. | 2 | 要求可以办到 | 18,974 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 200个电话通话记录为这个项目 - 100个扬声器使每个(1固定电话,1来自移动)2所调用的100个呼叫接收机池 |
意大利(意大利)的电话对话 | |
197 | 文本 | ASR, TTS,语言建模 | N / A. | 147000个单词 | 添加引用 | ita_ITA_POS | Appen Global. | 言语字典的一部分 | 意大利 | 意大利 | N / A. | N / A. | N / A. | N / A. | 147,000 | N / A. | 文本 | 意大利语(意大利)语音词典的一部分 | ||
196 | 文本 | ASR, TTS,语言建模 | N / A. | 197,000个单词 | 添加引用 | ita_ITA_PHON | Appen Global. | 发音字典 | 意大利 | 意大利 | N / A. | N / A. | N / A. | N / A. | 197000年 | N / A. | 文本 | 意大利语(意大利)发音词典 | ||
50 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 44小时 | 添加引用 | ITA_ASR001. | Appen Global. | 脚本演讲 | 意大利 | 意大利 | 混合 | 200. | 4. | 40,000 | 7,316 | 22 | 一条法律 | 完全转录到speech hdat类型约定 数据集伴随着包含所有转录单词的发音词典 每位发言者200提示,包括100个命令和控制类型项目和100个语音富裕的句子 |
意大利语(意大利)脚本麦克风 | |
53 | 声音的 | TTS | 麦克风 | 3个小时 | 添加引用 | ITA_TTS001 | Appen Global. | 脚本演讲 | 意大利 | 意大利 | 低背景噪音(工作室) | 1 | 1 | 3,300 | 要求可以办到 | 22 | 一条法律 | DataSet伴随着包含数据集中的所有单词的发音词典 每个演讲者有3300个提示,包括语音丰富的句子 |
意大利语(意大利)脚本麦克风 | |
51 | 声音的 | ASR,虚拟助手,汽车HMI和娱乐 | 麦克风 | 47小时 | 添加引用 | ITA_ASR002. | Appen Global. | 脚本演讲 | 意大利 | 意大利 | 混合(车内) | 205. | 4. | 35,875 | 10366年 | 48 | 一条法律 | 完全转录到speech hdat类型约定 数据集伴随着包含所有转录单词的发音词典 每个演讲者有350个提示,包括数字,街道名称,通用的指挥和控制项目,语音丰富的句子和单词 每个扬声器记录1OR 2次会话,包括在停放的车辆中的会话1,其中发动机运行和在60英里/小时的车辆中的课程2(100 km / h) |
意大利(意大利)脚本麦克风车内 | |
54 | 声音的 | ASR、虚拟助理 | 固定电话只 | 38小时 | 添加引用 | 意大利固定网络语音语音语音(M)语料库 | 差别 | 脚本演讲 | 意大利 | 意大利 | 低背景噪音(家庭/办公室) | 1,000 | 1 | 39000年 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 39提示每位发言者包括孤立和连接的数字,自然数,金额,拼写单词,时间和日期短语,是/否问题,城市名称,公共应用程序词,短语中的应用程序词和语音富裕的句子 |
意大利语(意大利)电话 | |
55 | 声音的 | ASR、虚拟助理 | 固定电话只 | 228小时 | 添加引用 | 意大利语演说(ii)FDB-3000 | 差别 | 脚本演讲 | 意大利 | 意大利 | 低背景噪音(家庭/办公室) | 3,040 | 1 | 134000年 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 44每位发言者提示,包括数字,自然数,字符串,个人,地点和业务名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
意大利语(意大利)电话 | |
56 | 声音的 | ASR、虚拟助理 | 移动电话 | 103小时 | 添加引用 | 意大利语音(II)MDB-250 | 差别 | 脚本演讲 | 意大利 | 意大利 | 低背景噪音(家庭/办公室) | 375 | 1 | 19,000. | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 51每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
意大利语(意大利)电话 | |
89 | 声音的 | ASR、虚拟助理 | 移动电话 | 13个小时 | 添加引用 | SpeemDAT(M)意大利移动网络语音数据库 | 差别 | 脚本演讲 | 意大利 | 意大利 | 低背景噪音(家庭/办公室) | 342 | 1 | 13,500 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 40每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
意大利语(意大利)电话 | |
199 | 文本 | ASR, TTS,语言建模 | N / A. | 265,000字 | 添加引用 | JPN_JPN_POS. | Appen Global. | 言语字典的一部分 | 日本人 | 日本 | N / A. | N / A. | N / A. | N / A. | 265,000. | N / A. | 文本 | 日本(日本)言语字典的一部分 | ||
198 | 文本 | ASR, TTS,语言建模 | N / A. | 262000个单词 | 添加引用 | jpn_jpn_phon. | Appen Global. | 发音字典 | 日本人 | 日本 | N / A. | N / A. | N / A. | N / A. | 262000年 | N / A. | 文本 | 日本(日本)的发音词典 | ||
57 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 33个小时 | 添加引用 | JPN_ASR001 | 全球手机 | 脚本演讲 | 日本人 | 日本 | 低背景噪音(家庭/办公室) | 144 | 1 | 13067年 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
日本(日本)脚本麦克风 | |
95 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 57小时 | 添加引用 | Speecon日语 | 差别 | 脚本演讲 | 日本人 | 日本 | 混合(办公室,娱乐,汽车,公共场所) | 600(550名成人演讲者和50名儿童扬声器) | 4. | 170,000. | 要求可以办到 | 16 | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 290每个成人发言者提示和每名儿童发言者的提示包括数字,自然数,字符串,个人,地方和商业名称,成人扬声器的应用程序词,指挥(玩具,电话和一般)为儿童发言者,语音富有的单词和句子对成人发言者的自由和挑剔的自发反应 |
日本(日本)脚本麦克风 | |
133 | 文本 | ner,内容分类,搜索引擎 | N / A. | 20,629句子 | 添加引用 | JPY_NER001 | Appen Global. | 新闻网 | 日本人 | 日本 | N / A. | N / A. | N / A. | 20,629 | 要求可以办到 | N / A. | 文本 | 日本东北新闻社 | ||
200. | 文本 | ASR, TTS,语言建模 | N / A. | 20,000个字 | 添加引用 | jav_IDN_PHON | Appen Global. | 发音字典 | 爪哇人 | 印尼 | N / A. | N / A. | N / A. | N / A. | 20,000 | N / A. | 文本 | 爪哇语(印度尼西亚)发音字典 | ||
58 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 15个小时 | 添加引用 | KAN_ASR001 | Appen Global. | 会话演讲 | 凯纳达 | 印度 | 混合 | 178 | 2 | 要求可以办到 | 15660年 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 |
卡纳达语(印度)的电话对话 | |
109 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 57小时 | 添加引用 | kan_asr001a. | Appen Global. | 会话演讲 | 凯纳达 | 印度 | 混合 | 1,000 | 2 | 要求可以办到 | 15660年 | 8. | 一条法律 | 大约25%的数据集会话被转录,并有时间戳——完整的记录可以提供 数据库是伴随着一个发音词典,包含所有转录词 |
卡纳达语(印度)的电话对话 | |
201. | 文本 | ASR, TTS,语言建模 | N / A. | 49,000字 | 添加引用 | kan_ind_phon. | Appen Global. | 发音字典 | 凯纳达 | 印度 | N / A. | N / A. | N / A. | N / A. | 49,000. | N / A. | 文本 | 卡纳达(印度)发音词典 | ||
202. | 文本 | ASR, TTS,语言建模 | N / A. | 30000个单词 | 添加引用 | kaz_KAZ_PHON | Appen Global. | 发音字典 | 哈萨克 | 哈萨克斯坦 | N / A. | N / A. | N / A. | N / A. | 30,000 | N / A. | 文本 | 哈萨克(哈萨克斯坦)的发音词典 | ||
204. | 文本 | ASR, TTS,语言建模 | N / A. | 100000个单词 | 添加引用 | kor_KOR_POS | Appen Global. | 言语字典的一部分 | 朝鲜文 | 韩国 | N / A. | N / A. | N / A. | N / A. | 100,000 | N / A. | 文本 | 韩国(韩国)词典的一部分 | ||
203. | 文本 | ASR, TTS,语言建模 | N / A. | 100000个单词 | 添加引用 | kor_KOR_PHON | Appen Global. | 发音字典 | 朝鲜文 | 韩国 | N / A. | N / A. | N / A. | N / A. | 100,000 | N / A. | 文本 | 韩国(韩国)的发音词典 | ||
59 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 20小时 | 添加引用 | Kor_Asr001. | 全球手机 | 脚本演讲 | 朝鲜文 | 韩国 | 低背景噪音(家庭/办公室) | One hundred. | 1 | 8,107 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
韩国(韩国)脚本麦克风 | |
129 | 文本 | ner,内容分类,搜索引擎 | N / A. | 25,830句 | 添加引用 | Kor_ner001. | Appen Global. | 新闻网 | 朝鲜文 | 韩国 | N / A. | N / A. | N / A. | 25830年 | 要求可以办到 | N / A. | 文本 | 韩国NER新闻文本 | ||
205. | 文本 | ASR, TTS,语言建模 | N / A. | 写下六万字 | 添加引用 | kur_tur_phon. | Appen Global. | 发音字典 | Kurmanji. | 火鸡 | N / A. | N / A. | N / A. | N / A. | 60,000 | N / A. | 文本 | Kurmanji(土耳其)发音词典 | ||
206. | 文本 | ASR, TTS,语言建模 | N / A. | 9,000字 | 添加引用 | lao_LAO_PHON | Appen Global. | 发音字典 | 老挝 | 老挝 | N / A. | N / A. | N / A. | N / A. | 9,000 | N / A. | 文本 | 老挝语发音词典 | ||
207. | 文本 | ASR, TTS,语言建模 | N / A. | 71000个单词 | 添加引用 | lit_LTU_PHON | Appen Global. | 发音字典 | 立陶宛语 | 立陶宛 | N / A. | N / A. | N / A. | N / A. | 71,000 | N / A. | 文本 | 立陶宛语(立陶宛)的发音词典 | ||
208. | 文本 | ASR, TTS,语言建模 | N / A. | 19000个单词 | 添加引用 | mal_ind_phon. | Appen Global. | 发音字典 | 马拉雅拉姆语 | 印度 | N / A. | N / A. | N / A. | N / A. | 19,000. | N / A. | 文本 | Malayalam(印度)的发音词典 | ||
209. | 文本 | ASR, TTS,语言建模 | N / A. | 10,000字 | 添加引用 | msa_MYS_PHON | Appen Global. | 发音字典 | 马来西亚 | 马来西亚 | N / A. | N / A. | N / A. | N / A. | 10,000 | N / A. | 文本 | 马来西亚(马来西亚)发音字典 | ||
210. | 文本 | ASR, TTS,语言建模 | N / A. | 35000个单词 | 添加引用 | zho_chn_phon. | Appen Global. | 发音字典 | 普通话(简化) | 中国 | N / A. | N / A. | N / A. | N / A. | 35000年 | N / A. | 文本 | 普通话(简体)(中国)发音词典 | ||
211. | 文本 | ASR, TTS,语言建模 | N / A. | 50,000字 | 添加引用 | zho_twn_phon. | Appen Global. | 发音字典 | 普通话(传统) | 台湾 | N / A. | N / A. | N / A. | N / A. | 50,000 | N / A. | 文本 | 普通话(传统)(台湾)发音词典 | ||
63 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 26小时 | 添加引用 | mac_asr002. | 全球手机 | 脚本演讲 | 普通话中文 | 中国 | 低背景噪音(家庭/办公室) | 132 | 1 | 10225年 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
普通话中文(中国)脚本麦克风 | |
62 | 声音的 | ASR、虚拟助理 | 手机和座机 | 323小时 | 添加引用 | mac_asr001. | Appen Global. | 脚本演讲 | 普通话中文 | 中国 | 混合 | 2,000 | 1 | 一千万 | 7,145 | 8. | 一条法律 | 完全转录到speech hdat类型约定 数据集伴随着包含所有转录单词的发音词典[SAMPA] 98提示每位发言者包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目(从一组215),语音富裕的句子和单词 |
文华中文(中国)脚本电话 | |
131 | 文本 | ner,内容分类,搜索引擎 | N / A. | 17313句 | 添加引用 | MAC_NER001 | Appen Global. | 新闻网 | 普通话中文 | 中国 | N / A. | N / A. | N / A. | 17313年 | 要求可以办到 | N / A. | 文本 | 中国话 | ||
64 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 15个小时 | 添加引用 | mar_asr001. | Appen Global. | 会话演讲 | 马拉地语 | 印度 | 混合 | 180 | 2 | 要求可以办到 | 11,908 | 8. | 一条法律 | 约。29%的数据集会话是转录和时间戳 - 可以提供完整的成绩单 数据集伴随着包含所有转录单词的发音词典 |
马拉地语(印度)会话电话 | |
110 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 52小时 | 添加引用 | MAR_ASR001A | Appen Global. | 会话演讲 | 马拉地语 | 印度 | 混合 | 1,000 | 2 | 要求可以办到 | 11,908 | 8. | 一条法律 | 数据集会话的一部分被转录并带有时间戳——完整的记录可以提供 数据集伴随着包含所有转录单词的发音词典 |
马拉地语(印度)会话电话 | |
212. | 文本 | ASR, TTS,语言建模 | N / A. | 30000个单词 | 添加引用 | mar_IND_PHON | Appen Global. | 发音字典 | 马拉地语 | 印度 | N / A. | N / A. | N / A. | N / A. | 30,000 | N / A. | 文本 | 马拉地语(印度)发音词典 | ||
213. | 文本 | ASR, TTS,语言建模 | N / A. | 30000个单词 | 添加引用 | mon_mng_phon. | Appen Global. | 发音字典 | 蒙 | 蒙古 | N / A. | N / A. | N / A. | N / A. | 30,000 | N / A. | 文本 | 蒙古(蒙古)的发音词典 | ||
215 | 文本 | ASR, TTS,语言建模 | N / A. | 3000个单词 | 添加引用 | nor_NOR_POS | Appen Global. | 言语字典的一部分 | 挪威 | 挪威 | N / A. | N / A. | N / A. | N / A. | 3,000 | N / A. | 文本 | 挪威(挪威)词典的一部分 | ||
214. | 文本 | ASR, TTS,语言建模 | N / A. | 115000个单词 | 添加引用 | nor_NOR_PHON | Appen Global. | 发音字典 | 挪威 | 挪威 | N / A. | N / A. | N / A. | N / A. | 115,000. | N / A. | 文本 | 挪威(挪威)发音词典 | ||
264 | 图片 | 图像标签识别培训 | 手机和相机 | 2196张图片 | 添加引用 | IMG_TAG_CN | Appen中国 | 对象映像 | N / A. | N / A. | 混合照明条件 | N / A. | N / A. | N / A. | jpg. | 多场景图片样本库2196张图片,有以下类别:KTV: 50张,百货:55张,办公室:100张;博物馆:63;电器:55;陆战队员:191;汽车:50;手袋:35;夜景:54;运动器材:54;便利店:34;餐厅:54; Window scenery: 62; Pets: 82; Ship: 50; Zoo, 70; Clothing store: 53; Beach: 95; Airport: 65 tickets; Gym: 47; Attractions: 77; Crowd: 67; Desert: 73; Beach: 68; Mountain area: 54; Shopping mall: 55; Trees: 85; Sky: 102; Snow: 71; Snow Mountain: 53; Night view: 78; Playground: 94 | 对象图像集合 | |||
216 | 文本 | ASR, TTS,语言建模 | N / A. | 15000个单词 | 添加引用 | ori_ind_phon. | Appen Global. | 发音字典 | oriya. | 印度 | N / A. | N / A. | N / A. | N / A. | 15,000 | N / A. | 文本 | 奥里雅语(印度)的发音词典 | ||
80 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 20小时 | 添加引用 | PAP_ASR001. | Appen Global. | 会话演讲 | Panjabi. | 巴基斯坦 | 低背景噪音 | 205. | 2 | 要求可以办到 | 7,298 | 8. | 一条法律 | 数据集是完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 71%的呼叫,两个扬声器(在线/单线)都收集并转录,但是,对于29%的电话,只收集了一半的谈话,并转录 |
旁遮普(巴基斯坦)会话电话 | |
74 | 声音的 | ASR,自动标题,关键字斑点 | 麦克风 | 51小时 | 添加引用 | PAS_BRC001 | Appen Global. | 广播演讲 | 北普什 - 南普什岛 | 阿富汗 | 低背景噪音(工作室) | N / A. | 1 | 要求可以办到 | 要求可以办到 | N / A. | 波 | 数据集已完全转录和时间戳 发音词典,目前无法使用,但可根据要求开发 DataSet仅仅是言论,不包括音乐或广告 数据类型包括:访谈节目,访谈,新闻广播(不包括锚新闻阅读) |
Pashto(阿富汗)播出 | |
73 | 声音的 | ASR,会话AI,语音分析 | 麦克风 | 39小时 | 添加引用 | PAS_ASR002. | Appen Global. | 会话演讲 | 北普什 - 南普什岛 | 阿富汗 | 低背景噪音 | 40 | 2 | 34860. | 9,480 | 16 | 波 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 成绩单进入法语的完全翻译也可选择可选的额外购买 平均呼叫长度:120分钟,一个发言者作为面试官,另一个人作为访受方案的另一个人类似于Transtac风格(例如民事,检查站等) 面试官出现在不止一组对话中,但每一组对话中的受访者都是独特的 |
普什图语(阿富汗语)对话麦克风 | |
72 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 55小时 | 添加引用 | PAS_ASR001. | Appen Global. | 会话演讲 | 北普什 - 南普什岛 | 阿富汗 | 低背景噪音 | 967. | 2 | 要求可以办到 | 13,633 | 8. | 波 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 在大多数电话中,两位发言人(内联/外联)都被接话和录音,但在少数电话中,只有一半的通话被接话和录音 |
普什图语(阿富汗)会话电话 | |
217 | 文本 | ASR, TTS,语言建模 | N / A. | 65,000个字 | 添加引用 | pus_afg_phon. | Appen Global. | 发音字典 | 粉碎 | 阿富汗 | N / A. | N / A. | N / A. | N / A. | 65000年 | N / A. | 文本 | 普什图语(阿富汗)发音词典 | ||
219 | 文本 | ASR, TTS,语言建模 | N / A. | 4000个单词 | 添加引用 | pol_pol_pos. | Appen Global. | 言语字典的一部分 | 波兰的 | 波兰 | N / A. | N / A. | N / A. | N / A. | 4,000 | N / A. | 文本 | 波兰语(波兰)词语字典的一部分 | ||
218 | 文本 | ASR, TTS,语言建模 | N / A. | 40000个单词 | 添加引用 | pol_POL_PHON | Appen Global. | 发音字典 | 波兰的 | 波兰 | N / A. | N / A. | N / A. | N / A. | 40,000 | N / A. | 文本 | 波兰语(波兰)的发音词典 | ||
75 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 25小时 | 添加引用 | pol_asr001. | 全球手机 | 脚本演讲 | 波兰的 | 波兰 | 低背景噪音(家庭/办公室) | 99 | 1 | 10,130. | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
波兰语(波兰)脚本麦克风 | |
119 | 声音的 | ASR,虚拟助理,聊天机器人 | 移动电话 | 293小时 | 添加引用 | POL_ASR002_CN | Appen中国 | 脚本演讲 | 波兰的 | 波兰 | 低背景噪音(家庭/办公室) | 353 | 1 | 106,674 | 168,544 | 16 | 波 | 数据集包含具有相应文本提示的音频 | 波兰语(波兰)脚本智能手机 | |
76 | 声音的 | ASR、虚拟助理 | 固定电话只 | 78小时 | 添加引用 | 波兰SpeechDat (E)数据库 | 差别 | 脚本演讲 | 波兰的 | 波兰 | 低背景噪音 | 1,000 | 1 | 48,000 | 要求可以办到 | 8. | 要求可以办到 | 数据集已完全转录为Speathdat类型约定,并附上发音词典和验证报告 48每个发言者提示包括数字,自然数,字符串,个人,地点和商业名称,确认项目(是,否+模糊),通用命令和控制项目以及语音富裕的句子和单词 |
波兰语(波兰)脚本电话 | |
78 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 33个小时 | 添加引用 | PTB_ASR002 | Appen Global. | 会话演讲 | 葡萄牙语 | 巴西 | 低背景噪音 | 200. | 2 | 要求可以办到 | 11287年 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 63%固定电话,38%移动 |
葡萄牙语(巴西)会话式电话 | |
77 | 声音的 | ASR,虚拟助理,聊天机器人 | 麦克风 | 26小时 | 添加引用 | PTB_ASR001 | 全球手机 | 脚本演讲 | 葡萄牙语 | 巴西 | 低背景噪音(家庭/办公室) | 102 | 1 | 10417年 | 要求可以办到 | 16 | 波 | 数据集是完全转录和转录是可用的原始脚本和罗马化形式 每个扬声器都读取了从Web Tocover可用的国家报纸文章中选择的句子的许多致盲句子,这是一个大词汇的宽域 与Karlsruhe技术研究所(KIT)合作开发 |
葡萄牙语(巴西)麦克风 | |
221 | 文本 | ASR, TTS,语言建模 | N / A. | 98000个单词 | 添加引用 | por_bra_pos. | Appen Global. | 言语字典的一部分 | 葡萄牙语 | 巴西 | N / A. | N / A. | N / A. | N / A. | 98000 | N / A. | 文本 | 葡萄牙语(巴西)词典的一部分 | ||
220 | 文本 | ASR, TTS,语言建模 | N / A. | 102,000字 | 添加引用 | por_BRA_PHON | Appen Global. | 发音字典 | 葡萄牙语 | 巴西 | N / A. | N / A. | N / A. | N / A. | 102000年 | N / A. | 文本 | 葡萄牙语(巴西),发音词典 | ||
79 | 声音的 | ASR,会话AI,语音分析 | 手机和座机 | 36个小时 | 添加引用 | ptp_asr001. | Appen Global. | 会话演讲 | 葡萄牙语 | 葡萄牙 | 低背景噪音 | 200. | 2 | 要求可以办到 | 16339年 | 8. | 一条法律 | 数据集已完全转录和时间戳 数据集伴随着包含所有转录单词的发音词典 200个电话通话记录为这个项目 - 100个扬声器使每个(1固定电话,1来自移动)2所调用的100个呼叫接收机池 |
葡萄牙语(葡萄牙)会话式电话 | |
223 | 文本 | ASR, TTS,语言建模 | N / A. | 写下六万字 | 添加引用 | por_PRT_POS | Appen Global. | 言语字典的一部分 | 葡萄牙语 | 葡萄牙 | N / A. | N / A. | N / A. | N / A. | 60,000 | N / A. | 文本 | 葡萄牙语(葡萄牙)词典的一部分 | ||
222 |