1、摘要1.海天海天瑞声是国内领先的训练数据提供商。瑞声是国内领先的训练数据提供商。主要从事训练数据的研发设计、生产及销售业务。凭借丰富的技术积累和行业经验,主要从事训练数据的研发设计、生产及销售业务。凭借丰富的技术积累和行业经验,公司已公司已成成为为同同时时具具备备核核心心技技术术、产产品品资资源源、优优质质客客户户为为一一体体的的本本土土训训练练数数据据提提供供企企业业;高管团队及技术人员实力雄厚,在各自领高管团队及技术人员实力雄厚,在各自领 域具有域具有深厚的技术积累,能够前瞻性地把握行业发展方向深厚的技术积累,能够前瞻性地把握行业发展方向。公司主营业务收入的核心来源为数据资源定制服务,公司
2、主营业务收入的核心来源为数据资源定制服务,2020年占比年占比50%,公司国内业务占比逐年增加,公司国内业务占比逐年增加,2020年占比年占比64%。2.公司主公司主营专业数据集,致力于建立技术壁垒营专业数据集,致力于建立技术壁垒:海天瑞声主要经营专业训练数据海天瑞声主要经营专业训练数据集集,持续增加研发投入,筑高技术壁垒。公司投,持续增加研发投入,筑高技术壁垒。公司投 入了每入了每年总营业收入将年总营业收入将近近20%的费用进行研发,在众多主流的费用进行研发,在众多主流 AI 产品及产品及终端应用的训练过程中,实现多项终端应用场景覆盖,公终端应用的训练过程中,实现多项终端应用场景覆盖,公 司
3、训练司训练数据提取在业内具有较强的专业技术水平优势,正在积极与对手拉开技术代差,形成数据提取在业内具有较强的专业技术水平优势,正在积极与对手拉开技术代差,形成“护城河护城河”。3.海天瑞海天瑞声位于中国语音类基础数据服务领域首位声位于中国语音类基础数据服务领域首位。公司占国内公司占国内AI基础数据服务行业,市场份额约基础数据服务行业,市场份额约8%,行业排名前五,紧随百,行业排名前五,紧随百度众包度众包之之后后,成成为为国国内内市市场场第第二二大大基基础础数数据据服服务务提提供供企企业业。4.AI技术技术数据服务市场高景气,数据服务市场高景气,2020年国内总销售额约为年国内总销售额约为36亿
4、元,同比增长亿元,同比增长20%。近年全球人工智能商业价值稳定增长,因此近年全球人工智能商业价值稳定增长,因此 全球人全球人工智能市场规模保持稳定上涨工智能市场规模保持稳定上涨,2020年已实现总销售额年已实现总销售额501亿美元。亿美元。风险提风险提示:市场竞争加剧的风险、收入主要来自老客户,新客户收入占比较低的风险、专利被申请宣告无效的风险、核心技术快示:市场竞争加剧的风险、收入主要来自老客户,新客户收入占比较低的风险、专利被申请宣告无效的风险、核心技术快 速迭代速迭代风险、核心技术人员流失风险、核心技术失密风险、采购成本上升风险、数据安全相关风险等风险、核心技术人员流失风险、核心技术失密
5、风险、采购成本上升风险、数据安全相关风险等12目录1.海天瑞声:训练数据专业提海天瑞声:训练数据专业提供供商商1.1 公司概况:国内领先的训练数据专业提供商1.2 主营业务:致力于为AI产业链的机构提供专业数据集1.3 业务类型:公司主营训练数据业务,细分为三条产品业务线1.4 财务基本情况:总体营收与净利润保持稳定1.5 收入拆分:训练数据产品国内营收创新高,占比逐步回升1.6 费用分析:持续增大研发投入,不断筑高技术壁垒1.7 高管&技术团队:拥有名校背景及知名公司经历1.8 客户情况:前五大客户销售占比超50%,老客户群较为固定2.公司主要产品:训练数据公司主要产品:训练数据服服务务2.
6、1 主要产品:训练数据产品及服务2.2 主要应用技术:训练数据专业提供商三大AI核心领域2.3 主要业务流程:数据服务采购执行与销售流程3.人工智能基础数据服务行业人工智能基础数据服务行业分分析析3.1 中国AI基础数据服务行业产业链全梳理3.2 发展态势:国家产业政策助力行业稳步发展3.3 人工智能行业市场规模:市场规模持续增长3.4 AI基础数据服务行业市场规模:人工智能市场扩张带动发展3.5 行业数据量:训练数据总量高速增长3.6 行业市场需求:训练数据需求增长3.7 竞争格局:训练数据供应集中化3.8 市场地位:中国语音类基础数据服务领域首位4.风险提示风险提示3海天瑞声:训练数据专业
7、提海天瑞声:训练数据专业提供商供商11.1 公司概况:国内领先的训练数据专业提供商公司概况:国内领先的训练数据专业提供商公司公司基本基本信信息息公司公司名称名称:北京海天瑞声科技股份有限公司(Beijing Haitian Ruisheng Science Technology Ltd.)成立成立日期日期:2005 年 05 月 11 日(北京)2005年,贺琳和俞舸签署北京海天瑞声科技有限公司章程,共同出资设立海天瑞声有限。根据该章程,海天 瑞声有限注册资本为 30 万元,其中,贺琳以货币出资 27 万元,占注册资本的 90%;俞舸以货币出资 3 万元,占注册资本的 10%。图图1:公司发:
8、公司发展历展历程程及荣誉及荣誉图图2:公司成:公司成立时立时注注册资册资本本构成构成比比例例2005年年贺琳,俞舸共同出资设 立北京海北京海天瑞声科技股天瑞声科技股 份有限份有限公司公司2017年年年度人工人工智智能能数据 服务领域领军企业领军企业2018年年智能语音智能语音创新大赛行业 先锋奖,2018 年人工 智能行业最佳产品专精特新“小 巨人”企业2020年年新一代人工智能产业创新重点任重点任 务揭榜务揭榜优胜单位2021年年90%10%贺琳贺琳俞舸俞舸41.2 主营业务:致力于主营业务:致力于为为AI产业链的机构提供专业数据集产业链的机构提供专业数据集算法与数据算法与数据处处 理技术理
9、技术并用并用截至 2020 年 12 月 31 日,公司已积累 760 余个自有知识产权余个自有知识产权的训练数据产品,可提供超过 160 余个语余个语种种/方言方言的训练数据。工具和工具和平台共建平台共建融入项目流程 管理、质量把控、数据安全管理,嵌入嵌入生生产产所需的所需的 各类工各类工具、软件模块具、软件模块深厚积累于深厚积累于语语 音 语 言 学 基音 语 言 学 基 础础 研究方面研究方面公司已经取得 24 项发明专利、项发明专利、1 项实用新型专利授权及项实用新型专利授权及 1 项外项外 观设计专利授权观设计专利授权,134 项项计算机软件著作权计算机软件著作权,另有 2 项专利已
10、提 交申请。5公司公司主营主营业业务务公司公司主营主营业业务:务:公公司主司主要要从事从事训训练数练数据据的研的研发发设计设计、生产生产及及销售销售业业务务。公司相关产品和服务主要应用于软软件件和信息和信息技术技术服服务务业业。公司始终贯彻培养自身研发核心技术为要领,通过基础研究与实际应用的紧密结合,自主开发了一体化数据处理平 台,在基基础研究础研究、平台平台工工具、具、训训练数练数据据生生产产三个维度均积累下核心技术,并且以前瞻性的专专业业数据数据集集设计设计能能力力、丰富的语语言覆盖能言覆盖能力力及场及场景景采集采集能能力力,以及AI 辅助辅助标注及标注及精精细标细标注注能能力力共同搭建起
11、训训练练数据数据开开发一发一站站式解式解决决方案方案,大 幅提升开发效率、服务质量及数据安全性,为下游下游客客户户提供高质量的训练数据产品、高效率的训练数据定制服务及 高水准的训练数据相关应用服务。图图3:公司三:公司三大核大核心心技术技术1.3 业务类型:公司主营训练数据业务,细分为业务类型:公司主营训练数据业务,细分为三三条产品业务条产品业务线线主要主要业务业务类类型型公司公司专注专注于于为为AI 产业产业链上的链上的各各类机类机构构提供提供算算法模法模型型开发开发训训练所练所需需的专的专业业数据数据集集。公司提供的训练数据覆盖智能语 音(语音识别、语音合成等)、计算机视觉、自然语言等多个
12、核心领域,全面服务于人机交互、智能驾驶、智慧城 市等多种创新应用场景。公司研发生产的训练数据主要运用于人工智能算法模型开发训练,产品服务形式包括训练数训练数据据定制定制服服务、务、训训练数练数 据产据产品及品及相相关的关的应应用服用服务务。产品服务产品服务 矩阵矩阵训练数据定制服务训练数据定制服务通过采集大量数据,比如声音、文本、图像、视频,以提供定制化数据运用场景(定制分为两类:一类是采集加工,一类是纯加工)训练数据产品训练数据产品公司开发并授权客户使用训练数据集成品,公 司拥有多次销售使用权(标准化数据集)多次销售使用权(标准化数据集)训练数据相关的应用服务训练数据相关的应用服务公司负责根
13、据客户需求提供后续产品服务后续产品服务,如 用户界面、软件等训练训练数据数据运运用场景用场景由于智能音箱使用人群年龄层跨 度大,由少儿覆盖到老年人群,公司在训练数据集的设计过程中 需要充分考虑方言的分布以及不 同声音的语言环境。考虑的因素 由年龄层次和发音特点组成。6图图4:产品应:产品应用场景用场景图图5:产品服:产品服务类型务类型1.4 财务基本情况:总体营收与净利润保持稳定财务基本情况:总体营收与净利润保持稳定2018年至2019年同比增长率为23%,三年净利率分别为34.84%,34.34%和35.17%,总体净利润较为稳定。净利净利润润涨涨势势与总与总营营收表收表现现持持平平:201
14、8-2020年,海天瑞声净利润分别为6713.07万元,8158.68万元和8208.1万 元,2018年至2019年同比增长率为同比增长率为22%。总总体营收体营收较较2018年年涨涨势明显势明显:2018-2020年总营业收入.分别为19265.77万元,23755.81万元和23337.4万元,营业营业收入收入图图6:2018-2020年营年营业业总总收收入(入(万万元)元)图图7:2018-2020年净利润年净利润(万万元)元)19266233372375623%-2%-5%0%5%10%15%20%25%05000100001500020000250002018A2019A2020A
15、营业收入(万元)营业收入(万元)同比增长率(同比增长率(%,右轴),右轴)67131%0%5%10%15%20%25%90008000700060005000400030002000100002018A2019A2020A净利润(万元)净利润(万元)同比增长率(同比增长率(%,右轴),右轴)8159820822%71.4 财务基本情况财务基本情况:毛利毛利率率保持稳定,均超保持稳定,均超过过65%毛利率毛利率公公司毛司毛利利率保率保持持稳稳定定,已,已将将近近70%。2018-2020年毛利率分别为64.77%,70.25%和67.70%,公司的训练数据 产品业绩稳扎稳打。图图9:2018-2
16、020年年公公司毛司毛利利率稳率稳定定上升上升图图8:2018-2020年年公公司毛司毛利利润(润(万万元)元)12,47816,68815,79934%-5%1400012000100008000600040002000018000160002018A2019A2020A毛利润毛利润同比增长率(同比增长率(%,右轴),右轴)65%870%68%40%35%30%25%20%15%10%5%0%-5%-10%62%63%64%65%66%67%68%69%70%71%2018A2019A2020A1.5 收入拆分:训练数据产品国内营收创新高,占比逐步回升收入拆分:训练数据产品国内营收创新高,占
17、比逐步回升营业营业收入收入主主要构成要构成公司营收主场为国内地公司营收主场为国内地区区,2020年国年国内内营收营收涨涨幅较幅较高高。2019年至2020年公司国内营业收入同比增长率已上升至25.01%。2018-2020年国内总营业收入分别为13293.77万元,11973.75万元,14968.83万元。公司海公司海外外业务业务收收入入2019年增年增幅幅明显明显,营收占营收占比比已恢已恢复如复如初初。2018-2020年,海天瑞声海外营收分别是5972万元,11782.07万元,8368.56万元,占总营收比重分别为31%,50%,36%,2020年海外收入受疫情影响,占比浮动较大。图图
18、10:2018-2020年公司国年公司国内内外外业务业务收收入及入及占占比比图图11:2018-2020年公司国年公司国内内外外业务业务收收入及入及占占比比1329414969597211974 11782836902000400060008000100001200014000160002018A2019A2020A中国大陆营业收入(万元)中国大陆营业收入(万元)国外营业收入(万元)国外营业收入(万元)69%50%64%31%50%36%90%80%70%60%50%40%30%20%10%0%100%2018A2019A2020A中国大陆营业收入占比中国大陆营业收入占比国外营业收入占比国外营
19、业收入占比91.5 收入拆分:数据库产品服务收入占比逐年升高,已收入拆分:数据库产品服务收入占比逐年升高,已达达46%营业营业收入收入主主要构成要构成公司核心来源为数据资公司核心来源为数据资源源定制定制服服务务,2020年年占占比约比约50%。定制服务产品营收较为稳定,2018年至2020年销售额分 别为12369.55万元,14232.91万元,11729.91万元。公司数据库产品服务占公司数据库产品服务占比比在逐在逐年年上升上升,营收营收占占比将比将与与数据数据资资源定源定制制服务服务相相持平。持平。2018-2020年该项服务营收分别为6601.67万元,9167.47万元,10613.
20、71万元,占总营收比重分别为34.27%,38.63%,45.48%。公司数据库资源相关服公司数据库资源相关服务务占比占比小小幅提幅提升升。2018年至2020年占总营收比重由1.53%增长为4.26%。图图12:2020年公司年公司训训练练数据数据产产品销品销售售收入收入占占比比图图13:2018-2020年训练数年训练数据据产产品销品销售售收入收入数据资源定制数据资源定制 服务服务 50%数据库产品服务数据库产品服务46%数据资源相关的数据资源相关的 应用服务应用服务4%660291761061412370142331173029534699416000140001200010000800
21、060004000200002018A2019A2020A数据资源定制服务收入(万元)数据资源定制服务收入(万元)数据库产品收入(万元)数据库产品收入(万元)数据资源相关的应用服务收入(万元)数据资源相关的应用服务收入(万元)101.6 费用分析:持续增大研发投入,不断筑高技术壁垒费用分析:持续增大研发投入,不断筑高技术壁垒达 103人,占占公司公司总总人数人数比比例达例达68.21%。图图14:2018-2020年年销销售售、管理管理、研研 发、财务费发、财务费用数用数额额(万(万元元)图图16:公司公司2018-2020年年的的研发研发费费用占用占营营业业 收入比重逐收入比重逐步增加步增加
22、87492511132181315625672735435011315021550004500400035003000250020001500100050002018A2019A2020A销售费用销售费用管理费用管理费用研发费用研发费用4170财务费用财务费用费用费用投入投入主主要构成要构成重视重视研发研发团团队建队建设设,研,研发发技术技术人人员比员比例例几几近近70%。截止2020年12月31日,公司总人数151人,研发与技术人员数量筑高筑高技术技术壁壁垒,垒,高高研发研发费费用用。公司2018-2020年研发费用.分别为2734.32万元,4169.61万元和4349.75万元,占 总营
23、业收入的比例分别为14.19%、17.55%、18.64%,公公司司2018-2020年的年的研研发费发费用用逐年逐年递递增,增,占占营业营业收收入比重入比重 皆超皆超过过10%,现,现已已高达高达至至19%。53%31%14%3%研发费用研发费用管理费用管理费用销售费用销售费用财务费用财务费用图图15:公公司司2020年年研研发发费费用用占占比比已已达达53%14%1118%19%18%16%14%12%10%8%6%4%2%0%20%2018A2019A2020A1.7 高高管管&技术团队:拥有名校背景及知名公司经历技术团队:拥有名校背景及知名公司经历高 级 管 理 人员核 心 技 术 人
24、员姓名姓名职务职务任职任职期限期限唐涤飞唐涤飞董事董事、总、总经经理理2017 年年 11 月月 至至 2020 年年 11 月月李科李科董事董事、副、副总总经理经理2017 年年 11 月月 至至 2020 年年 11 月月吕思遥吕思遥副总副总经理经理、董事董事会会秘书秘书2017 年年 11 月月 至至 2020 年年 11 月月黄宇凯黄宇凯董事董事、技、技术术总监总监2019 年年 1 月月 至至 2020 年年 11 月月郝玉峰郝玉峰副总副总经理经理、技术技术总总监、监、首首席科席科学学家家2017 年年 11 月月 至至 2020 年年 11 月月 姓姓名名职职务务 其他其他信息信息
25、李科李科董事董事、副、副总总经理经理1981 年年 8 月出月出生,生,清清华大华大学学信息信息与与信号信号处处理专理专业业硕士硕士黄宇凯黄宇凯董事董事、副副总总经经理理、技技术术总总监监1983 年年 5 月出月出生生,复复旦旦大大学学计计算算机机科科学学与与技技术术专专业业硕硕士士郝玉峰郝玉峰副总副总经理经理、技术技术总总监、监、首首席科席科学学家家1974 年年 5 月出月出生,生,东东南大南大学学生物生物医医学工学工程程专业专业博博士士曹琼曹琼计算计算机视机视觉觉业务业务部部总监总监1982 年年 10 月出月出生,北生,北京京航空航空航航天大天大学学检测检测技技术与术与自自动化动化装
26、装置专置专业业博士博士邵志明邵志明高级高级研发研发工工程师程师1987 年年 12 月出月出生,北生,北京京邮电邮电大大学模学模式式识别识别专专业硕士业硕士创 始 人 员董事长贺琳1968 年 7 月出生,毕业于北京北京 大学大学,曾任职于中中国科学院声学国科学院声学 研究所研究所,先后参与“汉语人-机 语音对话系统工程”、“汉语语 音参数合成”等国家自国家自然科学基然科学基 金重点金重点项目项目、国家八六三计划智 能计算机主题项目和中国科学院“八五”重大项目,海天瑞海天瑞声创声创 始人,始人,现任公司董事长。现任公司董事长。总经理唐涤飞1970 年 12 月出生,中国中国科学技科学技 术大学
27、术大学通信与电子系统专业工学通信与电子系统专业工学 硕士硕士,曾任联想集团技术中心项 目负责人,微软中国研发中心中 文技术部项目经理,微软亚微软亚洲工洲工 程院资程院资深深项项目目经经理理,阿里巴巴云 计算公司数据应用与服务、无线 平台的产品及项目总监,海天瑞海天瑞 声,现声,现任公司董事、总经理。任公司董事、总经理。121.8 客户情况:前五大客户销售占比客户情况:前五大客户销售占比超超50%,老客户群较为固定老客户群较为固定年份年份前五大前五大客客户户销销售售金额金额(万元)(万元)占营业占营业收入比例收入比例2020年度11726.0350.25%2019年度12798.8053.88%
28、2018年度11378.0659.06%客户客户情况情况国内国内主要主要客客户小户小幅幅变动变动,境外境外收收入因入因年年而异而异:公司客户销售占比情况逐年更替,海外市场主要客户变动明显,微软销售占比逐年增高,三星销售额陡然递减,由2019年4762.96万元缩减至2020年1383.66万元。前五前五大客大客户户销售销售占占比比超超50%,老客老客户户较为较为稳稳定:定:2018-2020年前五大客户销售占比皆超过50%,且不存在依赖 特定客户的情形,2018-2020年,微软、微软、阿阿里巴里巴巴巴、腾、腾讯讯、三、三星星稳定居于公司前五大客户,微软于2020年为公 司第一客户,营业收入占
29、比18.56%。表表1:前五大:前五大客客户户营营收收比比例例图图17:前五大:前五大客户客户营营收比收比例例趋势趋势变变化化2020前前五大客户五大客户59%1354%50%44%46%48%50%52%54%58%56%60%2018A2019A2020A14公司主要产品:训练数据服务公司主要产品:训练数据服务2根根据据客户需求客户需求 设计训练数据设计训练数据 及结构及结构组织原料数据组织原料数据采集采集对采集原料数对采集原料数据据加工加工定制化定制化训练训练 数据集数据集2.1 主要产品:训练数据专业提供主要产品:训练数据专业提供商商训练数据定制服务训练数据定制服务训练训练数据数据定定
30、制服务制服务公司是公司是我我国人国人工智工智能领域能领域标标杆企杆企业,业,在基础在基础数数据服据服务行务行业具备业具备高高影响影响力力。训练数据定制服务为专属客户单独研发,客户将享有最终生成的训练数据的知识产权,公司不可将此类业务生产的训练数据向其他客户重复销售。此项产品服务将根据客户定制化需求,优先按照初始计划生产部分数据,客户通过后续反馈方案决定是否更改数 据定制需求,并重新确定新的解决方案。采采 集集+加加 工工 服服 务务纯纯 加加 工工 服服 务务客户提供原料数据客户提供原料数据发行人根据客户需求发行人根据客户需求 进行加工进行加工定制化训练数据集定制化训练数据集客户享客户享 有有
31、最终最终 形成的形成的 训练数训练数 据集成据集成 品的品的知知 识产权识产权152.1 主要产品:训练数据专业提供主要产品:训练数据专业提供商商训练数据产品训练数据产品训练训练数据数据产产品品公司开发自有知识产权的训练数据产品,通过销售训练数.据产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,公司可多次销售并获取授权许可收入。通过市场需求预通过市场需求预判发展趋势判发展趋势评估算法技术应评估算法技术应 用前景用前景开发训练数据产开发训练数据产 品品满足算法模型对满足算法模型对 模拟场景的学习模拟场景的学习 需要需要授权客户使用完授权客户使用完 成品成品可重复多次销售可
32、重复多次销售 使用权使用权数据文档数据文档音频文件音频文件标注文件标注文件说明文档说明文档训练数据设计文档训练数据设计文档音素集说明音素集说明标注规范文件标注规范文件技术文档技术文档发音词典发音词典音频文件参数统计信音频文件参数统计信 息息训练数据场景设置参训练数据场景设置参数文件数文件发音人信息文件(非发音人信息文件(非敏感)敏感)训练训练数据数据 产品产品流程流程训练数训练数据据集成集成品结品结构构(以语音数以语音数据据集集为为例)例)162.1 主要产品:训练数据专业提供主要产品:训练数据专业提供商商训练数据相关的应用服务训练数据相关的应用服务公司基于其生产的训练数据提供算法模型相关的训
33、练服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高 AI技术应用效果。.训练训练数据数据相相关的关的应应用服务用服务开发特定应用领域的算法模型基于客户通用算法模型为客户定制开发特定语种/方言为客户算法模型实现覆盖能力拓 展使用特定语种/方言、特定应用领域的训 练数据对客户的算法模型进行训练满足其在特定应用领域的运用需要实现后续落地运用过程所需界面客户负责研发/提供核心的算法模型公司完成运用过程所需的用户界面、软 件及相关的系统集成工作172.2 主要应用技术:训练数据专业提供主要应用技术:训练数
34、据专业提供商商三大三大AI核心领域核心领域主要主要产品产品服服务的务的终终端应端应用用场景场景公司提供的训练数据广泛应用于众多主流 AI 产品及终端应用的训练过程中,覆盖了个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、自动驾驶、智慧交通、智慧城市、机器翻译、智能问答、信息 提取、情感分析、OCR 识别等多种应用场景。训练数据产 品智能语音语音识别语音识别采语音识别转集写语音合成计算机视觉计算机视觉自然语言自然语言训练训练数据数据定制定制服务服务语语 音音 识识 别别语语 音音 合合 成成计算机视觉技术应用实例计算机视觉技术应用实例 人脸识别人脸识别182.3 主
35、要业务流主要业务流程程 采购流程采购流程预算管理需求部门提出采购申请部门直属负责人审批部门分管负责人审批采购部审批采购部选择采购方式,甄 选供应商签署采购合作协议供应商提供服务验收及结算预算管理需求部门提出采购申请部门直属负责人审批部门分管负责人审批人力资源部审批人力资源部选择采购方式,甄选供应商签署采购合作协议供应商提供服务验收及结算预算管理需求部门提出采购申请行政部汇总并拟定采购 申请单行政部主管、财务部预 算会计审核(预算外的 另由需求部门总负责人、行政部总监、财务总监及总裁审核)根据采购申请单拟定的 采购方式选择采购程序 并实施验收入库结算数数 据据 服服 务务 采采 购购岗岗 位位
36、服服 务务 采采 购购其其 他他 采采 购购采购部采购部 建立业建立业 务采购务采购 价格体价格体 系系人力资人力资 源部建源部建 立业务立业务 采购价采购价 格体系格体系192.3 主要业务流主要业务流程程 数据服务采购执行与销售流程数据服务采购执行与销售流程售后跟踪及服务售后跟踪及服务合同执行完毕合同执行完毕项目立项及执行项目立项及执行合同签署合同签署项目报价及投标项目报价及投标客户确认客户确认项目方案制定项目方案制定/训练数据集产品推荐训练数据集产品推荐训练数据集开发需求分析训练数据集开发需求分析数据 支持销售 部合 同报 价数据 中心 评估 成本分阶 段收 款项目 持续 跟踪销售销售流
37、程流程数据服务采购执行流程数据服务采购执行流程确定采购确定采购 签署框架签署框架确定项目确定项目量,下达量,下达 协议协议A供应供应商商B采购通知采购通知CD根据资源根据资源 状况确定状况确定 单价单价E项目执行项目执行验收结算验收结算FGHI客户意向收集及确认;市场需求研判客户意向收集及确认;市场需求研判数据数据服务服务采采购质购质量量控制控制20公司采取的质量控制措施能够保证供应商提供的数据满足其采集需 求,同时采购模式符合公司的业务特点和行业惯例,具备合理性。21行业分析行业分析33.1 中国人工智能基础数据服务行业的的产业链图谱中国人工智能基础数据服务行业的的产业链图谱下游下游AI算法
38、研算法研 发发中游中游训练训练数据数据 的生产的生产上游上游数据数据才产才产 生及生及产能产能 资源资源AI公司公司科技公科技公司司行业企业行业企业科研单位科研单位AI基础数据服务商基础数据服务商人力人力资源资源服服务公司务公司技术服务公司技术服务公司个人个人企事业单位企事业单位政府机构政府机构数据生产者数据生产者数据生产组织者数据生产组织者223.2 AI基础数据服务行业发展态势:国家产业政策助力行业稳步发展基础数据服务行业发展态势:国家产业政策助力行业稳步发展2010年2015年2016年2017年2018年国务院国务院加快建设宽 带、安全的安全的 信息网略基信息网略基 础设施础设施国务院
39、国务院瞄准新一代信息信息 技术技术、高端装备、新材料、生物医药等战略重点国务院国务院支持新一代信息技新一代信息技 术、术、新能源汽车、生物技术、绿色低 碳等产业链国家发改委国家发改委人工智能首次人工智能首次进入 指导目录名单,包 括面向社会开放的 文本、语音、图像文本、语音、图像国家电子技术标准化国家电子技术标准化 研究院研究院全面推进人工智能人工智能标 准化工作,促进产业 发展2019年2019年2020年2020年202123年中央全面深化中央全面深化 改革委改革委促进人工智能人工智能 和实体经济深 度融合科学技术部科学技术部明确指出”开放、共享“重要理念国务院国务院首次将”数据数据“作为
40、市场化要素写入 国家顶层设计级别 文件国家发改委国家发改委加强人工智能人工智能领域标准化顶层设计十三届全国人大四十三届全国人大四 次会议次会议十四五规划指出要加快数字化发加快数字化发 展展3.3 人工智能行业市场规模:市场规模持续增长人工智能行业市场规模:市场规模持续增长图图18:2020-2024年年全全球人球人工工智能智能市市场规场规模模不断不断上上升升50111000200400600800100012002020A2024E全球人工智能行业市场规模(亿美全球人工智能行业市场规模(亿美元元)市场市场规模规模全球人工智能市场规模全球人工智能市场规模稳稳定扩定扩张张。基础数据服务行业人工智能
41、行业发展情况息息相关,在近年来全球AI产业基本保 持稳定向好的发展态势下,2020年至2024年复合增长率将提升至21.73%。国内人工智国内人工智能能市场规模市场规模持持续增续增长长。截至 2019 年年末,中国(不含港澳台)活跃 AI 企业达到 1,189 家,占全球总数的22.08%,位居全球第二;2019 年,中国人工智能行业的融资总额 约为 166 亿美元,占全球的 44.39%,位居全球首位。46638914717237%42%11630%27%17%20018016014012010080604020045%40%35%30%25%20%15%10%5%0%2019A2020E2
42、021E2022E2023E2024E图图19:2019-2024年年国国内内人人工智工智能能市场市场规规模逐模逐年年上升上升中国人工智能市场规模(亿美元中国人工智能市场规模(亿美元)同比增长率(同比增长率(%,右轴),右轴)243.4 AI基础数据服务行业市场规模:人工智能市场扩张带动发展基础数据服务行业市场规模:人工智能市场扩张带动发展图图20:2018-2025年年国国内内AI基础基础数数据服据服务务行业行业市市场规场规模模逐年逐年扩扩增增表表2:2019年中年中国国与全与全球球人工人工智智能行能行业业发展发展情情况对比况对比市场市场规模规模全球人工智能行业高速全球人工智能行业高速发发展
43、助展助长长国国内内AI基础基础数数据服据服务务行业行业市市场规场规模模扩增扩增。公司营业收入受益于中国AI基础数据服务 行业市场规模稳步增长,2020年市场规模预计达36亿元,.增长率常年稳定于20%。当前我国人工智能产业加速发展,从基础支撑、核心技术到行业应用的产业链条基本形成,一批创新活跃、特色鲜明的创新企业加速成长,新模式、新业态不断涌现,整体呈现蓬勃发展态势。政策支持、投资引导和巨头布局将推 动中国AI 产业的结构调整,进一步扩大市场规模。项目全球中国论文数AI领域论文发布数量 占全部论文的3%中国AI领域论文发布数量 占全部论文的28%人才数/高级人才 数博士22,000名/专家5,
44、400名博士413名/专家120名活跃企业数5,386家1,189家融资总额约374亿美元约166亿美元2009-2019年AI相关专利申请448,684项66,508项2631364320%18%18%19%5121%6125%770204060801001202018A2019A2020E2021E2022E2023E2024E2025E中国中国AI基础数据服务行业市场规模(亿元)基础数据服务行业市场规模(亿元)同比增长率(同比增长率(%,右轴),右轴)32%35%10130%25%20%15%10%5%0%253.5 AI基础数据服务行业数据量:训练数据总量高速增长基础数据服务行业数据量
45、:训练数据总量高速增长3%。2018 年,中国的数据量为 7.6ZB,占全球总量的 23.4%,预计到 2025 年将增至 48.6ZB,占全球总量的 27.8%,年复合增长率达 30.35%。2025 年的 175ZB,年复合增长率达 26.91%。其中,中.国的数据量增速最快,平均每年的增长速度比全球快331752001801601401201008060402002018A2025E全球数据量(全球数据量(ZB)7.648.601020304050602018A2025E中国数据量(中国数据量(ZB)图图21:2018-2025年年全全球数球数据据量增量增长长趋势趋势图图22:2018-
46、2025年年中中国数国数据据量增量增长长趋势趋势数据量数据量全球数据量呈指数型增全球数据量呈指数型增长长。据国际数据公司(IDC)预测,全球每年的数据量将从 2018 年的 33ZB 快速增加到263.6 AI基础数据服务行业市场需求:训练数据需求增长基础数据服务行业市场需求:训练数据需求增长43%28%100万万-1000万万大于大于1000万万66%4%27%28%50%51%0%10%20%30%40%50%60%70%数据偏差或错误数据偏差或错误数据量不足数据量不足数据不可直接使用数据不可直接使用10%缺少标注工具缺少标注工具缺少标注团队缺少标注团队19%未曾遇到问题未曾遇到问题图图2
47、3:训:训练练数数据需据需求求量量10万万-100万万少于少于10万万图图24:受:受访访者者遇到遇到的的与数与数据据相关相关的的难题难题及及比例比例训练训练数据数据需需求求全球基础数据服务行业全球基础数据服务行业处处于快于快速速成长成长期期,市,市场场规模规模具具有较有较大大的增的增长长空间空间。应用场景的创新和机器学习算法的流行 直接带动了训练数据需求的大幅增长,得益于训练数据需求增长和对外采购意识的形成,全球基础数据服务行业 进入快速成长期,市场规模具有较大的增长潜力。273.7 AI基础数据服务行业竞争格局:训练数据供应集中化基础数据服务行业竞争格局:训练数据供应集中化49.70%39
48、.10%图像类数据需求图像类数据需求语音类数据需求语音类数据需求自然语言处理类数据需求自然语言处理类数据需求47.00%30.40%11.20%22.60%中小数据供应商中小数据供应商品牌数据服务商品牌数据服务商需求方自建团队需求方自建团队图图26:2019年中年中国国AI基基础数础数据据服务服务行行业需业需求求类型类型图图25:2019年中年中国国AI基基础数础数据据服务服务行行业供业供应应方格局方格局行业行业竞争竞争格格局局中小数据供应商是市场中小数据供应商是市场中中的主的主要要供应供应力力量。量。品牌数据服务商、中小数据供应商和需求方自建基础数据团队构成市场 竞争关系,为基础数据服务市场
49、的主要供应方,在 2019 年市场规模中的份额占比分别为 30.4%、47.0%和22.6%。未来随着训练数据的难度和精度要求越来越高,及对数据安全的要求越来越严,有向有向品品牌集牌集中中的趋的趋势势。中国基础数据服务行业的市场需求可以分为图像类数据需求、语音类数据需求和自然语言处理类数据需求。2019 年,图像类、语音类年,图像类、语音类和和 自然语言处理类数据需自然语言处理类数据需求求规模规模占占比分比分别别为为 49.7%、39.1%和和 11.2%。283.8 公司市场地位公司市场地位:中国语音类基础数据服务领域首位中国语音类基础数据服务领域首位市场市场地位地位公司是中国语音类基础数据
50、服务领域的头部头部企企业业,在中国语音类基础数据服务领域企业中营收份额占比排名第 一。中国基础数据服务行业提供语音类数据产品和服务的供应门槛高于图像类数据,行业内的主要企业由 Appen Limited,AIMMO,Baobab,Globalme,DefinedCrowd,Scale AI,慧听科技,标贝科技组成。1996 年成年成立立于于澳大利亚澳大利亚高质高质量人量人工工标注标注数数据集据集的的提供商提供商机器机器学习学习人工人工智能智能开开发发技术公司技术公司汽车公司汽车公司电子商务公司电子商务公司政府部门政府部门语音语音识别识别、合、合成成、评测、评测北京北京慧听慧听科科技有技有限限公