1、“大数大数据时代据时代”信息化信息化发展趋势发展趋势 杨学山杨学山二二o o一三年五月十日一三年五月十日2022-10-28主要内容主要内容1.大数据的大数据的由来由来和和发展发展2.信息技术为大数据开辟了前进道路信息技术为大数据开辟了前进道路3.大数据大数据是走向信息时代的奠基石是走向信息时代的奠基石4.大数据发展的关键环节大数据发展的关键环节5.电子电子政务发展中的大政务发展中的大数据数据一、一、大数据的由来和大数据的由来和发展发展大数据大数据是一个自然形成的发展中、阶段性是一个自然形成的发展中、阶段性概念概念 本本报告报告所称大数据是指具有数量巨大、所称大数据是指具有数量巨大、多类型、不
2、同结构化程度、不均衡价值密度、多类型、不同结构化程度、不均衡价值密度、不一致动态特征、不同应用处理特征等特点不一致动态特征、不同应用处理特征等特点信息集合。信息集合。本本报告报告所称大数据系统是指一个围绕特所称大数据系统是指一个围绕特定目的而形成的数据及其处理系统。并不是定目的而形成的数据及其处理系统。并不是每一个大数据系统的信息集合都具有上述全每一个大数据系统的信息集合都具有上述全部特征,一种或两种类型,数量巨大,也是部特征,一种或两种类型,数量巨大,也是大数据。大数据。在计算机处理在计算机处理能力不断发展、能力不断发展、信息系统处理信息系统处理的信息日益增的信息日益增长,特别是互长,特别是
3、互联网(包括移联网(包括移动互联网)的动互联网)的发展、传感技发展、传感技术的广泛应用,术的广泛应用,大数据概念应大数据概念应运而生运而生在这里,大数在这里,大数据和信息、信据和信息、信息资源是同义息资源是同义词词为什么叫大为什么叫大数据:一是数量大数据:一是数量大YB:2的的80次方,次方,ZB的的1000倍倍ZB:2的的70次方,次方,EB的的1000倍倍EB:2的的60次方,次方,PB的的1000倍倍PB:2的的50次方,次方,TB的的1000倍倍TB:2的的40次方,次方,GB的的1000倍倍GB:2的的30次方,次方,MB的的1000倍倍绝大部分绝大部分应用在这应用在这两个数量两个数
4、量级级我们每个人都在制造我们每个人都在制造和和使用使用信息信息 每秒发出每秒发出290290万条短信万条短信 每天每天TwitterTwitter上发布上发布50005000万万条微博条微博 每天每天GoogleGoogle处理的数据处理的数据24PB24PB 20122012年年1111月月1111日第一秒,用日第一秒,用户向阿里网购提出户向阿里网购提出1 1千万请千万请求求 全球新增网页全球新增网页571571个个 过去过去3 3年数据量比以往数万年数据量比以往数万年还多年还多 20202020年数据产出量将比年数据产出量将比20092009年的年的4444倍还多倍还多 20062006年
5、全球生成、复制的年全球生成、复制的数字化信息量大约数字化信息量大约16.116.1万万PBPB,当年的信息产生量约,当年的信息产生量约是历史上图书信息总量的是历史上图书信息总量的30003000倍倍 二是类型多二是类型多结构特征:结结构特征:结构化、半结构构化、半结构化、非结构化化、非结构化拥有特征:私有、拥有特征:私有、共有、公开共有、公开形态特征:形态特征:语音、文本、语音、文本、数值、图像、数值、图像、视频视频为什么叫大数据:二是类型多为什么叫大数据:二是类型多三是更接近三是更接近把握信息资源的本质把握信息资源的本质 大数据真正开始把信息变成资源大数据真正开始把信息变成资源有有的文章将大
6、数据看作石油,大数据研究与自然资源利用发现、的文章将大数据看作石油,大数据研究与自然资源利用发现、开采、提炼存在一定的开采、提炼存在一定的相似之处相似之处研究研究大数据,首先要研究各种有用的信息在何处,就是找大数据,首先要研究各种有用的信息在何处,就是找矿矿其次其次是把满足特定需求的信息收集过来,就是是把满足特定需求的信息收集过来,就是开矿开矿第三第三是把收集的信息按应用需求进行结构化处理,就是提炼,是把收集的信息按应用需求进行结构化处理,就是提炼,如同石油必须经过炼化才能变成消费用的汽油、柴油或作为原如同石油必须经过炼化才能变成消费用的汽油、柴油或作为原料用的聚乙烯、料用的聚乙烯、聚丙烯聚丙
7、烯第四第四是将这样的信息与具体是将这样的信息与具体的的应应用用结合,使之发挥作用,这就结合,使之发挥作用,这就是基于大数据的应用系统,或称之为围绕应用的大数据管理系是基于大数据的应用系统,或称之为围绕应用的大数据管理系统,如同汽油通过加油站加到消费者的汽车内,石化原料变成统,如同汽油通过加油站加到消费者的汽车内,石化原料变成衣服、设备或其部件衣服、设备或其部件。大数据是一个阶段性的概念大数据是一个阶段性的概念 大数据大数据是信息和信息资源是信息和信息资源开发利用这个稳定概念在今天开发利用这个稳定概念在今天这个特定时期的代表名词。关这个特定时期的代表名词。关于大数据所有作用和意义的期于大数据所有
8、作用和意义的期待,都包含在待,都包含在1970年哈佛大学年哈佛大学关于资源三角形的论述中。这关于资源三角形的论述中。这个论述简而言之就是材料、能个论述简而言之就是材料、能源、信息是推动社会发展的三源、信息是推动社会发展的三种基本资源。美国人相信它种基本资源。美国人相信它40多年了,并为之持续不断地做多年了,并为之持续不断地做了大量的工作,也是美国在了大量的工作,也是美国在IT领领域,包括信息资源领域,一家域,包括信息资源领域,一家独大的一个原因。独大的一个原因。材料材料信息信息能源能源管理管理二、二、信息技术为大数据开辟了前进道路信息技术为大数据开辟了前进道路信息技术进展是大数据产生和发展的主
9、要动力信息技术进展是大数据产生和发展的主要动力 传感传感技术:大数据的主要来源技术:大数据的主要来源 存储存储技术:不仅数据量大,而且要有信息存储模式技术:不仅数据量大,而且要有信息存储模式 传输传输技术:不仅提供传输能力,还是数据的创造者技术:不仅提供传输能力,还是数据的创造者 处理处理技术技术:不仅:不仅是处理能力,更是处理方法(结构是处理能力,更是处理方法(结构化语义处理)化语义处理)11信息技术继续快速发展,技术信息技术继续快速发展,技术体系更趋完善体系更趋完善1、处理、传输、存储技术延续高速发展、处理、传输、存储技术延续高速发展2、感知、显示、获取技术驶入快车道、感知、显示、获取技术
10、驶入快车道3、内容处理、智能系统技术不断成熟、内容处理、智能系统技术不断成熟4、技术体系不断完善、技术体系不断完善传输技术:走向宽带泛在普及2022-10-28 传传 输输人与人人与人物与人物与人物与物物与物人与物人与物走向走向G级级从个位数从个位数到到T级级P级级 甚至更高甚至更高超高速超高速泛在泛在新的体系新的体系架构架构更加深入的融合:三网、固移,工作网、物联网、互联网当前的关键技术:端到端G级、下一代互联网、新技术条件下的城域网和骨干网体系架构,端到端数百兆到吉比特,4个以上数量级的汇接带宽,3D及虚拟现实等传输要求,许多场景下并发数量急剧增加处理存储技术:20年内提升3个数量级202
11、2-10-28处理处理/存储存储集成度,从当前的集成度,从当前的32/28nm,快步前进到,快步前进到14/16nm及以下及以下低功耗、嵌入式、可靠性、小型、可移动低功耗、嵌入式、可靠性、小型、可移动高性能,超级计算机、汇聚计算资源能力高性能,超级计算机、汇聚计算资源能力高性能,一些重要高性能,一些重要的应用,需要继续的应用,需要继续沿摩尔定律提升沿摩尔定律提升3个以上数量级个以上数量级 处理能力的处理能力的集成,更加集成,更加复杂的存储复杂的存储与处理系统与处理系统更加复杂和更加复杂和智能化的应智能化的应用,需要寻用,需要寻找新的技术找新的技术感知获取技术:一组需求驱动快速发展的技术2022
12、-10-28感知感知/获取获取RFID生物生物/光光磁转换磁转换声音声音/文文字转换字转换遥感遥感技术类型技术类型声纳声纳热、压、声热、压、声构成、损伤、构成、损伤、关系关系空间、地球、生物、生命、空间、地球、生物、生命、社会等全方位、细粒度的感社会等全方位、细粒度的感知知各类感知各类感知远、细、远、细、清的要求清的要求机器阅读机器阅读及其他语及其他语义信息的义信息的获取获取感知什么感知什么显示反应技术:走向智能2022-10-28显示显示/反应反应生物生物/光光磁转换磁转换声音声音/文文字转换字转换表表情情语语言言3D及多维及多维控制技术控制技术机器人机器人文文字字与感知、网络能力并行的与感
13、知、网络能力并行的反应、行动能力,在不同反应、行动能力,在不同空间范围信息系统的物理空间范围信息系统的物理行为无需人来执行行为无需人来执行虚拟现实虚拟现实虚实结合虚实结合的现实的现实三维空间三维空间精确行为精确行为清晰清晰色彩色彩轻便轻便节能节能适应适应可靠可靠打印机、打印机、复印机、复印机、传真机、传真机、扫描仪扫描仪软件和系统集成:承载信息社会运行控制2022-10-28软件和系统集成软件和系统集成建模技术、软件工程技术、自动编程技术、验证技术设备和技术的多样复杂、非结构化事务和信息的处理、设备和技术的多样复杂、非结构化事务和信息的处理、2的的50-100次方级大数据的组织与利用、跨领域且
14、物次方级大数据的组织与利用、跨领域且物理世界相对松散的事务处理、设备(系统)控制与事理世界相对松散的事务处理、设备(系统)控制与事务处理的融合,复杂系统、不同类型对象的建模务处理的融合,复杂系统、不同类型对象的建模重用、测试、可靠性、安全性、生产率、适应新模式使设备和系统变使设备和系统变成可靠的工作系成可靠的工作系统统 Saas及新的及新的业态,构建智业态,构建智能的系统能的系统应对设备和系应对设备和系统复杂化和多统复杂化和多样化的进程样化的进程信息内容的技术:走向智能的核心2022-10-28信息组织、管理和利用信息组织、管理和利用文字声音的转化、声音处理、图像处理机器翻译为代表的自然语言处
15、理机器翻译为代表的自然语言处理应对数量变化,应对数量变化,2的的50-100次方次方应对应用需求应对应用需求的变化的变化应对音视频信应对音视频信息类型的变化息类型的变化概念体系为基础、不同粒度、不同场景的大规模信息组织、管理和利用信息技术体系架构不断完善,信息、能源、信息技术体系架构不断完善,信息、能源、材料技术融合,以智能技术为标志的新一代材料技术融合,以智能技术为标志的新一代生产力生产力 体系逐渐成形体系逐渐成形2022-10-28感知感知/获取获取处理处理/存储存储显示显示/反应反应 传传 输输软件和系统集成软件和系统集成信息组织、管理与利用信息组织、管理与利用大数据技术,大数据技术,从
16、内容角度从内容角度要重视三个方面的来源要重视三个方面的来源 一一是关于数据管理和处理研究,包括物理和语义两个是关于数据管理和处理研究,包括物理和语义两个领域数据管理。数据结构、算法和数据库相关领域取得的领域数据管理。数据结构、算法和数据库相关领域取得的进展最为突出,如文件系统、数据库、数据仓库、元数据、进展最为突出,如文件系统、数据库、数据仓库、元数据、数据模型、内存处理、云存储的研究。应当看到近十年来,数据模型、内存处理、云存储的研究。应当看到近十年来,关于多维数据结构和算法、机器视觉和摄录象研究和技术,关于多维数据结构和算法、机器视觉和摄录象研究和技术,对于大数据研究具有极其重要的参考意义
17、对于大数据研究具有极其重要的参考意义。二二是关于数据利用及适应应用需求的研究,包括用户是关于数据利用及适应应用需求的研究,包括用户视图、联机数据分析、数据挖掘、检索等视图、联机数据分析、数据挖掘、检索等。大数据技术,大数据技术,内容角度内容角度要重视三个方面的来源要重视三个方面的来源 三三是关于语义上理解信息的研究,几乎可以将人工智能研究的是关于语义上理解信息的研究,几乎可以将人工智能研究的全部成果作为大数据研究的基础,因为从语义角度理解信息是人工全部成果作为大数据研究的基础,因为从语义角度理解信息是人工智能的基础。从图灵测试到专家系统,从五代机到智能的基础。从图灵测试到专家系统,从五代机到c
18、yc,从模式识别,从模式识别到神经网络,从自然语言识别和理解到机器人,都是从不同角度研到神经网络,从自然语言识别和理解到机器人,都是从不同角度研究理解信息的技术、方法理论究理解信息的技术、方法理论。IBM的的DeepQA,通过针对广泛收集特定应用领域的信息和知识,通过针对广泛收集特定应用领域的信息和知识,在适度结构化、一系列规则和算法的基础上,具备这一领域人的智在适度结构化、一系列规则和算法的基础上,具备这一领域人的智能。其代表作能。其代表作“沃森沃森”,已经击败了美国电视台,已经击败了美国电视台“危险危险”这个具有这个具有之力竞赛性质的娱乐节目的冠军,今天,又落户纽约州的伦斯勒里之力竞赛性质
19、的娱乐节目的冠军,今天,又落户纽约州的伦斯勒里工学院,与学生一起学习,英语和数学。工学院,与学生一起学习,英语和数学。Google的的“谷歌大脑谷歌大脑”将将1.6万个处理器构成当前世界上最大的人工脑,模拟人类脑神经系统,万个处理器构成当前世界上最大的人工脑,模拟人类脑神经系统,通过算法从互联网中提取信息识别猫通过算法从互联网中提取信息识别猫。三、三、大数据大数据是走向信息时代的奠基石是走向信息时代的奠基石35亿年前开始亿年前开始生命形成生物进生命形成生物进化化千万年千万年猴子到人的进化猴子到人的进化约约300万年人的进化万年人的进化约约8000年年文字形成文字形成约约2000年年纸和印刷术的
20、纸和印刷术的发明形成发明形成最近几十年最近几十年计算机、信息网计算机、信息网络、传感和记录络、传感和记录等技术的发明等技术的发明35亿年生命史,展示了亿年生命史,展示了信息是信息是智能进化的主要因素智能进化的主要因素感知、传递、反应感知、传递、反应意识、思维、概念意识、思维、概念(更高层次的抽象)(更高层次的抽象)模仿(抽象)、记忆、判断、反应模仿(抽象)、记忆、判断、反应感知、传递、反应感知、传递、反应模仿(抽象)、记忆、判断、模仿(抽象)、记忆、判断、反应反应意识、思维、概念(更高层意识、思维、概念(更高层次的抽象)次的抽象)文字、记录文字、记录感知、记录、传输、存储、处理感知、记录、传输
21、、存储、处理数亿年数亿年动物的进化动物的进化语言、概念体系语言、概念体系语言、概念体系语言、概念体系文字、记录文字、记录感知、记录、传输、存储、处理感知、记录、传输、存储、处理形成了当今世界的智能体系和水形成了当今世界的智能体系和水平平2022-10-28有效信息总量 知识总量和质量使用者总量和质量同一 交流平台人数 发展环发展环境系数境系数设一个具有若干个紧密联系群体且有一定相互关联地域,其信息与社会发展关系函数为f(d):令f(d)=Y+Z+S+Tx其中Y=有效信息总量Z=知识总量和质量S=使用者总量和质量T=同一交流平台参与人数=发展环境系数实际上,YZST是非独立的,最关键的因子是T2
22、022-10-28有效信息总量 知识总量和质量使用者总量和质量同一 交流平台人数 发展环境发展环境系数系数以以T T主线,我们可以初步推主线,我们可以初步推论信息交流平台和参与人论信息交流平台和参与人数与社会发展的关系数与社会发展的关系 有效信息总量 知识总量和质量使用者总量和质量同一 交流平台人数 发展环境发展环境系数系数1-10百百-千千万万-十万十万十万十万-百万百万千万千万-亿亿-几十亿几十亿原始社会原始社会农业社会农业社会工业社会工业社会信息社会信息社会这是发展速这是发展速度的示意图,度的示意图,不是规模不是规模原始家族原始家族经过约经过约300万年:万年:语言语言记忆思维概念等能力
23、的形成记忆思维概念等能力的形成约约8000年年文字形成文字形成约约2000年年纸和印刷术的纸和印刷术的发明形成发明形成最近几十年最近几十年计算机、信息网计算机、信息网络、传感和记录络、传感和记录等技术的发明等技术的发明示意图时间尺度不成比例示意图时间尺度不成比例信息能力不仅是生命、智能进化的基础,也与产业发展正相关2022-10-28对历史纵切面的分析有两点主要结论对历史纵切面的分析有两点主要结论1.历史发展进入一个新的转型期:从工业社会走历史发展进入一个新的转型期:从工业社会走向信息社会,在这个历史发展转型期,中国存向信息社会,在这个历史发展转型期,中国存在超越的可能在超越的可能2.这个可能
24、在于这个可能在于13亿人的素质:知识、聪明、勤亿人的素质:知识、聪明、勤奋,我们会有奋,我们会有5亿以上的人口进入经济社会发展亿以上的人口进入经济社会发展的综合平台上,形成强大的发展动力,远远超的综合平台上,形成强大的发展动力,远远超过其他强国过其他强国 中国的中国的IT梦与中国梦重合的历史必然梦与中国梦重合的历史必然2022-10-28信息战:显示了将所有战争要素集中在一个信息平台上的力量从人工细化分工到自动化生产从人工细化分工到自动化生产线线2022-10-28从大规模生产到个性化生产从大规模生产到个性化生产主要的变化也是信息感知、传输、处理、利用的能力增加灵活供应链灵活供应链建模与仿真建
25、模与仿真智能工厂智能工厂分销配送分销配送用户用户应对消费者需求及供应对消费者需求及供应商变化的应商变化的IT供应链供应链连接产品开发与设计,连接产品开发与设计,再到制造的工艺再到制造的工艺工厂工人用知识为基础的技术,优化生产、降低成本简化产品移动的工厂与配送中心的实时信息流用户定制产品,产品使用全过程跟踪以及产品回收和再制造全球先进制造全球先进制造业发展新趋势业发展新趋势先进制造企业先进制造企业概念概念信息资源成为现代化发展的基础资源信息资源成为现代化发展的基础资源在这样的企在这样的企业中,起引业中,起引领作用的是领作用的是什么?什么?四、四、大数据发展的关键大数据发展的关键环节:环节:1.收
26、集、组织、管理、利用收集、组织、管理、利用2.认识、技术、法律、制度、标准认识、技术、法律、制度、标准3.主体、商业模式或运行机制主体、商业模式或运行机制4.信息的结构化信息的结构化5.大数据管理系统大数据管理系统(一)收集(一)收集、组织、管理、组织、管理、利用利用1.找矿找矿2.开矿开矿3.炼炼矿矿4.用矿用矿找矿:发现需要的信息资源找矿:发现需要的信息资源 定义需要的信息资源定义需要的信息资源 确定的信息资源在哪里确定的信息资源在哪里 是否是否已经以信息形式已经以信息形式存在存在 是否需要采集是否需要采集开矿:收集和获取开矿:收集和获取 用何种方法收集、用何种方法收集、获取获取 要用什么
27、样的方式要用什么样的方式采集采集 已有的怎么已有的怎么获取:获取:购买、交换、再收集购买、交换、再收集 没有的怎么没有的怎么采集:采集:委托、技术方案、自采委托、技术方案、自采提炼:变成适用信息提炼:变成适用信息 相对于相对于信息信息,提炼的本质是,提炼的本质是按按应用需求进行应用需求进行结构化结构化处理处理 按按需求需求 语义和物理的机构语义和物理的机构化化 语义相对于应用的语义相对于应用的目的目的 物理物理相当于处理、存储、传输的速度和成本相当于处理、存储、传输的速度和成本利用:与具体应用的结合利用:与具体应用的结合 将将结构化结构化的的信息与具体信息与具体的的应应用用结合,使之结合,使之
28、发挥发挥作用作用 这这就是基于大数据的应用系统,或称之为就是基于大数据的应用系统,或称之为围绕应用的大数据管理系统,如同汽油通围绕应用的大数据管理系统,如同汽油通过加油站加到消费者的汽车内,石化原料过加油站加到消费者的汽车内,石化原料变成衣服、设备或其部件变成衣服、设备或其部件。企企业业信信息息示示意意人员信息:人员信息:业务流信息业务流信息1:客户信息客户信息资金信息:资金信息:注册注册信息信息供应链信息:供应链信息:法人、管理层、职工,薪法人、管理层、职工,薪资、岗位、业绩资、岗位、业绩供应链信息:零部件、原供应链信息:零部件、原材料、能源、供应商材料、能源、供应商物流信息:物流信息:研发
29、设计、生产、库存、研发设计、生产、库存、管理、决策、销售、服务、管理、决策、销售、服务、统计、年报统计、年报业务流信息业务流信息2:业务流信息业务流信息n:承运者、工具、地点、计承运者、工具、地点、计划划注册资本、应收、应付、注册资本、应收、应付、营收、成本、库存、固定营收、成本、库存、固定资产、投资、利息资产、投资、利息机构客户:名称、法人代机构客户:名称、法人代表、货品名称、供货时间、表、货品名称、供货时间、联系方式、信誉等级联系方式、信誉等级个人客户:姓名、货品、个人客户:姓名、货品、时间、地点、联系方式时间、地点、联系方式注销注销信息信息记录文本记录文本信息信息状态信息状态信息音视频音
30、视频场景因果场景因果信息信息客户信息客户信息客户信息客户信息财富信息:财富信息:与应用,如质量管理与应用,如质量管理的要求一致吗?的要求一致吗?还要做什么?还要做什么?个个人人信信息息示示意意奖惩信息:奖惩信息:工作信息工作信息1:财富信息:财富信息:健康信息:健康信息:出生出生信息信息学习信息学习信息1:奖励事项、惩处事项、违奖励事项、惩处事项、违法记录、失信记录法记录、失信记录学习信息学习信息2:单位、岗位、职务、职称、单位、岗位、职务、职称、起止时间、工资起止时间、工资工作信息工作信息2:工作信息工作信息n:学校、专业、科目、成绩、学校、专业、科目、成绩、入学毕业时间、活动入学毕业时间、
31、活动病历、基本健康信息病历、基本健康信息存款、证卷、保险、其他存款、证卷、保险、其他投资、不同产投资、不同产死亡死亡信息信息学习信息学习信息n:生活信息:生活信息:关系信息:关系信息:家人、亲戚、朋友、同事、家人、亲戚、朋友、同事、学术、网友学术、网友吃、睡、行、休闲,类型、吃、睡、行、休闲,类型、品种、特点品种、特点记录文本记录文本信息信息状态信息状态信息音视频音视频场景因果场景因果信息信息与应用,如与应用,如质量管理的质量管理的要求一致吗?要求一致吗?还要做什么?还要做什么?质量质量信息信息示意示意材料材料1信息:信息:材料、部件检测信息:材料、部件检测信息:生产工艺生产工艺销售环节信息:
32、销售环节信息:产品产品质量质量信息信息部件部件1信息:信息:材料生产、运输、保管信材料生产、运输、保管信息,略息,略部件部件2信息:信息:生产过程信息生产过程信息产品检测信息:产品检测信息:部件生产、运输、保管信部件生产、运输、保管信息,略息,略运输、保管、销售、服务运输、保管、销售、服务见下图见下图部件部件n信息:信息:执行标准、检测方法、将执行标准、检测方法、将侧工具、检测结果侧工具、检测结果记录文本记录文本信息信息状态信息状态信息音视频音视频材料材料2信息:信息:材料材料n信息:信息:执行标准、检测方法、检执行标准、检测方法、检测工具、检测结果、测工具、检测结果、生产过生产过程信息程信息
33、执行标准执行标准生产装备生产装备生产班次生产班次责任人责任人生产过程生产过程检测检测包装包装可溯源的可溯源的完整信息完整信息流流与应用,如与应用,如质量管理的质量管理的要求一致吗?要求一致吗?还要做什么?还要做什么?(二)认识、技术二)认识、技术、法律、制度、法律、制度、标准标准认识认识:走向透明的社会、智能的社会、走向透明的社会、智能的社会、被数据包围的环境,认识准备好了吗?被数据包围的环境,认识准备好了吗?经济社会发展模式经济社会发展模式管理:政府与企业管理:政府与企业科技、教育和文化科技、教育和文化人的发展与生存人的发展与生存生活方式生活方式认识、技术认识、技术、法律、制度、法律、制度、
34、标准标准技术技术:下面专门分析下面专门分析传感传感处理处理存储存储数据管理数据管理数据分析数据分析认识、技术认识、技术、法律、制度、法律、制度、标准标准法律法律:收集收集利用利用管理管理权利权利义务义务认识、技术认识、技术、法律、制度、法律、制度、标准标准制度制度:相对于法律的关于信息资源的制度相对于法律的关于信息资源的制度国家层面:如资产、责任、利用、安全国家层面:如资产、责任、利用、安全机构层面:如资产、责任、使用、安全机构层面:如资产、责任、使用、安全认识、技术认识、技术、法律、制度、法律、制度、标准标准标准标准:范围,国家、行业、机构范围,国家、行业、机构类型,收集、存储、处理、管理、
35、利类型,收集、存储、处理、管理、利用;文本、数值、图像、音频、视频用;文本、数值、图像、音频、视频目的,保密、安全、连接、共享目的,保密、安全、连接、共享(三)信息(三)信息的的结构化结构化信息信息的结构化是大数据技术的结构化是大数据技术的的核心核心、关键、关键和难点和难点大大数据结构化是一个不断发展数据结构化是一个不断发展的的渐进过程渐进过程 追求追求结构化是数据管理的基本动力和目结构化是数据管理的基本动力和目的的。获取、处理、存储、传输、利用的效率,获取、处理、存储、传输、利用的效率,特别是利用的有效性基于信息的机构化程度。特别是利用的有效性基于信息的机构化程度。数值数值及事务处理等计算机
36、信息系统早期及事务处理等计算机信息系统早期对象结构化已经成熟,成为大数据结构化的对象结构化已经成熟,成为大数据结构化的基础。其他相关类型的信息:文本、音视频、基础。其他相关类型的信息:文本、音视频、图形图像等也在数据库或数据管理发展实践图形图像等也在数据库或数据管理发展实践中得到不同程度的关注,产生了一些技术方中得到不同程度的关注,产生了一些技术方法法,大数据大数据正是正是在这样的基础在这样的基础上上发展发展。结构化的两个维度:内在逻辑完备结构化的两个维度:内在逻辑完备度和应用完备度和应用完备 内在内在逻辑的完备度与应用需求的完备度之间的约束。逻辑的完备度与应用需求的完备度之间的约束。这类约束
37、超越了一个具体系统的范畴。人类科学和文明进这类约束超越了一个具体系统的范畴。人类科学和文明进步的主要客观存在物是概念体系,概念体系的主要载体又步的主要客观存在物是概念体系,概念体系的主要载体又是文本。即使是严格定义的科学著作,也没有将其内在语是文本。即使是严格定义的科学著作,也没有将其内在语义结构表示作为要求,科学越发展,积累的文献越多,文义结构表示作为要求,科学越发展,积累的文献越多,文本信息结构化的难度越大、任务越重。学术界及不少国家本信息结构化的难度越大、任务越重。学术界及不少国家已经认识到这个问题对科学研究和提升创新能力的重要性,已经认识到这个问题对科学研究和提升创新能力的重要性,并着
38、手部署相应的研究计划和工程,著名的有美国和英国并着手部署相应的研究计划和工程,著名的有美国和英国科学基础设施计划科学基础设施计划。(四)(四)大大数据管理数据管理系统系统p 关键流程分析关键流程分析p 基本功能要求基本功能要求p 体系架构分析体系架构分析p 比较与重点比较与重点大数据管理系统一般架构示意图大数据管理系统一般架构示意图第一层前置处理体系:通信、场景、任务分配、安全等第一层前置处理体系:通信、场景、任务分配、安全等第二层信息结构化处理体系:第二层信息结构化处理体系:场景分类、单元划分规则、算法、单元地场景分类、单元划分规则、算法、单元地址和语义命名规则、单元为基础的记录数据库及其管
39、理系统、地址函数址和语义命名规则、单元为基础的记录数据库及其管理系统、地址函数库、语义特征函数库、物理标识库和语义标识库及其管理系统库、语义特征函数库、物理标识库和语义标识库及其管理系统第三层信息存储体系:第三层信息存储体系:实体库、规则库、函数库、标识库、算法库、索实体库、规则库、函数库、标识库、算法库、索引库的存储结构,中间库、原始库、工作库引库的存储结构,中间库、原始库、工作库第四层信息处理体系:第四层信息处理体系:信息获取处理、信息组织处理、内部处理(包括信息获取处理、信息组织处理、内部处理(包括学习、反馈、整理等等)、应用处理学习、反馈、整理等等)、应用处理第五层软硬件资源:第五层软
40、硬件资源:网络、软件、计算机等网络、软件、计算机等体系架构分析体系架构分析p 目前已经商用的大数据管理系统或工具,目前已经商用的大数据管理系统或工具,还没有全面应对大数据系统的需要,这正还没有全面应对大数据系统的需要,这正是我们的机遇所在是我们的机遇所在(五)大数据演进方向(五)大数据演进方向机构机构事务事务服务服务研究研究 是指一个机构(包括企业)为自身发展目是指一个机构(包括企业)为自身发展目的而构建大数据系统,并不断推向完善的而构建大数据系统,并不断推向完善 这样的大数据系统这样的大数据系统基于基于机构,服务于机构,服务于机构。机构。基于基于机构的大机构的大数据系统数据系统数量上构成全社
41、会数量上构成全社会拥有量的主体拥有量的主体 这样的大数据系统这样的大数据系统演进,特点是目的明确、演进,特点是目的明确、类型多样、利用已有技术和方法为主要路类型多样、利用已有技术和方法为主要路径径大数据系统演进的领域:机构大数据系统演进的领域:机构 是指是指基于基于一类一类事务事务或一类重要信息类型而收或一类重要信息类型而收集信息、组织信息、提供服务集信息、组织信息、提供服务。人口、企业、人口、企业、空间信息、交通、水务等都是基于事务的大空间信息、交通、水务等都是基于事务的大数据系统数据系统 与基于机构的大与基于机构的大数据系统显著不同就是追求数据系统显著不同就是追求一类事务或一类信息的完备度
42、,并具有跨机一类事务或一类信息的完备度,并具有跨机构性质。构性质。事务大数据系统演进的主要特点是对该类信事务大数据系统演进的主要特点是对该类信息的逻辑分析在技术上要求居于领先水平息的逻辑分析在技术上要求居于领先水平大数据系统演进的领域:事务大数据系统演进的领域:事务 是指提供基于互联网是指提供基于互联网服务服务的大数据系统的大数据系统。显著特征显著特征是是赢利为目的赢利为目的,演进以商业模式要求为前提,演进以商业模式要求为前提 要要区分同一企业服务型和研究型的大数据系统及相关研区分同一企业服务型和研究型的大数据系统及相关研究工作,大型互联网和信息技术企业服务企业都可能存究工作,大型互联网和信息
43、技术企业服务企业都可能存在这两种类型在这两种类型 要要区分一个企业商业化产品、公布的研究成果与其前沿区分一个企业商业化产品、公布的研究成果与其前沿研究的差别研究的差别 除了数据结构、算法,也就是本报告所称语义特征函数除了数据结构、算法,也就是本报告所称语义特征函数的基础理论和方法研究,以科学研究为基础的信息结构的基础理论和方法研究,以科学研究为基础的信息结构化外,该领域大数据系统的研究和服务均处于领先水平化外,该领域大数据系统的研究和服务均处于领先水平大数据系统演进的领域:服务大数据系统演进的领域:服务 是指主要目的是科学研究,研究结果为大数据系统所用。是指主要目的是科学研究,研究结果为大数据
44、系统所用。三三种种主要类型主要类型:一一是特定类型科学研究,如基因、地震波、声纹是特定类型科学研究,如基因、地震波、声纹等等 二二 是 人 工 智 能是 人 工 智 能 及 部 分 应 用 系 统及 部 分 应 用 系 统 的的 研 究,如研 究,如“DeepQA”,“谷歌大脑谷歌大脑”,感知识别、自然语言理,感知识别、自然语言理解、机器人等解、机器人等领域领域,声纹声纹库、指纹库、交通监视视频、库、指纹库、交通监视视频、安全监视视频,相片集、计算机辅助设计集、自然事安全监视视频,相片集、计算机辅助设计集、自然事件观察集等等。件观察集等等。三是数学、计算机科学的基础研究三是数学、计算机科学的基
45、础研究。主要贡献在数据主要贡献在数据结构和算法结构和算法大数据系统演进的领域:研究大数据系统演进的领域:研究大数据系统演进的技术方法大数据系统演进的技术方法研究如何提升逻辑能力和处理能力研究如何提升逻辑能力和处理能力 研究大数据特有的演进模式,如何在研究大数据特有的演进模式,如何在网络网络环境环境下的互动参与平台,开放与管理的原则与方法下的互动参与平台,开放与管理的原则与方法。交互式交互式为主,为主,适度适度采用计算或推理是信息结构采用计算或推理是信息结构化的主要模式化的主要模式 通过内部学习和调整处理,使通过内部学习和调整处理,使系统系统具备具备自我自我演演进的功能。进的功能。大数据系统演进
46、的技术方法大数据系统演进的技术方法 建立建立大数据管理大数据管理系统系统最重要的技术方法最重要的技术方法问题问题是信是信息结构如何形成息结构如何形成。关系数据库关系数据库中实体和关系的确立,即单元的切分中实体和关系的确立,即单元的切分和标识的形成是人为的。但面对类型多样、来源不一、和标识的形成是人为的。但面对类型多样、来源不一、数量庞大的信息,如何切分单元,如何给予成熟的、数量庞大的信息,如何切分单元,如何给予成熟的、可处理、可利用的语义标识,人们会首先倾向于通过可处理、可利用的语义标识,人们会首先倾向于通过算法或推理,实际上这是行不通的算法或推理,实际上这是行不通的。五、五、电子政务发展中的
47、大电子政务发展中的大数据数据以以质检部分事务系统为例质检部分事务系统为例 信息化应用已经延伸到质检各个领域,在信息化应用已经延伸到质检各个领域,在检验检疫、质量技术监督认证认可、标准、政检验检疫、质量技术监督认证认可、标准、政府网站、局行政管理等工作中发挥重要作用,府网站、局行政管理等工作中发挥重要作用,信息安全保障能力逐步提升,大数据对进一步信息安全保障能力逐步提升,大数据对进一步提升质检系统信息化水平具有十分重要的作用,提升质检系统信息化水平具有十分重要的作用,要在质检总局电子政务发展全局中推进。要在质检总局电子政务发展全局中推进。利用信息技术完善食品、农产品安全追溯体系推广推广RFID、
48、二维码、条形码等技术应用,在供港澳牛奶、猪、二维码、条形码等技术应用,在供港澳牛奶、猪肉、蔬菜等食品率先建设食品安全追溯体系,实现食品、进肉、蔬菜等食品率先建设食品安全追溯体系,实现食品、进出口农产品安全监管出口农产品安全监管“一键溯源一键溯源”。提供包括食品追溯相。提供包括食品追溯相关记录信息查询、统计、分析等功能。建立进出口食品质量关记录信息查询、统计、分析等功能。建立进出口食品质量安全数据库和服务平台,食品问题预警和事后快速处理提供安全数据库和服务平台,食品问题预警和事后快速处理提供支持。推广商品条码标识在食品安全追溯中的应用,制定标支持。推广商品条码标识在食品安全追溯中的应用,制定标准
49、,实现食品安全监管从粗放模糊型向集约精确型转变。准,实现食品安全监管从粗放模糊型向集约精确型转变。信息收集信息收集更好利用更好利用结构化,质量结构化,质量需要进一步完善的工作:信息是否满足溯源需求、信息来源需要进一步完善的工作:信息是否满足溯源需求、信息来源及质量如何保证、信息如何支持预警和事件处置及质量如何保证、信息如何支持预警和事件处置利用信息技术加强质量诚信体系利用信息技术加强质量诚信体系 进一步完善质量信用信息管理制度,规范信息的记进一步完善质量信用信息管理制度,规范信息的记录、归集、处理、使用、公开等工作。以组织机构录、归集、处理、使用、公开等工作。以组织机构代码为基础,有效整合质检
50、系统内部质量信用信息代码为基础,有效整合质检系统内部质量信用信息资源,建立质量信用信息数据库。搭建质量信用信资源,建立质量信用信息数据库。搭建质量信用信息交换和服务平台,实现质量信用分类管理,满足息交换和服务平台,实现质量信用分类管理,满足各级质监和检验检疫部门。各级质监和检验检疫部门。信息收集信息收集更好利用更好利用结构化,质量结构化,质量需要进一步完善的工作:信息是否满足质量管理需求、信息需要进一步完善的工作:信息是否满足质量管理需求、信息管理是否满足业务工作需求、成本效率质量分析管理是否满足业务工作需求、成本效率质量分析利用信息技术提升出入境检验检疫利用信息技术提升出入境检验检疫业务监管