1、共享文化大数据的新机制共享文化大数据的新机制李幼平李幼平 杨杨 鹏鹏20132013年年4 4月月追求追求“内容自寻读者内容自寻读者”万维网(万维网(World Wide WebWorld Wide Web)是)是“博大精深博大精深”的文化大数据,它与个人的有限需求之间,的文化大数据,它与个人的有限需求之间,缺乏顺从人意的直达机制缺乏顺从人意的直达机制 本文建议,定义最小内容基元,并借助泛在本文建议,定义最小内容基元,并借助泛在无线电广播,创造无线电广播,创造“内容自寻读者内容自寻读者”的主动的主动服务机制服务机制 新机制不但能大比例分担核心网的共享类流新机制不但能大比例分担核心网的共享类流量
2、,而且有望从国家层面找到保证公共内容量,而且有望从国家层面找到保证公共内容安全的有效措施安全的有效措施 共享文化的三个科学问题共享文化的三个科学问题 奥巴马政府又出了奥巴马政府又出了“大数据大数据”的题目,要求科学家从大的题目,要求科学家从大数据中萃取有价值的信息,并从国家层面找到保证信息数据中萃取有价值的信息,并从国家层面找到保证信息安全的有效措施。安全的有效措施。中国政府发出中国政府发出“用好互联网,管好互联联网用好互联网,管好互联联网”的号召,的号召,提倡用提倡用“三网融合三网融合”营造营造“国家国家公共文化公共文化服务体系服务体系”。无论无论“大数据战略大数据战略”还是还是“公共文化战
3、略公共文化战略”,提法虽然,提法虽然不同,最终都希望实现全民对文化大数据的科学享用,不同,最终都希望实现全民对文化大数据的科学享用,都需要回答三个科学问题:都需要回答三个科学问题:1 1,共享如何不限人数?,共享如何不限人数?2 2,服务如何匹配个人?,服务如何匹配个人?3 3,国家如何依法治理?,国家如何依法治理?试图借助网络物理变革试图借助网络物理变革回答问题回答问题无线复制体现网络物理变革无线复制体现网络物理变革 无线电广播轻松回答三个问题中的两个无线电广播轻松回答三个问题中的两个 无线电是无线电是“一点对无限点一点对无限点”的单向电磁辐射的单向电磁辐射“无限点无限点”意味着支持意味着支
4、持“共享不限人数共享不限人数”,不管多,不管多少人分享电磁波带来的数据,永无少人分享电磁波带来的数据,永无“带宽拥塞带宽拥塞”“一点一点”支持内容集结一体,在卫星实施分发的过支持内容集结一体,在卫星实施分发的过程中,国家自然获得理顺内容和依法管理的机会程中,国家自然获得理顺内容和依法管理的机会 唯一障碍唯一障碍:单向系统没有互动环节,:单向系统没有互动环节,难以匹配个人难以匹配个人 广播内容广播内容自带互动环节自带互动环节,障碍将出现重大突破,障碍将出现重大突破 具体办法是,文件前缀嵌入沟通读者与作者的语义具体办法是,文件前缀嵌入沟通读者与作者的语义短包作为取舍内容的文化基元,让作者与读者在网
5、短包作为取舍内容的文化基元,让作者与读者在网络终端实现直接互动络终端实现直接互动自帯互动环节自帯互动环节:1kB1kB内容标签内容标签 毕升把汉字当成是可毕升把汉字当成是可按语义聚分按语义聚分的最小文化基元;的最小文化基元;网络需要可网络需要可按语义取舍按语义取舍的最小文化基元的最小文化基元UCLUCL UCLUCL(Uniform Content LabelUniform Content Label)统一内容标签)统一内容标签表达读者喜好表达读者喜好(个人常用网站、栏目,(个人常用网站、栏目,或感兴趣的专业话题)或感兴趣的专业话题)5B1 KB表达作者语义表达作者语义(描述内容的要义)(描述
6、内容的要义)支持依法管理支持依法管理(国家授权,科学管理)(国家授权,科学管理)8B1B2B16B64B100B100B128B600B网站栏目专业话题时间戳内容代码内容标题内容要义内容出处指纹内容指纹待定定义泛在广播定义泛在广播 无线电波转瞬即逝,无线电波转瞬即逝,“泛泛”而而“不常在不常在”存储和内容匹配技术帮助存储和内容匹配技术帮助它它成为成为 anywhere anywhere、anytimeanytime、anyone anyone 的的 Ubiquitous Data RadioUbiquitous Data Radio UD Radio UD Radio发明超级门户机制发明超级门
7、户机制 内容标签内容标签UCLUCL含有标题、摘要,本身是一种可读的短含有标题、摘要,本身是一种可读的短文件文件 把大量网站的把大量网站的UCLUCL短文件集结一体,形成海含众多网短文件集结一体,形成海含众多网站主页的站主页的“超级门户超级门户”(super portalsuper portal)其他媒体都是其他媒体都是“零阶零阶”的,唯独它是的,唯独它是“高阶高阶”的的 超级门户是超级门户是“有关数据的数据有关数据的数据”(data about data about datadata),是),是“引领众多媒体的超级媒体引领众多媒体的超级媒体”(medium medium about medi
8、aabout media)集结后的集结后的UCLUCL内容品种足够多,千差万别的个人都可内容品种足够多,千差万别的个人都可以从中得到个性需求的提醒;集结后的总字节量又以从中得到个性需求的提醒;集结后的总字节量又足够地小,只需用一个低速率的广播信道,就足以足够地小,只需用一个低速率的广播信道,就足以承载多元内容面向全民的泛在服务。承载多元内容面向全民的泛在服务。广科院的低码率广科院的低码率UD RadioUD Radio 广播科学研究院发明一种调频波段的低码率广播科学研究院发明一种调频波段的低码率OFDMOFDM信道,形成穿墙入户信道,形成穿墙入户“直达所有网络的直达所有网络的所有终端所有终端”
9、的物理能力。的物理能力。由于码速率很低,接收环节是一种功耗极低由于码速率很低,接收环节是一种功耗极低的嵌入式小芯片,很容易寄生于的嵌入式小芯片,很容易寄生于PCPC机、机、TVTV机、机、PadPad机、手机的主芯片之中机、手机的主芯片之中 UD RadioUD Radio每天把百万种每天把百万种UCLUCL数据包直接存入数据包直接存入任意网络的任意终端,广大民众可以在第一任意网络的任意终端,广大民众可以在第一时间免费得到任意媒体的任意标题摘要。时间免费得到任意媒体的任意标题摘要。从工程上体现主动服务的超级门户机制。从工程上体现主动服务的超级门户机制。互联网边缘增添广播结构互联网边缘增添广播结
10、构图3 Internet的边缘增添泛在广播的次结构减少内容分发跳数减少内容分发跳数“小世界小世界”的说法起源于的说法起源于MilgramMilgram的的“六度分六度分离离”猜想,即全球几十亿人中的任意一人,经猜想,即全球几十亿人中的任意一人,经过五次中间介绍,总可以找到另一位陌生的人。过五次中间介绍,总可以找到另一位陌生的人。19981998年,年,WattsWatts等人在等人在NATURENATURE杂志上发表题为杂志上发表题为“Collective Dynamics of Small-World“Collective Dynamics of Small-World Network”Ne
11、twork”的论文,指出聚类动力学是小世界的论文,指出聚类动力学是小世界的成因。的成因。对获取网页的平均路由跳数对获取网页的平均路由跳数D D进行实测统计,进行实测统计,得知得知WWWWWW网络网络90%90%以上网页的以上网页的 D D在在 6 6与与 23 23之间。之间。出现出现D DlnlnNlnlnN超小世界超小世界 20092009年年PHYSICAL REVIEW LETTERSPHYSICAL REVIEW LETTERS杂志发表题杂志发表题为为“Navigating“Navigating UltrasmallUltrasmall Worlds in Worlds in Ult
12、rashortUltrashort Time”Time”的文章的文章 指出当幂指数指出当幂指数处于处于2 2至至3 3之间时,之间时,采用贪婪路采用贪婪路由可使网络的由可使网络的D DlnlnNlnlnN,并可实现超短时间的,并可实现超短时间的内容引导。内容引导。其中其中N N为网络节点总数量,取为网络节点总数量,取N N等于全球人口等于全球人口7070亿,则可算得亿,则可算得D D3 3,超越了原先,超越了原先“六度分离六度分离”的猜想,实现了的猜想,实现了“超小世界超小世界”和和“超快引导超快引导”。这是一个了不起的理论工作,激励中国专家坚这是一个了不起的理论工作,激励中国专家坚定信心,朝
13、着更小跳数的目标继续前进。定信心,朝着更小跳数的目标继续前进。东南大学东南大学D D1 1的梦想的梦想 东南大学团队发现,直接关联复杂网络理东南大学团队发现,直接关联复杂网络理论的论的“度分度度分度”和和“平均程长平均程长”,有可能,有可能通过简单的内容匹配计算而不是通过复杂通过简单的内容匹配计算而不是通过复杂的路由计算实现更小的平均跳数的路由计算实现更小的平均跳数 或者说,或者说,迫近迫近D D1 1的更高理想的更高理想。为了实现这一目标,未来网络只需要在基为了实现这一目标,未来网络只需要在基于对流的于对流的InternetInternet主结构的边缘,添加如主结构的边缘,添加如图图3 3所
14、示的辐射复制的泛在广播次结构所示的辐射复制的泛在广播次结构B-C-B-C-S S。流量的边缘分担机制流量的边缘分担机制 泛在广播次结构形成流量的边缘分担机制,内容泛在广播次结构形成流量的边缘分担机制,内容共享类业务将共享类业务将被被D D1 1单跳互动分担单跳互动分担 D D1 1有利于有利于IPIP核心网化解核心网化解“十年千倍十年千倍”的扩展性的扩展性困惑。同时困惑。同时 D D1 1,意味着攻击者只能在局域网内做坏事,攻,意味着攻击者只能在局域网内做坏事,攻击成本提升,防卫成本下降。击成本提升,防卫成本下降。D D1 1,意味着提升,意味着提升QoSQoS主要只需改善最后一跳的主要只需改
15、善最后一跳的带宽,而不是核心网络的带宽。带宽,而不是核心网络的带宽。D D1 1,意味减免高速路由计算和高速搜索计算的,意味减免高速路由计算和高速搜索计算的能耗。能耗。支持内容依法管理支持内容依法管理 利用利用HashHash函数产生一个加密函数产生一个加密“检查和检查和”,若遭篡,若遭篡改改“检查和检查和”将异样,内容即被视为非法。将异样,内容即被视为非法。在在IPIP环境中,环境中,HashHash指纹仍然存在安全漏洞。我们指纹仍然存在安全漏洞。我们建议改用建议改用UCLUCL格式通过卫星转发格式通过卫星转发HashHash指纹。指纹。卫星转发是一种卫星转发是一种难以施加攻击的非开放物理信
16、道难以施加攻击的非开放物理信道,UCLUCL的时戳又具有的时戳又具有“时不再来时不再来”的唯一性,同时篡的唯一性,同时篡改指纹与内容,几乎是不可能的。改指纹与内容,几乎是不可能的。国家注册机构卫星发放的哈希指纹,任何地点上国家注册机构卫星发放的哈希指纹,任何地点上的任何终端,都有可能在域名和路由均不可信的的任何终端,都有可能在域名和路由均不可信的情况下,情况下,直接判断公共内容的真伪直接判断公共内容的真伪,保护公共内,保护公共内容的安全,确保国家长治久安。容的安全,确保国家长治久安。Cyberspace Cyberspace 矢量化矢量化“大数据大数据”只是只是 Cyberspace Cybe
17、rspace内容多少的模量描述,内容多少的模量描述,缺失语义化的矢量描述缺失语义化的矢量描述 假设假设1kByte1kByte为文化数据为文化数据单位模量单位模量,用,用1kByte1kByte的语的语义短数据包义短数据包 UCLUCL作为作为单位矢量单位矢量,直接沟通作者与,直接沟通作者与读者的意向,把人的因素植入网络读者的意向,把人的因素植入网络 单位矢量通过无线电辐射治理中国互联网,理顺单位矢量通过无线电辐射治理中国互联网,理顺杂乱无序的文化大数据,用尽可能少的路由跳数,杂乱无序的文化大数据,用尽可能少的路由跳数,把有价值的内容分发给每一位个人把有价值的内容分发给每一位个人 中国领先全球
18、,首创中国领先全球,首创公益、基本、均等、公益、基本、均等、方便方便的的大文化大文化:公共文化服务体系:公共文化服务体系结束语结束语 无线电是一种无线电是一种“一点对无限点一点对无限点”的电磁辐射的电磁辐射 它支持国家对文化大数据的科学管理,支持它支持国家对文化大数据的科学管理,支持文件文件主动寻找需要它们的用户主动寻找需要它们的用户 全国老百姓,地不分南北,人不分贫富,每一个全国老百姓,地不分南北,人不分贫富,每一个人都有机会就近获取个人有兴趣的文化内容人都有机会就近获取个人有兴趣的文化内容 内容标签内容标签UCLUCL促成广播网、电信网促成广播网、电信网双双成为双双成为互联网互联网的基础设施,的基础设施,自然铸就三网融合自然铸就三网融合的技术框架的技术框架 请教大家:请教大家:治理互联网的全新手段已经初见端倪?治理互联网的全新手段已经初见端倪?