1、高能物理科学大数据应用系统2/38主要内容 高能物理实验与数据处理需求 高能物理计算平台 基于大数据技术的事例管理系统3/38高能物理数据处理过程PP探测器产生事例数据获取原始数据重建数据数据重建物理结果数据分析诺贝尔奖只需要三步,就可以获得诺贝尔奖 加速器与探测器加速器与探测器 计算环境与数据处理计算环境与数据处理e+e-4/38全球最大的粒子加速器 加速器 探测器周长27公里地下100米5/38Atlas探测器n 重量7000余吨n 直径25米,长46米n 1亿路电子学信号n 3000公里的缆线n 3000物理学家LHC:数据挑战在线 40M Hz collisions 1PB/sec离线
2、数据 30PB per year 全球分布处理过滤判选7/38中国高能物理实验北京正负电子对撞机BECPII 已经积累5PB大亚湾中微子实验 200TB/年 已经积累1PB以上数据江门中微子实验 地下500米实验大厅 2019年运行,每年将产生2PB数据高海拔宇宙线实验LHAASO 位于四川稻城海子山,海拔4400米 2018年开始部分运行,每年将产生2PB数据其它:HXMT(卫星)、CSNS、北方光源等等8/38高能物理实验计算 大数据:多次测量的随机过程(多次独立实验)随机变量空间很大:产生的末态粒子极其丰富;精确测量需要大样本:大数据 大计算:末态的模式复杂(随机变量)物理图像还原非常复
3、杂:图像处理、模式识别技术;参数估计:拟合及误差估计;等等高能物理领域在快速步入EB级的大数据时代数据分析挑战数据分析挑战:海底捞针:海底捞针9 个数量级的差别个数量级的差别所有物理过程 HIGGS粒子稀有事例和巨量本底的混杂Run 1:six million billion proton-proton collisions(6千万亿)Higgs:400 events15,000,000,000,000:1(15万亿)万亿)比黄金还贵的上帝粒子:1000亿RMB的投入找到 170站点站点 42国家国家 600,000 CPU 320 PB disk 300 PB tape 10,000 用户用
4、户 150 虚拟组织虚拟组织 每天运行每天运行上上百万作业百万作业全球每秒交换全球每秒交换10GB数据数据Beijing-LCG220/38计算集群或网格的不足 CPU资源利用率不足 物理服务器年平均利用率不足60%遗留程序与操作系统不匹配 调度不灵活 运维成本高21/38基于云计算的虚拟集群按需分配资源,提高资源利用率实现资源整合,共享不同实验/组织的计算资源满足峰值需求提交作业VCondor,VPBSVMQuota申请资源资源池状态当前可用资源lhaaso分配算法资源预留juno启停虚拟机作业排队IHEPCloud(CERNCloud,EC2,Aliyun,)22/38CERN Cloud
5、 CERN Cloud是世界最大的虚拟集群之一 基于Openstack构建,2013年开始运行 统一管理两个数据中心(日内瓦与布达佩斯)规模:7000多台物理机,20多万颗CPU核,2万多台虚拟机 平均10秒钟创建/删除一个虚拟机 CERN团队获得Openstack巴黎峰会SuperUser大奖23/38IHEPCloud 2014年11月上线服务 基于OpenStack构建,1700台虚拟机 面向用户的自助服务 IaaS服务,个人虚拟机 虚拟计算集群,动态资源调度 基于物理作业动态启动和注销虚拟机 针对作业调度适配的image,一个作业一台虚拟机 灵活的网络架构 任意虚拟机可以调度到任意物理
6、服务器,接入任意网络 基于用户的记账系统和资源互换 开发的用户虚拟计算资源使用记账系统 基于“积分”的用户资源提供和消费机制24/38基于大数据技术的事例管理系统25/38数据处理过程事例:事例:一次粒子对撞或者一次粒子间的相互作用 粒子物理研究的基本对象探测器记录事例,产生原始数据 以二进制格式记录的探测器信号 由计算机产生模拟实验的蒙特卡罗模拟数据,数字化事例重建 读出Raw/MC Raw数据,处理后产生相关物理信息,如动量、对撞顶点等;数据分析 由上千个属性组成的DST Event文件,提供物理学家进行分析,并最后产生物理结果26/38事例管理事例包含了一次物理过程,相互独立不同的实验装
7、置,事例大小不一样 从KB到GB不等不同的实验,收集的事例数量不同 BESIII:十亿级 大亚湾中微子:百亿级 江门中微子:千亿级 LHC:万亿级事例结构 描述事例的组成事例组织 文件存储:自定义结构 数据库:RDBMS/面向对象/NOSQL 半结构化存储:ROOT Rene Brun 27ROOT file structure28/38事例的行存储Ntuple RWNE1(x1,y1,z1,t1)E2(x2,y2,z2,t2)E3(x3,y3,z3,t3)事例事例属性属性1属性属性2属性属性3属性属性4E1x1y1z1t1E2x2y2z2t2E3x3y3z3t329/38事例的列存储Ntup
8、le CWN示例E1(x1,y1,z1,t1)E2(x2,y2,z2,t2)E3(x3,y3,z3,t3)事例事例E1E2E3属性1x1x2x3属性2y1y2y3属性3z1z2z330/38举例:BES事例分析在典型的BES数据分析中感兴趣的事例:O(1/1000)典型的事例大小:O(100)kB列式访问A_1B_1X_1A_2B_2X_2A_nB_nX_n访问所有列A的数据根据A_i的结果选择性访问列B的数据根据B_j的结果选择性访问列C的数据选择性访问列C的数据按行访问:需要读取所有数据列式访问列:事例属性行:事例造成较大的IO开销31/38建立事例索引 TAG:事例的元数据举例:run
9、号、事例总数、径迹数带电不带点径迹数、不带电径迹数、好的光子数、k-介子数、可见光能量定义等 每个事例均建立一个TAG(相对较小,是重建后数据DST的1/400)访问TAG时不需要打开DST文件 仅仅访问选中的DST events32/38使用TAG的初步评测筛选条件:好的光子数,即2nGam 10过滤掉85%保留了全部的目标数据采用Hbase中存放Tag信息的方式,运行时间节省45%33/38技术框架传统方式:基于文件的数据管理事例文件事例文件基于文件的事例过滤和筛选基于文件的事例读取与分析基于单域的事例文件管理新方法:基于文件和NoSQL数据索引的融合数据管理事例文件事例文件基于数据库的事
10、例过滤和筛选基于事例的并行处理跨域的事例数据管理事例特征抽取事例索引、检索、缓存万亿级事例数据库34/38万亿级事例数据库索引技术KeyValueMain-IndexFirst Sub IndexSecond Sub IndexInverted IndexClustered DataCompressedTimeCategoryProperty-IDProperty-ValueDetailed Data20120211笔记本尺寸13寸20120211笔记本定位商务 思路 构建复合索引实现ROOT文件格式中“事例”和“对象”的表达及组合查询 利用冗余数据加速查询性能,如聚簇技术等 将聚合计算下推到
11、服务器端完成,如count、avg、sum、groupby、orderby等 优化索引的检索技术,如优化行键合并等淘宝网“数据魔方”产品支持百亿级记录的实时统计查询。基于HBase采用TCPV索引结构(Time Category-Property-Value)支持多属性组合式查询35/38面向面向ROOT格式格式文件文件的多维特征索引结构的多维特征索引结构 利用NoSQL数据库在结构和功能上的特点,在两级索引结构中引入倒排索引思想,支持多维特征组合的区间查询能力 在通过统计事例数据的访问频次,可以将高访频的事例数据以聚簇的方式直接存储在复合索引中,从而减少索引和事例数据文件之间的I/O开销36
12、/38分布式分布式NoSQL数据库服务端聚合查询与统计数据库服务端聚合查询与统计Region Server 1:Data StorageIndex+DataData Aggregation查询引擎服务器高能物理数据分析类应用HTTP协议Region Server 2:Data StorageIndex+DataData AggregationRegion Server 3:Data StorageIndex+DataData Aggregation查询请求结果返回查询结果缓存sumcountavgorderbygroupbyRegion Server N:Data StorageIndex+D
13、ataData Aggregation服务器端聚合计算算子 聚合计算下推可以消除查询引擎的瓶颈,有效降低查询延迟 利用局部性原理通过数据缓存的方式可以进一步提高查询性能37/38跨域的事例数据访问事例数据文件(PB-EB)事例索引(10亿-万亿)存储网关中心站点缓存服务事例访问接口CPUCPU远程站点广域网Streaming+Cache机制按需访问只传输感兴趣的事例38/38总结 高能物理是典型的数据驱动的科学发现应用,一切活动都围绕获取与分析数据 IT技术助力高能物理科学发现活动,同时高能物理也推动了IT技术的发展 高能物理领域建立了良好的合作组制度,有利于数据开放共享,同时存储、计算、分析、可视化等软件完全开源 Hadoop等大数据技术的应用将改变传统的数据分析模式 随着实验规模的不断扩大,数据处理面临巨大的挑战