基础全面天文学中的数据挖掘课件.pptx

上传人(卖家):晟晟文业 文档编号:4114741 上传时间:2022-11-11 格式:PPTX 页数:49 大小:7.23MB
下载 相关 举报
基础全面天文学中的数据挖掘课件.pptx_第1页
第1页 / 共49页
基础全面天文学中的数据挖掘课件.pptx_第2页
第2页 / 共49页
基础全面天文学中的数据挖掘课件.pptx_第3页
第3页 / 共49页
基础全面天文学中的数据挖掘课件.pptx_第4页
第4页 / 共49页
基础全面天文学中的数据挖掘课件.pptx_第5页
第5页 / 共49页
点击查看更多>>
资源描述

1、基础全面天文学中的数据挖基础全面天文学中的数据挖掘掘概要必要性概念技术问题展望天文学、天体物理学、天文统计学、天文学信息学天文学是研究宇宙空间天体、宇宙的结构和发展的学科。内容包括天体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射,发现并测量它们的位置、探索它们的运动规律、研究它们的物理性质、化学组成、内部结构、能量来源及其演化规律。天文学是一门古老的科学,自有人类文明史以来,天文学就有重要的地位。天体物理学是研究宇宙的物理学,这包括星体的物理性质(光度、密度、温度、化学成分等等)和星体与星体彼此之间的相互作用。应用物理理论与方法,天文物理学探讨恒星结构、恒星演化、太阳系的起源和许

2、多跟宇宙学相关的问题。天文统计学是用统计学的知识来解决天文问题.天文信息学是用信息技术来解决天文学所面临的各种大数据问题天文信息学是用信息技术来解决天文学所面临的各种大数据问题.Astronomy facing“data avalanche”IRAS 25m 2MASS 2m DSS Optical IRAS 100m WENSS 92cmNVSS 20cm GB 6cm ROSAT keVNecessity Is the Mother of InventionDM&KDD大数据-巨信息量-全波段天文时代大型巡天导致天文学步入一个新的时代大多数数据大的人们无法看这就需要存储技术、网络技术、数据

3、库相关技术和标准等许多知识被数据的复杂性所掩盖而难以获得大多(不是所有的)经验关系是建立在3维参数空间基础上的,如椭圆和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?大部分数据人们是无法直接理解的这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、人工智能/机器帮助的发现数据挖掘是帮助和加速科学发现过程的利器 大数据 机器学习 可视化 云服务Credit:Tony Hey天文数据的特点空间性非线性异构性缺值性或坏标记分布性开放性海量数据NVO(IVOA)注册的数据资源有14,000一些大型的天文数据库包括NASA空间天文项目已经完成或正在进行的大型天文巡天项目,如:MACHO 和相

4、关的暗物质巡天:1 TB DPOSS:3 TB 2MASS:10 TB GALEX:30 TB SDSS:40 TB将来的巨型巡天项目,如:PanSTARRS:每晚 10 TB,,预计最终40 PB SKA:2020年中期运行,每天约0.5-10PBLSST(Large Synoptic Survey Telescope):2020开始运行,with 3-Gigapixel camera 每30秒10 GB 每晚 30 TB,持续十年 预计最终的图像数据100 PB 预计最终的星表数据30 PB 每三晚巡全天一次:制作天体的电影数据的大小和增长速度都在持续增长人类基因序列由约三十亿个碱基对组成

5、。存储要求:约750兆15亿个传感器每秒传输四千万次数据流:约每秒700MB,约每天15PB来自来自34个国家的个国家的1000名科学名科学家参与该家参与该项目项目成千上万的小型天线阵分布在三千多米范围内数据流:约每秒60GB,一天一百万PBSKA超级计算机约1亿台,每秒要执行1018次操作天文数据的常用类型时序数据星系的图像和光谱、恒星和气体的光谱早型星晚型星气体气体星系天文学:数据驱动的科学天文学:是发现驱动的科学是发现驱动的科学 驱动发现的因素:新问题 新的思想 新模型 新理论 更重要的是新数据更重要的是新数据!天文学:是发现驱动的科学 发现导致:新的问题 新思想 新模型 新理论 更重要

6、的是.更多的新数据!因此,需要更有效的挖掘和分析算法或工具天文学家一直在从事数据挖掘“The data are mine,andyou cant have them!”严格意义上讲.天文学家喜欢对事物进行分类.(监督学习.如,分类分类)天文学家喜欢对事物归类.(非监督学习.如,聚类聚类)天文学家更希望发现新的天体或现象.(半监督学习.如,离群探测离群探测)天文中的数据挖掘课题过去过去:100100到到10001000个独立的分布的异构数据个独立的分布的异构数据/元数据元数据/信息库信息库.目前目前:天文数据可以从融合的分布资源中获得,如虚天文数据可以从融合的分布资源中获得,如虚拟天文台拟天文台

7、.将来将来:随着大型巡天项目的发展,天文学在未来将越随着大型巡天项目的发展,天文学在未来将越来越成为数据密集型的科学来越成为数据密集型的科学.挑战挑战:越来越难于将数据传输到用户越来越难于将数据传输到用户 算法移植到数据!天文学研究的转变科学研究的四个阶段第一范式实验或测量第二范式理论分析第三范式数值模拟第四范式数据密集型的科学Data Fusion+DM+ML数据驱动到数据密集天文学一直以来就是数据驱动的科学现在成为数据密集型的科学:天文信息学(Astroinformatics)!面向数据的天文学研究=“第四范式”科学知识发现第四范式:数据密集型的科学发现Scientific Knowled

8、ge!大数据集的优点:很好地统计分析典型或特殊事件 自动搜寻稀有事件数据量科学是数据密集型的大数据五“V”特点:Volume (数据量)Variety(多样性)Value (价值密度低)Velocity(速度快时效高)Veracity(真实性)超大型数据集 数据迁移代价高 学科标准 高效计算的需求 超算、HPC、网格如:高能物理、天文学大型数据集学科内标准共享数据中心合作研究如:基因组学、金融中型或小型数据集普通文档、EXEl广泛应用的各类数据、标准少本地服务器或计算机如:社会科学、人文科学研究人员数目数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们

9、事先不知道的、但又是潜在有用的信息和知识的过程。在天文学中,从海量天文数据中发现稀有或未知类型天体或天文现象。数据挖据的定义数据挖掘:知识发现的过程数据挖掘知识发现过程的核心课题定义数据预处理特征抽取/选择数据挖掘模型选择实验结果的解释预评估模式评估数据挖掘整个过程是不断重复和互动的,为的是获得更优的模型和更好的参数 组 合,速度 计算能力 专家知识有效的数据挖掘分解图知识库的语义创建模型和算法星表和元数据知识数据(存储)透明的计算架构(网格、云、人工神经网络人工神经网络支持矢量机支持矢量机决策树决策树遗传算法遗传算法近邻算法近邻算法规则推导规则推导粗糙集粗糙集数据挖掘的常用技术数据总结分类分

10、析聚类分析回归分析关联规则分析序列模式分析依赖关系分析偏差分析模式分析或统计分析时序数据分析其它数据挖掘的任务分类分析(known knowns)定义按照某种规则,新的数据被划分到已知类别中的一类。这个规则是通过具有标签的数据进行监督学习获得的。应用恒星分成不同的光谱型,星系按哈勃或形态分类,活动星系核进一步细分,等等方法神经网络决策树Nave Bayesian Networks支持矢量机学习矢量量化遗传算法.分类器可以沿几个正交的轴来训练,探索所有的维数比较困难不同的任务需要不同的分类器来实现.采用何种分类器?分类算法决策树,OC1神经网络最近邻规则或其他算法观测参量流量,位置,色参数,变化

11、参量,空间扩展,训练样本WGACAT,ROSAT AllSky Survey,.X射线,可见光,红外,.分类粗分:恒星 vs.河外天体细分:A0 vs.B0,AGN vs.QSO vs.星系聚类分析(uknown uknowns)定义:按照某种规律聚在一起的称为一类。所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。应用:SDSS的双色图恒星聚在一块 如香蕉状,类星体则偏离该区域。方法:K均值聚类Hierarchical clustering预期最大算法(Expectation Maximization algorithm)高斯混合模型(Gaus

12、sian mixture modeling)主成分分析优越性新的概念(Concept discovery)点滴知识(Bootstrapping knowledge)聚类分析回归分析(known uknowns)定义将一个连续应变量建模为一个或多个预测元的函数。这个规则是通过具有标签的数据进行监督学习获得的。应用恒星物理参数(Teff、g、Fe/H)的测量,星系和类星体的测光红移,等等方法神经网络决策树kNN支持矢量机核回归.N 10 ,如何有效地排序、分类?基本的天文问题 1聚类问题:在数据集中查找聚类的天体统计意义和科学意义上各个类别的重要性是什么?找“朋友的朋友”或近邻的最优算法?10 维

13、数 1000 因此,若干子空间搜索问题是否存在两点或更高阶的相关性?N 1010,N-point 相关怎么做?与N2logN成正比的算法显然不能用基本的天文问题 2离群探测:(未知的未知)找到那些超出我们预期的天体或事件(不属于已知类别)这些有可能是真正的科学发现或垃圾 因此,离群探测可用于:新奇发现 Nobel prize?异常探测 探测系统是否正常工作?数据质量保证 数据流是否正常工作?在1000维空间中或感兴趣的子空间(低维空间)中,如何最优化地探测到离群?怎样衡量“兴趣度”?降维问题:寻找相关性和参数的基平面维数成千上万 维灾!参数之间的相关性?线性或 非线性混合?本征值或紧致表示是否

14、可以 代表整个数据集的性质?基本的天文问题 3基本的天文问题 4叠加和分解问题:在参数空间中重叠的天体找出它们的所属类别假设1010 天体在1000维空间中重叠怎么办?如何最优地分解和抽取不同类型的天体?一些约束条件如何应用?最优化问题:在高维参数空间中如何找到复杂的多变量函数的最优解(最佳拟合、全局最大似然)基本的天文问题 5“JustChecking”为什么需要分布的数据挖掘?由于 许多重大的科学发现产生于多数据源的交叉证认:-类星体-Gamma-ray bursts-极亮红外星系-X射线黑洞双星-射电星系.天文数据的分布性不同的人、研究所、项目、国家、机构,数据的异构性(如,数据库,图像

15、,星表,文件 系统,网页,文档数据图书馆,二进制,文本,结构的,非结构的,)天文学家要查询和挖掘这些数据需要进行 两步操作 尽管虚拟天文台驱动数据发现和融合,但是 仍然不能有助于大型数据挖掘的开展分布的数据挖掘分布的数据挖掘有两种类型:1.分布的挖掘数据2.挖掘分布的数据第一类要求复杂的算法移植到数据第二类多种形式,数据整体存放或分割上集中,或者数据分布存放在不同的地方实践数据挖掘线性或非线性 高斯或非高斯 连续或离散 是否存在缺值 对比特征和样本数 按照数据挖据的任务和特征,选择合适的数据挖掘算法未来天文数据的挑战统计、计算和挖掘方法用于peta-和 exa-量级的可扩张性在海量多维数据空间

16、中同时多点拟合的算法优化用于探索PB 级数据的紧致表示的多分辨率、多级、分形、分级方法和结构PB 量级数据的可视化分析(包括特征探测,模型和有趣事件或天体的发现,相关关系、聚类,新类型天体的 发 现,降 维)高维 PB 级数据的索引和联合存储技巧(树、图、网络拓扑)PB 级数据库的快速查询和搜索方法主要挑战知识发现工具可用性、可扩展性、互动的数据挖掘+可视化机器学习/人工智能和人机交互的发现社区的认知和职业规划改变科学届/学术届的文化奖励和认可机制超高维数据空间的可视化优化人类感知和理解可视化的数据探索和发现出版和合作的新形式超出论文的范畴;较好的合作工具培养新一代的科学家更好地使用在线的学习

17、工具和方法最为成功的巡天项目SDSS发表 SCI论文 5600余篇SDSS的主要科学发现发现红移高于6的类星体褐矮星引力透镜银河系的子结构小的低表面亮度星系超高速星重子声波振荡小行星家族http:/ 球状星团搜寻多波段测光暂源分类 天文图像分割http:/ Analysis for the Virtual ObservatoryVOStat项目通过网页服务为天文学家提供了一套工具。天文学家可以按照需要调用简单的或复杂的程序来实现自己的任务。这套工具是基于大的开源的统计计算语言和环境 R 开发的。所有的统计计算在VOStat 的服务器端进行,算完后再传给用户。天文会议或组织ADASSADSSummer School in Statistics for AstronomersStatistical Challenges in Modern AstronomyAstroinformaticsAstrostatisticsAstrostatistics and Astroinformatics PortalASAIP:https:/asaip.psu.edu

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(基础全面天文学中的数据挖掘课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|