1、探索性数据分析(2)探索式数据分析统计推理总体和样本建立模型概率分布探索式数据分析科学数据处理数据科学家的角色案例研究探索性数据分析 所谓探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。数据每天都在产生我们生活的世界是复杂的,随机的和不确定的。同时它又是一个生成大数据的机器。当我们通勤于地铁和出租车时,当我们的血液流经我们的身体时,当我们通过浏览器在因特网购物、发邮件、完成工作和看股票时,当我们行
2、动、饮食、与朋友谈话时,当工厂生产出产品时,所有这一切都在生成数据。1.统计推理一旦你持有了全部数据,你就某种程度上掌握了这个世界或抓住了世界的轨迹。但是你不可能在一个有几百万数据的大型Excel表或数据库上遍历,获取图形,理解现实和处理它所生成的数据。故你需要一个新的理念,去简化这些捕获的数据,使之更加容易理解,方法更加简洁,使得数据适合于建立数学模型和函数。这就是大家知道的统计方法。从现实到数据又从数据回到现实的全过程就叫统计推理。2.总体与样本总体是指某一事物的全体成员。它可以是任何对象,如推特、照片或星球的全体。如果我们可以测度这些对象的特征,我们就要有一个完整的观测集。通常用常数N来
3、表示对于总体的观测数量。总体中的N个单独个体就是样本。获取样本的过程叫采样。3.抽样 当我们抽样时,我们是抽取总体中的一个大小为N的子集,以便对总体进行推理和得出某种结论。从总体取得子集有各种不同的方法。你要确保合理的采样机制,因为它可能为数据带来偏差并扭曲结果。所以样本并不是总体收缩了的“小我”版本。一旦发生这种情况,你的所有结论都是错误的和歪曲了的。抽样案例研究 在BigCorp公司邮件的案例中,你可以制作一个全体雇员的表,然后从所有他们已发送的邮件中随机选择十分之一。这些邮件就是你的样本。你也可以每天从发送的邮件中随机抽取十分之一作为你的样本。两个方法都是有道理的,两方法也都抽取了同样样
4、本个数。但是如果你用得到的样本计算平均每个人发送的邮件个数和用样本来估算BigCorp公司每个雇员发送邮件数的概率分布,你也许会得到完全不同的答案。4.大数据时代的总体和样本 大数据时代我们无时不在地记录所有用户的行为,我们就可以观察所有的事物吗?还需要考虑总体和样本吗?上例中如果我们取得了所有的邮件,我们还需要抽样吗?大数据也需要抽样 在当前大数据的热门讨论中,人们主要聚焦于用Hadoop这样的企业解决方案来应对大数据引起的工程和计算挑战,忽略了抽样这一合理的解决方法。可是在Google公司软件工程师,数据科学家和统计学家一直在使用抽样方法。你需要多少数据取决于你的目标是什么。对于目标为分析
5、和推理来说没必要取得全部时间的全部数据。而在有的情况下,出于服务目的,为了取得正确的信息以润色一个用户界面时(可视化图形),对于特殊的用户就需要全部信息。案例研究:大数据隐含的偏见如果你在飓风桑迪之前和之后立即分析数据。你会认为大部分人在桑迪前在超市购物,桑迪后在举办派对。可是事实是大部分推特用户是纽约人,首先他们比海岸新泽西人用户多得多。其次是海岸新泽西人在担心他们的房子受损去找维护材料,他们没有时间去上推特。换言之,你使用推特的数据来理解的话你会认为飓风桑迪没有那么糟糕。你得出这样的结论是因为你采用了飓风桑迪的推特用户数据的一个子集(他们不能代表全体美国人)。缺席的人因为形势所迫没时间去上
6、推特。如果你没有结合实地情况和充分了解飓风桑迪,你将无法对结果做出正确的解释。5.样本与采样分布 在统计学中我们经常用数学模型来模拟总体与样本之间的关系。故我们总是要做一些能反应真实的简化了的假设。用过程产生的数据来建立数学模型和图形。我们只观察生成过程中特殊的一部分数据,这就叫样本。由这种采样产生的不确定性有个名字叫:采样分布。6.采样取得的新数据类型(传统:十进制数值,二进制)文本:电邮,推特,报刊文章记录:用户级数据,时间戳事件数据,格式化登录文件地理位置信息:网络数据传感器数据图像、视频数据对建立、实施和改进质量管理体系,以增强顾客满意为目标,定期进行管理评审以确保质量管理体系的持续适
7、宜性、充分性和有效性。郑重承诺如下:3、删除资料:从基础资料列表中选择一个准备删除的资料,然后单击【-】,再单击【保存】按钮,则相应的资料将被彻底删除。如果没有单击【保存】按钮而直接单击【退出】按钮,则放弃删除该基础资料的操作;2.1 本合同条款适用于招标邀请书中所述货物及服务的招标项目。3三分笑、期末账务处理的功能:包括月末结转损益;31.5 评标委员会将确定每份投标文件是否完整以及是否对招标文件的要求作出了实质性的响应,没有重大偏离或保留。重大偏离或保留是指:(1)合同货物的图纸、设计或技术规范;4、询标5.7按规定认真填写各项记录,做到资料齐全,数据准确,不得弄虚作假。(1)“合同”系指
8、买方和卖方签署的、合同格式中载明的买卖双方所达成的协议,包括所有的附件、附录和上述文件所提到的构成合同的所有文件。服务人员要注意手部的修饰和保养。手伸出来要干净、整洁,与人握手的时候力度和时间适中,握手要表达诚意和温暖。陪同参观和展示商品的时候手势要简练、准确。此外,还要充分研究客户心理,体现服务的内涵。建立服务价值观7.大数据的定义“大”是相对的。构造一个类似于1PB这样的阈值是没有意义的,它听起来太绝对。只有当数据的数据量大的成为一种挑战时才能称之为“大”。它是一个由于数据量大已经无法求解(内存,外存,复杂性,处理速度都无法满足)时的相对的术语。上世纪七十年代与现在的“大”意义完全不同。“
9、大”指你无法在一台计算机上调试它。不同的公司和个人有不同的适合于他们的计算资源。若作为一个科学家他不能把数据匹配到一个计算机上时就可称之为大,一旦发生它必须去学习新的工具和方法。8.大数据时代不再需要采样吗?有人认为大数据时代特征是:搜集和使用大量的数据而不是采集少量样本可承受数据的混乱放弃追究原因他们进一步认为大数据不需要理解原因,只要给定足够大数据就行了。他们还认为不需要担心采样错误,因为它从字面上讲是沿着真理的轨迹走的。因为在大数据研究中:令样本个数“N=ALL”。真的能做到“N=ALL?事实上是从来做不到。我们往往失去了我们最应该关心的东西。例如就像有人说的那样,因特网监督从来未实施过
10、。因为我们最想抓的非常聪明和技术精良的罪犯从来没有抓住过。因为他们总是先我们一步。大量例子中一个是选举夜间民意测验,即使我们绝对调查了每一个离开测验站的人,我们也任然没有把握谁会决定不来投票。对这些人我们本应该与之谈话使之了解投票意愿的。进一步说,我们关于N=ALL的假设是大数据时代最大的问题。上述案例中,人们不投票的原因包括没有时间,没有意愿和各种未说明的放弃投票的非正常原因。有些人可能做兼职工作并花费时间于通勤中,没有出现而使得统计投票时没有他们。9.数据不是客观的另外一个关于假定N=ALL的依据是数据是客观的。相信数据是客观的或“数据会说话”是完全错误的。而且要当心他们变换其他说法。你试
11、图比较一下以完全相同的资格招收的男雇员和女雇员。你会发现女雇员更容易毫无前兆的离职。与男性比较她们会对工作环境提出更多负面反馈意见。你的模型将在下次招聘时在同样条件下倾向于男性。而没有去检讨你的公司在对待女性方面存在的不足。N=1 对于N=ALL的一个极端说法是N=1。意思是样本的个数为1。在过去样本个数为1是很荒唐的事。你从一个单个的实体上无从做出任何推理。它是如此荒唐。但是N=1在大数据时代具有新的含义。对于一个人我们可以记录海量的信息。事实上,我们为了推理可能从他们的行为和事件上进行了采样(如电话,击键)。这就是用户级的模拟化。10.建立模型 人类用不同表达方式来试图理解他们周围的世界,
12、建筑物的体系属性通过蓝图和缩小的三维形式来表示。分子生物学家用三维可视化连接形式表示蛋白质的结构。数据科学家和统计学家则用代表数据的图形和结构的数学函数来描述数据生成过程中的不确定性和随机性。这种形式就是模型的概念。统计模型 在你进行编程以前最好勾画一张图来显示怎么来处理与你的模型相关的内容。思考一下应首先考虑那些因素?谁影响了谁?什么引起了什么?如何检验它们等?但是不同的人有不同的思维方式。有的人就喜欢用数学术语来表示这些关系。数学表达式一般会含有一些参数,但是参数的值是未知的。在数学表达式中常数用希腊字母表示,数据用拉丁字母表示。例如你有两个数据x和y,它们之间具有线性关系,可以记作y=+
13、x。不知道 和 的实际值。所以它们是参数。有的人喜欢首先用箭头画一个数据流图。显示事物间如如何相互影响和什么事多次发生。这在选择方程前给他们一个形象的图形理解。建模是一种艺术 你有什么诀窍可以生成数据模型吗?事实上建模一半是科学,一半是艺术。尽管建模是所有事情的关键,遗憾的是你在哪里也得不到多少指导。你必须假定许多现实的隐含结构。这也是模型工作的一部分。我们应该有一个标准答案告诉你们如何做出选择和解释,但是现在还没有一个公认的标准。我们只能深思熟虑并反复地去修改它。11.探索性数据分析(Exploratory Data Analysis)一个启动的好方法是做探索性数据分析(EDA)。这就意味着
14、对你的数据集通过绘图来建立直观感觉。EDA很有用,只要你不断尝试,出错和再尝试必有效果。最好的办法就是由浅入深,由简到繁。做你能想到的也许是最愚蠢的事,但它最终结果可能并不坏。比如你可以通过画直方图和散点图来开始观察数据。然后你就记下结果。也许结果会是错误的,但是这没有什么关系。接着按图形选择一个函数。写下来后你自己要仔细想:对这函数有什么感觉吗?为什么没有?将会有什么样的发展?一开始简单,逐步复杂化,做出假设并去验证。你可以使用发散的语句如“我假设我的用户自然地形成5个簇,因为我听到销售代表谈到他们时与五种不同类型人谈话。”。接着你就可以用你自己的话找出方程并开始编程。力求模型简单 记住从简
15、单开始总是好的。在模型的简单和精确之间有一个权衡。简单模型易于解释和理解。通常一个粗放的,简单的模型可达到你90%的目的且只花几个小时就可建立和匹配好。而作一个复杂的模型花几个月也就达到92%的目的。12.样本概率分布没有计算机的时代,科学家观察实际世界现象,对其进行检测,并且记下它频繁出现的数据的表现图形。经典的例子是人类的身高遵从正态分布,形状想一个锺的形状。也叫也叫哥西分布,这是由数学家高斯命名的。其他常用的形状在它们被观察到后都被命名(如普尔森分布和韦伯分布)。其他像伽马分布和指数分布由相应的数学对象而得名。一般是通过实验检测获取的形状来近似逼近于一个带有参数的数学函数。参数可以通过数
16、据来估计。正态分布26.3 投标截止时间之后投标人不得撤回投标,否则其投标保证金将按本须知20.6条的规定不予退还。成交候选供应商以本款第(三)项放弃成交的,应当说明理由,但其磋商保证金将被没收。21.2 本条款所述的“不可抗力”系指那些双方在签订合同时所不能预见的、不能避免并且不能克服的客观情况,但不包括双方的违约或疏忽。不可抗力事件包括但不限于:战争、严重火灾、洪水、台风、地震以及双方约定的其他事件等。按国家有关规定,必须参加由地方安全生产监督管理部门及其它具备培训考核资格部门或机构举办的安全生产培训,并经考核合格后,有安全生产监督管理部门或法律法规规定的有关主管部门颁发的安全资格证书,并
17、持证上岗。26.1 根据现行税法规定向买方征收的与本合同有关的一切税费均由买方负责。(六)5S活动推行的时机第十二条 本办法由机电集团团委负责解释。2服务礼仪师的教育训练从备受肯定、服务品质名扬金融业的玉山银行建立植根式服务文化的成功经验来看,全面落实满意服务品质的执行技术必须包括以下三项策略:领导重视、经营者主导;规划贴心的服务质量;定期进行服务质量的检测。8.3竞争性磋商响应人递交的响应文件为一式柒份,其中正本壹份,副本陆份。响应文件统一使用A4幅面的纸张印制,必须胶装成册并编码,其他方式装订的响应文件一概不予接受。强化员工的服务意识11.4 买方在卖方按合同规定交货或安装、调试后,无正当
18、理由而拖延接收、验收或拒绝接收、验收的,应承担由此而造成的卖方直接损失。第七条 推荐工作的要求正态分布函数其参数 是一个平均的中值,控制分布的中心(因为是对称分布)。参数 控制分布式如何展开。这是一般的函数形式。在特定的实际世界现象里。这些参数都有具体的数值。它们是通过数据估计来取得。随机变量x或 y可以指定一个概率分布p(x)。把x映射到一个正实数。为了使之成为一个概率密度函数,必须限制p(x)函数取值在曲线面积之下积分值.为1,则可解释为概率。一些常见的概率分布13.模型匹配匹配意味着使用观测到的数据来估计模型的参数。你用你的数据为证据来近似实际数学处理并产生数据。匹配模型经常涉及到优选法
19、和算法。像最大似然法之类就可帮助取得参数。事实上,在你估计参数的时候它就是个估算器,意思是说它本身就是数据的函数。模型匹配好后你可以写成y=7.2+4.5x的样子。例子中告诉你两个变量之间的关系,根据你的假定,它们是一种线性模式。匹配好模型是在你开始编程的前提,你的程序将要读入数据,你要指定你在选择的函数。R或者Python语言将使用内置的优化方法给出相应数据最好的参数值。错误匹配你会被反复提醒关于错误匹配的问题,这个问题这会成为你的梦魇。过度匹配是一个术语,用来指你用一个数据集来估计你的模型,但是你采集的样本并不适合于你的模型。14.探索性数据分析(EDA)方法EDA 的基本工具是画图和综合
20、统计学。一般讲,它是研究数据的系统化方法。画出变量的分布(直方图),画出数据的时间序列,变换变量,使用矩阵研究变量间的关系,生成综合条件结果。很少去计算平均值,最小最大值等。EDA需要的工具也很多,你想要理解数据。理解它的形状,根据你的理解去处理数据。EDA是你分析数据的工具。它不能证明任何事情。15.EDA的作用 凡是做数据分析的人都要先做EDA的主要理由是为了得到数据的灵感。为了做分布函数的比较,为了审验数据(确保数据达到你期望的规模,符合你要的格式),去发现数据丢失,数据超界和总结数据的特征。数据是由日志生成的。EDA也可帮助调试处理。例如数据的模式在登录时可能是错误的需要修改。如果你不
21、调试纠正问题,你将会认为的模式是真实的。我们一起工作的工程师在这些方面总会对你很有帮助。最后要说,EDA帮助你确保产品符合最初的要求。16、EDA与可视化的区别 尽管EDA牵扯到许多可视化需求。我们还是要区别一下EDA与可视化有什么不同。EDA是在数据分析之前,而可视化用于我们的结果,是在数据分析之后。对于EDA来说图形只是为了帮助你理解。EDA也可用来改进我们的算法。比如你想开发一个矩阵算法,你可以把内容展示给用户,这样做是为了开发出一个广受欢迎的产品出来。在你决定吸引眼球之前(例如最高的点击率,收到大量的评论,评论超过阈值,提高平均权重)。最好的办法是观察数据的行为并动手去实践。画一下图并
22、进行比较使得你走的更远。赛过你得到数据后以为你了解而立即进行回归计算。对于分析员和科学家来说,没有经过EDA阶段就处理数据是一个伤害。要抓住机会使之成为处理的一部分。17.数据科学处理清洗数据我们先从原始日志数据开始,奥林匹克记录,雇员邮件,或被记录的一般材料(当我们占据原始数据的时候,许多活动数据已缺失了)。为了分析用首先要清洗数据:合并,清除,填补或其他行为。为了做这件事我们要使用工具像Python,Shell Scrapt,R或SQL,或者都用。逐渐我们的数据得到了好的格式,就像下面的列:Name|event|year|gender|event time 这是一个典型的统计学开端。得到一
23、个干净、有序的数据集。但是真实世界可没有这么典型。EDA我们有了干净的数据集就可以开始EDA了。在EDA的课程中我们知道数据不会那么干净,由于丢失、重复、错误和数据没有正确的记录。如果这样只能回去再采集更多的数据或花更多时间去清洗。数据挖掘接着使用某个算法像k-近邻法(k-NN),线性回归,贝叶斯等等来设计我们的模型。模型的选择根据我们要解决问题的类型。当然它可能是一个分类问题,预测问题或基本标识问题。数据产品下面我们可以解释、报告、或传输我们的结果。我们用报告的形式交给老板或合作者手里。可以在杂志上发表或在大会上作学术报告。同时我们的成果可能成为一个“数据产品”的原型。例如一个邮件垃圾分类器
24、,一个搜索算法或一个推送系统。与统计学的不同点在于数据产品又回馈给了真实世界。用户与产品交互又产生更多的数据,形成一个反馈循环。通过循环你可以调整任何分析中你的模型引起的问题。你的模型不仅可以预测未来,还可以影响未来。产品化的数据产品与用户的交互在一端而事实在另一端,不能认为你使用的数据产品是万能的。公共政策由统计模型确定,健康保险、选举调查会受到广泛的影响。你应该观察和理解变化的现象,扩展模型去适应之。18.数据科学家的角色7、报价主动向党组织递交了入党申请书的 35 岁以下的团员青年。基层宣传员的监控。7、培训要求台湾银行性质属于公营银行,有7200多名员工。为了提高竞争力,台湾银行决定改
25、制成股份制。那么,如何帮助这个企业进行培训咨询呢?在整个培训流程中,首先要让经理接受相应的观念,让经理痛下决心,在所有的市场、所有的支库和支行都要做好自己的服务;支行的经理形成这样的观点后,再进行行销师资的培训,接受这一级别培训的约有四五十人,最后再对全体普通员工进行培训,这样就自上而下地逐渐建立了服务观念。第一条 推荐优秀青年作为党的发展对象(简称“推优入党”)是党赋予共青团组织的一项光荣任务,是共青团发挥党的助手和后备军作用的有力体现。为更好的发挥团组织的推优荐才作用,不断为党组织输送新鲜血液,根据中国共产主义青年团章程有关规定,按照“党建带团建”的工作要求,制定本办法。10.2 采购人应
26、当在收到评审报告后5个工作日内,从评审报告提出的成交候选人中,按照排序从高到低的原则确定成交供应商。公司同样是注重服务品质的典范。服务做得好才会得到顾客支持,企业才有未来,才能活在明天,永远充满希望。如何使每个员工都产生这样的服务意识,提高其工作绩效呢?这就需要经过一个觉醒阶段,此时体现的就是培训的作用。19.3 卖方在本合同项下的未尽责任和义务不能因为卖方向买方支付了本合同第18条所规定的赔偿费而被免除。1情景体验的方法数据科学家的工作 可以认为数据科学处理是作为一种科学方法与现实的结合。分几个阶段实施:提问做背景研究构造假设通过实验验证假设分析数据和做出去结论1.发布结果 19.建模的三个
27、主要算法线性回归k-NN(k近邻算法)k-平均算法20.EDA案例一某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。要求建立灯泡燃烧寿命数学模型。200个灯泡寿命数据:Histogram of xxFrequency40608010012001020304050601.直方图 hist(x)Histogram of xxFrequency406080100120051015202530hist(x,breaks=15)Histogram of xxDensity4060801001200.0000.0050.0100.0150.0200.0250.0
28、30绘出直方图和密度估计曲线和正态分布的概率密度曲线 hist(x,freq=FALSE)lines(density(x),col=blue)w lines(w,dnorm(w,mean(x),sd(x),col=red)4060801001200.00.20.40.60.81.0ecdf(x)xFn(x)绘出200个灯泡使用时间的经验分布图和相应的正态分布图 plot(ecdf(x),verticals=TRUE,do.p=FALSE)w lines(w,pnorm(w,mean(x),sd(x)-3-2-101236080100Normal Q-Q PlotTheoretical Quan
29、tilesSample Quantiles画出数据的正态QQ图和正态QQ曲线,判断样本是否来自正态总体qqnorm(x);qqline(x)因此,根据Q-Q图可以得出数据呈正态分布的结论 EDA案例二 为了对全球经济的发展趋势和世界顶级公司的经营状况做一些研究,可以从公共网站上下载数据,用软件JMP略作整理之后可以得到如表一所示的数据表,其中包含了上榜公司的名称、所属行业、所属国家、上榜年份、上榜排名、市场价值、资产额、销售额、利润额等9个变量,总计14000条记录(每年2000条,从2004年至2010年共7个年度)。表一:画出泡泡图:泡大小表示利润。中企:其他EDA案例假如对一组2人的饮酒
30、者所饮酒类进行调查,把饮酒者按红酒(1)、白酒(2)、黄酒(3)、啤酒(4)、分成四类。调查数据如下:3,4,1,1,3,4,3,3,1,3,2,1,2,1,2,3,2,3,1,1,1,1,4,3,1。用拼图分析如下:drink=c(3,4,1,1,3,4,3,3,1,3,2,1,2,1,2,3,2,3,1,1,1,1,4,3,1)drink.count=table(drink)#y数据分组后赋值给drinks.count。names(drink.count)=c(红酒,白酒,黄酒,啤酒)pie(drink.count,col=c(purple,green,cyan,white)pie(dri
31、nk.count)19852001年我国财政收入(y,百亿元)和税收(x,百亿元)数据,用散点图分析税收和财政收入之间的关系。plot(x,y)#作x,y变量的散点图abline(lm(yx)#增添趋势线可以用 boxplot()函数做出箱线图,即两样本的均值检验,考察两样本的均值是否相同。实验组:5,5,13,7,11,11,9,8,9对照组:11,8,4,5,9,5,10,5,4,10 x=c(5,5,13,7,11,11,9,8,9)y=c(11,8,4,5,9,5,10,5,4,10)boxplot(x,y,names=c(实验组,对照组),col=c(2,3)结果如图6所示,可以看出实验组的均值要大于对照组的均值,且两组都是偏态分布,实验组左偏,对照组右偏。为考察学生的学习情况,学校随机抽取12名学生的5门课期末考 试 成 绩,数 据 存 在 文 件course.data。调用stars()函数绘制星象图:X=read.table(“course.data”)stars(X,full=T,draw.segments=T,key.loc=c(5,1)