《数据新闻概论》课件第三章.pptx_163文库

资源描述

1、查询和获取公开发表的数据第三章理解数据新闻中的“数据”第一节 “数据也会传递给我们大量的信息。一个数据点包含时间、地点、人物、事件、起因等因素，因此很容易让一个数字不再只是沧海一粟。”美邱南森：数据之美一本书学会可视化设计一、信息：“数据”之源从事数据新闻业务的媒体从业者需要拓宽思路，理解“数据”不仅仅是一份表格记录，其源头来自背后庞大的“信息”。（一）广义的信息类型类型口语信息口语信息体语信息体语信息实物信息实物信息文献信息文献信息存在方式交谈、授课、讨论等手势、表情、姿态等文物、产品样本、模型、碑刻、雕塑等实物形式存在文字、图形、符号、音频、视频等方式记录在各种载体上特点传递快、互动性强

2、，但稍纵即逝、久传易出差异直观性强、生动丰富、印象深刻、富有感染力直观性强、感觉实在、信息量大，但需要通过知识、智慧、经验和工具挖掘大量隐含的信息经过加工、整理，较为系统、准确、可靠，便于保存与利用，但也存在部分信息相对滞后，尚待证实的情况一、信息：“数据”之源（二）不同内容的信息分类按照不同的发布特征和内容特点，可将信息细分为学术研究信息、新闻报道信息、技术专利信息、档案文献信息、行政公告信息、企业行业信息等六大类。(参见邓发云的信息检索与利用一书p18p22)学术学术研究信息研究信息指用来了解某一专业领域或话题的专门文献信息。其包括三个部分：其一是提供系统知识的教科书、专著书籍;其二是高

3、校与科研机构提供的对专业领域进行深入研究的论文、科研报告；其三是便于对专业信息进行检索的辞典、百科全书、年鉴、手册等工具书提供的信息。新闻新闻报道信息报道信息指报纸、期刊、广播、电视、网站等媒体公开发表的提供事实性信息和观点性信息的文献信息。获取新闻报道信息既能找到最新发生的事件及涉事人物的记录，还能找到事件或人物的相关历史信息。案例：从新闻报道中发现规律金正恩露面的学问 2014年9月开始，朝鲜最高领导人金正恩在镜头前突然神秘“失踪”40天，引发了国内外诸多媒体的关注。新京报通过梳理2013年以来韩国统一部、新华社、中新网和韩联社等媒体对金正恩露面新闻的公开报道，总结了金正恩露面的规律，并于

4、2014年10月14日在“新图纸”栏目中推出金正恩露面的学问的图片报道（见右图）。（相关报道见新京报网页：http:/ 报道中将金正恩露面的学问分为“露面场所”、“露面方式”、“露面时间”三个版块进行解读。在“露面场所”版块，该报道通过对报道信息的分析指出，金正恩自2013年开始频繁出现在工厂/农场、军事场所、在建/新建场所、文化娱乐场所等地，并将这些场所中金正恩具体出现过的地名都标注在图中。报道还统计了2013年上半年及68月金正恩所有露面场所的频次，发现金正恩较频繁地在军方活动、经济活动和社会文化活动这三项活动中露面。在“露面方式”板块，金正恩的每次露面都衣着简单，无论是发型、服装、常用的

5、配件，甚至身边人员的表现，其形式都较为固定。报道同时指出金正恩在最近的露面中开始使用拐杖，这也呼应了媒体对于金正恩罹患腿疾的猜测。在“露面时间”版块，报道指出根据以往的经验，金正恩会不定期“失踪”，无论是2014年68月期间还是2012年以来，其均有多次从媒体报道中“失踪”的经历。报道还将此次金正恩“失踪”期间以致电、发信函等形式的露面做了统计。在这则报道中，新京报的编辑敏锐地意识到朝鲜最高领导人“失踪”话题的新闻价值，采用逆向思维方法，对其“露面学问”进行报道，从“露面”反观“失踪”，给读者以更为丰富的信息量。这则报道说明当媒体对已有的新闻报道善加利用时，也能从中找出具有新闻价值的数据，并将

6、之转化为有趣的报道。一、信息：“数据”之源（二）不同内容的信息分类技术技术专利信息专利信息包括两个部分：其一是技术标准、技术规格和技术规则文献提供的信息，它们是记录人们从事科学实验、工程设计、生产建设、商品流通、技术转让和组织管理时共同遵守的技术文件；其二是专利信息，是实行专利的国家、地区及国际专利组织在审批专利过程中产生的官方文件和出版物。档案档案文献信息文献信息指各级政府机构、企事业单位和个人在实践工作中形成的立卷归档、集中保管、有历史价值的文字、图表、音像等形态的原始资料。行政行政公告信息公告信息主要指各国政府部门及其设立的专门机构发表、出版的行政性文件，如法律法规、方针政策、会议决议

7、、统计资料等。一般各国政府部门都设有专门的网站发布此类信息，人们可以登录这类网站免费下载相关文件。企业企业行业信息行业信息指企业发布的公司介绍、产品目录、样本、说明书等。它们或提供丰富的产品、企业和行业信息，或是商家常用的促销方式，或是商家针对自己的产品提供的调查信息。案例：综合多个信息源的数据论证“中国男人到底丑不丑？”2014年，互联网中一则“中国男人配不上中国女人”的帖子引发网民围观，由此引发了一场关于“中国男人长得丑不丑”的争论。壹读杂志为此于当年8月推出封面故事为毛说中国男人丑(见图36)。封面故事中的重头文章是一篇名为中国男人到底丑不丑的报道。文章开宗明义，“用数据告诉你，中国男人

8、到底丑在哪儿”，其后分别从“中国男人的面相完美诠释了什么不立体”、“中国男人的身材富态”、“抽烟、龋齿、近视和脱发，中国男人无动于衷”、“在穿衣打扮上，男士们一点也不上心”这四个方面展开，引用了大量数据论证中国男性丑的观点。下面罗列在这期报道中所引用的各类信息源的数据：学术研究信息学术研究信息中的数据（1）2007年，罗杰鲍尔和香港理工大学的研究人员在全国六省市搜集了超过2 000名中国人头形和脸形的三维数据研究。研究显示，中国男性的头围更小，但正面宽度也就是脸，比例却偏大。中国男性面部的长宽比约为10.86，比西方人的10.74明显更宽，因此才会给人脸又大又圆的印象。（2）2009年，华中科

9、技大学和四川大学共同完成了一次汉族人面部特征调查，他们测量了3 000名汉族人的身体数据，然后与美国数据进行对比。研究发现与美国男性相比，中国男性的脸更宽、更短，嘴更大，鼻子更“塌”。案例：综合多个信息源的数据论证“中国男人到底丑不丑？”新闻报道信息新闻报道信息中的数据（1）2013年“世界防治肥胖日”时，北京某健康论坛中一家商业公司发布的调查报告指出中国男性的超重肥胖率在十年中赶超了女性。至2012年，中青年男性超重肥胖率达48.8%，约为女性超重肥胖率的1.6倍。（2）调查显示，70%的日本男性认为修饰外表非常重要，中国男性中有2/3吸烟，平均每人有1.14颗龋齿，但他们只会修补治疗其中的

10、0.79颗。近视率高于40%。技术技术专利信息专利信息中的数据中国成年人人体尺寸提供的是标准数据，是根据人类工学要求提供的我国成年人人体尺寸的基础数值。文中引用其中的数据与日、美相关数据做比较，论证在相同身高条件下，中国男性的肩膀比日本男性窄2厘米，比美国男性窄3厘米以上。行政公告信息行政公告信息中的数据国家体育总局通过对全国近46万人的体质监测得到的数据显示，2529岁青年平均腰围接近82厘米，男性腰围随着年龄增长，40岁以上男性的平均腰围超过85厘米。企业行业信息企业行业信息中的数据富态：腰围改变中国（浙江大学出版社，2012），文中引用该书作者提供的一组服装行业的数据：1985年中国城市

11、男性平均腰围只有63.5厘米，到2012年已接近76.2厘米。案例：综合多个信息源的数据论证“中国男人到底丑不丑？”毋庸讳言，对于这样一个足够吸引眼球又极易引发争议的新闻选题，在实践操作中采用数据新闻的形式未尝不是一种可行的思路。这篇报道旁征博引，综合了不同种类的数据来论证话题中的判断。虽然这篇报道依然采用传统的叙事方式写作，但由于四个分章的逻辑较为清晰，从面相、身材到生活习惯和穿衣打扮无所不及，且在每个部分都能找到多种类的数据做支撑，使读者始终处于信息量丰富的阅读感受中，而不会感到索然无味。当然，报道亦有细微的缺憾，如在一些数据的引用上，未对数据来源做清晰交代，这多少会影响到部分内容的可信度

12、，是做数据报道应该避免之处。（相关报道详见壹读杂志2014年第15期封面故事。)二、从数据存储形式看“模拟数据”和“数字数据”按照数据的载体形式和存储形式来划分数据的类型，数据可分为模拟数据和数字数据这两大类。模拟数据模拟数据也被称为“模拟量”，指的是取值范围是连续的变量或者数值，例如声音、图像、温度、压力等。模拟数据一般采用模拟信号，用一些连续变化的信号来表示。模拟数据实际上是需要具象实体作为载体的数据，它包括刻写数据、印刷数据、缩微数据、早期音像数据等。数字数据数字数据是指取值范围是离散的变量或者数值，数字数据采用数字信号表示，其与模拟信号不同。数字信号不需要用连续变化的信号来表示，而是以

13、有限的“0”和“1”的代码来表示信息的某一个字符。相比模拟数据，数字数据便于被计算机读取和分析，是数据新闻处理的数据的主体。二、从数据存储形式看“模拟数据”和“数字数据”虽然在全球，数字数据已经逐步成为构成数据世界的主体，但是不可否认的是，我国的信息产业发展相比西方发达国家还存在一定的差距，仍有相当比重的数据是以模拟数据的形式存在的。以以报纸报道为例，在全国所有的报纸媒体中，只有人民日报社建立了完备的数字数据库，该报报纸报道为例，在全国所有的报纸媒体中，只有人民日报社建立了完备的数字数据库，该报19491949年年以来的所有报道文字都以数字数据的形式存储于数据库中，只要在购买了该数据库的电脑上

14、查询便以来的所有报道文字都以数字数据的形式存储于数据库中，只要在购买了该数据库的电脑上查询便可调出相应的数据进行分析。可调出相应的数据进行分析。与之相比，仍有许多媒体没有对自己的历史报道进行数字化，导致在从事相关话题的研究和报道时只能靠翻阅报纸、查看缩微文献这些缺乏效率的模式去找寻早期资料。虽然近年来受市场的强烈冲击，越来越多媒体开始投身于数字出版行业，但是许多媒体用数字化解决的是当下的信息数据问题，而非早期的报道数据化。媒体尚且如此，其他机构的信息数字化工作还有更漫长的路要走。有人认为媒体应该将已有的报道进行数字化，使之成为数字数据，以便于开展数据报道，你赞同这个观点吗？三、从信息科学角度看

15、“属性”和“数据集”在信息科学领域，数据集（datasets）是由数据组成的集合，而数据则是由属性(即统计学中的“变量”）来描述的。(一）属性属性（attribute）是对象的性质或特性，它因对象而异，或随着时间而变化。根据对应于属性基本性质的数值的性质区别，学者将属性划分为四种类型：标称（nominal）、序数（ordinal）、区间（interval）、比率（ratio）。其中标称和序数属性被视为分类的或定性的属性，这类属性即使以数字的形式标注，也应该将其中的数字视为符号对待。而区间和比率属性则是数值的或定量的属性，这类属性用数字表示，可以将之视为数值对待。三、从信息科学角度看“属性”和

16、“数据集”属性属性描述描述例子例子操作操作分类的（定性的）标称标称属性的值仅仅只是不同的名字，即标称值只提供足够的信息以区分对象（=，）邮政编码、雇员ID、眼球颜色、性别众数、熵、列联相关、卡方检验序数序数属性的值提供足够的信息确定对象的序（）矿石硬度、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验数值的（定量的）区间对于区间属性，值之间的差是有意义的，即存在测量单位（+，-）日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t或F检验比率对于比率变量，差和比率都是有意义的（*，/）绝对温度、货币量、计数、年龄、质量、长度、电流几何评价、调和评价、百分比变差不同的属性类型三、从信息科学

17、角度看“属性”和“数据集”(二）数据集作为数据的集合，常见的数据集包括记录数据、基于图形的数据和有序的数据。在实际生活中，我们最常接触的是记录数据记录数据，这类数据集多以表格文件的形式存在，数据即为文件中的记录，而每个记录都对应固定的字段（属性）。有时数据集未必都以表格文件的形式存在，比如图形有时更便于展现数据对象之间的联系，因而就出现了基于图形的数据基于图形的数据。比如一些数据对象本身具有数据结构，那么以图形的方式来表示这类数据更有效率。如诸多化合物的结构都以图形的方式表示，而以研究一组行动者的关系为目标的社会网络分析通过对行动者的海量数据的抓取和分析以图形的方式展示其关系模式。此外，还有

18、一类数据，其属性具有涉及时间或空间序的联系，这类数据集被称为有序的数据有序的数据。如我们所熟知的基因组序列数据，标注股票价格变化走势的金融数据集，记录二维或三维空间点上测量数值的地理科学数据集都属于此类数据集。查询和获取公开发表数据的方法第二节一、通过网络在线搜索获取通过以下途径可以快速从网站中获取一些基本信息：（1）从“关于我们”（about us）或“简介”中了解网站创建和发展的背景及其定位。（2）从“站点地图”（sitemap）或“网站导航”中了解网站的整体布局，以及频道和栏目的分类。（3）通过频道、栏目浏览和站内搜索了解网站的基本内容。（4）通过“友情链接”或“相关链接”了解定位相

19、类似的其他网站。（5）通过“联系我们”了解网站编辑的联系方式。（6）查看网站首页底部的版权所有信息、许可证编号、地址与电话以了解网站的合法性和真实性。在做数据新闻时，除了关注网站的基本信息，一些信源网站更是提供数据的宝库。这些网站具体包括以下几种，分别是政府网站、非政府机构网站、个人网站政府网站、非政府机构网站、个人网站等。一、通过网络在线搜索获取（一）通过登录政府网站获取权威信息和数据一般以gov为一级或二级域名注册的，主要是各国政府及其相关部门秉持开放数据的理念，依据信息公开的相关法规建立的网站，其以发布政策信息、政治动态信息、科技信息、宏观经济信息和社会人文信息等为特点，由政府信息源网

20、站获取的数据被视为相对更具权威的数据。英国开设的政府网站GOV.uk和美国联邦政府的USA.gov都是政府网站的典型代表。以USA.gov为例，该网站主要有三个频道，分别是信息与服务、政府机构和当选官员、博客频道。USA.gov提供个性化的政府信息服务，针对儿童、老年人、联邦政府雇员、一般公民、商业与非营利机构人员（另设专门针对商业人士的入口）、赴美游客和网站开发人员这七类人群提供具有针对性的政府信息。“政府机构和当选官员”频道提供联邦政府、州政府、地方政府和印第安部落原住民政府以及当选官员的联系信息。“博客”频道主要提供一些和政府信息相关的延伸服务的指南。知识窗：新兴国家的开放数据运动巴西巴

21、西作为拉美地区最大的国家，巴西早在2004年就已通过财政责任法案（the Fiscal Responsibility Law）规定，其联邦政府机构必须使用机器可读格式、通过国家透明化门户网站即portaltransparencia.gov.br公布其财政数据，并且每日更新信息。该网站包含大量详细并且最新的政府财政信息，包括政府收入和支出，政府采购以及联邦政府向市政府、州政府及个人的转移支付。该门户网站信息检索非常容易：网站公布的政府预算内容同时使用官方和民间流行的两套命名方法，因此该网站在媒体、政府官员和公众间都有着广泛的使用基础。基于该网站数据的报告曾引导对涉嫌滥用公共资金事件的调查，并最

22、终导致一个部长引咎辞职。民间组织也曾利用该网站数据制作可视化信息以展示在巴西纳税人所缴纳的税金如何被支出利用。有趣的是，该网站甚至为2014年世界杯和2016年奥林匹克运动会设置了独立版块。墨西哥墨西哥 Datos.gob.mx是墨西哥政府在2014年7月刚刚上线的政府开放数据门户。这个门户的建设得到了由世界银行、开放数据研究院、开放知识三方主导的开放数据伙伴关系的支持。在短短6周42天内，该网站就帮助墨西哥10个政府部门开放了100个数据集。墨西哥政府短时间内能开放这些高质量的数据集主要得益于一支专业的数据团队，即由艾尼雅卡尔德隆（Ania Caldern）女士带领的数据特勤组。该特勤组梳

23、理并确认各个部门在开放数据中的挑战和机遇，对公务人员进行培训和指导，上线开放数据门户并指导各部门如何持续性发布和维护数据。知识窗：开放数据指数开放数据指数（index.okfn.org）是一项由英国开放知识基金会组织的，通过社区众包方式并结合同行评议和专家评审展开的关于世界各国家与地区10个关键数据集开放性的调研项目。对于每个国家或地区，开放数据指数考察了其是否将10个关键数据集发布在了电子化、免费、机器可读、开放授权的条件下。这些数据集包括：国家地图数据、国家公共交通时刻表数据、政府支出数据、政府预算数据、全民普选数据、公司注册数据、全国性统计数据、立法数据、邮政编码数据、污染物排放数据等

24、。开放数据指数的目的在于为每一个关键数据集设立数据的采集和发布标准，并推动各国和地区采用此标准开放数据，从而使得社会组织、企业等能够真正挖掘出这些数据的潜能，并使政府运行更加公开透明。该指数于2013年开始发布，2014年参评的国家和地区多达97个，报告显示全球开放数据状况不容乐观，虽然包括非洲在内的一些国家已经有了飞跃，但是仍有89%的关键数据集并未得到开放。在是年公布的排名中，我国内地的开放数据指数处于中流，排名57位，开放程度达到37%。一、通过网络在线搜索获取尽管我国内地的开放数据状况尚不理想，但近年来中央政府和地方政府仍然在开放数据领域做出了一些有益的尝试。2005年10月1日，中

25、国政府网中国政府网（）试开通，次年元旦正式开通，该网站由国家信息化领导小组批准建设，“是国务院和国务院各部门，以及各省、自治区、直辖市人民政府在国际互联网上发布政府信息和提供在线服务的综合平台”。该网站是中国中央政府信息公共的平台，共设“国务院”、“新闻”、“专题”、“政策”、“服务”、“问政”、“国情”、“数据”等8个频道。“国家数据国家数据”平台平台（）是中国国家统计局于2013年9月12日在原有网站的基础上对外界推出的新版数据门户，是官方认可的国家级数据门户。该网站在说明中表示，通过该网站，用户“不仅可以查询到国家统计局调查统计的各专业领域的主要指标时间序列数据，还可以按照个人需求制作个

26、性化统计图表”。该数据有月度、季度、年度数据，以及地区数据、普查数据、国际数据六类统计数据。除了中央政府推行的官方数据门户，地方政府也设有地方统计网站地方统计网站，且部分地方政府还推出了公布数据的平台。比较有名的包括上海市政府数据服务网、北京政务数据资源网、无锡市政府数据服务网、佛山南海区政府的“数说南海”等。除了上述的数据门户，还有许多数据散见于中央各部门机构、国务院各部委及地方下属政府机关的网站中。这些不同级别的网站都提供相应领域的数据资源。一、通过网络在线搜索获取（二）在非政府机构网站查找数据除了政府网站，非政府机构网站也提供许多有价值的信息。这类网站一般以net、org、com或行政

27、区域为一级域名注册，包括政府间组织的网站、准官方性质社会团体的网站、NGO组织网站、企业网站、商业门户网站、媒体网站、学校网站、科研机构等。1.政府间组织的网站联合国是全球最大的政府间组织，联合国统计司网站（unstats.un.org）的“统计数据库”频道中设有“商品贸易统计数据库”、“人口普查知识库”、“人口统计年鉴系统”、“联合国残疾统计数据库”、“官方统计良好做法数据库”、“联合国青少年天地”、“联合石油数据倡议”、“千年指标数据库”、“在线统计月报”、“国民经济核算汇总数据库”、“10万以上居民的省会城市和城市群的最新人口数据”、“人口和住房普查信息”、“人口和互联网人口统计”、“

28、服务贸易统计”、“社会指标”、“对妇女和男性的统计数据和指标”等数据库。一、通过网络在线搜索获取2.准官方性质社会团体的网站除了政府间组织，许多国家都具有准官方性质的社会团体，这类社会团体采用行政编制或事业编制，受国家拨款资助。我国带有准官方性质的全国性社会团体有近2 000个。较为著名的有中华全国总工会、中国共产主义青年团、中华全国妇女联合会、中国残疾人联合会、中国文学艺术界联合会、中国作家协会、中国科学技术协会、中华全国归国华侨联合会、中国法学会、中国人民对外友好协会、中华全国新闻工作者协会、中华全国台湾同胞联谊会、中国国际贸易促进委员会、中国红十字会、中华职业介绍所、中华全国工商业联合

29、会等。以中国红十字会网站（http:/ 如今在全球领域，NGO的数量庞大且涉及的领域广阔，无论是公共政策、经济工商、农业环保，还是科技能源、学术文化、慈善或是医疗卫生领域，都兴起了大量由民众自创的非营利组织。这些组织中有不少都建立了自己的网站，在网站中经常刊发一些相关领域的新闻、政策或是研究报告。这些都可能成为数据报道中具有价值的信息。如世界自然基金会（WWF，http:/wwf.org/），该组织是全球最大的独立性非政府环境保护组织之一，自1961年成立以来一直致力于环保事业，在全世界拥有将近520万支持者和一个在100多个国家活跃着的网络。在其提供的中国站点（http:/en.wwfchi

30、na.org/?referer=wwforg），你可以找到关于中国环境保护的多个研究报告，如该组织的中国项目年度报告，中国的生态足迹等。一、通过网络在线搜索获取4.企业网站以com为一级或二级域名注册的网站，包括本地工商管理部门建立的企业信用网、企业自身建立的网站、行业协会网站等，企业信用网提供了企业信用信息，可查看企业有无违规记录。企业自身建立的网站可查找企业的技术、产品、管理、文化以及财报信息。如果是上市公司，则可通过其主页的“投资者关系”栏目查看其经营和财务状况，还可通过Google财经、新浪财经或东方财经等第三方网站搜索股票，通过查看公司年度或季度报告了解其经营和财务数据。在企业中还

31、有一类特殊的公司，它们自身就是和数据打交道的，即从事数据研究。这其中最为著名的是市场调研公司，比如AC尼尔森（www.N）、央视市场研究CTR（）、SINO Monitor新生代市场监测机构（）、零点调查公司（）、盖洛普（）等都是其中的佼佼者。另有一些企业网站由政府相关机构控股的公司主办，如成立于1996年的中经网数据有限公司是国家信息中心控股的有限责任公司，该公司推出的中国经济信息网（ceigovcn）有统计数据库、产业数据库、世界经济月度库、行业和地区经济发展报告、宏观经济形势分析报告和上市银行竞争力分析报告等产品和服务。一、通过网络在线搜索获取5.商业门户网站包含大量的新闻、财经、教育

32、、文化等信息。以谷歌为例，谷歌的专业搜索中提供了“博客搜索”（查找有关您喜爱的主题的博客）、“专利搜索”（搜索美国专利的全文）、“Google财经”（提供商业信息、新闻和交互式图表）、“Google趋势”（搜索过去和现在的搜索趋势）、“自定义搜索”（打造您自己的搜索体验）、“Google购物”（搜索想购买的商品）、“学术搜索”（搜索学术论文）等多种服务，可以根据用户需求提供大量专业性的数据。而通过一些专题网站则能搜索到与某领域相关的数据，如财经网站“和讯网”也设有专门的“数据”频道，可以获取全球和国内股市数据，财务数据，上市公司信息，基金、期货、外汇、债券、现货、金融、理财、信托、收藏、房产、

33、汽车等诸多财经领域的相关数据。一、通过网络在线搜索获取6.媒体网站媒体网站有大量新闻报道，对某一类事件、话题、人物或行业的报道都可以成为可被再利用的数据。而部分媒体网站也在建立自己的数据库，如卫报卫报网站就有自己的“数据”频道，并秉承开放数据的理念，允许其他媒体免费使用。美国知名的非营利媒体ProPublicaProPublica的网站也设有“工具&数据”频道，同样将自己做的调查数据与用户分享。可以想见，伴随着开放数据理念的普及，还会有更多媒体网站的数据进一步向公众开放。出版社是一类特殊的媒体机构，因为其所涉及的内容并不局限于新闻报道领域，而是各行各业、包罗万象，其负责出版的产品既有报刊也有

34、图书，因而出版社实际拥有可观的数据资源。一些出版社因而也推出了相关领域的专门网站，提供专业信息和数据检索服务。如知识产权出版社主办的中国知识产权网中国知识产权网（http:/ 一般以edu或ac为一级或二级域名注册的网站，其主要包括学校网站、学校下属的科研机构、院系、行政单位网站。这些网站不只提供了学校的招生、毕业、专业和学校发展数据，还提供科研和学术资源。一、通过网络在线搜索获取8.科研机构网站科研机构网站的构成较为复杂，国内外大多数科研机构网站是政府主办的或受到政府的拨款资助，还有许多科研机构网站属于高校或由其他社会组织创办，另有部分科研机构网站是企业投资创建的。中国科学院、中国社科院都

35、属于政府主办或拨款的科研机构，其网站提供了大量的学术科研数据。也有一些政府单位直接创办的科研机构网站，如2009年，由科技部、财政部共同主办的国家科技基础条件平台门户网站“中国科技资源共享网”（）正式开通，该平台整合了行业、部门和地方的科技基础条件资源信息，提供了大量学术科研数据。在网站的“科学数据”频道，可查询“人口与健康”、“地球系统”、“林业数据”、“气象数据”、“农业数据”、“地震”、“基础科学数据”、“水文科学数据”、“材料科学数据”等九大主题的数据集。许多国家和地区都建立了整合学术机构资源的机构知识库网络，你怎么看待这种潮流？你认为我国内地的高校之间是不是也应该联合起来推出相应的开

36、放存取平台？一、通过网络在线搜索获取（三）通过个人网站获取数据个人网站主要指个人建立的网站、博客、微博等，当报道涉及一些人物，且其有自己的个人主页或是社交媒体账号时，最好的方式是去这些信源查询准确的信息。如中国青年报报道2011年“723”动车事故时发表的特稿故事永不抵达的列车虽然不属于严格意义上的数据新闻，但其运用报道对象两位在事故中遇难的传媒大学学生的个人微博平台资源，将两人搭乘列车前的生活点滴和遇难前的活动一一还原，从小处着眼，透视了一场大事故，这是媒体运用个人网站数据的典范。当然，在通过个人网站获取数据时，媒体要注意防止为了新闻报道而侵犯个人隐私的问题出现。针对个人的报道，能在多大程

37、度上挖掘和使用其个人网站的数据，这是未来数据新闻面临的一大伦理问题。二、通过图书馆馆藏资源检索获取公共公共图书馆图书馆：国家图书馆是级别最高的公共图书馆。世界各国都有政府设立的国家级公共图书馆，全球最著名的国家图书馆有大英图书馆（The British Library）、美国国会图书馆（Library of Congress）、俄罗斯国立图书馆、法国国家图书馆、日本国立国会图书馆（国立国会図書館）等。中国国家图书馆（）简称“国图”，它履行国内外图书文献收藏和保护的职责，为中央和国家领导机关、社会各界及公众提供文献信息和参考咨询服务，是国家总书库、国家书目中心、国家古籍保护中心、国家典籍博物馆

38、。国图是国内典藏外文书刊最多的图书馆，是全球入藏中文文献最多的图书馆。登录国图的网站，通过站点地图可以快速找到国图的馆藏：“华夏记忆”收藏大量国内古籍；“政府信息”入藏政府公报和政府数据库；“图书馆界”提供大量合作链接，包括世界各国的图书馆资料库；“科研参考”富含学术科研资源；“企业资讯”可查询企业名录、法规、商标和专利，并提供数字财经（获取财经信息和数据的数据库资源）和行业研究（商业数据报告）。除了国家图书馆，所有县级以上地方政府都建有公共图书馆。这些公共图书馆虽然从入藏量上无法与国图媲美，但其以服务本地民众为宗旨，具有较多的地方资源和特色资源。二、通过图书馆馆藏资源检索获取大学图书馆大学

39、图书馆:是学术资源最集中的地方，多由教育部牵头建设与管理。大学图书馆的馆藏往往与大学的专业设置相关，具有更强的学术性和专业指导性。世界各国的知名学府其图书馆也往往历史悠久，入藏丰富，如哈佛大学图书馆是美国最古老的图书馆之一，是藏书最多的大学图书馆。剑桥大学图书馆始建于1424年，也是世界上首屈一指的综合性图书馆。中国的北京大学图书馆是亚洲最大的高校图书馆，入藏有150万册中文古籍，其中20万册518世纪的珍贵古籍为世界瞩目。1998年，经国务院批准，在教育部的领导下，将全国各高校的文献资源和人力资源整合起来，建设了中国高等教育文献保障系统（China Academic Library&Info

40、rmation System，CALIS）（）。“十五”期间，该系统启动二期建设，将“中英文图书数字化国际合作计划”（CADAL）列入，推出中国高等教育数字化图书馆（China Academic Digital Library&Information System，CADLIS）。二、通过图书馆馆藏资源检索获取专业专业（行业）（行业）图书馆图书馆:最具代表性的是原部委图书馆，但随着政府机构的调整，这些图书馆的性质、名称和服务也随之改变。2000年，包括中国科学院文献情报中心、工程技术图书馆（中国科学技术信息研究所、机械工业信息研究院、冶金工业信息标准研究院、中国化工信息中心）、中国农业科学院

41、图书馆、中国医学科学院图书馆等专业图书馆共同组建了一个虚拟的科技文献信息服务机构国家科技图书文献中心（National Science and Technology Library，也称国家科技数字图书馆）。该图书馆（nstlgovcn）提供大量的国内外科技专业数据、标准和专利数据。三、运用工具自动采集数据（一）采集网页数据的基本步骤与方法采集网页数据也称“抓取网页数据”，指通过计算机技术语言对网页上的HTML进行抓取、分析、整理，并导入数据库。采集网页数据的基本步骤是：第一，确定要采集的数据内容。第二，寻找可采集的数据源。采集数据不是漫无目的地在网页上搜寻，必须较为清晰地定位一些和欲采集数

42、据相关的网站，否则会事倍功半。第三，对数据源进行评估，了解数据源的基本结构。这是为制定抓取策略打下基础。第四，制定采集网页数据的策略。这一步要明确采用何种方法、何种工具进行网页采集。第五，编写程序，进行网页采集。三、运用工具自动采集数据（二）采集网页数据的小工具 1.数据采集软件 Import.io是一款傻瓜式的数据采集软件，“无须插件，无须学习，无须设置”。Import.io提供网页版与网络版两种模式。在网页版上，用户只需要将需要分析的网址粘贴在搜索框里即可实现将复杂的网页页面转化为简单清晰的表格形式。2.浏览器插件除了独立的软件之外，也可以在浏览器内安装插件，在浏览网页的同时随时随地进行

43、数据挖掘。这里要介绍的两款插件是：Chrome浏览器插件Web scraper与Firefox浏览器插件Outwit hub。Web Web scraperscraper是Chrome应用商店里的一个插件，安装之后，在浏览网页中如果看到某个需要的信息，可以将这段文本选中，右键选择“scrape similar”选项。程序会自动分析所选中内容在网页中的标签结构，并将带有相似标签的内容全部搜索出来。Outwit Outwit hubhub是一款应用于Firefox浏览器的插件。安装插件后，Outwit hub可以分析网页中的数据信息，以透视窗口的形式在屏幕下方显示出来。用户可以从中过滤出希望获取的

44、信息，并将这些内容显示在屏幕下方一个文本栏中。三、运用工具自动采集数据3.网页挖掘助手与之前提到的软件不同，Scraper wiki的宗旨是用简单的方式教会用户网页采集的编程，因此，在使用Scraper wiki时，代码还是必要的。这款软件可以使用户在浏览器中添加自定义程序，并一步一步指导用户编程。Scraper wiki曾经制作了一款无须编程的软件，专门用来挖掘Twitter数据，但这一软件在2014年8月受Twitter数据公开政策所限，招致停用。Scraper wiki可以提供收费人工服务，帮用户进行挖掘，除此之外，也提供将PDF文件转换为可分析文本格式的服务。许多类似Twitter的

45、社交媒体都设置了数据公开的限制，限制第三方访问数据，这使得运用工具自动采集数据变得越发困难。对于这种现象你怎么看？本章小结本章着重介绍数据的分类、数据查询和获取的基本方法。要制作数据新闻，首先需要了解“数据”为何意，数据不只是数字，它是可被记录、计算和分析的资料，数据是对现实生活的抽象表达。如今的数据大都以数字数据的形式存在，可被机器读取。本章还解释了在信息科学领域数字和数据集的含义，为后期数据清理和分析打下基础。新闻报道不一定要拘泥于使用某一类数据，可以综合运用多个信息源的数据做分析，以丰富报道的内容。数据的查询和获取是一个复杂的话题，本章仅介绍其最基本的三种方法，即通过网络在线搜索、通过

46、图书馆馆藏资源获取数据和运用工具自动采集数据，这三种方法对于查询和获取公开发表的数据非常有效。本章列举了大量官方和非官方的数据源，以期能满足不同类型读者的需求。通过阅读，你会发现，原来你身边有如此多的网站和资源是你未曾留意的，原来有大量的数据资源远比你想象的要容易获取。本章学习与思考1.请谈谈数字和数据有何区别？2.你认为图书馆资源和网络资源相比有何差别？如果你是数据记者，你更偏向于使用哪一种资源呢？为什么？3.找一个你感兴趣的行业，找出该行业的主要企业、科研机构、行业协会、行业主管部门网站，对其中的内容进行浏览，了解行业发展概况。4.找一个你们小组关注的人，比一比，看看小组成员中谁能从互联网中尽可能地获取到更多这个人的信息。5.你能否通过我们介绍的查找数据的方式认识一家企业？6.找一家本章列出的网站，了解网站公开的数据都是哪种类型，其是否属于开放存取资源。7.从联合国统计司网站列出的数据中找出你感兴趣的部分，设计一个数据新闻选题。8.你所在的高校是否建立了开放存取数据库？你愿意将自己的研究成果公布在这样的平台中吗？9.运用你感兴趣的某种编程语言或工具，做一个运用工具自动采集数据的练习。

展开阅读全文