1、试题标注结果统计及分析南京大学-nlp组2015.06.07标注体系 试题及选项 求解目标:以题为单位,answer type 多实体、单实体、判断、流程、其他 问句模式: 以选项为单位,question type 事实、因果、比较、关联、图表计算、其他 时间 地点 术语 课本知识点 思维导图知识点 图片类型(可选)标注样例03.2014北京市朝阳区高考文综地理二模试题(附答案)(11)_2.xls标注结果及分析 南大10人参加标注 28套北京高考及各区模拟试题 共515道选择题,515*4=2060个选项求解目标标注结果统计 判断 386 单实体 83 多实体 36 流程 9 其它 1多实体
2、流程单实体其它判断求解目标标注结果分析 与题面的关联分析(基于lasso特征选择模型的关键字提取算法)问句模式标注结果统计 事实:349 因果:120 比较:100 图表计算:32 关联:19 其他:2事实因果比较图表计算关联其它问句模式(标注错误) 问句模式为“其它”的题: 按照约定,上述题面不需要单独标问句模式,这里应该是误标问句模式标注结果分析 与题面的关联分析:时间词标注 数量:251 我们将时间词整理为9类,识别优先级如下: cycle:周期类 period:时间段 season:季节(包括部分节气) timep:不同粒度的时间点 cond:有条件的时间 stage:某期间或某时期
3、frame:一天中的某时段 ref:虚拟指代的时间 other:其他timepperiodseasonothercondstageframerefcycle时间词分析 cycle 规则: 表达式中包含每 数量:5 例子:时间词分析 period 规则: 数量:42 例子:时间词分析 season 规则: 表达式中包含春“夏”“秋”冬中的至少一个 数量:29 例子: 夏季,春,秋冬,春季,冬季,秋冬季 特殊: 夏至日 冬夏之交时间词分析timep 规则: 表达式中包含年“月”“日”中至少一个,并且有数字(中文或阿拉伯数字) 包含“时”,并且前一个字符为数字 包含“点”,并且前一个字符为数字 包含
4、“:”或:(时分秒) 包含/(年月日) 数量:116 例子: 特殊: 年复一年 此日后20天 3、4月 近20年来 2300万年前时间词分析 cond 规则: 表达式以“时”或“后”结束 数量:11 例子: 特殊: 2小时后 此时时间词分析stage 规则: 数量:10 例子: 特殊: 图示时期 甲时期 (上述两个是否应该算入ref虚拟指代时间词中?)时间词分析 frame 规则: 表达式包含这些词中的某一个: u傍晚,u早晨,u昼,u夜,u上午,u中午,u下午,u晚上,u夜晚,u黎明,u深夜,u午间,u日出,u日落 数量:9 例子:时间词分析 ref: 规则: 表达式包含“某”“该”“当”“
5、此”中的一个 数量:6 例子:时间词分析 other 没有被分到上述8类的其它时间表达式 数量:23 例子: 地点词统计 数量:1019 8类,识别优先级如下: lonlat:包含经纬度的地点 ref:虚拟指代的地点 adregion:行政区域,国家、省、市、县等等 station:XX站 special:XX平原、高原等,包括特例公园 area:XX区 direction:包含方位词 other:其它adregionrefspecialotherdirectionarealonlatstation地点词分析 lonlat 规则: 包含或者“北纬”“南纬”“东经”“西经” 数量:36 例子:
6、90E 乌鲁木齐(44N,88E) (20, 127) 北纬3540 西经170附近 北纬50地点词分析 ref 规则: 包含“甲”“乙”“丙”“丁”中至少一个 或,包含中至少一个 或,包含字母 或,包含“某”“图示”“该”“此”“图中”“图+”中至少一个 数量:215 例子:地点词分析adregion 规则: 以“省”“市”“国”“县”“自治区”结尾 一个手工编辑的地名过滤列表(仅适用于目前收集的地名) 数量:322 例子: 海口 北京市 江苏省 荷兰 特殊: 苏、皖、浙、闽四省 我国 江苏省和陕西省 两省 各省 我国部分城市地点词分析 station 规则: 以“站”结尾 数量:11 例子
7、:地点词分析 special 规则: u平原,u高原,u流域,u海域,u山脉,u山,u山系,u盆地,u河,u江,u谷地,u三角洲,u岛,u板块,u山地,u洲,u洋,u湖,u海,u海峡,u湿地,u板块,u草原,u渔场,u角,u岭,u峰,u山区,u丘陵,u瀑布,u港,u公园 以上面的词中的某一个结尾 数量:204 例子: 特殊: 与其他洋流交汇的海域 沿海 日本近海 云南山区地点词分析 area 规则: 以“区”结尾 数量:61 例子: 特殊: 我国两个地区 沿线地区 途经地区 地震重灾区 区 同纬度大陆东岸地区地点词分析 direction(该类型比较杂乱) 规则: 包含“东”“南”“西”“北”
8、“中部”“中心”“沿岸”中的某一个词,并且不在排除列表中(一些包含这些词的地名,例如“西双版纳”) 数量:89 例子:向北位置偏北东北东南季风的迎风坡自南向北南极南半球南水北调中线东亚西北太平洋洋面 地中海沿岸 城市中心 欧洲中部 秦岭北坡和南坡 东、西两侧地点词分析 other: 规则:不属于上述7类 数量:91 例子: 近地轨道 火星 地面 北京市专业气象台 陆地 广东石门谷(比较常见,地名+地名) 中缅天然气管道沿线 印度洋水汽通道上(比较常见,地名+“上”) 快速公路交汇处 背风坡 肯斯瓦特大型水利枢纽 暖温带 城市外围 京津冀 山麓地带 日界线附近 低纬度术语标注记: T:手工标注的
9、术语集合(文件term_tag.txt) A:之前收集的术语集合(另外,T中不属于A的术语在文件term_diff.txt中)T的大小:1547A的大小:19031A与T交集的大小:632A与T的交集占T的比例:40.85%A与T的交集占A的比例:3.32%术语标注 手工标注并且不属于收集的术语集合的术语:思维导图知识点标注结果 标注存在的问题: 标注不规范,有同学从每页上方的章节标题开始标,应该是从思维导图树状图的的根节点开始标 有一些非思维导图的知识点,例如“读图”“读表” 错字、漏字 共出现35个不标准的根知识点思维导图知识点分布 符合规范的标注统计结果(只统计根知识点的分布情况):中国
10、地理概况地球与地图人口数量变化和人口的合理容量地球的运动地理环境与区域发展营造地表形态的力量气压带和风带世界地理概况城市常见的天气系统农业地域的形成与发展自然地理环境的差异性大规模的海水运动自然界的水循环冷热不均引起大气运动环境问题与环境管理交通运输及其影响旅游资源的综合评价城市化中国区域地理主要环境问题区域经济发展主要自然灾害类型与分布区域资源综合开发利用防灾与减灾河流地貌的发育世界地理分区我国的主要自然灾害人类与地理环境山地的形成人口的空间变化全球气候变化海洋开发与海洋保护地球的圈层结构地球的演化及地表形态的变化旅游规划与旅游活动设计地球的宇宙环境自然地理环境的整体性认识海洋太阳系与地月系
11、水资源的利用区域联系与区域协调发展区域生态环境建设旅游与区域发展宇宙工业地狱的形成与发展世界主要国家思维导图知识点分布 不同出现频率的知识点的分布:0246810121416182009101920293039404950596069知识点个数思维导图知识点标注结果分析 未出现过的根知识点: 旅游与区域发展 宇宙 工业地狱的形成与发展 世界主要国家思维导图知识点标注分析 与题面的关联分析:课本知识点 课本知识点总条数:921 按照课本划分:必修一必修二选修七选修五必修三选修三选修六选修二选修一选修四课本知识点标注结果 按照章划分,出现频率前10为:课本知识点标注结果 没有节信息的知识点标注条数
12、:59,占总数的6.4% 按照节划分,出现频率前10为:课本知识点标注结果分析 与题面的关联分析:图片类型 共出现144个图片标注 共出现107种不同的图片标注 存在的问题: 有的同学用逗号或顿号分隔了一个标注,有的是描述同一张图,有的是描述不止一张图,这里没有统一 统计的时候,按整条标注作为一个图片类型图片类型分布 经过抽象,我们依据标注结果将图片主要可分为如下几类: 示意图:27 地形图:15 分布图:10 经纬:10 等值线图:8 地图:8 柱状图:7 曲线:7 统计图:6 折线图:4 剖面图:4 过程:3 其他:35示意图地形图分布图经纬等值线图地图柱状图曲线统计图折线图剖面图过程其他图片类型 其他类型举例: 表格 照片 时间图 循环图 交通图 线路图 结构图 散点图 轨迹图 检测图 天气图 饼图 趋势图 .后续工作Web-UI annotatorQuestion representation
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。