1、 数据质量的衡量标准数据质量的衡量标准精确性精确性:数据是否准确、精确。完整性:完整性:数据是否完整、完备。一致性:一致性:数据是否相互一致、是否存在矛盾或冲突项。时效性及时:时效性及时:数据是否及时、在时间维度上进行表述时与当前的时间点是否一致。可信度可信度:数据是否真实可信。附加值:附加值:数据是否能够提供附加值,即从已有数据中是否可以发现和挖掘新的规律和新的知识、提供新价值。可解释性:可解释性:数据及基于数据的发现是否可以被合理地解释,能否在提供结论的基础上提供论据支撑。易获得性:易获得性:数据本身是否容易获取、方便使用。数据预处理的主要任务数据预处理的主要任务1.1.数据数据清洗清洗
2、这一阶段的任务是处理不完整数据、噪声数据和不一致的数据。具体地,需要补齐缺失数据,对噪声数据进行平滑处理,删除不符合数据分布情况的异常值或极端值,并且对不同数据项之间存在的不一致情况进行协调处理,最终达到的效果是数据完整、一致、前后统一。例:假设某北方城市(纬度高于北纬45)的气温统计数据中,某年度12月份的气温数据出现了大于30的数据,则应将其判为异常数据并删除。2.2.数据数据集成集成 这一阶段主要完成不同来源的各个数据项的版本一致化处理,解决多来源数据的冲突问题。例:假设某学生来自两个数据源的联系电话号码不同,则通常可以采用以学生自己报送的数据为准的规则进行数据一致化处理。3.3.数据数
3、据整形整形 在这一阶段,对数据进行归一化处理和聚合处理,目的是将其改造为统一格式的规整数据,方便后续数据处理。归一化是把需要处理的数据通过一定的计算和转换,限制在一定范围内,使得原本不同量级或者不同种类的数据具有可比性。例:对于个人收入和国家收入而言,二者属于不同的量级,为了对比个人收入变化与国家收入变化,可以把二者归一化到01的区间,再进行横向对比。4.4.数据数据归约归约 随着数据集合的增长,数据集本身可能会变得太大而无法合理处理。因此,需要考虑对数据集合进行归约(减缩)处理。例:把数据拟合到模型中,使用模型代表数据集。假设某地感染某种疾病的人群与年龄呈线性相关的关系,则只需记录此线性模型
4、,而不必把全体人群感染疾病的数据记录在案。数据预处理在算法推荐系统中的应用举例:消除人名歧义数据预处理在算法推荐系统中的应用举例:消除人名歧义1.1.动机动机 在算法推荐系统的内容库中,如果把内容中出现的人物视为一种标签,则基于此类标签进行个性化推荐时首先需要算法推荐系统识别出不同文章中出现的人物。而现实生活中往往存在多个同名的人物,因此需要对文本型内容中出现的人名进行歧义消除,从语义的角度,识别出相应的人名对应的特定人物。据统计,在中文姓名中,年中国大约有万个“张伟”。在英文中,以迈克尔乔丹(Michael Jordan)这个名字为例,比较有名的人物就包括美国前职业篮球运动员迈克尔乔丹和美国
5、加利福尼亚州大学伯克利分校的迈克尔乔丹教授。而这两个人物对应的行业或兴趣领域分别为“美国职业篮球”和“机器学习、统计、人工智能”,二者相关性非常低,所在的行业和职业几乎没有交集。可以设想,如果系统不进行人名消歧工作,为一个篮球迷推荐与“迈克尔乔丹”有关的文章,推荐列表中将可能包含与“机器学习”有关的内容(与乔丹教授相关),这样会使用户摸不着头脑,降低用户使用算法推荐系统的获得感。2 2.解决方案解决方案利用人名所在文章的前后文信息进行推理计算,通过人名出现位置的上下文语义来确定此人名对应的具体人物。例如,当“职业篮球”“比赛”“比分”等关键词出现在“迈克尔乔丹”这一人名所在的文章中时,此人名有
6、较大概率指代美国职 业篮球运动员迈克尔乔丹,此文章亦有较大概率与美国职业篮球运动相关。而当“教授”“大学”“人工智能”“数据”等关键词出现在“迈克尔乔丹”这一人名所在的文章中时,此人名有较大概率指代美国加利福尼亚州大学伯克利分校的迈克 尔乔丹教授,此文章亦有较大概率与计算科学、人工智能等专业领域相关。针对人名消歧问题,数据科学领域的专家提出了多种解决方案。其基本思路是 利用人与人之间、人与事件之间、事物之间的关系图谱和知识图谱进行推理,计算求解得出当前文章中出现的人名对应的确切人物。提要提要采集于现实世界的原始数据由于存在着不完整、有噪声、不一致、有采集于现实世界的原始数据由于存在着不完整、有
7、噪声、不一致、有重复重复等问题,需要等问题,需要对其进行预处理,以提高数据质量,保证后续内容生产和对其进行预处理,以提高数据质量,保证后续内容生产和算法算法推荐的质量和效果。具体推荐的质量和效果。具体地,可以通过数据的清洗、集成、整形和归约几地,可以通过数据的清洗、集成、整形和归约几 个主要步骤完成数据的预处理过程。个主要步骤完成数据的预处理过程。二二、内容安全:风险识别模型及风险识别技术、内容安全:风险识别模型及风险识别技术确保内容安全的必要性和意义:确保内容安全的必要性和意义:算法推荐系统在将内容推送给受众的过程中,一方面,给受众提供了一种阅读选择,另一方面,由于其天然的文化属性,也会在受
8、众当中产生一定的社会影响。例如,一些与健康医疗领域相关的谣言,如果任其扩散,将会导致受众受到误导,甚至影响大众的身心健康。因此,作为内容推荐和呈现的平台,算法推荐系统需要承担保障内容安全的责任。所谓内容安全”,通俗的理解就是,在平台上呈现出来的内容需要遵守所在国家的法律法规和社会的公序良俗。此外,在此基础上也需要对内容的质量有所考量,避免低俗低质的内容。算法推荐平台保障内容安全,一方面体现算法推荐平台对用户的责任,另一方面也是提高算法推荐系统自身质量的一种保障。例:快手(2.12亿月活)抖音(1.26亿月活)可以采取不同的维度对算法平台中的各种内容进行分类:(1)从生产者的角度来说,)从生产者
9、的角度来说,算法平台中的内容可以分为“用户生产内容”(UGC)和“专业生产内容”(PGC)。(2)从媒介类型的角度来说,)从媒介类型的角度来说,算法平台的内容可以分为文本内容、音频内容、图片 内容、视频内容以及综合型的内容。二二、内容安全:风险识别模型及风险识别技术、内容安全:风险识别模型及风险识别技术根据风险识别接入工作流程的时间节点,内容风险识别模型可分为“先验模型”和“后验模型”。先验模型先验模型:算法推荐平台依据已有经验,对尚未进入推荐阶段的内容进行内容风险识别。()人工标记的假新闻库、谣言库)人工标记的假新闻库、谣言库等。等。使用人工审核的方法对系统中已有的内容进行审核和标记,形成假
10、新闻库和谣言库等基准数据库。衡量系统中的新内容与假新闻库和谣言库中已识别出的基准文章之间的文本相似度,相似度较高则可将其标记为相应的风险内容。还可以在模型识别之后,加入人工交叉验证,确认风险内容识别的准确性。()通过某些低质或风险内容共有的规则,训练机器学习模型进行判断)通过某些低质或风险内容共有的规则,训练机器学习模型进行判断。首先人工标记风险内容,其次使用这些标记数据作为机器学习模型的训练数据、训练模型,学习出低质或风险内容的对应特征。对于系统中的新内容,先验模型中的机器学习模型可以对其进行打分或归类,判定其是否为风险内容。()使用知识图谱)使用知识图谱。从人工标记的风险内容中提取元事件或
11、元模型,针对系统中的新内容,尝试识别新内容是否符合元事件或元模型的特点,并标记相关内容。后验后验模型:模型:算法推荐平台针对用户对已经推荐给他们的内容呈现的反馈意见或反馈动作,对已推荐内容进行风险识别。内容风险识别技术:内容风险识别技术:首先,对于系统中新出现的内容,不论其是用户生产内容还是专业生产内容,都需要经过先验风险模型的判别,才能进入推荐阶段。因此,风险识别的第一步,就是把新内容放入“待审核”内容队列。即不论是平台自己组织专业人员生产的内容,或与平台无关的独立专业人员生产的内容,还是用户自发创作的内容,都排队等候风险模型处理。由于专业背景和工作性质的不同,专业生产内容在质量上通常比用户
12、生产内容更加稳定。如果是纯用户生产的内容,由于算法推荐平台对生产者一方并不存在指导性或约束力,用户生产内容往往体现出更大的多样性和多种价值取向,质量波动较专业生产内容也更大,因此需要对其进行更加全面的风险评测。内容风险识别技术:内容风险识别技术:1.1.用户用户生产内容的风险识别生产内容的风险识别模型模型(1)违法违规内容识别模型:检查内容中是否包含不符合国家和地区法律法规的内容,通常可以采用关键词过滤、语义过滤、基于规则、知识图谱等方式对内容进行违法违规的检测。例:ISIS(2)谩骂攻击类型内容识别模型:检查内容中是否包含对国家、机构或者个人的谩骂或攻击类词语和表述。(3)色情和不当内容识别
13、模型 检查内容中是否有色情类或者其他不当内容,可以使用实体识别、关联规则或者深度学习等手段加以识别和标注,并从候选内容数据库中将其移除。2.2.对对用户生产内容进行尝试性用户生产内容进行尝试性推荐推荐 如果用户生产内容在上述风险识别模型的判别下存在一定的内容风险,但是尚 未达到违法违规、谩骂攻击或者不当内容的程度,可以考虑对其进行小范围推广。此时,内容受众的反馈动作对内容安全的判别会起到主导作用。内容风险识别技术:内容风险识别技术:3.3.用户用户专业生产内容的风险专业生产内容的风险审核审核(1)低俗内容审核模型(2)谩骂、人身威胁型内容审核模型(3)色情类内容鉴别模型(4)恐怖、暴力型内容审
14、核模型(5)标题党类内容鉴别模型用户专业生产内容的大范围用户专业生产内容的大范围推广推广不论是用户生产内容还是专业生产内容,经过以上内容安全审核的步骤之后,在算法层面,其安全性已经得到了验证,因此可以进行正常的针对全体用户的大范围推广。质量质量复核复核()阅读量()点赞数和分享转发数()评论的质量指向泛低质内容识别技术:泛低质内容识别技术:泛低质内容:此类内容往往不会涉及违法、违规等情况,但是实际上内容质量堪忧,如题文不符、拼凑内容等,影响平台用户的阅读体验,通常称之为泛低质内容。对于泛低质内容,系统也可以对其进行识别和标记。比如,系统可以对文章的评论进行情感分析。情感分析是自然语言处理(,)
15、的一个分支领域,自然语言处理是计算机科学、信息工程和人工智能等学科的研究热点,关注重点是如何使用计算机分析和处理大量的人类语言(自然语言)数据。其中,文本情感极性的判断是情感分析的一个重要组成部分,如正面(积极)、负面(消极)以及中性情感的分类和量化分析。假设一篇文章已经通过了前述小节的风险判断模型,则算法认为它是一个可以 推荐的文章,并将其推送给可能感兴趣的用户。推荐后,系统继续扫描文章评论,可以依据评论特征判断其是否为泛低质内容。三三、风险识别模型的质量测评、风险识别模型的质量测评算法推荐平台以计算的手段识别存在风险的内容,从效果上,需要对计算模型的质量进行测评,衡量风险识别模型的能力,即
16、识别风险内容的准确程度。通常,在信息检索领域,我们使用“准确率”和“召回率”两个指标对算法模型的质量进行定量测评。准确率准确率 (precisionprecision):):算法检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。对应一个特定的内容风险识别模型,给定一个文档集合,识别出的全部不合格文章数,即为“检索出的文档总数”。其中,真正不合格的文档数目,对应“相关文档数”这一数量。准确率衡量的是,模型所有标记为不合格的文档中,究竟有多大比例真的是不合格文档。召回率召回率 (recallrecall):算法检索出的相关文档数和文档库中所有的相关文档数的 比率,衡量的是检索系
17、统的查全率。依上例,“文档库中所有的相关文档数”是指 文档集合中所有的不合格文档数目。召回率衡量的是,模型召回的真正的不合 格文档数,占据整个文档集合中全部不合格文档数的比例。A:算法检索出的相关文档数(即,算法标记为“不合格”文档,实际上也确实是“不合格”文档的文档个数)。B:系统检索出的不相关文档数(即,算法标记为“不合格”文档,但本身并非“不合格”文档的文档个数)。C:相关但是系统未检索出的文档数(即,本身为“不合格”文档,但并未被算法标记为“不合格”文档的文档个数)。D:不相关且没有被系统检索出的文档数(即,本身为“合格”文档,且算法也标记其为“不合格”文档的文档个数)。则,准确率准确
18、率为为P PA A(A AB B),),召回率召回率为为R RA A(A AC C)。对应到风险识别模型M,A是模型标记出的不合格文档数,B是模型标记为不合格但实际为合格文档的文档数,AB是系统集合中全部不合格文档数,AC是模型标记出的全部不合格文档数,C是模型没有标记出来的不合格文档数。案例:案例:算法平台的训练数据集中共有1000篇文章,其中400篇是不合格文章。假设模型 M1标记了500篇不合格文章,其中确实为不合格文章的数量380篇。因此,模型 M1的准确率为38050076,模型 M1的召回率为380400 95。模型 M1的召回率高,说明它能够把绝大多数确实为不合格文章的内容识别出
19、来,但是其准确率较低,说明其在识别不合格文章的过程中,误判了一批合格的文章为不合格文章。假设模型 M2标记了100篇不合格文章,其中确实为不合格文章的数量是99篇。因此,模型 M2的准确率为9910099,模型 M2的召回率为9940024.75。模型 M2的准确率高,说明它标记为不合格文章的,绝大多数确实是不合格文章,但是其召回率较低,说明其在识别不合格文章的过程中,遗漏了一批本应该被标记为不合格的文章。四四、内容安全之人工审核、内容安全之人工审核人人机结合仍然是目前业界保证内容质量的一个合理模式机结合仍然是目前业界保证内容质量的一个合理模式。人往往可以根据上下文以及对话发生的具体场景对语言
20、做出判断,而计算机程序却很难区分出其中的异同。而在另外一些情况下,算法或许可以进行识别和判断,但是其运行时间往往过长,或是消耗的算力太大,比如对大量实时直播视频进行内容安全的判断,技术难度仍旧很大。因此,对内容安全引入人工审核可以实现算法与人工的互补。例:在2017年5月,脸书首席执行官扎克伯格在其脸书网个人账号发文称,在已有4500人的基础上,下一年要继续招聘3000人审核每周数百万计对脸书不良内容的报告,并研究如何加快不良内容的发现和报告过程。此前,脸书上出现了视频直播的暴力、性侵、杀人等恶性内容,有的内容在出现数小时后才被删除,但是阅读和浏览量已达数万、数十万,造成了恶劣影响。因此,该公
21、司拟加强人工审核团队以应对几个月来连续出现的影响较大的不良内容。第2节 文本特征体系的建立和使用 一一、什么是文本特征体系、什么是文本特征体系即便是在计算机多媒体技术不断发展的今天,文本型内容仍然是人类自然语言的一个主要记录和表现形式。针对算法推荐平台中存在的大量文本型内容,对文本型数据的建模就成为一个基本问题,只有把非结构化的文字性内容转化为结构化的、可以量化处理的数据,才能运用相关算法实现内容的分析和推荐。从计算的角度看,如何使用数字化的手段表示文本内容是算法推荐的前置条件。算法和计算机程序需要从文本中抽取出每篇文章的特征并进行量化,来表达文本内容的多方面特点,例如高频词、行业领域、时间空
22、间维度等方面的特征。对于计算机算法而言,一篇文本型文章就是一个“字符串”,即一个字符序列。因此,把一串字符视为一个有多种特征的对象,把它的特征量化地提取出来,即可使用计算机进行有效的分析。算法推荐系统将用户建模为标签化用户画像,使用多种标签描述每个用户;与之类似,对于非结构化的文本型文章,系统则将其建模为一系列特征值的集合。算法推荐系统可能包含的文本特征包括五种算法推荐系统可能包含的文本特征包括五种:(1 1)语义)语义标签类标签类特征:特征:所谓“语义”,是指语言所蕴含的意义。语义可以理解为数据对应的现实世界 中的对象所代表概念的含义,以及这些含义之间的关系。通常可以使用树形或网状结构按照语
23、义标签的逻辑抽象级别对其进行组织。例:“新闻”(最顶层)“时政新闻”“体育新闻”“财经新闻”“社会新闻”“篮球新闻”“足球新闻”“田径新闻”(2 2)隐隐式语义式语义特征:特征:隐式语义特征是与语义特征相对的概念,主要包括话题(或称“类别”)特征和关键词特征。这里“话题”的概念与一般意义上的话题有区别,是指使用数据挖掘算法对文本内容进行聚类而聚合出的类别。(3 3)文本相似度特征:)文本相似度特征:文本相似度特征要衡量哪些文章说的是同一件事,哪些文章内容基本一样。可以从关键词的相似度、主题相似度等角度进行衡量。从算法的角度来看,可以把文章建模为多个词向量,上下文越相似的词,其词向量的相似程度越
24、高,因此,基于 词向量相似度可以考察文本型内容的相似度。(4 4)时空特征:)时空特征:时空特征是指可以从文章中提取出来的时间、空间信息,例如文章中的事情发生在哪里、是否有时效性、是否是时间空间敏感型内容等等。通常,新闻类内容的时间、空间特征比较明显。与区域或位置相关的内容,例如旅游目的地风土人情介绍、旅游攻略等,则可以使用其空间特征进行目标人群推送。(5 5)质量)质量相关相关特征:特征:从前面介绍的内容风险识别模型可以了解到,算法推荐平台的内容质量并不均衡,某些内容可能涉嫌暴力、恐怖、低俗指向甚至违法违规,此外也可能存在嵌入广告、鸡汤文、恶意竞争的文章等等,这些都需要使用质量相关的特征进行
25、表述。算法推荐系统通过风险识别模型,审核相关文章并对其进行质量特征标记,拦截低质文章,从源头上保障推荐内容的质量。针对文本型内容,算法推荐平台可以抽取出多种文本特征对文本进行标记。从系统建设的角度,由于数据挖掘算法的日渐成熟,算法推荐系统在技术上算法推荐系统在技术上能最快能最快实现实现的文本特征是隐式语义特征的文本特征是隐式语义特征。对于隐式语义特征而言,通过实现数据挖掘算法(如分类、聚类算法等),其对算法推荐系统已有的内容进行分类,形成有一定相关性的类别(“话题”),每个类别有若干个主题词,即辨别出了每个话题的隐式语义特征。尽管对于某些类别而言无法严格界定其对应客观世界的何种概念或实体,但是
26、由于数据挖掘算法本身是根据一定的文本相关性、相似度来计算的,同一个类别内部的文本相关性都很高,使用这些文本的关键词或者词向量、文档向量与用户兴趣标签进行匹配,可以获得较好的推荐效果。二、为何需要使用文本特征体系二、为何需要使用文本特征体系 三、语义标签体系的建设和使用三、语义标签体系的建设和使用与给每个用户维护一份用户画像类似,算法推荐系统为每一篇文章也维护一份文章的“档案”。实体词识别实体词识别算法算法实体类的语义标签也称为“实体词”。在准确分类的基础上,对每篇文章中具体的实体词进行精准识别是用以支撑算法推荐流程的基本要求。(1)首先需要对文本进行分词和词性标注对文本进行分词和词性标注。在本
27、书第章我们曾经介绍过,对于中文的文本内容来说,由于词之间没有类似英语单词之间的空格分隔,因此需要从句子中分隔出一个一个的单词,用于后续的实体词匹配。此外,还需要对分隔出的词进行词性标注,这些都是文本预处理的基本操作。(2)其次是从语义特征体系中抽取可能的候选实体词从语义特征体系中抽取可能的候选实体词,也就是实体这一层的语义标签。(3)接下来,针对文章中词对应的多个候选实体词进行歧义消除针对文章中词对应的多个候选实体词进行歧义消除,即选择一个最合适的实体词,去掉其他候选实体词。(4)最后,针对文章中识别出的全部语义标签,计算其与文章的相关性计算其与文章的相关性,即权重值。提要:提要:构建好“分类
28、”“概念”“实体”三层语义标签体系后,算法推荐系统在内容侧通过分词、候选实体词选择、候选实体词去除歧义等步骤,对内容进行语义标签特征的抽取,完成内容的分类。随后依据内容分类和用户兴趣的匹配实现内容推荐。语义标签是一类非常重要的特征,需要掌握语义标签体系的建立,以及为什么要对语义标签进行分层,分层的意义和作用。第3节 知识图谱 一一、知识图谱简介、知识图谱简介知识图谱(knowledge graph)或称知识库(knowledge base)是支持语义标签系统的技术平台,用于存储计算机系统中的结构化以及半结构化数据。最早的知识库起源于专家系统。所谓“专家系统专家系统”是指在人工智能领域中模拟人类
29、专家进行决策的计算机系统,基于系统已有的“知识”(确定的规则),专家系统可以进行复杂问题的推理,实现决策。专家系统起源于 20 世纪 70 年代,繁盛于 20 世纪 80 年代,是早期人工智能真正成功的一种实现。常见的知识库系统有 YAGO、DBpedia、Freebase等。在工业界,谷歌公司也在建立知识图谱,主要用于为用户提供从多种数据来源获取的与搜索结果相关的知识和信息。细分的行业领域也构建了不同的知识库,UMLS(Unified Medical Language System)二二、知识图谱的应用、知识图谱的应用(1)提供更精准的搜索)提供更精准的搜索结果结果例如在信息搜索领域,如果搜
30、索引擎能够建立一个比较完备的知识库,容纳互联网上海量网页内容背后对应的实体,则其搜索结果的有效性会大幅提高。(2)支持更准确的数据分析)支持更准确的数据分析以新闻事实核查为例,虚假消息和谣言在互联网上的泛滥导致受众对真相认知的缺失,特别是一些与健康相关的谣言,对人民群众的身心健康造成了不良影响。因此迫切需要有效的识别机制来应对数量庞大的虚假消息和谣言。因为知识库中保存了真实有效的实体及其关系数据,因此知识库可以帮助实现这个目标。(3)促进更有效的决策支持)促进更有效的决策支持例如检测药物的副作用。对于每一款药物,可以通过药物的成分识别,从知识库中了解成分(实体)与药物的副作用(实体)之间的关系
31、。通过实体和实体之间的关系,建立成分与副作用之间的联系。对于某种新药,就可以根据从知识库里抽取和建立的副作用关系进行判断,支持与药物功能相关的决策和判断,从而不必依赖个体专家的专业领域知识。对知识图谱的一个直观理解就是计算机系统模仿人对客观世界的建模。本章小结算法算法推荐系统对文本型内容进行个性化推荐时所需要的文本型内容推荐系统对文本型内容进行个性化推荐时所需要的文本型内容的建模的建模与分析、计算手段与分析、计算手段。使用。使用自然语言生成的文本原始数据往往会存在不自然语言生成的文本原始数据往往会存在不规范规范的的现象和一定的噪声数据,因此必要的预处理是文本建模的现象和一定的噪声数据,因此必要
32、的预处理是文本建模的前置条件。前置条件。0101020203030404从内容安全角度,算法推荐平台需要对内容的安全从内容安全角度,算法推荐平台需要对内容的安全 性和风险进行判断和性和风险进行判断和甄别,以确保呈现给用户的内容能够遵循相关的法律法规和社会公序良俗。甄别,以确保呈现给用户的内容能够遵循相关的法律法规和社会公序良俗。针对系统中的合规内容进行个性化推荐时,算法推荐系统可以通过语义特针对系统中的合规内容进行个性化推荐时,算法推荐系统可以通过语义特征、隐式语义特征、时空特征、质量相关特征等维度计算内容与用户兴趣征、隐式语义特征、时空特征、质量相关特征等维度计算内容与用户兴趣的匹的匹 配程
33、度,指导算法推荐。配程度,指导算法推荐。知识图谱是一种语义相关的知识体系结构,使用知识图谱知识图谱是一种语义相关的知识体系结构,使用知识图谱 进行文本特征体进行文本特征体系的建立具有较强的表达能力和可解释性,因此,大规模内容库特系的建立具有较强的表达能力和可解释性,因此,大规模内容库特 征的组征的组织方式可以借助知识库和知识图谱来实现。织方式可以借助知识库和知识图谱来实现。思考如果你准备搭建一个算法推荐系统并预期借此营利,请思考你更愿意搭建垂直领域的算法推荐系统还是多领域的算法推荐系统?建设二者需要的文本特征体系会有何异同?在一篇文章中,对文中提及的人名进行歧义消除,即确定特定人名对应的人物,这属于数据预处理的哪一个步骤?在算法推荐系统中,确保内容安全的必要性和意义是什么?在算法推荐系统中,内容风险识别技术有哪些?什么是文本特征体系?为什么需要使用文本特征体系?实 训01020304