发新话题
打印

知识图谱相关会议之观后感分享与学习总结

知识图谱相关会议之观后感分享与学习总结

2015年6月27日,清华大学FIT楼多功能报告厅,中国中文信息学会青年工委系列学术活动——知识图谱研究青年学者研讨会。
        由于我毕设是与知识图谱、实体消歧、实体对齐、知识集成相关的,所以去听了这个报告;同时报告中采用手写笔记,所以没有相应的PPT和原图(遗憾),很多图是我自己画的找的,可能存在遗漏或表述不清的地方,请海涵~很多算法还在学习研究中,最后希望文章对大家有所帮助吧!感谢那些分享的牛人,知识版权归他们所有。
        目录:
        一.面向知识图谱的信息抽取技术
        二.常识知识在结构化知识库构建中的应用
        三.浅谈逻辑规则在知识图谱表示学习中的应用
        四.大规模知识图谱表示学习
        五.知识图谱中推理技术及工具介绍
        六.多语言知识图谱中的知识链接
        七.知识图谱关键技术和在企业中的应用


一.面向知识图谱的信息抽取技术——韩先培(中科院)
       下图是我自己根据讲述内容笔记绘制的大纲:
      
        传统知识抽取主要是抽取是以实体、关系和事件为主的结构化信息抽取;随着维基百科的出现,导致了面向知识图谱的信息抽取,主要的变化包括:抽取目标发生了变化,从ACE文本分析抽取到KBP海量数据发现集成,同时传统的抽取是预指定类型到现在的基于开放域、变化数据的抽取。

        韩先陪老师主要从以下四个部分分别进行了详细的讲解。

1.高价值信息检测
        以知识为核心的高价值信息包括:高价值结构和高价值文本。其中高价值结构例如Wikipedia的InfoBox(消息盒),Web Table等。再如高价值文本:

姚明身高2.29m
   姚明爸爸身高2.08m,姚明比他爸高21cm

        显然第一段文字信息获取价值更高,第二段文字还需要分析关系+身高相加。




        2.知识链接link
        对自然语言文本信息与知识库中的条目进行链接,但不同数据源会存在冗余信息或歧义,词义消歧的例子如下:


        例如“苹果”和“乔布斯”通过命名实体消歧确定为“苹果(公司)”。实体链接可以利用上下文相似度、文本主题一致性实现,主要有两类方法:
        1) 实体链接方法——统计方法
        通过知识库和大规模语料+深度学习模型实现。
        2) 实体链接方法——图方法
        计算最大似然链接结果的算法





3.开放抽取
        传统的抽取方法:人工标注语料+机器学习算法,但成本高、性能低、需要预定义。
        所以提出了按需抽取、开放抽取等内容。

1) 按需抽取
        算法Bootstrapping,主要步骤包括:模板生成=》实例抽取=》迭代直至收敛,但会存在语义漂移线性。

2) 开放抽取
        通过识别表达语义关系的短语来抽取实体之间的关系,工具ReVerb。如抽取“华为总部深圳”,它的优点是无需预先指定,缺点是语义归一化。
        知识监督开放抽取,基于噪音实例去除的DS方法。Open IE(知识抽取)



4.验证集成
        知识集成需要保证其准确性和可靠性,同时知识图谱需要增加知识、更新知识,需要确保其一致性。
        数据集成Google‘s Knowledge Vault,数据来源包括DOM、HTML表格、RDFa、文本等,方法最大熵模型融合数据/分类器。
        例如我在做实体对齐时就会遇到这样的知识集成。维基百科中Infobox属性“总部位于、总部建于、总部设置于”都是映射统一概念“总部位置”,这就需要知识集成、实体属性对齐,常用的方法包括:聚类相似度、短语相似度等。

总结:本文讲述了从传统IE(知识抽取)到面向知识图谱IE,文本为核心到知识获取为核心,封闭信息类别到基于开放的知识抽取,更关注Retall、precision等概念和例子。


二.常识知识在结构化知识库构建中的应用——冯岩松

        Common Sense Knowledge in Automatic Knowledge Base Population
        下图是我总结的一张图,主要包含的一些知识,因为冯老师讲的是英文PPT,很多东西我也不太懂或还在学习中,所以只能讲述些简单的知识,还请见谅。


        这里使用的三元组是<subject, predicate, object>,举例:维基百科中已经存在了“姚明”的InfoBox半结构化数据,同时对应有详细的介绍;现在给你“郭艾伦”一篇的详细信息,让你通过类似的方法进行标注抽取属性和值,并预测一个InfoBox信息框。
        但同时在抽取信息过程中会存在噪声,例如一句话包含“安倍”和“日本”,但未必能确定他的国籍;再如“乔布斯回苹果了”这句话不能确定他是苹果的CEO。
        知识不应仅是<s,p,o>,实际上知识是相互关联的,通过关联才能发挥它最大效应。
        eg1:
   Mao was born in China.
   Mao was born in US.

        eg2:
   Mao was born in 1991.
   Mao graduated from MIT in 1993.

        很显然,Mao不可能即出生在中国又出生在美国;Mao也不可能只用2年的时间读完MIT所有课程。即使是一个小学生可能都知道这个道理。
        但是你否定它是用你的常识,而不是<s,p,o>技术。Knowledge beyond <s,p,o>

解决方法是通过A tpye of Common Sense Knowledge(CSK)常识知识实现,包括因果解释、生活规律、知识推理等,把常识约束加入到模型之中去,通过实体Preference(偏好)、Constraint(约束)加入。
        举个简单例子:
        在知识问答中“Which is the biggest city in China?”,可以通过CSK定义最高级常识如longest映射到长度length,biggest映射城市面积最大。通过定义一些常识,其效果都有相应的提升。


三.浅谈逻辑规则在知识图谱表示学习中的应用——王泉


       主要讲述了逻辑规则+表示学习应用到知识图谱中,主要内容如下:


        由于数据驱动方法和精度有限(广泛相关!=精确匹配),需要引入逻辑规则。其中知识图谱表示学习主要的三个步骤如上图所示,由于涉及到很多数学、算法方面知识,我也不是很理解。其中包括:RESCAL基于重构误差的方法、基于排序损失的方法TransE、流水线式方法(马尔科夫逻辑网络、0-1整数线性规划)、联合式方法。
        举个例子:
        问圣安东尼奥(NBA马刺队)位于美国哪个州State?
        它给出的答案应该是排序序列,答案至少都是美国的州,但精确定位唯一答案比较难。其解决方法就可以加入文中讲到的“逻辑规则+表示学习”实现。


四.大规模知识图谱表示学习——刘知远(清华大学自然语言处理)


        一个著名的公式:机器学习=数据表示+学习目标+优化方式
        现在面临的挑战是缺乏统一的语义表示和分析手段,而表示学习的目的就是建立统一的语义表示空间。
        知识图谱包括实体和关系,节点表示实体,连边表示关系,采用三元组<head,relation,tail>来实现。大规模知识获取从文本数据抽取关系发展到了从知识图谱抽取关系,其挑战是高维。
        知识表示代表模型包括:Neural Tensor Network(NTN)、TransE(Translation-based Entity)。


        其中研究趋势主要包括以下几个方面:

1.知识表示研究趋势:一对多关系处理
        例如:
   美国总统是奥巴马
   美国总统是克林顿

        美国总统到底是谁?TransE假设无法较好处理一对多、多对多的关系,其趋势是不同类型的relation怎么表示学习?
        2.知识表示研究趋势:文本+KG融合
        TransE+Word2Vec就是文本方法和知识图谱方法相融合,KG对应TransE方法,文本Text对应Word2Vec模型。基于CNN的关系抽取模型,建立对词汇、实体、关系的统一表示空间。

3.知识表示研究确实:关系路径表示
        知识图谱中存在复杂的推理关系,关系路径算法(实体预测、关系预测)。RNN(Recurslve Neural Network)、PTransE(ADD,3-step)。

        中间对四位老师的提问:
        1.中文文本聚类
        文本自动生成摘要信息,词与词之间关系、句子主干主谓宾提取、句子压缩、获取任务相关的鲜艳信息。
        2.不同语言的知识图谱
        现趋势文本+KG(知识图谱)相结合,而对不同语言呢?知识不应该有语言的障碍,语言相当于只是添加了标签label,关系是客观存在的(唯一关系标识),如“情侣”、“恋人”只是表达不同。
        3.淘宝商品种类多、更新快,海量数据类别大,需要知识图谱吗?
        目前淘宝做得这么好,没有必要。KG适合复杂推理关系,但产品属性可以通过知识图谱存储。知识图谱是基础构建,抽取结构化、半结构化信息当成知识,应用于NLP、AI、问答系统、理解事件等。







TOP

五.知识图谱中推理技术及工具介绍——漆佳林

        An Introduction of Reasoning in Knowledge Graph and Reasoning Tools
        本体规则推理,Ontology(本体)起源于哲学,表示形式化词汇定义、抽象概念。数据异构性包括结构化数据、半结构化数据和非结构化数据的集成。

本体语义三个标准:
        1.RDF:Resource Description Frameword
        2.RDFs:Classes例如MusicArtist音乐家
        3.OWL:Web Ontology Language,W3C标准,hierarchy分层
        包括Domain和Range
        如:“独奏音乐家”属于“音乐艺术家”属于“艺术家”,具有传递性。
        推理解决现实问题例如:
        北京路发生追尾(BeijingRoad? ョoccur Rear-end) 、王军在北京路...可以推理王军堵车。
        工具:
        Dbpedia知识库是基于Wikipedia,WebPIE工具-MapReduce(平台Platform)-OWL(语言),Marvin-PeertoPeer(平台)-RDF(语言),SAOR\GEL-基于图数据库的平台-OWLEL(语言)。
        再如推荐流行歌例子:
   小明喜欢周杰伦歌手          小明是年轻人          难
   周杰伦歌手唱流行歌    =》    小明是周杰伦粉丝       正确
   周杰伦唱《牛仔很忙》         《牛仔很忙》是流行歌    正确


六.多语言知识图谱中的知识链接——王志春
        DBpedia知识图谱是Wikipedia(维基百科)的DBpedia extraction framework
        维基百科一个页面如下所示,包括:Title、Description、InfoBox、Categories(实体类别)、Crosslingual Links(跨语言链接)。



        例如“清华大学”中文、发文和英文EN的“清华大学”实体是指称项一致的,通过实体链接实现不同语言链接。
        规范化数据集:http://mappings.dbpedia.org/
                                http://dbpedia.org/
        知识库:
        BabelNet知识库、WordNet、机器翻译工具Google Translation
        Freebase and Wikidata,Freebase关闭了,变成了Wikidata知识库。在Wikidata中传统的Entity、Relation变成了item,不同语言标记不同,EN label、CN label、FR label标记。
        YAGO3,Wikipedia+WordNet+GeoNames,添加了地理位置信息、时间信息、多源版本。

        王志春老师们做了个把维基百科、百度百科、互动百科联系在一起的中英文的LORE。我的毕设是基于三个百科和多源网站的旅游景点知识对齐融合技术,感触颇深。
        总体来说,DBpedia、BabelNet、WikiData、YAGO3都来源于Wikipedia。通过Cross-lingual Knowledge Linking链接发现中英文,主要通过相似性和链接关系实现。


七.知识图谱关键技术和在企业中的应用——王昊奋


        Publishing and Consuming Knowledge Graphs in Vertical Sectors
        如何从数据中发现商业价值,主要看全面数据、可访问的、可移植(Action)三方面。知识图谱在企业中的应用简单包括:
        IBM的Watson通过分析病人症状,来实现自动诊断、分析病情、推荐药物
        自动诊断Automatic ICD Coding,通过EMR(电子病历)建立相应的SG(图谱)
        在生物医药方面应用Open Phacts
        Agriculture农业方面,各种形态的异构数据,生物论文Pubmed
        Amdocs电信方面CRM(客户关系管理),如一位信用好的老客户该月的电话费比平时增加了30块,发现是自己的女儿下载了一个游戏业务,当该客户打电话过去,电信公司就已经取消了该游戏业务,这是怎么实现的呢?它就涉及到了相关的技术。
        2012年伦敦奥运会新闻信息,很多都是自动生成的
        Enterprise Knowledge Graph

        由于会议要开到5点半,还有两个主题:
        Natural Language Question Answering Over Knowledge Graph: A Data-driven Approach
        知识库问答的问题与挑战
        但我北邮有个同学要毕业了,我就提前离开了参加聚餐去了。最后希望文章对你有所帮助吧!因为不同主讲人讲述的内容不同,它们之间存在着一定联系,但又不是很密切,同时自己的深度和理解还不够,所以文章比较涣散,但作为总结分享出来,你也可以简单学习。后面如果我写毕业论文相关的博客,文章相关度和层次就一目了然了。

(By:Eastmount 2015-6-29 半夜4点半   http://blog.csdn.net/eastmount/



TOP

知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点。中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值。中国中文信息学会(CIPS)邀请了有约10家从事知识图谱研究和实践的著名高校、研究机构和企业的专家及学者有意参与并发表演讲,下面就是第一届全国中文知识图谱研讨会的学习笔记。
        会议介绍地址和PPT下载链接:http://www.cipsc.org.cn/kg1/



        第一篇以现有百度知心和搜狗知立方为主,其中文章目录如下所示:
        一.知识图谱相关引入介绍
        二.NLP Techniques in Knowledge Graph —— 百度知心
        三.面向知识图谱的搜索技术 —— 搜狗知立方

        PS:希望大家看原文PDF,因为由于我也还在学习过程中,本人理解程度不够;同时有没有现场听这个讲座,所以很多具体实现方法和过程都无法表述。
        下载地址:http://download.csdn.net/detail/eastmount/9255871


一. 知识图谱相关引入介绍        在介绍会议内容之前,我准备先给大家介绍下知识图谱的基础知识。前面我也介绍过很多知识图谱相关的文章,这里主要阅读华南理工大学华芳槐的博士论文《基于多种数据源的中文知识图谱构建方法研究》,给大家讲解知识图谱的内容及发展历史。
        (一).为什么引入知识图谱呢?
        随着信息的爆炸式增长,人们很难从海量信息中找到真实需要的信息。搜索引擎正是在这种情况下应运而生,其原理是:
        1.通过爬虫从互联网中采集信息,通过建立基于关键词的倒排索引,为用户提供信息检索服务;
        2.用户通过使用关键词描述自己的查询意图,搜索引擎依据一定的排序算法,把符合查询条件的信息依序(打分)呈现给用户。

        搜索引擎的出现,在一定程度上解决了用户从互联网中获取信息的难题,但由于它们是基于关键词或字符串的,并没有对查询的目标(通常为网页)和用户的查询输入进行理解。
        因此,它们在搜索准确度方面存在明显的缺陷,即由于HTML形式的网页缺乏语义,难以被计算机理解。

        (二).语义Web和本体的概念
        为解决互联网信息的语义问题,2008年Tim Berners-Lee等人提出了下一代互联网——语义网(The Semantic Web)的概念。在语义Web中,所有的信息都具备一定的结构,这些结构的语义通常使用本体(Ontology)来描述。
        当信息结构化并且具备语义后,计算机就能理解其含义了,此时用户再进行检索时,搜索引擎在理解互联网中信息含义的基础上,寻找用户真实需要的信息。由于互联网中信息的含义是由本体来描述的,故本体的构建在很大程度上决定了语义Web的发展。
        本体(Ontology)描述了特定领域(领域本体)或所有领域(通用本体)中的概念以及概念之间的关联关系,并且这些概念和关系是明确的、被共同认可的。通常,本体中主要包括概念、概念的其他称谓(即同义关系)、概念之间的上下位关系、概念的属性关系(分为对象属性和数值属性)、属性的定义域(Domain)和值域(Range),以及在这些内容上的公理、约束等。

        (三).知识图谱发展历程
        随着互联网中用户生成内容(User Generated Content, UGC)和开放链接数据(Linked Open Data, LOD)等大量RDF(Resource Description Framework)数据被发布。互联网又逐步从仅包含网页与网页之间超链接的文档万维网(Web of Document)转变为包含大量描述各种实体和实体之间丰富关系的数据万维网(Web of Data)。
        在此背景下,知识图谱(Knowledge Graph)正式被Google于2012年5月提出,其目标在于改善搜索结果,描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。紧随其后,国内外的其它互联网搜索引擎公司也纷纷构建了自己的知识图谱,如微软的Probase、搜狗的知立方、百度的知心。知识图谱在语义搜索、智能问答、数据挖掘、数字图书馆、推荐系统等领域有着广泛的应用。
        下图是搜狗知立方“姚明”的关系图:


        谷歌S. Amit的论文《Introducing the Knowledge Graph: Things, Not Strings》
        阿米特·辛格尔博士通过“The world is not made of strings, but is made of things”这句话来介绍他们的知识图谱的,此处的“thing”是和传统的互联网上的网页相比较:知识图谱的目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。
        知识图谱和本体之间又存在什么区别呢?
        知识图谱并不是本体的替代品,相反,它是在本体的基础上进行了丰富和扩充,这种扩充主要体现在实体(Entity)层面;本体中突出和强调的是概念以及概念之间的关联关系,它描述了知识图谱的数据模式(Schema),即为知识图谱构建数据模式相当于为其构建本体;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。
        知识图谱可以看成是一张巨大的图,图中的节点表示实体或概念,而图中的边则构成关系。在知识图谱中,每个实体和概念都使用一个全局唯一的确定ID来标识,这个ID对应目标的标识符(identifier);这种做法与一个网页有一个对应的URL、数据库中的主键相似。
        同本体结构一样,知识图谱中的概念与概念之间也存在各种关联关系;同时,知识图谱中的实体之间也存在这同样的关系。实体可以拥有属性,用于刻画实体的内在特性,每个属性都是以“<属性,属性值>对(Attribute-Value Pair, AVP)”的方式来表示的。
        (四).知识图谱举例
        总之,知识图谱的出现进一步敲开了语义搜索的大门,搜索引擎提供的已经不是通向答案的链接,还有答案本身。下图展示Google搜索结果的快照,当用户搜索“刘德华的年龄”时,其结果包括:
        1.列出了相关的网页文档检索结果;
        2.在网页文档的上方给出了搜索的直接精确答案“54岁”;
        3.并且列出了相关的人物“梁朝伟”、“周润发”以及他们各自的年龄;
        4.同时在右侧以知识卡片(Knowledge Card)的形式列出了“刘德华”的相关信息,包括:出生年月、出生地点、身高、相关的电影、专辑等。
        知识卡片为用户所输入的查询条件中所包含的实体或搜索返回的答案提供详细的结构化信息,是特定于查询(Query Specific)的知识图谱。



        这些检索结果看似简单,但这些场景背后蕴含着极其丰富的信息:
        1.首先,搜索引擎需要知道用户输入中的“刘德华”代表的是一个人;
        2.其次,需要同时明白“年龄”一词所代表什么含义;
        3.最后,还需要在后台有丰富的知识图谱数据的支撑,才能回答用户问题。

        同时,知识图谱还在其他方面为搜索引擎的智能化提供了可能,辛格尔博士指出:搜索引擎需要在答案、对话和预测三个主要功能上进行改进。另外,知识图谱在智能问题、知识工程、数据挖掘和数字图书馆等领域也具有广泛的意义。
        按照覆盖面,知识图谱可以分为:
        1.通用知识图谱
        目前已经发布的知识图谱都是通用知识图谱,它强调的是广度,因而强调更多的是实体,很难生成完整的全局性的本体层的统一管理;另外,通用知识图谱主要应用于搜索等业务,对准确度要求不是很高。
        2.行业知识图谱
        行业知识图谱对准确度要求更高,通常用于辅助各种复杂的分析应用或决策支持;严格与丰富的数据模式,行业知识图谱中的实体通常属性多且具有行业意义;目标对象需要考虑各种级别的人员,不同人员对应的操作和业务场景不同。
         本体构建:人工构建方式、自动构建方式和半自动构建方式

TOP

二. NLP Techniques in Knowledge Graph —— 百度知心        主题和主讲人:百度知识图谱中的NLP技术——赵世奇(百度)
        (一).Baidu Knowledge Graph
        百度知心访问链接:http://tupu.baidu.com/xiaoyuan/
        其中百度知识图谱“章子怡”人物关系图谱如下所示:


        知识图谱与传统搜索引擎相比,它会返回准确的结果(Exact answers),如下:


        同时知识图谱推荐列表(List Recommendation)如下所示,搜索“适合放在卧室的植物”包括“吊兰、绿萝、千年木”等等。其中Named entities 命名实体、Normal entities 普通实体。


        同时,百度知心知识图谱也支持移动端的应用,如下图所示:


        PS:不知道为什么最近使用百度知心搜索的效果不是很好!感觉搜狗知心和google效果更好~
        (二).Knowledge Mining
        知识挖掘包括:Named entity mining 命名实体挖掘、AVP mining 属性-值对挖掘、Hyponymy learning 上下位学习、Related entity mining 相关实体挖掘。
        PS:注意这四个知识点非常重要,尤其是在知识图谱实现中,下图也非常重要。



        1.命名实体挖掘 Mining Named Entities
        传统命名实体(NE)类别:人(Person)、位置(Location)、组织(Organization)
        更多对web应用程序有用的新类别:Movie、TV series、music、book、software、computer game
        更精细的分类:组织 -> {学校,医院,政府,公司...}

Computer game -> {net game,webpage game,...}
        其中web中命名实体的特点包括:新的命名实体迅速崛起,包括软件、游戏和小说;命名实体在网络上的名字是非正式的(informal)
        (1)从查询日志(Query Logs)中学习命名实体(NEs)
        查询日志中包含了大量的命名实体,大约70%的搜索查询包含了NEs。如下图2007年Pasca论文所示,命名实体能够根据上下文特征(context features)识别。如上下文词“电影、在线观看、影评”等等,识别“中国合伙人”。



        Bootstrapping approach
        given a hand of seed NEs of a category C
        从查询中学习种子的上下文特征,然后使用已经学到的上下文特征来提取C类的新种子实体,使用扩展种子集去扩展上下文特征....
        利用查询日志该方法的优点是:它能够覆盖最新出现的命名实体;它的缺点是:旧的或者不受欢迎的命名实体可能会错过。
        (2)从普通文本中学习命名实体(Learning NEs from Plain Texts)
        文字包装器(Text Wrappers)被广泛使用于从纯文本中提取(Extracting)命名实体。例如包装器“电影《[X]》”,“影片[X],导演”,其中[X]表示电影名字。如下图所示:



        (3)使用URL文本混合模式(Url-text Hybrid Patterns)学习命名实体
        是否有可能只从网页标题(webpage titles)中提取命名实体呢?确实。99%的命名实体都能够在一些网页标题中发现。
        Url文本混合模型应该考虑URL约束,简单的文本模式可信的URL链接是足够的,复杂的文本模式需要低质量的URL。其中论文参考下图:








        PS:涉及到Multiclass collaborative learning多类协作学习,推荐去看2013年具体的论文,鄙人才疏学浅,能力有限,只能讲些入门介绍。《Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns》ZhangZW
        2.属性-属性值对挖掘 AVP Mining
        AVP英文全称是Attribute Values Pairs。那么,哪里会见到这种AVP数据呢?
        在线百科:三大百科 Baidu Baike \ Wikipedia \ Hudong Baike
        垂直网站(Vertical websites):IMDB,douban for videos
        普通文档网页:从结构化、半结构化(semistructured)和非结构化文本中爬取AVP

        (1)挖掘在线百科AVP数据
        如下图所示,结构化信息盒infobox准确但不完美,半结构化信息不是足够准确。
        PS:结构化数据如数据库中表;非结构化数据像图片、视频、音频无法直接知道它们的内容;半结构化数据如员工的简历,不同人可能建立不同,再如百科Infobox的“属性-值”可能不同,它是结构化数据,但结构变化很大。



        (2)挖掘垂直网站AVP数据
        下面是从垂直网站中爬取结构化数据或半结构化数据。



       可能会遇到两个问题?
       第一个是如何找到相关的垂直网站,如果是寻找流行的网站是容易的,如音乐、电影、小说;但是如果是寻找长尾域(long tail domains)的网站是困难的,如化妆品、杂志。第二个问题是面对众多的数据怎样生成提取模式。



        同时,人工模式可以保证很高的准确性,但是工具能够帮助我们更加便利的编辑模式。最后AVP知识需要日常中积累和更新,包括不同时间类别的更新、新网站的加入、无序或网站崩溃需要自动检测或手工处理。

TOP

TOP

知识提取的一种应用,从上市公司年报中抽取因果关系 鲍捷

在金融的世界里,信息浩瀚如云海,相信每位金融从业者都有过信息过剩的烦恼,面对着大量的上市公司公告、财报、研报,新闻…,个人精力似乎总是不够。现今信息和数据是如此地高速膨胀,我们似乎需要一种更为高效的信息处理方式。
数据经过挖掘、加工处理之后,就能够成为人们所需要的信息。借助技术的力量,从海量数据中提取有用信息,识别其中蕴藏的模式、规律和相关关系,则是一种人类认识世界的新方式。
例如,在上市公司财报中蕴藏着大量的人工总结,其中包括大量的因果关系。因果关系的识别可以帮助我们了解事件之间的来龙去脉,获取事件的演化关系,有助于预测和决策。而基于这种认识,文因互联的工程师王爽利用NLP技术,对上市公司的年报进行了一次因果关系的抽取的实验。
接下来,就让我们来看看,在一份上市公司的年报中的一个抽取结果项目(下图为代码展示):

  • 【raw_text】表示原始的表示因果关系的句子
  • 【title_path】表示的是句子位于文档中的位置
  • 【financial_term】表示的是财务项目
  • 【trend】表示的是该项目的变化趋势
  • 【amplitude】表示的是该项目的变换幅度
  • 【cause】表示的是该项目的变化原因
通过这样的提取工作,我们能够在短短的几分钟之内就可得知一份厚厚的年报中关键的“因果关系”信息。从实现角度来说,要想提取这些字段,则需要分两步走:
1 找出表示因果关系的句子计算机当然不会知道我们关心的是哪些句子,而为了让计算机知道我们的想法,则必须告诉他一些特征。因此,首先要人工分析一些年报,找到表示因果关系句子的模式。比方说上图中的例子就是“XXX主要是因为XXX”这种模式,而类似的模式还有很多。在找到所有这些模式之后,计算机就可以对公司年报进行遍历搜索,取出所有符合这些模式的句子。
这中间主要的难点就是模式的松紧程度。如果我们提出的模式比较宽松,那么最终会找出许多不想要的句子;而如果提出的模式比较精细,那么又会丢失掉一些因果句子,准确度和覆盖度不可兼得。在调整了很多轮之后,才算得到一个合适的折中效果。
2 将句子切分为关心的字段一旦找到这些表示因果关系的句子,下一步就是将其分解为关心的字段。这其实就是一个知识提取的过程,具体的算法就暂且不表。
相比上一步,这一步最大的麻烦是有很多信息噪音,会有许多不是财务项目的字段提取出来。
因为我们对财务指标的准确度要求比较高,最终决定使用白名单来过滤噪音的办法。我们让让专业金融支持团队人工建立了一个财务项目白名单,只有当字段中出现这些财务项目时,才会对其提取保存。在过滤了这些噪音之后,最终的效果还是令人满意的。
一份年报中,会出现数个甚至数十个这样的抽取结果,而随着报告的数量上升,在海量的数据供给下,在利用先进的算法将这些数据进行进一步的处理和挖掘,则机器智能开始显现。人们生活中依靠常识性思维判断的知识被计算机系统所“知晓”,甚至推理出由人类思维所无法达到的深层因果关系,使人们进一步明确事物间的引起与被引起作用,有利把控事物间的不利影响。

TOP

发新话题

郑州档案数字化