快捷搜索:

知识提取在上市公司信息披露中的应用,一文读

日期:2019-06-24编辑作者:澳门新葡8455手机版

图片 1

切分歧义的消解。典型的方法包括句法统计和基于记忆的模型。句法统计将自动分词和基于 Markov 链的词性自动标注技术结合起来,利用从人工标注语料库中提取出的词性二元统计规律来消解切分歧义,基于记忆的模型对伪歧义型高频交集型歧义切分,可以把它们的正确(唯一)切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。

公告摘要示例:

为了提升 RNN 对文本序列的语义表示能力,研究者提出很多扩展模型。例如,长短时记忆网络(LSTM)提出记忆单元结构,能够更好地处理文本序列中的长程依赖,克服循环神经网络梯度消失问题。如图 4 是 LSTM 单元示意图,其中引入了三个门(input gate, output gate, forget gate)来控制是否输入输出以及记忆单元更新。

  1. 有一定的编程能力,熟悉 Python。

  2. 有数据标注和校验经验。

  3. 有语言学、自然语言处理或金融、财会背景。

内容单元类型开放:不限定所抽取的内容单元类型,而是自动地从网络中挖掘内容单元的类型,例如实体类型、事件类型和关系类型等。

对海量公告信息制作摘要或提取有意义的结构化信息,一方面可以提高投资者的信息获取能力,同时也为市场监管及企业研究提供了基础数据支持。

文档内容描述具有结构性,因此也有利用隐马尔科夫模型(HMM)、条件随机场(CRF)、结构化支持向量机(Structural SVM)等常见序列标注或一般结构预测模型进行抽取式摘要有监督训练的工作。所提取的特征包括所在位置、包含词汇、与邻句的相似度等等。对特定摘要任务一般也会引入与具体设定相关的特征,例如查询相关摘要任务中需要考虑与查询的匹配或相似程度。

  1. 精通 HTML5、CSS3、ES6 等 Web 前端开发技术

  2. 熟悉 Java 面向对象编程、函数式编程及其相关设计模式

  3. 熟悉 React /Vue技术栈,了解 Redux/Vuex 或基于它们二次开发的状态管理框架

  4. 熟悉 webpack、Babel、npm/Yarn 等现代前端开发工具

一般来讲,社区问答的核心问题是从大规模历史问答对数据中找出与用户提问问题语义相似的历史问题并将其答案返回提问用户。假设用户查询问题为q0,用于检索的问答对数据为SQ,A = {(q1 , a1 ), (q2 , a2 )}, … , (qn, an)}},相似问答对检索的目标是从SQ,A中检索出能够解答问题q0的问答对(qi , ai )。 针对这一问题,传统的信息检索模型,如向量空间模型、语言模型等,都可以得到应用。

【岗位职责】

论文下载地址:

英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

分词,词性标注技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等应用之中,而句法分析、语义分析技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。

公式(1)是说,当前的记忆单元 ct 的状态是以下两个因素之和:

同样,在自然语言处理研究领域,问答系统被认为是验证机器是否具备自然语言理解能力的四个任务之一(其它三个是机器翻译、复述和文本摘要)。自动问答研究既有利于推动人工智能相关学科的发展,也具有非常重要的学术意义。从应用上讲,现有基于关键词匹配和浅层语义分析的信息服务技术已经难以满足用户日益增长的精准化和智能化信息需求,已有的信息服务范式急需一场变革。

  • 1.文本分析过程:对原文进行分析处理,识别出冗余信息;
  • 2.文本内容的选取和泛化过程:从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;
  • 3.文摘的转换和生成过程:实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性

中文版博客专栏

根据统计,按照原有流程,摘要采编这道工序的时间从20秒至184秒不等,平均约为54秒;按照改进后的流程,自动摘要服务可在数秒之内完成摘要采编(含数据请求及返回的时间),单一工序效率提升了十倍有余。

ACL 2015: 

目前开源的PDF解析工具主要存在如下几个方面问题。

在未来的一段时间,结合互联网应用需求的实际和技术、产品运营能力的实际发展水平,语义搜索技术的发展重点将有可能集中在以各种情境的垂直搜索资源为基础,知识化推理为检索运行方式,自然语言多媒体交互为手段的智能化搜索与推荐技术。首先将包括各类垂直搜索资源在内的深度万维网数据源整合成为提供搜索服务的资源池;随后利用广泛分布在公众终端计算设备上的浏览器作为客户端载体,通过构建的复杂情境知识库来开发多层次查询技术,并以此管理、调度、整合搜索云端的搜索服务资源,满足用户的多样化、多模态查询需求;最后基于面向情境体验的用户行为模型构建,以多模态信息推荐的形式实现对用户信息需求的主动满足。

本文介绍了上市公司公告专业领域的知识抽取工作,采用了深度学习与传统规则方法的混合算法流程,并以9类高频公告作为测试集,均达到了理想可用的效果

为了更加充分地考虑文本词序信息,利用神经网络自动特征学习的特点,研究者后续提出了卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)进行文本分类。基于 CNN 和 RNN 的文本分类模型输入均为原始的词序列,输出为该文本在所有类别上的概率分布。这里,词序列中的每个词项均以词向量的形式作为输入。

本工作经过实践,总结出下图所示的模型。每类公告在训练前需要先进行标注,标注过程即在句子上进行分类。实践中可以先通过正则表达式进行粗筛,再进一步人工过滤。这部分工作使用了Tensorflow与Keras框架,在PDF转化为TXT之后,拆分成句子并进行向量化,如下图搭建模型并调节参数后,便训练出关键语句提取模型。

虽然基于简单概率上下文无关文法的句法分析器的实现比较简单,但是这类分析器的性能并不能让人满意。性能不佳的主要原因在于上下文无关文法采取的独立性假设过强:一条文法规则的选择只与该规则左侧的非终结符有关,而与任何其它上下文信息无关。文法中缺乏其它信息用于规则选择的消歧。因此后继研究工作的出发点大都基于如何弱化上下文无关文法中的隐含独立性假设。

通过对A股各类型公告的分析,按照知识提取的难度可分为三类,难度逐步增大。

  1. 词性标注方法

公告摘要示例:

新涌现的通用词或专业术语等;

对应信息点:

斯坦福cs224d: 

全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。

检索用户、信息资源和检索系统三个主要环节组成了信息检索应用环境下知识获取与信息传递的完整结构,而当前影响信息获取效率的因素也主要体现在这几个环节,即:

  • 结构化提取:在已经结构化的数据集中,如在Freebase、Wikidata等知识库中进行近一步的实体分类或关联挖掘,通常采用本体推理的方法实现。
  • 非结构化(半结构化)提取:数据以纯文本或者少量结构信息(如表格)的形式展现,需要提取关键实体(如人名,公司名),以及实体间关系(如张三-就职-A公司)。由于公告信息均是PDF文本信息,部分附带表格,故属于第二类。此类工作,一般通过NLP的句法分析,专家领域词表,正则系统,以及前沿的深度学习网络混合构建实现。
  • 对非结构化文档的知识抽取:由于非结构化文档数据丰富,对该类文档的知识抽取一直是知识抽取领域的研究重点。这类文档具有一定的模式,因此可以利用信息抽取(Information Extraction, IE)技术抽取其中的知识(或信息)。
  1. 博客
  • 各类命名实体的数量众多:根据对人民日报1998年1月的语料库(共计2,305,896字)进行的统计,共有人名19,965个,而这些人名大多属于未登录词。
  • 命名实体的构成规律复杂:例如由于人名的构成规则各异,中文人名识别又可以细分为中国人名识别、日本人名识别和音译人名识别等;此外机构名的组成方式也最为复杂,机构名的种类繁多,各有独特的命名方式,用词也相当广泛,只有结尾用词相对集中。
  • 嵌套情况复杂:一个命名实体经常和一些词组合成一个嵌套的命名实体,人名中嵌套着地名,地名中也经常嵌套着人名。嵌套的现象在机构名中最为明显,机构名不仅嵌套了大量的地名,而且还嵌套了相当数量的机构名。互相嵌套的现象大大制约了复杂命名实体的识别,也注定了各类命名实体的识别并不是孤立的,而是互相交织在一起的。
  • 长度不确定:与其他类型的命名实体相比,长度和边界难以确定使得机构名更难识别。中国人名一般二至三字,最多不过四字,常用地名也多为二至四字。但是机构名长度变化范围极大,少到只有两个字的简称,多达几十字的全称。在实际语料中,由十个以上词构成的机构名占了相当一部分比例。

对应信息点:

实践性差。基于统计的经验主义方法可以根据数据集不断对参数进行优化,而基于规则的方法就不可以,这在当前数据量巨大的情况下,影响是致命的,因为前者常常可以通过增大训练集来获得更好的效果,后者则死板许多,结果往往不尽人意。

  • 统计学习方法之间或内部层叠融合。
  • 规则、词典和机器学习方法之间的融合,其核心是融合方法技术。
  • 在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。
  • 将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。

命名实体识别系统通常包含两个部分:实体边界识别和实体分类。

下图便可以直观的理解RNN网络结构:

与人工书写规模相比,自动学习规则的方法由于开发周期短和系统健壮性强等特点,加上大规模人工标注数据,比如宾州大学的多语种树库的推动作用,已经成为句法分析中的主流方法。而数据驱动的方法又推动了统计方法在句法分析领域中的大量应用。为了在句法分析中引入统计信息,需要将上下文无关文法扩展成为概率上下文无关文法(Probabilistic Context Free Grammar,PCFG),即为每条文法规则指定概率值。

2.7 混合方法

  1. 依存句法分析

可见,模式匹配方法由两个基本步骤组成:模式选取和事件抽取。尽管不同的基于模式匹配的事件抽取系统有这样或那样的差异,但总的来讲,基于模式匹配的事件抽取方法准确率较高,且接近人的思维方式,知识表示直观、自然,便于推理。然而,这种方法往往依赖于具体语言,具体领域及文本格式,可移植性差,编制过程费时费力且容易产生错误,需要富有经验的语言学家才能完成;并且抽取的模式不可能涵盖所有的事件类型,当从一种语料转移到另一种语料时,为保证不损失性能,往往还需要花费很多工作在模式的重新获取上,因此性价比不高。

强大的知识资源:存储了大约 2 亿页的图书、新闻、电影剧本、辞海、文选和《世界图书百科全书》等资料;

1. 统招本科及以上学历,特别优秀者可放宽,专业、工作经验不限。

近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。自动问答的研究历史可以溯源到人工智能的原点。1950 年,人工智能之父阿兰图灵(Alan M. Turing)在《Mind》上发表文章《Computing Machinery and Intelligence》, 文章开篇提出通过让机器参与一个模仿游戏(Imitation Game)来验证“机器”能否“思考”,进而提出了经典的图灵测试(Turing Test),用以检验机器是否具备智能。

文章节选自上海证券交易所与上交所技术出版的《2017证券信息技术研究发展中心研究报告》内部刊物。

根据文法规则的来源不同,句法分析器的构建方法总体来说可以分为两大类:

  • 1.摘要采编;
  • 2.摘要一审;
  • 3.摘要二审及发布。

基于转移的方法将依存树的构成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。早期,研究者们使用局部分类器(如支持向量机等)决定下一个动作。近年来,研究者们采用全局线性模型来决定下一个动作,一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。特征表示方面,基于转移的方法可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。模型通过贪心搜索或者柱搜索等解码算法找到近似最优的依存树。和基于图的方法类似,基于转移的方法通常也采用在线训练算法学习特征权重。

此外为了加强模型的泛化能力,可以将部分结点进行熔断(Dropout)处理。

原文档中的每个句子由多个词汇或单元构成,后续处理过程中也以词汇等元素为基本单 位,对所在句子给出综合评价分数。

对应信息点:

下文主要对句法分析技术方法和研究现状进行总结分析:

  1. 事件类型识别:事件类别识别是指从文本中检测出事件句,并依据一定的特征判断其所归属的类别。不难看出,事件类别识别是典型的分类问题,其重点在于事件句的检测和事件句的分类。现有的检测事件句的方法主要是基于触发词的方法。在这类方法中,将每个词作为一个实例来训练并判断是否为触发词的机器学习模型,但引入了大量的反例,导致正反例严重不平衡。为了解决了上述问题,一种基于局部特征选择和正负特征相结合的事件检测与分类方法,取得了不错的识别效果(谭红叶,2008)。
  2. 事件元素识别与语义角色标注(Semantic Role Labeling, SRL)任务有一定的相似性。所谓语义角色标注,是根据一个句中的动词(谓词)与相关各类短语等句子成分之间的语义关系,而赋予这些句子成分的语义角色信息,如施事、受事、工具或附加语等。事件元素识别是事件抽取中又一核心任务。该任务主要从众多命名实体(Entity)、时间表达式(Time Expression)和属性值(Value)中识别出真正的事件元素,并给予其准确的角色标注。

强大的硬件平台:包括 90 台 IBM 服务器,分布式计算环境;

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 自律监管决定书(实体)
  5. 终止上市执行描述(句子)

需求与资源的合理匹配

一、模式匹配法

相比机器翻译、自动问答、知识图谱、情感分析等热门领域,自动文摘在国内并没有受 到足够的重视。国内早期的基础资源与评测举办过中文单文档摘要的评测任务,但测试集规 模比较小,而且没有提供自动化评价工具。2015 年 CCF 中文信息技术专委会组织了 NLPCC 评测,其中包括了面向中文微博的新闻摘要任务,提供了规模相对较大的样例数据和测试数据,并采用自动评价方法,吸引了多支队伍参加评测,目前这些数据可以公开获得。但上述中文摘要评测任务均针对单文档摘要任务,目前还没有业界认可的中文多文档摘要数据,这在事实上阻碍了中文自动摘要技术的发展。

公告摘要示例:

  1. 方法

图片 2

学习分类

本项工作的初始目的是为了公告制作小组提供合适的自动化处理工具,改进流程,降低风险,提高效率。公告制作小组的摘要内容制作流程是整个生产流程中的微小一环,包含三个步骤:

首先将原始文本表示为便于后续处理的表达方式,然后由模型对不同的句法或语义单元 进行重要性计算,再根据重要性权重选取一部分单元,经过内容上的组织形成最后的摘要。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 停复牌原因描述(句子)
  5. 停牌时间(日期)
  6. 复牌时间(日期)

切分歧义的消解。

按照应用领域又可划分为通用领域知识提取与专业领域知识提取。前者通常在海量文本中进行自动挖掘,实体识别被抽象为序列标注问题(Sequence Labelling),其中CRF算法(条件随机场)被证明比较稳定有效。它结合了最大熵与隐马尔科夫模型的特点,是一种无向图模型,它将句子(也就是词序列)的每个词打上一个标记,一般在词的左右开一个小窗口,根据窗口里面的词和待标注词语来实现实体提取,最后通过特征组合决定归为哪类实体。

  1. 关键问题

因为首要目的是识别关键语句,然而很多语句经常会以被动形式表述,为了能同样捕捉到这些信息,需要将句子倒序化,简单来讲仅需分词后将序列倒排即可,不必通过依存句法分析器(Dependency Parser)解析。

词性标注(Part-of-speech tagging)

如果你还不熟悉文因互联:文因互联是位于北京的智能金融创业公司。技术团队来自MIT、RPI、IBM、Samsung等知名大学和公司,深耕人工智能十余年,是知识图谱领域的领军团队。我们用人工智能技术解决交易所、银行、券商等面临的投资研究、自动化监管、投资顾问等问题。经过两轮融资,财务健康,目前市场拓展顺利,也建立了良好的行业口碑。

一直以来,人工智能的关键核心部件之一是构建可支撑类人推理和自然语言理解的大规模常识知识库。然而,由于人类知识的复杂性、开放性、多样性和巨大的规模,目前仍然无法构建满足上述需求的大规模知识库。信息抽取技术通过结构化自然语言表述的语义知识,并整合来自海量文本中的不同语义知识,是构建大规模知识库最有效的技术之一。每一段文本内所包含的寓意可以描述为其中的一组实体以及这些实体相互之间的关联和交互,因此抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础。

责任编辑:

2011年,华盛顿大学图灵中心主任 Etzioni 在 Nature 上发表的《Search Needs a Shake-Up》中明确指出: 在万维网诞生 20 周年之际,互联网搜索正处于从简单关键词搜索走向深度问答的深刻变革的风口浪尖上。以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态。同一年,以深度问答技术为核心的 IBM Watson 自动问答机器人在美国智力竞赛节目 Jeopardy 中战胜人类选手,引起了业内的巨大轰动。Watson 自动问答系统让人们看到已有信息服务模式被颠覆的可能性,成为了问答系统发展的一个里程碑。

根据应用需求不同,知识提取的结果可以是结构化实体,也可以是摘要。摘要一方面可以通过结构化数据配合模板组合而成,也可以通过深度学习算法直接训练。本工作对两种方式都进行了尝试,模板组合方式可以高准确率的保证信息准确,但难以保持原文的行文方式;而深度学习方法直接捕捉原文进行组合,准确率有所不足,两者孰优孰劣需要考虑具体应用场景而定。

分词,词性标注技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等应用之中,而句法分析、语义分析技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。

为在一份“特别处理”公告上运行实体识别模块的处理后的可视化结果。

这样高维的特征向量表示如果包含大量冗余噪音,会影响后续分类聚类模型的计算效率和效果。因此,我们往往需要进行特征选择(Feature Selection)与特征提取(Feature Extraction),选取最具有区分性和表达能力的特征建立特征空间,实现特征空间降维;或者,进行特征转换(Feature Transformation),将高维特征向量映射到低维向量空间。特征选择、提取或转换是构建有效文本特征向量的关键问题。

知识提取(KnowledgeExtraction)研究如何根据给定本体从无语义标注的信息中识别并抽取与本体匹配的事实知识。该技术既可以抽取出事实知识用于构建基于知识的服务,也能够为语义 Web 的实现提供必要的语义内容。因此知识抽取技术对于充分利用现有数据是非常必要的。

 

(601107)“四川成渝”公开发行 2016 年公司债券(第一期)发行公告(面 向公众投资者)

四川成渝高速公路股份有限公司面向公众投资者公开发行面值不超过 10 亿元(含 10 亿元)的公司债券已获得中国证券监督管理委员会证监许可 [2015]1484 号文核准。

四川成渝高速公路股份有限公司 2016 年公司债券(第一期)基础发行 规模为人民币 5 亿元,可超额配售不超过 5 亿元。请投资者仔细阅读公告 全文。

仅供参考,请查阅当日公告全文。

基于模式匹配的方法往往先离线地获得各类提问答案的模式。在运行阶段,系统首先判断当前提问属于哪一类,然后使用这类提问的模式来对抽取的候选答案进行验证。同时为了提高问答系统的性能,人们也引入自然语言处理技术。由于自然语言处理的技术还未成熟,现有大多数系统都基于浅层句子分析。

  • it ⊙ gt (1)

命名实体大多数具有以下的特点:

 随着 Web2.0 的兴起,基于用户生成内容(User-Generated Content, UGC)的互联网 服务越来越流行,社区问答系统应运而生,例如 Yahoo! Answers、百度知道等。问答社区的出现为问答技术的发展带来了新的机遇。据统计 2010 年 Yahoo! Answers 上已解决的问题量达到 10 亿,2011 年“百度知道”已解决的问题量达到 3 亿,这些社区问答数据覆盖了方方面面的用户知识和信息需求。

本项工作的初始目的是为了上交所的公告制作小组提供合适的自动化处理工具,减轻公告高峰期的运行压力,降低人工采编风险,控制可能增加的成本;在此基础上,考虑为周边系统甚至公众提供通用的公告自动抽取服务。

 

上市公司信息披露自动摘要系统的算法流程如下:

Watson 的技术优势大致可以分为以下三个方面:

在最近的研究中(Huang,Xu,Yu,2015),又探索出通过DNN(深度神经网络)的方法,以及将CRF与LSTM结合的BILSTM-CRF算法,准确率与召回率会有小许提高。实体关系的抽取传统采用依存关系分析的方法(Dependency Parsing),也就是句子的语法树分析,它将句子进行词性标注(POSTagging),实体识别,构建语法树,便自然构成了SPO(Subject-Predicate-Object)的三元组关系。有最新研究将关系提取抽象为知识表示学习,将句子映射到实数向量空间表示,如TransE算法(Bordes,Usunier,Garcia-Duran,Weston,Yakhnenko,2013),把实体向量化到空间,问题便表达为三元组距离的损失函数,在向量空间中优化S P=O,即最小化S P=O。专业领域的知识提取通常由于语料不充足或表达特殊,一般的通用算法难以直接有效应用,这是由于一般分词算法的基础词库都采用通用词库,经常把专业词错分,所以通常需要先维护一个领域词典。领域词典的构建有很多方式,一般采用先通过词性标注,TF-IDF等传统方法首先进行标注,在结合领域知识对词表进行调整。在构建好领域词典后,实体识别中可以优先采用专业词典,学习过程也可以赋予更高权重。

摘要为:“因个人原因,郑敏先生辞去公司第八届董事会董事及董事会专门委员会委员职务,辞职后不再担任公司任何职务。”

九. 自动摘要

评估一篇摘要的好坏,最简单的方法就是邀请若干专家根据标准进行人工评定。这种方法比较接近人的阅读感受,但是耗时耗力,无法用于对大规模自动文本摘要数据的评价,和自动文本摘要的应用场景并不符合。因此,文本摘要研究团队积极地研究自动评价方法。为了更高效地评估自动文本摘要,可以选定一个或若干指标(Metrics),基于这些指标比较生成的摘要和参考摘要(人工撰写,被认为是正确的摘要)进行自动评价。

面对复杂的泛在网络空间,用户有可能无法准确表达搜索意图;即使能够准确表达,搜 索引擎也可能难以正确理解;即使能够正确理解,也难以与恰当的网络资源进行匹配。这使 得信息需求理解成为了影响检索性能提高的制约因素,也构成了检索技术发展面临的第一个关键问题。

图片 3

人工书写规则受限于规则集合的规模:随着书写的规则数量的增多,规则与规则之间的冲突加剧,从而导致继续添加规则变得困难。

  1. 可以完全在linux下工作

对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理。

整个PDFBox的处理流程如下图所示:

四. 文本分类

  • 1、临时公告,保证数据量大,并且是高频、重要公告;
  • 2、公告关键信息明确,可以被结构化(反例:澄清公告等便没有结构化的必要);
  • 3、公告类别覆盖能“某一句话包含全部关键信息的”与“关键信息出现在多处需要聚合的”。

前一种未登录词理 论上是可预期的,能够人工预先添加到词表中(但这也只是理想状态,在真实环境下并不易 做到);后一种未登录词则完全不可预期,无论词表多么庞大,也无法囊括。真实文本中(即便是大众通用领域),未登录词对分词精度的影响超过了歧义切分。未登录词处理在实用型分词系统中占的份量举足轻重。

图片 4

中文自动分词(Chinese word segmentation)

信息在多个位置,并且表述复杂,较为随意。例如:对外担保公告。“为满足项目建设资金需求,公司全资子公司XXX有限公司拟向XXX信托有限责任公司申请14亿元信托贷款,期限2年,公司为其提供全额全程连带责任担保。”其中担保原因表述不统一,担保对象有子公司、分公司,其他公司等多种方式,担保金额与期限有时会附带累计担保信息。对此类公告,目前认为只能采用严格的规则系统开发。

信息资源(尤其是网络信息资源)的质量度量

一是实体对齐,如财务报表中的指标对齐,比如“资产总计=总资产”。

给定用户问题,自动问答首先需要理解用户所提问题。用户问句的语义理解包含词法分析、句法分析、语义分析等多项关键技术,需要从文本的多个维度理解其中包含的语义内容。

人工评价结果在很大程度上都是可信的,因为人可以推理、复述并使用世界知识将具有类似意思但形式不同的文本单元关联起来,更加灵活,但是时间成本高,效率低。

典型的机器学习分类模型包括贝叶斯分类器(Naïve Bayes)、线性分类器(逻辑回归)、 支持向量机(Support Vector Machine, SVM)、最大熵分类器等。

长短期记忆网络(Long Short-Term Memory,LSTM)是一种 RNN 特殊的类型,通过学习长期依赖信来避梯度爆炸和梯度消失问题。所有RNN 都具有一种循环神经网络模块的链式的形式。在标准的 RNN 中,这个循环模块只有一个非常简单的结构,例如一个 tanh 层。LSTM同样具有这样的循环模块,但更复杂,其核心是记忆单元(memory cell)。记忆单元在每一步里记住相关信息并忘掉无关信息。这样,重要的相关信息可以一直留存,从而其梯度不会变的太小。形式上来看,记忆单元可以用以下两个公式来定义:

自动文摘所采用的方法从实现上考虑可以分为抽取式摘要(extractive summarization) 和生成式摘要(abstractive summarization)。抽取式方法相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、 语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。目前的自动文摘方法主要基于句子抽取,也就是以原文中的句子作为单位进行评估与选取。抽取式方法的好处是易于实现,能保证摘要中的每个句子具有良好的可读性。

第一种分类:人工评价方法和自动评价方法。这两类评价方法都需要完成以下三点:

本文针对其中几个主要领域的研究现状和进展,通过论文、博客等资料,结合自身的学习和实践经历进行浅显地介绍。由于个人实践经验不足,除中文分词、自动文摘、文本分类、情感分析和话题模型方面进行过实际业务的实践,其他方面经验欠缺,若有不当之处,欢迎童鞋们批评指正!

未来工作可以围绕几方面开展:

在句法层面,需要解析句子中词与词之间、短语与短语之间的句法关系,分析句子句法结构。在语义层面,需要根据词语层面、句法层面的分析结果,将自然语言问句解析成可计算、结构化的逻辑表达形式(如一阶谓词逻辑表达式)。

以上市公司信息披露为例,随着市场监管的全面深化以及上市公司数量的逐年增长,各类投资者,尤其是中小投资者,面临着海量公告信息处理能力不足的困难。

基于规则的分类模型旨在建立一个规则集合来对数据类别进行判断。这些规则可以从训 练样本里自动产生,也可以人工定义。给定一个测试样例,我们可以通过判断它是否满足某 些规则的条件,来决定其是否属于该条规则对应的类别。

按照文档数量,文本摘要可以分为单文档摘要与多文档摘要,前者是后者的基础,但后者不只是前者结果的简单叠加。前者经常应用于新闻信息的过滤,而后者,在搜索引擎中有很大的潜力,难度也随之加大。在单文档摘要系统中,一般都采取基于抽取的方法。

1.1  宗成庆《统计自然语言处理》

图片 5

未登录词大致包含两大类:

公式(2)是说当前的隐层状态 ht 是从当前记忆单元得到的,其又由输出门(output gate)ot 来控制。LSTM的循环模块里的输入门 it 、遗忘门 ft 、输出门 ot ,以及需要新输入的信息 gt 可以用以下公式简洁地表示:

  1. 信息集成

根据以上任务分类,需要针对性的进行领域词典扩充,对此本工作将各公告首页中的全称-简称对应表、各财务报表的财务制表字段,高管人名等都加入领域词典。对于各个句子,通过词性标注(POS Tagging)与依存关系分析(Dependency Parsing)后便可提取出简单的实体与关系,比如对外担保公告中的“担保对象”、“担保金额”等。然而如“担保原因”这类语句并没有明确统一的表述方式,对此采用规则方法尽量穷尽可能性。这部分工作与传统方法并无明显差异,故不做赘述。

基于内容的个性化搜索算法通过比较用户兴趣爱好和结果文档的内容相似性来对文档的用户相关性进行判断进而对搜索结果进行重排。用户模型一般表述为关键词或主题向量或 层次的形式。个性化算法通过比较用户模型和文档的相似性,判断真实的搜索意图,并估计 文档对用户需求的匹配程度。

下面是董事会决议的例子:

机器翻译(Machine translation)

  1. 对数据敏感,细致踏实;有较强的沟通能力。

  2. 每周出勤时间不少于3天,最好能连续实习两个月。

前向神经网络:多层感知机(Multilayer Perceptron, MLP)是一种典型的前向神经网 络。它能够自动学习多层神经网络,将输入特征向量映射到对应的类别标签上。通过引入非线性激活层,该模型能够实现非线性的分类判别式。包括多层感知机在内的文本分类模型均使用了词袋模型假设,忽略了文本中词序和结构化信息。对于多层感知机模型来说,高质量的初始特征表示是实现有效分类模型的必要条件。

知识提取按照数据源类型可分类两类。

其中实体边界识别判断一个字符串是否是一个实体,而实体分类将识别出的实体划分到预先给定的不同类别中去。命名实体识别是一项极具实用价值的技术,目前中英文上通用命名实 体识别(人名、地名、机构名)的F1值都能达到 90%以上。命名实体识别的主要难点在于 表达不规律、且缺乏训练语料的开放域命名实体类别(如电影、歌曲名)等。

4. 遵循并参与项目开发规范和开发流程

词性标注对于后续的自然语言处理工作是一个非常有用的预处理过程,它的准确程度将直接影响到后续的一系列分析处理任务的效果。 长期以来,兼类词的词性歧义消解和未知词的词性识别一直是词性标注领域需要解决的热点问题。当兼类词的词性歧义消解变得困难时,词性的标注就出现了不确定性的问题。而对那些超出了词典收录范围的词语或者新涌现的词语的词性推测,也是一个完整的标注系统所应具备的能力。

事件提取是信息提取研究中最具有挑战性的任务之一,如何能够在保证泛化能力的情况下更准确的进行事件元素信息的提取是第三个难点。

也有很多工作尝试捕捉每个句子中所描述的概念,例如句子中所包含的命名实体或动词。

本课题共针对9类高频公告的开展了实验,分别对结构化提取与摘要生成进行了测试。9类公告的选取主要考虑几个方面:

然而在20世纪50年代末到60年代中期,经验主义东山再起了。多数学者普遍认为只有详尽的历史语料才能带来靠谱的结论。于是一些比较著名的理论与算法就诞生了,如贝叶斯方法(Bayesian Method)、隐马尔可夫、最大熵、Viterbi算法、支持向量机之类。世界上第一个联机语料库也是在那个时候的Brown University诞生的。但是总的来说,这个时代依然是基于规则的理性主义的天下,经验主义虽然取得了不俗的成就,却依然没有受到太大的重视。但是金子总会发光的。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 风险警示描述(句子)
  5. 实施其他风险警示后股票价格的日涨跌幅限制(数字)

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。

2. 负责按照各类需求文档和设计文档,完成前端代码开发

其中,分类模型旨在学习特征向量与分类标签之间的关联关系,获得最佳的分类效果; 而聚类模型旨在根据特征向量计算文本之间语义相似度,将文本集合划分为若干子集。 分类和聚类是机器学习领域的经典研究问题。

自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:

基于深度学习的方法:传统词性标注方法的特征抽取过程主要是将固定上下文窗口的词进行人工组合,而深度学习方法能够自动利用非线性激活函数完成这一目标。进一步,如果结合循环神经网络如双向 LSTM,则抽取到的信息不再受到固定窗口的约束,而是考虑整个句子。除此之外,深度学习的另一个优势是初始词向量输入本身已经刻画了词语之间的相似度信息,这对词性标注非常重要。

4.对金融、银行、证券等业务熟悉的优先,有计算机专业背景的优先。

五. 信息检索

本课题研究中,公告信息披露这一问题场景对摘要信息的准确性有严格要求,生成式摘要技术不适用于本场景,本文主要介绍基于关键句选取、信息抽取和摘要模板生成式自动文本摘要。

信息抽取(Information extraction)

基于统计的方法对特征选取要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。

互联网的出现和计算机硬件水平的提高使得人们存储和处理信息的能力得到巨大的提高,从而加速了信息检索研究的进步,并使其研究对象从图书资料和商用数据扩展到人们生活的方方面面。伴随着互联网及网络信息环境的迅速发展,以网络信息资源为主要组织对象的信息检索系统:搜索引擎应运而生,成为了信息化社会重要的基础设施。

第二种分类文摘自动评估方法大致分为两类:内部评价方法和外部评价方法。

  1. 语义搜索技术

以下为九类公告的准确率统计:

2.1 基于图的依存句法分析方法

关键信息在文本多个位置,但结构雷同。例如:董事会决议公告。“武汉祥龙电业股份有限公司第九届董事会第二次会议于2017年2月21日召开,会议审议通过《关于公司控股子公司签署工程合同暨关联交易的议案》、《关于公司控股子公司开展委托理财业务暨关联交易的议案》。”议案名在文章多个位置,但均在某段最左或单独作为一行,特征周围有书名号,数字序号,或通过、否决等标志。这类公告,同样可以采用深度学习,但准确率会有一定损失。

文本领域开放:处理的文本是不限定领域的网络文本

  1. 学习标注规则,及时反馈标注质量及进度。

  2. (如有编程能力)协助编写数据清理和处理代码。

总之,理性主义在自然语言处理的发展史上是有重要地位的,也辉煌了几十年,历史事物常常是此消彼长的,至于谁好谁坏,不是固定的,取决于不同时代的不同历史任务。总的来说,基于规则的理性主义在这个时代被提及得比较少,用的也比较少,主要是由于以下几个缺陷:

ct = ft ⊙ ct−1

被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理,从而实现对海量非结构化数据的分析、组织、管理、计算、 查询和推理,并进一步为更高层面的应用和任务(如自然语言理解、知识库构建、智能问答 系统、舆情分析系统)提供支撑。

  1. PDF进过PDFBox处理生成想要的中间xml格式表示文件
  2. 分页模块对PDF进行逐页处理,将页眉页脚分别进行标注。
  3. 图片提取模块对PDF中的图片文件进行必要处理,保存到相应的媒体库中。
  4. 表格处理模块对PDF中存在的表格信息进行提取,一方面要对存在合并单元格的表格进行处理,另外一方面还要对跨页的表格进行处理。还原表格的语法结构,为后期对表格的语义处理提供必要支持。

知识库问答。

4.3 实验结果评测

对文档进行分类,一般需要经过两个步骤:(1)文本表示,以及(2)学习。文本表示是指将无结构化的文本内容转化成结构化的特征向量形式,作为分类模型的输入。在得到文本对应的特征向量后,就可以采用各种分类或聚类模型,根据特征向量训练分类器

1. 信息抽取、文本摘要、自动问答等方面的研发以及语言资源/知识库维护

实体、关系和事件分别表示了单篇文本中不同粒度的信息。在很多应用中,需要将来自不同数据源、不同文本的信息综合起来进行决策,这就需要研究信息集成技术。

在模型开发过程中,公告种类和数量循序增加,本课题期间,系统经过了15个版本的迭代。前4、5个版本准确率的提升非常明显,通过深度学习结合统计的方式,准确率快速提升到75%的区域。伴随着测试数据多样性的增加,在6版本到14版本迭代的过程中,准确率出现了波动,通过对异常情况进行分析,提升统计学习的泛化能力,同时对异常情况进行规则整理,最终准确率获得了提升。

例如,句子“北京是中国的首都、政治中心和文化中心”中表述的关系可以表示为(中国,首都,北京),(中国,政治中心,北京)和(中国,文化中心,北京)。语义关系类别可以预先给定(如 ACE 评测中的七大类关系),也可以按需自动发现(开放域信息抽取)。

公告摘要示例:

循环神经网络(RNN):循环神经网络将文本作为字符或词语序列{

本文由澳门新葡8455手机版发布于澳门新葡8455手机版,转载请注明出处:知识提取在上市公司信息披露中的应用,一文读

关键词:

NASA科学家是如何在木星大红斑中发现水的,木星

原标题:NASA科学家是如何在木星大红斑中发现水的? 据美国太空网近日报道,美国科学家借助望远镜等设施,对木星...

详细>>

泰国拟对使用区块链发电售电收取额外费用,词

There is a growing number of Thai companies leveraging distributedledger technology (DLT) to help homeowners profit from rooftop solarsystems. A new ge...

详细>>

月经警察,20世纪最大的实验

原标题:20世纪最大的实验——人类抓实布置770 对那二个避孕的女人和默认堕胎的医生如若查出,严格打击、处置处...

详细>>

李彦宏(英文名:Robin)同台,今年最拔尖

原标题:马云、马化腾、李彦宏同台,这场 AI 盛会不要错过丨限时报名 原标题:倒计时10天!今年最顶级 AI盛会,参...

详细>>