• 257.00 KB
  • 2022-08-13 发布

信息学、计算机专业毕业论文

  • 26页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
汉语股市公告信息抽取系统的设计与实现摘要木文介绍了一个棊于中文信息抽取模型的股市公告信息抽取系统(SBTES)的设计与实现。介绍了该系统的结构框架和分布图。讨论了汉语信息抽取模型的具体结构,构建了由自动分词、自动标注和模板填充三个阶段组成的简化模型。简单介绍了自动分词的常用算法和自动标注中的标注规范。重点探讨了模板填充的具体算法。文中分别讨论了采用基于规则的结构主义方法和革于语料库概率统计的功能主义方法。着重讨论了采用隐马尔科夫模型进行信息抽取的貝体算法。対模型的参数获取算法作了讨论,改进了BaunHVelch算法以适应信息抽取的应用。对领域文本做了人工标注,通过计算机处理获取所需的统计数据。利用统计数据完善HMM模型。关键词:信息抽取,隐马尔科夫模型,自然语言\nTHEDESIGNANDIMPLEMENTATIONOFCHINESESTOCKBULLETININFORMATIONEXTRACTIONSYSTEMAbstractThisarticleintroducedthedesignandimplernentationofaChineseIETechnologybasedstockbulletininformationextractionsystem(SBIES)>Theframeworkanddeploymentofthesystemweredescribed.ThestructureoftheChineseinformationextractionmodelwasdiscussedindetai1.Weproposedasimplified3tiersIEmodelconsistingofautomaticwordsegmentation,automaticannotation,andtemplatefilling.Thealgorithmsusedinautomaticwordsegmentationandarmotationwerebrieflyintroducedwhilealgorithmsusedintemplatefallingwerefocusedon.Inthisarticle,therule-basedstructuralismmethodsandthecorpus-basedstatisticalfunctionalismmethodswerediscussedrespectively.TheHiddenMarkovModel(HMM)wasintroducedtoextractinformationandthealgorithmwasexplainedatlength・ThealgorithmformodelparameteracquisitionwasalsoanalyzedandtheBaum-Welchiterationalgorithmwasmodified.Domaintextswereannotatedmanuallytoacquirestatisticaldataviacomputation.Withthesedata,HMM-basedIEwasimplemented・KEYWORDS:informationextraction,hiddenMarkovmodel,natural1anguage\n目录1概述11.1信息抽収技术(InformationExtraction)11.1.1信息抽取技术的发展11.1.2信息抽取技术的特点21.2股市公告信息抽取系统(SBIES)31.2.1应用背景31.2.2系统框架结构41.2.3系统分布结构51.3本文内容简介62信息抽取模块的设计72.1模块内部结构72.1.1串行化的模块内部结构及其问题72.1.2简化的高性能信息抽取模型72.2口动分词82.3词类自动标注103信息抽取的关键算法133.1传统语言学方法133.1.1棊于规则的信息抽取算法133.1.2基于规则信息抽取而临的严峻问题153.2统计学方法153.2.1基于语料库的统计语言学方法153.2.2隐马尔科夫模型(HMM)简介163.2.3隐马尔科夫模型(IIMM)在信息抽取上的应用173.2.4隐马尔科夫模型的训练与优化问题194实现与结果分析214.1模块实现情况214.2两种信息抽取方法的比较224.3结果总结224.4遗留的问题22参考文献24致谢错误!未定义书签。\n1概述1.1信息抽取技术(InformationExtraction)信息技术高速发展的时代屮,信息的获取、处理和应用已经成为了经济、科学、军事、文化等各个领域发展的关键活动。而其中,信息的获取是三个步骤的开端,在信息技术领域中具有尤其重要的地位。近年来,随着计算机和互联网技术的迅猛发展,各领域可及信息量呈指数级增长。如何高效获取有用信息成为有效利用信息的关键。信息抽取(InfornidtionExtraction,简称TE)技术,是自然语言处理领域中一种新兴的技术。该技术通过抽収、过滤无关信息,使文本信息以用户关心的形式得以再组织,实现高效重组。将结构松散的白然语言信息,通过抽取转为结构严谨、语义明确的表现形式,利用计算机进行高效存储并加以利用。1.1.1信息抽取技术的发展信息抽取技术的雏形最早出现在二十年前。下面介绍一些信息抽取发展上重要的研究成果以及国内外的研究现状⑷O•ATRANS系统ATRANS系统是早在1981年rflCowie研究出來关于动植物正规结构描述数据库的系统及其商用化产品。该系统采用了概念句子分析技术,通过一些简单的语言处理技术能够完成限制在小规模,特定专业领域的信息抽取任务。•FRUMP系统FRUMP系统由GeraldDejong在80年代初实现。该系统把有限新闻网络作为数据源,使用一些新闻故事的简单脚本來对有限新闻网络进行监控。它采用关键字检索、概念句子分析、脚本匹配等方法來寻找新闻故事。FRUMP系统是一个面向语义的系统,采川了一个特定专业领域的事件描述脚本知识库。•SCISOR系统80年代末,美国GE研究与开发中心的LisaF.Rau等研制的SCISOR(SystemforConceptualInformation,OrganizationandRetrieval)系统所处理的对•象是有关"公司合并〃的新闻报导。SCISOR首先釆用关键词过滤和模式匹配的方法对待处理文献进行主题分析,以便判定该报道的内容是否与〃公司合并〃有关;然后采用口底向上的分析器识别句子结构,生成概念表示;最后应用自顶向下的预期驱动分析器提取预期内容。•MLC(MessageUnderstandingConference)是一个ARPA资助的、为推动1E技术发展的一个重要的系列工程。有许多大学、研究所参加。1987年的MUC-1和1989年的MUC-2主要集中在从小规模的海军信息文木中抽取相关的信息。1991年的MUC-3和1992年的MIC-4采用的文本主题和类型发生了变化,采用关于拉丁美洲国家恐怖事件通用主题的报纸和有线新闻文木作为语料源,系统包括预定义好的信息模板和辅助抽取规则,基木任务是从在线文本中捕取有关信息填入预定义的模板小的属性槽小。1993年的MUC-5的文本主题是关于合资企业的商业新闻以及微电子芯片的制作方面的新闻,涉及英语和LI语文档。所抽取的信息包括合资企业的合资者、合资公司的名称、所冇权和资木以及预期的活动,或者微电子芯片的制作活动的性质和状态等有关项。涉及到多语言和多领域的文档,以便进行抽取信息的性能评价比较。1995年的MIC-6的信息抽取任务第一次涉及到用SGML语言所标记的文本屮的名称项(namedentity)和指同项(corofcrcnce)的处理。除了场景模板(scenario)任务以外,名称项、扌旨同项和模板元素(templateelement)信息抽取任务均与特定专业领域无关。测试的语料采川〃华尔街杂志〃中的文\n•FASTUS系统FASTUS系统(FiniteStateAutomatonTextUnderstandingSystem)是美国加里福尼亚斯坦福研究所人工智能中心从1991年开始开发的一个基于多层、非确定有限状态自动机模型的自然语言文本信息抽取系统。它共有六层转换机制,即:切分标记层、预处理层、名称项识别层、简单短语识别层、复杂短语识别层、指同求解层。分解的语言处理使此系统能够处理人量的与专业领域无关的句法结构,以致于与专业领域札I关的语义和语用处理能被应用到相当大部分的语言结构上。正因为FASTUS系统具冇这样的特点,它已被成功地运用于许多应用中。•TIPSTER计划rfl美国国防部(DoD)、DefenseAdvancedResearchProjectsAgency(DARPA)和CentralIntelligenceAgency(CIA)共同资助的TIPSTER计划包括至少15个与工业和学术有关的项目。目的是改进文木处理的流行技术。TIPSTER的体系结构使用一组通用的文本处理模块已能满足不同的文本处理应用的需耍。这些应用主要是文本检测(定位包含某一信息类型的文木)和信息抽取(定位文本屮的特定信息)。在TIPSTER研究的第一阶段,参与者通过一些活动如MUC和TREC(TextRetrievalConferences)对文本检测和信息抽取所建立算法进行改进以及提高对评价这些改进的技术。在第二阶段的研究中,TIPSTER参与者为了使技术组成构件标准化,将注意力转向软件体系结构的开发上。使各种所开发的工具具有〃即插即用〃的性能,增加软件的共亨程度。在目前进行的第三阶段的研究中,—种称为ACP(ArchitectureCapabilitiesPlatform)的平台被开发,它支持评价、扩展和探索进展中的TTPSTER体系结构。ACP将采用C0RBA(CommonObjectRequestBrokerArchitecture)结构为研究者提供鲁棒及相配的TIPSTER组成构件。它将支持TIPSTER体系结构的扩展,以便与机器翻译、语音和光学字符识别、图象观察、用户界面构件以及人规模信息系统相适应。•SMES系统由德国人工智能研究中心语言技术实验室(DFKT-LT)在Paradime项冃中所开发的SMES(SaarbrUckenInformationExtractionSystem)系统是一个联机的德语文挡信息抽収智能系统。文档的专业领域包括通讯稿、经济报告和技术说明书。SMES系统拥有大量的语言知识资源(如电子词典包括12万条词项以及可扩展性很强的专门语法)以及极其快速和鲁棒的口然语言构件。它还能利用机器学习机制使口身能为实现新功能得到训练和配置,并能适应所需的信息数量和各种文档长度。它被集成了图形可视化技术、服务器体系结构和英特网访问技术。SMES作为一个有效的智能信息检索的核心系统已经成功地运用于科学和工业项目中。国内对信息抽取的研究才刚刚起步。1998年2刀在东北大学学报(自然科学版)发表了《中文信息口动抽取》一文,介绍了中文信息抽取的概念和对一些问题进行了初步的探索。国内对涉及中文和其他语种的多语种信息抽取技术还未见报道。1.1.2信息抽取技术的特点信息抽取技术不同于传统的信息检索和口动摘耍技术。•与信息检索(InformationRetrieval,简称IR)技术的区别与传统的信息检索技术比较,信息抽取技术有明显的优势:信息检索只是通过单纯的匹•与自动摘耍(AutomaticAbstraction)技术的区别与传统的自动文摘(AutomaticAbstraction)技术比较,信息抽取技术的应用前景更好:自动文摘产生的文摘往往质虽较低,而R容易产生不全面、不连贯和冗余多等等问\n题:而信息抽取则针对有价值的相关领域的文本进行结构分析,其效率和质量显著提高,也更容易面向实际应用。信息抽取技术具有其独有的优势。利用浅层的自然语言处理技术(ShallowNaturalLanguageProcessingTechnology,简称SNLPT),可以实现高效率的自然语言处理;将非结构化的信息改变为利于计算机存储、处理的结构化形式,有利于信息的重复高效利用。1.2股市公告信息抽取系统(SBIES)1.2.1应用背景随着我国改革开放的深入,市场经济的发展,证券市场的到了空前的繁荣。目前,在沪深两地上市的公司数目己达几千家。每天在两地市场公布的股市公告少则几I•条,多则百余条,文本量较大。如果需要在若干年的公告纪录中,迅速查找各种相关的公告,如采取传统的关键字查找技术,恐怕难以获取很高效率。考虑到信息抽取技术能够有效地从人量文木屮过滤岀用户可能关心的信息,并进行结构化存储以便迅速查询,希望基于信息抽取技术构造股市公告信息抽取系统(StockBulletinInformationExtractionSystem,简称SBIES)。由于股市公告文本具有以下一些特点,故认为采収信息抽収技术能够大幅度提高系统的性能表现。•句法简单。在一般股市公告中,通常以简单而表意清埜陈述句式为主。几乎不出现具冇二义性的语句。这为自然语言处理和信息抽取提供了较好的先决条件。•格式规整。常见的股市公告大致可以分为若干种,如:停牌公告、财务指数公告、董事会决议公告、配送股公告、新股上市公告、等等。每-•种公告都有相对固定的组成要素,容易构造模板加以描述。•文木量大。仅以上海证券交易所为例,每天的临时性公告文本量平均约20KB(以汉字记约1力字)。一年累计的公告文木约有6MB(约300力,汉字)。对于计算机而言,这个数量可谓及其微小,而对于人工阅读而言却是一个繁复而耗时的工作。•多语种特性。股票市场使金融的重耍组成部分,而在全球金融一体化的今天,世界各大证券市场之间的息息相关。而各国的证券市场在第一时间通常只能以一种或有限的几种语言发布公告信息,这就给股市公告带來了天生的多语种特性。设计一个股票文本的信息抽取系统具有较高的实用价值。股市公告的文本量庞大,但结构固定、内容单一,这正适合于计算机处理。信息抽取技术能够自动的从庞大的文本库中,动态地根据用户关心的内容提取文本蕴含的信息。同时,信息抽取能够采用独立于语种的方式存储信息。这样,用户就不必关心原始文木的语种,可以用他(她)所熟悉的语种进行抽取请求,并得到以他(她)希望语种表示的信息抽取结果。\n1.2.2系统框架结构如上所述,该系统将基于信息抽取技术进行构建。但是为了实现真正可用的应用系统,还需要其它一些模块的进行协同工作。图一种给出了本系统的基本框架结构。>控制*数据系统结构图图一:SBIES结构框架图图中,信息抽取模块是整个系统的核心所在,他将根据用户的需求将原始文本经信息抽取后,以独立于语种的方式存入信息库中。对该模块的设计与实现,是本文的重点,将在后面进行详细论述。川户需求分析模块,是能够收集用户需求,控制其它个模块进行协同工作的智能人机界而。该模块是系统的控制中心,体现了以用户需求为核心的设计思想。该模块能为用户提供一个智能化的易用界而。用八只需以自然语言形式输入询问的问题,该模块即可将询问转化为一系列的内部指令,控制各模块针对询问做出响应。结果表示模块,是将杳询结果以用户易于理解的方式进行表示的模块。其中主要采用了自然语言生成(NaturalLanguageGeneration,简称NLG)技术。自然语言生成的主要冃标是研究计算机如何根据信息在机器内部的表达形式生成一段高质屋的自然语言文木。所谓高质量是指生成的文木与人工文本比较接近,形式多样,而且能适应外部应用的变化而做相应\n的调整,整个系统的维护性好⑵。在本系统中,根据用户询问,从信息库中查询获収的结果,对用户而言仍然是晦涩难懂的。因此需耍一种较好的方式来将查询结果反馈给用户。由于信息抽取技术的结果能够使信息以独立于语种的方式进行存储,如果结合札I应的不同语种的自然语言生成技术,即可使根据用户的要求,获得以各种语言表述的查询结构。除了结合自然语言生成技术,以口然语言形式生成结果外,述町以用图表等形式输出一些数据的统计结果,这也是表示模块的功能之一。1.2.3系统分布结构图二给出了系统的整体分布图。图二:SBIES分布图\n由图可见,本系统直接挂接在Internet上,数据来源和用户界面主要都通过Web实现。由一个Robot程序自动通过Web进行股票公告文本的自动搜集,搜集的文本经过预处理成为信息抽取模块能够接受的文本后,采用IE技术进行信息抽取,将结果存放入信息库中。如果必要,可以对信息库数据进行分析。用户通过Internet访问该系统,查询的结果也通过Internet返回给用户。1.3本文内容简介本文将详细论述股市公告信息抽取系统中,信息抽取模块的设计和实现。第一章,概述。简介信息抽取技术的历史和特点,与传统的NLP技术做了优缺点比较。提出SBIES的应用背景,介绍整体结构框架和模块分布情况。第二章,信息抽取模块的设计。提出SBIES中信息抽取模块(也就是本系统的核心模块)的具体结构。第三章,信息抽取的关键算法。这是本文的重点章节。具体探讨了信息抽取模块中信息抽取的几种关键算法。比较了采用传统语言学方法和统计学方法进行信息抽取的优缺点和适用情况。第四章,实现与结果分析。将给出部分统计数据和结果总结。\n1信息抽取模块的设计1.1模块内部结构2.1.1串行化的模块内部结构及其问题自然语言信息抽取是一系列浅层自然语言处理技术的结合体。为了将非结构化的自然语言文木转化到结构化的信息库屮,需要多种自然语言处理技术的协同工作。从某种意义上说,这些处理技术将以串行的方式运行,即前一个步骤的处理输岀结果将作为后一步骤的输入。这种工作方式优点是模块内部结构简单,便于分级调试。根据传统的自然语言处理技术,汉语的信息抽取模块屮人致应包含的处理步骤应当包括了分词处理、名称分析、语法分析、语义分析、场景匹配、一致性分析、推理判断、模板匹配填充,等等。但子过程的串联,带來的问题是,各个阶段处理的准确性高度依赖于前端输岀的正确性。例如:假设信息抽取全过程由n个串联了过程组成,第k个了过程的查准率(或者查全率)分别为人,则整个模块的查准率(或者查全率)应为:p=±pkk=i一般而言,目前自然语言处理技术屮虽然存在众多不同的算法,进行不同层次的分析处理,但其查准率和查全率却人都不是很闾叫通常在60%〜90%Z间不等。当前MUC英文信息提取的各项指标(最好水平)大体上如下[SATC99][Chinchor99]:实体(Entities)识别90%,属性识别(Attributes)80%(TE任务);事实识别(Facts)70%(TR任务);事件识别(Events)60%(ST任务)。这些指标也自然地反映了自然语言处理在各个层次上的难度。在绘近一届MUC上表现最好的是SRA公司的系统[Aoneetal,98],其所冇3项IE指标都是最高的。其评测结果如下:Recal1PrecisionF-ScoreTE86%87%86.76TR67%86%75.63ST42%65%50.79表一:MUC-7测评结果可以看出,在这样的杏准率和杳全率下,整个模块的性能表现将随着串联模块数量的增加迅速下降。显然,过低的查准率和查全率,对于一个应用系统是缺乏实用意义的。因此,要构建可实用的信息抽取系统,有两个种途径:其一,进一步探讨各个处理模块的更有效的处理方法,以达到更高的查准率和查全率;其二,改变信息抽取模型结构,根据应用领域的特殊性,简化串行结构的长度,以提高模块整体的性能表现。第一种途径显然是信息抽取技术逐步发展成熟的必然途径,但是在短期内恐怕还难以在这一方向上取得突破性的发展。而第二种途径却是口前可能做到的。因为不同的应用领域具有不同的特性,结合这些特性可以有力地提高各个模块的处理正确性,简化信息抽収模型。以卜-将结合股市公告文本信息抽取的特点,讨论信息抽取模型的简化。2.1.2简化的高性能信息抽取模型在我们即将设计和实现的股市公告信息抽取系统中,希望通过缩短处理子\n过程的路径长度,来提高信息抽取模型的性能。由于股市公告文本具有以下一些特性,所以简化信息抽取模型是可能的。一方面,股市公告文本的主题分类比较明显。一般而言,股市公告主要包括了停牌公告、财务指数公告、董事会决议公告、配送股公告、新股上市公告等若干种类型。每种公告文本类别论述的主题比较固定,利于用抽取模板加以描述。另一方面,各类公告文本的格式相对简单、固定。通常很少出现句式的变化,陈述过程中句法规则也相对简单。同时,简化后的模型应该能够比原模型具有更好的性能表现。首先,缩短了处理过程路径的长度,避免了过长的串行系统结构可能导致的低查准率和查全率。其次,合并简化处理子过程,减少了处理所需的时间,提高了处理的效率。基于以上观点,考虑将信息抽取中的某些步骤合并简化。简化后的高性能系统结构如图三所示。图三:简化后的信息抽取模型从图中可以看出,处理过程的长度大大缩短了。一篇中文文档一般只需经过分词处理、自动标注和模板填充三个步骤即可完成信息抽取。文本自动分类主要是根据关键词进行的,由于股市公告文本的特殊性,其准确率可达到98%以上。而在正确分类的前提下,对已知文本类型进行词类自动标注和模板填充将变得更为容易,也具有更高的准确性。本章的余下部分,将对自动分词和文本自动标注的实现做部分介绍。而模板填充算法的实现,是本模块的关键环节,将在下一章中详细论述。2.2自动分词近年来,国内众多研究机构已经在计算机汉语文本口动分词方面进行了大量的研究,并取得了很多成就。二十年来,已经提出了许多分词算法。我们可以将现冇的分词算法分为三人类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。\n•基于字符串匹配的分词方法这种方法乂叫做机械分词方法,它是按照一定的策略将待分析的汉字申与一个“充分大的”机器词典屮的词条进行配,若在词典屮找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同氏度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,乂可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的儿种机械分词方法如:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的词数授小)。还可以将上述各种方法相互组合,例如,可以将正向最人匹配方法和逆向最人匹配方法结合起来构成双向匹配法。山于汉语单字成词的特点,正向最小匹配和逆向最小匹配-•般很少使用。i般说来,逆向匹配的切分精度略高于止向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245o但这种精度还远远不能满足实际的需要。由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两人基木问题:歧义切分问题和未登录词识别问题。实际使用的分词系统,都是把机械分词作为一种初分于•段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串屮识别和切分出一些带冇明显特征的词,以这些词作为断点,可将原字符串分为较小的串再來进机械分词,从而减少匹配的错误率。另一•种方法是将分词和词类标注结合起來,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中乂反过來对分词结果进行检验、调整,从而极人地提高切分的准确率。•基于理解的分词方法通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。•基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息为:,其中是汉字X、Y的相邻共现概率,、分别是X、Y在语料中出现的概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用\n字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。这些算法各具特色,需结合具体的应用领域进行综合利用。已见诸报道的研究成果如:北京航空航天大学计算机系的CDWS分词系统,山西大学的现代汉语口动分诃及诃性标注系统⑴,北京大学计算语言学研究所的汉语切分与标注软件,清华大学SEG分词系统和SEGTAG系统,哈工人统计分词系统,杭州人学改进的MM分词系统,MicrosoftResearch汉语句法分析器中的口动分词,等等冋。这些切分与标注软件大都通过大虽跨领域文木的测试,具冇较为稳定的性能表现。但是在我们的特殊领域的应用系统中,并不需要对任意领域文本都能进行准确切分的能力。不仅如此,在我们的应用领域中,期望的文本切分效果也不同于普通文本。在股市公告中,普遍存在大量的术语和惯用语。我们当然希望不要将这些词切碎,以利于更好的进行信息抽取。因此,设想构造一个规模较小的,能够较好识別领域词汇的小型分词子系统。在构造口动分词子系统时,以人工分词得到得语料库为标准。统计各类词汇出现的概率,构造词典。在分词时处于性能考虑,采用了较简单的最长匹配法分词规则。经过测试,H动分词的结果完全能够满足信息抽取的需求。由于分词模块并非本系统的垂点核心所在,故在此仅作简短介绍。2.3词类白动标注在分词的结果上,还应该为各个词汇标注上一些表明词汇作用或属性的信息,以便利用这些信息去填充模板。进行自动标注的方式和层次有多种。例如,可以对词性进行标注,如名词、动词、形容词、数量词等等;也可以对识别的命名实体(NamedEntity)、专有名词(ProperNoun)等进行标注,主要取决于后续处理阶段的需要。传统的自然语言处理过程中,通常认为,对词类的标注应该从词性的层次上开始,其他自然语言的处理过程都将建筑在对词性的分析之上。但是,我们认为在特定领域的信息抽取任务中,从词性开始的词类标注并非必要。由于信息抽取实际上是在给定语义框架(用模板描述)的基础上,对语义框架中的关键部分(属性槽Slot)以相应内容(填槽物SlotF订ler)填充,所以可以期望直接标注出全部或部分的关键内容。出于这种想法,我们希望能够在此采用一个直接标注包含语义信息的词类自动标注子系统。其中最重要的一项工作就是确定标注的词类。从图三可以看出,词类自动标注是在文本分类之后才进行的,所以应该根据不同的文本类别来进行不同的词类标注。信息抽取的任务就是根据不同的文本类别,以合适的抽取模板加以刻画。我们就可以尝试根据模板的属性槽来定义词类。例如,如下所示是一个描述停牌公告抽取模板的DTD文件:\n其中定义了一系列元素(如停牌时间、时间跨度、股票名称等等),这些都是需要抽取的模板属性槽。考虑根据以上的模板,抽取以下的公告实例:“东盛科技”(600771)因刊登公告,9刀11日上午停牌半天。将获取如下XML文档作为结果:〈停牌公告〉〈股票名称〉东盛科技〈/股票名称〉〈股票代码>6007719月11日上午〈/停牌时间〉〈时间跨度〉半天^东盛科技〈punctuation〉"«/punctuation>600771〈sw>因〈na>刊登〈na>公告,9月11日上午〈sw>停牌半天o其中punctuation标注标点,stockname标注股票名称,stockid标注股票id,date标注日期,length标注时间跨度,sw是模板特殊词(SpecialWord)的缩写,na标注的是本模板中无需关心的词\n(NotAva订able)o在同课题组的许多老师和同学的共同努力和大力帮助下,我们对近年来上海证券交易所的公告进行了人工分词和标注。通过计算机程序统计,构造起了自动分词和标注所需的小规模领域词典,包含领域常用词汇约1200词,另外还有沪深两地各类股票名称和编号等。针对不同类型(模版)的文本,将具有不同的标注标准。对标注文本统计数目公告类别公告文本量(篇)百分比决议公告9315.7%财务指数公告41570.1%停牌公告213.5%其它公告6310.6%共计592100%见表二。表二:人工标注文本量统计在进行了自动分词和词类标注的基础上,下一章将详细探讨如何利用标注信息填充模板的具体算法。\n1信息抽取的关键算法在前一章里,已经将信息抽取的问题归结为对文本的白动分词、H动标注和模板填充三个步骤,并且已经简单介绍了前两个步骤的设计和实现方法。本章中将要详细论述的是模板的自动填充算法。将分别讨论釆用传统语言学方法以及统计学方法进行的模板填充算法。3.1传统语言学方法3.1.1基于规则的信息抽取算法根据传统的语言学方法,一般采用语法分析的方式来填充模板。语言学中语法分析的理论和方法众多,各有优缺点。比较著名的如Kaplan和Bresnan(1982)的词汇功能语法(LFG)、Shieber(1984)的PART-II,Kay(1985)的功能合一语法(FUG),Gazdar(1985)的广义短语结构语法(GPSG),Polland和Sag(1987)的中心词去动的短语结构语法(H-DPSG)笙住⑶⑻[9][⑶奇奇o上述的各种分析方法从理论上,对自然语言本质性问题进行了较深入的研究。然而在一个中文的信息抽取的实用系统中充分应用这些分析方法,却存在着困难。首先,信息抽取技术应当避免采用深层自然语言处理技术(DNLPT)。这一方面是岀于性能考虑,信息抽取系统往往要对大量文本进行高效率的处理,另一方面则是考虑到信息抽取系统往往不需要完全明晰一片文档的内容,而只需直起大概即可。所以采用浅层自然语言处理技术(SNLPT)将使系统具有更好的性能表现。其次,中文语法分析存在着特殊的复杂性。例如,汉语中存在着多动词连用问题、词性歧义问题、句子的词序问题、汉语特殊模式(“把”、“被”字句)问题、汉语语义歧义问题,等等。如果逐层分析语法关系,可能相当困难。此外,上述分析方法应用于实际时,往往难以有很高的准确率。而这对于一个实用系统而言,却往往是致命的缺陷。因此,可以采用较简单的语法规则,来抽取相关的基本语义信息。例如[⑷,制定以下若干规则,来对股市停牌公告进行抽取。(1)S->NSCcommaDvlenfstp(2)N->sn(3)N->snsid(4)NS->N(5)NS->NScaeN(6)C->conjun(7)C->Cun(8)D->date(9)D->yeardate其中,S表示整个停牌公告;N表示单个股票,可以由股票名或连同其代码构成;NS是股票的集合,可以有一系列任意个连续单个股票用顿号串接构成;C表示停牌原因,是由关键连词“因”或“因为”引起的原因状语从句;D表示日期,既可是单独的月日格式,也\n可是年月日格式;sn是股票名称;sid是股票代码;date是月日格式日期;year是年份;conj是关键连词“因”或“因为”;len是时间跨度;cae是顿号;comma是逗号;fstp是句号;v是中心动词“停牌”;un是其它与本模板信息抽取无关的词汇。不难验证,该文法可以无冲突地采用SLR分析法进行分析,参见表三。ACTIONGOTOSnSidCon•JVlendateYearCaeCommaFstPun$SNNSCD0S41231ACC2R4R53S6S754S8R3R35S9S106Sil7S4128R4R49S14S151310R8R811R7R712R6R613S1614R915S1716S1817RIO18S1919R2表三:LR分析表利川以上分析表,我们实现了机与简单语法规则的信息抽取。由于在根据分析表分析过程屮,自然地构造起了一棵语法分析树,图四屮给出一个例句的分析树。\n图四:分析树示例在获取分析树的结果上,可以通过对树的遍历来填充模板。此步骤显然比较简单,在此不再赘述。3.1.2基于规则信息抽取面临的严峻问题对于停牌公告这样语法极其简单的公告而言,采用简单的分析规则已经足以完成信息抽取任务。但是,对于其它结构较为复杂的公告文本,要构造这样一套规则却并不永远是件容易的事。随着公告文木的复朵化,规则数II将大大增加。而随着规则的增加,如果仍然采用LR分析法分析,分析表的规模(行数)将以指数级速度扩充。不仅如此,分析表中还很容易出现冲突项,这一方面是山于自然语言中普遍存在着文法的二义性,另一方面是山于自然语言中存在着很大的自由性,语言意义的表达并非完全受限于固定的文法规则,这也是自然语言和形式文法的最人区别。对于这个问题,有两条解决途径。其一,对LR分析法进行扩充。传统的LR分析法通常只有移进(Shift)和归约(Reduce)两个动作。如果在某些情况下添加若T•特殊扩充分析动做,将对增强分析能力有所帮助ri41[161o在此方面的研究结果表明,扩充的LR分析法的确能够加强分析能力,尤其是加强了处理自然语言过程中的鲁棒性。但是这样的扩充毕竟述是基于原有LR分析法进行的,扩充的幅度冇限。其二,采用非基于规则的分析方法。基于规则的方法在处理口然语言时遇到的困难,是分析形式文法时的难度无法相比的。改变分析方法可以从根本上突破形式文法的局限性。卜•一节就将讨论采用统计方法来设计信息抽取模块屮的模板匹配算法。3.2统计学方法3.2.1基于语料库的统计语言学方法近年來,基于语料库分析的自然语言处理方法受到了越来越多的计算语言学家的重视和应用。在规则方法即理性主义方法屡受挫折的事实面前,语料库语言学的发展促使计算语言学家们越来越重视数理统计在语言学中的应用。应该说,统计方法并不是包治百病的良药,而是人类由于认识能力和认识范围的有限迫不得已采用的方法3。\n传统语言学给我们积累了丰富的语言实例,但对于语言规律的把握,人类至今仍耒找到最好的方法。但是,数理统计方法已经发展的比较成熟,值得信赖。语料库是经过处理的人虽领域文木的集介,通过对语料库中的文木进行统计分析,可以获取该类文木的某些整体特征或规律。如果能够充分地利用这些统计现彖、规律,就可以构造基于语料库的统计学信息抽取算法。现代语言学研究已经形成两个人的阵营,结构主义和功能主义(或称为理性主义和功能主义)。多年来结构主义一肓•占上风,西方学者称为“语言学主流”(mainstreamlinguistics)。功能主义相比之下处于劣势、守势。两阵对垒的天平近十儿年來似乎在发生变化。如果我们把新兴学科如社会语言学、语用学、会话分析、语篇分析等都划入功能主义(因为这些都是研究语言的各种功能的),那么功能主义人有取代结构主义成为语言学主流之势。语料库和语料库语言学可以说是两阵对垒的大平上的一个举足轻重的祛码。统计的分析方法多种多样,近期研究的热点主要集屮于由随机过程发展而来的理论和方法。其中最重要的,是应用隐马尔科夫模型(HMM)进行自然语言处理的方法。3.2.2隐马尔科夫模型(HMM)简介•马尔科夫(Markov)过程的定义一般地,考虑只取有限个(或可数个)值的随机过程{Xnln=l,2,---}:若X”=i,就说过程在n时刻处于状态i,假设每当过程处于状态i,则过程在下一时刻处于状态j的概率%为一定值,即Vn>l有:pij=p(xn+l=j\xn二咕,…,…兀曲“)这样的随机过程称为Markov链(给定过去的状态XX,,.,和现在的状态X”,将来的状态的条件分布独立于过去的状态,只依赖于现在的状态——这就是Markov性)。—个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵。显然,它口J被视为一个随机有限状态自动机,其每个状态都代表一个可观察的事件,之间的转换都对应一定的概率。•隐马尔科夫模型(HMM)的概念何对于马尔科夫模型而言,每个状态都是决定性地对应于一个可观察的物理事件,所以其状态的输出是有规律的。然而,这种模型限制条件过于严格,在许多实际问题中无法应用。于是人们将这种模型加以推广,提出了隐马尔科夫模型(HMM)。隐马尔科夫过程是一种双重随机过程。即:观察事件是依存于状态的概率函数,这是在HMM中的一个基本随机过程,另一个随机过程为状态转移随机过程,但这一过程是隐藏着的,不能直接观察到,而只有通过生成观察序列的另外一个概率过程才能间接地观察到。对于隐马尔科夫模型的应用,在语音识别领域已经取得了很好的成效,在信息抽取领域的应用也正在不断的尝试和推广中。•隐马尔科夫模型(HMM)的模型参数1.N:模型状态数。2.M:每个状态可能输出的观察符号的数目。3.T:观察符号序列的长度。4.A=状态转移概率矩阵。\n1.B=他(耐:观察符号的概率分布集。2.”={©}:初始状态概率分布。一般地,由于当A、B确定后,M、N也随即确定,故通常将一个HMM描述为2(人3,龙)。3.2.3隐马尔科夫模型(HMM)在信息抽取上的应用在我们的问题中,考虑的是如何应用隐马尔科夫模型,从自动标注后的文本中抽取相关信息到对应模板的合适属性槽中。为了完成这个目的,有必要对问题进行重新描述。先引入几个概念:1.属性槽(attributeslot):表示为s。它同时具有类型。2.填槽物(slotfiller):是用来填充模板构成模板实例的语言单位(通常是一个单词或短语),通过自动文本标注获得。3.模板(template):是用来表示结构化数据的待填属性槽的序列。表示为T=(»$2,…,其中》(1G“)是第i个待填属性槽。4.模板实例(templateinstance):是指用适合的填槽物填充了模板中全部或部分属性槽(关键属性槽必须填充)后得到的实例对象。我们的模型中,考虑使一个HMM对应于一个模板,模型中的各个状态分别对应到该模板的各个属性槽。而将待抽取的标注文本视为该模型的一种输出结果。于是,对于标注文本中的每一个关键标注部分,都将有模型状态与之对应。这样,在固定的隐马尔科夫模型下,对于任意标注文本做为模型输出,通过寻找最佳路径的方式,都可以找到一条概率最大的隐路径(即由初始状态经由若干中间状态到达终止状态的状态转移序列)。在这条最佳路径上,各个输出对应的状态就是利用隐马尔科夫模型求得的模板填充方案。图五是HMM求解模板填充问题的示例图。\n在求解模型对应于某一特定输出时的最佳路径(路径概率最大)时,采用如下Viterbi算法进行计算。对于给定的观察序列,为了找到单个最佳状态序列,需要定义一个量①⑴:$(')=max{円介的‘…‘乞=S‘,O|,O2,・・・,0|刀}4知・・・切-1即:QQ)是沿着一条路径在t时刻的最好得分(最高概率),它说明产生头t个观察符号且终止于状态S,o5()可以用迭代法进行计算:E+10Xmax©®}呦巧(Q+J\