基于GATE的中文领域信息抽取研究

　　摘要：为了准确快速地抽取出用户感兴趣的信息，本文提出基于GATE的领域信息抽取。本文以“教育”领域为例，修改GATE的中文抽取插件Lang_chinese，精准快速地抽取出该领域的学校名、专业名、人名，为进一步提高中文信息抽取的准确率和召回率提供了研究基础。

　　关键词：GATE；领域抽取

　　中图分类号：TP391.1

　　随着现代通信和传播技术的不断发展，信息巨量生产、高速传播，人们被大量汹涌而来的信息所包围。怎么从浩瀚如烟的信息海洋中快速、准确地找到所需要的信息成为当前信息处理的研究重点。

　　1 信息抽取与GATE框架

　　1.1 信息抽取。信息抽取（Information Extraction，简称IE）是指从文本中直接抽取用户感兴趣的信息，以结构化的形式存入数据库中，可供用户直接使用或进行下一步的信息处理[1]。信息抽取是领域相关的，只能抽取特定领域或某些范围内有限种类的信息。当有大量的文本需要阅读处理的时候，信息抽取可以高效、精准地提取出所需要的领域信息。

　　1.2 GATE框架。GATE（General Architecture for Text Engineering）是英国Sheffield大学开发的，应用非常广泛的开源性自然语言处理框架。GATE框架为信息抽取提供了基本平台[2]。针对英文信息抽取，已经开发了基于该框架的应用实例插件ANNIE。ANNIE在英文信息抽取的准确率和召回率方面均已达到较高水准，并被一些商业公司使用，如惠普、大英电信等。

　　2 基于GATE的中文领域信息抽取

　　2.1 GATE中自带的中文信息抽取插件。GATE平台除了提供英文信息抽取插件ANNIE，也提供了中文信息抽取插件Lang_Chinese，但其设计比较简单。以中文插件Lang_Chinese的默认设置对文本进行抽取时，如希望能抽取出需要的领域信息，如在“教育”领域希望抽取出“学校”等组织单位，“校长”等人员信息，则结果不能让人满意。

　　分析其中的原因，主要有以下几点：（1）中文分词处理不够专业。（2）缺乏针对专业领域构造的中文词表库。（3）GATE中自带的JAPE抽取规则，多是针对英文命名实体识别编写，对中文支持不够，导致相当部分的中文不能被识别到。

　　2.2 改进的GATE中文领域信息抽取。本研究选取Gate7.1为开发平台，针对其中文信息抽取插件Lang_Chinese的不足，面向“教育”领域，研究了改进的方法。下面就其中的关键技术予以介绍：（1）文档预处理。本研究采用中科院计算技术研究所开发的ICTCLAS分词系统对文档进行分词预处理。本研究将分词后的文档删去词性信息，将分开的词组使用空格隔开，这样就和英文的格式相同，每个分开后的词语可做为一个Token，便于GATE抽取。（2）增加领域词表。词表是GATE进行信息抽取的重要资源，词表的丰富完整影响着命名实体的识别效果。Gate中的词表用.lst文件表示，中文组件中自带有城市名、组织名、公司名等。然后这些词表名存在.def索引文件中供匹配访问。（3）修改JAPE规则。GATE中使用JAPE规则来实现命名实体的识别。本文针对中文“教育”领域，编写对应的JAPE规则，使得该领域的命名实体能够得到准确的识别抽取。

　　学校识别。GATE7.1中可以使用自带unversity.lst词表将部分大中专院校识别为组织（organization），但对众多的中小学无法识别。并且组织标注集含义广泛，学会、公司、政府机构等都会被识别为组织。为了更有针对性的进行识别，本研究新增学校（school）标注，并分别针对中小学、本专科院校及其他各类学校撰写相应的规则。

　　论文榜（www.zglwb.com），是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导，寻求投稿辅导代理，快速投稿辅导，投稿辅导格式指导等解决方案：省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


期刊鉴别	论文检测	免费论文	特惠期刊	学术答疑	发表流程

搜索

基于GATE的中文领域信息抽取研究