快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本

快文自然语言处理工具箱(QuickNLP)正式发布[0.0.2]版本


QuickNLP:一款面向中文政务信息的自然语言处理工具包说明书

Genix

support@quicktext.cn

(南京快文信息科技有限公司  江苏南京  210000)

 

摘要:[目的/意义]面对中文政府文献,如何使用户快速、精准地掌握知识,是优化政府服务的关键课题。中文政务文献中大量固定表达,严重影响了知识的自动识别与提取,但由于政务文献的识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究。[方法/过程]在自然语言处理理论的指导下,展开相关规则的研究,开发了词法分析器,并构建了5个资源库:“消息库”,指政府公文中通知类信息;2“固定词汇表”,指政府公文中的固定表达;“停用词库”,指政府公文中的特殊字符和字,删除后不影响阅读的理解;“未处理词库”,指政府公文中未处理的词语,保留原始字符串;“实体库”,指根据政府公文结合人工已经清洗后生成的实体词库。[结果/结论]通过资源库的建设,得出5条消解规则。初步成果供相关学者使用。

关键词:自然语言处理 政务信息

中图分类号:G350


QuickNLP: A Natural Language Processing Toolkit for Chinese Government Information

Genix

support@quicktext.cn

(Quicktext Infotech Co., Ltd NanJing  210000)


Abstract: [Purpose/Meaning] In the face of Chinese government literature, how to enable users to master knowledge quickly and accurately is a key issue in optimizing patent services. A large number of fixed expressions in Chinese government literature seriously affect the automatic identification and extraction of knowledge. However, because the identification and resolution of government documents involves many text analysis techniques and specific resource construction, no targeted research has been found yet.

[Methods/Processes] Under the guidance of natural language processing theory, the research of relevant rules was carried out, lexical analysis was developed, and five resource libraries were constructed: 1 .message library, which refers to notification information in government documents; 2.fixed vocabulary refers to the fixed expression in the government official document; 3.stop lexicon, refers to the special characters and words in the government official documents, does not affect the understanding of reading after deletion; 4. unprocessed thesaurus, refers to The unprocessed words in the government official documents retain the original string; 5.physical library refers to the entity vocabulary generated after the official document has been cleaned according to the government official document. [Results/Conclusions] Through the construction of the resource pool, five rules for digestion were obtained. Preliminary results are available to relevant scholars.

Keywords: natural language processing, government information

CLC number: G350

1. 

2. 背景

政府信息公开制度,是确保关联方及时获悉和学习国家方针政策,了解政府工作动态,进而有效执行的前提和基础。鉴于该制度的重要性,国务院于2007年4月5日成文国务院492号令,即《中华人民共和国政府信息公开条例》[1]。该条例于2008年3月28日发布,从2008年5月1日实施。

国务院法制办公室李盛指出:“如果政府和群众之间的信息沟通渠道不畅通, 就会给小道消息的传播留下空间, 对公众心理和社会的正常生活秩序造成重大影响。 特别是自然灾害、事故灾难、 公共卫生事件等突发事件危害大、 影响面广,如果传递的信息不够真实、 不准确或者发布了虚假的信息, 就可能引发社会恐慌, 甚至造成严重的社会危机。”[2]

面对中文政务文献,如何使用户快速、精准地掌握知识,是优化政府公开信息服务的关键课题。中文政务文献中大量固定表达,严重影响了知识的自动识别与提取,但由于政务文献的识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究。

3. 实验数据

根据江华丽[3]论文的定义: “文的政府公文实验数据来自国务院官方网站的“政府信息公开”专栏。国务院公文数据分为公文元数据和公文全文数据。公文元数据包含索引号、主题分类、发文机关、标题、发文字号、发布日期、成文日期、主题词七中类别。本文在研究中发现公文的索引号并不是唯一标识符,如对于国函〔2016〕64号和国办函〔1992〕4号,两份公文的索引号均为000014349/2016-00057。但是发文字号是唯一标识符。发文字号主要分为国令、国发、国函、国发明电、国办发、国办函、国办发明电和其他类别,共计八种类别。从发文机构上说分为国务院和国务院办公厅,如国发代表国务院发文,国办发代表国务院办公厅发文。国务院发文的权威性高于国务院办公厅发文。从发文类别上,对于国务院的发文,分为国令、国发、国函和国发明电四类。

国发和国函的区别是国发往往针对全国,而国函往往针对行业或者地域,不具备全国性。如国发〔2018〕38号为《国务院关于支持自由贸易试验区深化改革创新若干措施的通知》,同样是自贸区公文文件,针对地方的公文文件《国务院关于同意设立中国(海南)自由贸易试验区的批复》则属于国函〔2018〕119号。一份国令往往对应多份国务院文件或者国务院办公厅文件含,如国令492号《中华人民共和国政府信息公开条例》相关的国办有国办发〔2018〕10号《国务院办公厅关于推进社会公益事业建设领域政府信息公开的意见》、国办发〔2017〕97号《国务院办公厅关于推进公共资源配置领域政府信息公开的意见》和国办发〔2017〕94号《国务院办公厅关于推进重大建设项目批准和实施领域政府信息公开的意见》。分别是政府信息公开条例在社会公益社会、公共资源配置和重大建设项目领域的细则。明电属于一般不具备保密属性的政府公文,如国办发明电〔2018〕15号为《国务院办公厅关于2019年部分节假日安排的通知》。对于国务院办公厅的文件的规则也类似。”[3]

4. 词库抽取流程

本文的实验参考了吴洁明等人的研究。吴洁明[4]等人设计的流程图和标引流程图如图所示:

图1 吴洁明绘制的新闻出版行业标准碎片化标引方案总体框架[4]


图2 标准自动标引流程[4]

5. 词库定义

本文将词库分为五类,分别是消息词库、固定词汇类词库、停用词库、未处理词库和实体词库:

 消息词库:指政府公文中通知类信息,一般用于提醒和公示,如“放假通知”,对应词典为“notice.dict”,简称为“notice”,词库索引为“-3”;

 固定词汇词库:指政府公文中的固定表达,一般用于和规划对应,如“一带一路”,对应词典为“glossary.dic”,简称为“glossary”,词库索引为“-2”;

 停用词库:指政府公文中的特殊字符和字,删除后不影响阅读的理解,如书名号“《》”,对应词典为“stopword.dic”,简称“stopword”,词库索引为“-1”;

 未处理词库:指政府公文中未处理的词语,保留原始字符串,如“你好”,无对英国词典,简称“unknown”,词库索引为“0”;

 实体词库:指根据政府公文结合人工已经清洗后生成的实体词库,分为以下9类:

 跨区域词库:指公文中特定跨区域表达,如“环渤海地区”,对应词典为“area.dict”,简称“area”,词库索引为“1”;

 军队系统词库:指公文中特定跨区域表达,如“总参谋部”,对应词典为“army.dict”,简称“army”,词库索引为“2”;

 建筑词库:指公文中特定跨区域表达,如“陆军讲武堂旧址”,对应词典为“building.dict”,简称“building”,词库索引为“3”;

 城市词库:指公文中特定跨区域表达,如“武汉市”,对应词典为“city.dict”,简称“city”,词库索引为“4”;

 重要会议词库:指公文中特定跨区域表达,如“全国农业机械化会议”,对应词典为“conference.dict”,简称“conference”,词库索引为“5”;

 部委词库:指公文中特定跨区域表达,如“科学技术部”,对应词典为“deparment.dict”,简称“deparment”,词库索引为“6”;

 企业词库:指公文中特定跨区域表达,如“中国农业银行”,对应词典为“enterprise.dict”,简称“enterprise”,词库索引为“7”;

 林区词库:指公文中特定跨区域表达,如“大兴安岭林区”,对应词典为“forest.dict”,简称“forest”,词库索引为“8”;

 人名及身份词库:指公文中特定跨区域表达,如“杨纪珂同志”,对应词典为“person.dict”,简称“person”,词库索引为“9”;

 港口词库:指公文中特定跨区域表达,如“天津港”,对应词典为“port.dict”,简称“port”,词库索引为“10”;

 省份词库:指公文中特定跨区域表达,如“新疆维吾尔自治区”,对应词典为“province.dict”,简称“province”,词库索引为“11”;

 河道词库:指公文中特定跨区域表达,如“松花江流域”,对应词典为“river.dict”,简称“river”,词库索引为“12”;

6. 接口定义与使用

接口类问文件为ApiUtil的api方法:

public String api(String src, int[] showType);

其中src为带分割的字符串,showType为int[]数组,int指为词库索引。

测试代码如图3所示:

图3:测试代码

程序运行截图如图4所示:

图4:程序运行截图

图5:程序运行Web截图

7. 参考文献

[1]《中华人民共和国政府信息公开条例》首次修订[J]. 电子政务, 2017(7):117.

[2] 李盛.《中华人民共和国政府信息公开条例》的制定背景、主要内容及目录编制[J]. 电子政务, 2008(05):21-26.

[3] 江华丽, 曹祺, 陈刚. 政府公开信息自动标引的设计与实现[J]. 数字图书馆论坛, 2018

[4] 吴洁明, 赵文丽. 新闻出版行业标准碎片化标引的研究与实现[J]. 计算机工程与设计, 2017(08):2281-2286.







©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容