penn2malt

96
zenRRan
2016.10.25 16:30* 字数 354

penn2malt介绍

penn2malt
总的来说,就是把短语句法树转成依存树。

举例 短语句法树
举例 依存树

具体了解这俩种树

这是终端调用的参数 (上面那个链接描述很详细了):

格式

使用

里面苦恼的应该是找 rule了。不同的标准语句库大致相同,rule也查不到哪里出去。没有的评论我给你。基本长这样:

rule

这是我批处理运行文件内容(windows .bat linux .sh):

Paste_Image.png

其中第一行是我对原语句的处理(如果运行penn2malt不成功的话就得一步一步修改大语料库的细节-------改语料库是真的费劲...) 接下来的是运行penn2malt (3个分别是 训练语句,开发语句,测试语句)

最终每次运行penn2malt就会生成3个文件:

Paste_Image.png

.tab就是生成的依存树文本格式。

Paste_Image.png

理解起来很简单:比如第一列 上海 后面的 2 ,就表示它是依存于第二个词 浦东 的。
0表示根节点也就是中心词
NR N/V-MOD...专业人士都懂,不做解释。
这就是其中一个句子的依存树。

再说一个注意的点: penn2malt 中文语料库是ANXI格式的!我竟然不知道一开始,还弄了一天格式转换和windows linux平台转换。。

自然语言处理
Web note ad 1