宾州树库和CTB的Python预处理脚本

在写句法分析器之前,通常需要将PTB和CTB预处理为: 一行一个句子,单文件; 符合规范比例的训练集/开发集/测试集; 去掉CTB中的xml标签,只保留句子,编码转换。 这些步骤很麻烦,因为通常bracketed的树形结构需要先解析才能转为 […]

文章来源:

Author:hankcs
link:http://www.hankcs.com/nlp/ptb-ctb-python.html