问题描述
我想标记一个句子,但完整保留预定义的单词。 例如
"i went to university of abc and had a wonderful time there!"
成
["i", "went", "to", "university of abc", "and", "had", "a", "wonderful", "time", "there", "!"]
由于"university of abc"
是预定义的词。
我在任何NLTK标记程序中都找不到这样的参数或控件。 有什么办法可以帮助我实现这一目标? 谢谢!
1楼
您可以使用regexp正则表达式标记器并编写一个正则表达式,例如,该表达式在不属于"the university of abc."
一部分的所有空白处进行拆分"the university of abc."
这将是一个麻烦,though-黑客-Y方法可能只是要么通过文字或者写一个正则表达式替换"the university of abc"
与"the-university-of-abc"
或其他一些字符串不会分成单独的令牌(取决于您使用的令牌生成器)。
2楼
而不是使用thisregex进行分割使用匹配:
(university of abc|\w+|[^\w\s]+)
您可以在regex的LHS处添加更多预定义的单词,如上所示。