当前位置: 代码迷 >> python >> 是否可以标记除预定义单词以外的所有单词?
  详细解决方案

是否可以标记除预定义单词以外的所有单词?

热度:49   发布时间:2023-06-13 13:35:54.0

我想标记一个句子,但完整保留预定义的单词。 例如

"i went to university of abc and had a wonderful time there!"

["i", "went", "to", "university of abc", "and", "had", "a", "wonderful", "time", "there", "!"]

由于"university of abc"是预定义的词。

我在任何NLTK标记程序中都找不到这样的参数或控件。 有什么办法可以帮助我实现这一目标? 谢谢!

您可以使用regexp正则表达式标记器并编写一个正则表达式,例如,该表达式在不属于"the university of abc."一部分的所有空白处进行拆分"the university of abc." 这将是一个麻烦,though-黑客-Y方法可能只是要么通过文字或者写一个正则表达式替换"the university of abc""the-university-of-abc"或其他一些字符串不会分成单独的令牌(取决于您使用的令牌生成器)。

而不是使用thisregex进行分割使用匹配:

(university of abc|\w+|[^\w\s]+)

您可以在regex的LHS处添加更多预定义的单词,如上所示。

  相关解决方案