NLP |

NLP系列

英文文本处理与NLTKNLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等;NLTK是最常用的英文自然语言处理python基础库之一。 1.英文Tokenization(标记化/分词) 文本是不能成段送入模型中进行分析的 ...

pastor
pastor
20 min read
NLP |

NLP系列

简单爬虫与正则表达式应用有个非常热门的自然语言处理垂直技术叫做知识图谱,知识图谱的构建需要依托于大量的实体和关系,很多这样的内容是可以从互联网上取到的。我们这里举一个最简单的应用,我们用正则表达式把搜狗百科的一些词条和解释抽取出来。 123# 引入爬虫工具库import requests as rqimport re 12# 发送请求page = rq.get("https://baike.sogou.com/v231013.htm") 12# 返回状态码正常page.sta ...

pastor
pastor
50 min read
NLP |

NLP系列

Python正则表达式正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如index, find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和xiniuedu/netease相关的句子),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。 自然语言处理的各种模型和算法要发挥作用离不开数据,离不开“干净”的数据,而现实生活中的数据形态和干净程度 ...

pastor
pastor
13 min read