NLP | 2019-03-21 NLP系列 基于LSTM的监督学习语义表达抽取InferSentInferSent的官方代码可以从GitHub上找到。 我们这里省略数据预处理和训练的环节,只看模型的定义部 ...
NLP | 2019-03-21 NLP系列 基于DSSM的问题语义相似度匹配CNTK 303: Deep Structured Semantic Modeling with LSTM NetworksDSSM的全称是Deep Structured Semantic Model或者Deep Semantic Similarity Model。DSSM由微软研究院深度学习研究中心开发,是一个利用深度神经网络把文本(句子,queries,实体等)表示成向量,并且计算文本相似度的模型和方法。DSSM在信息检索和网络文本排序中有 ...
NLP | 2019-03-21 基于DRMM的问答匹配 基于DRMM的问答匹配DRRM模型我们参考MatchZoo的实现 我们略过文本的预处理,训练和预测的代码,直接阅读模型的代码。模型使用Keras框架实现。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858 ...
NLP | 2019-03-21 NLP系列 Word Averaging123456import gensimimport gensim.downloader as apiimport numpy as npfrom sklearn.metrics.pairwise import cosine_similaritymodel = api.load("glove-twitter-25") 12print(model.get_vector("dog"))print(model.get_vector("dog").shape ...
NLP | 2019-03-21 NLP系列 基本文本处理操作NLP处理的对象是文本字符串内容,大家需要熟悉一些基本的文本字符串操作,这里以python为例,帮大家复习以下的中英文字符串操作: 替换 截取 复制 连接 分割 排序 比较 查找 包含 大小写转换 1.清理与替换1en_str = " hello world, hello, my name is pastor! " 12# 去空格及特殊符号 en_str.strip().lstrip().rstrip(',') 12# 字符串替换en_str.repla ...
NLP | 2019-03-21 NLP系列 Python正则表达式正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如index, find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和xiniuedu/netease相关的句子),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。 自然语言处理的各种模型和算法要发挥作用离不开数据,离不开“干净”的数据,而现实生活中的数据形态和干净程度 ...
NLP | 2019-03-21 NLP系列 简单爬虫与正则表达式应用有个非常热门的自然语言处理垂直技术叫做知识图谱,知识图谱的构建需要依托于大量的实体和关系,很多这样的内容是可以从互联网上取到的。我们这里举一个最简单的应用,我们用正则表达式把搜狗百科的一些词条和解释抽取出来。 123# 引入爬虫工具库import requests as rqimport re 12# 发送请求page = rq.get("https://baike.sogou.com/v231013.htm") 12# 返回状态码正常page.sta ...
NLP | 2019-03-21 NLP系列 英文文本处理与NLTKNLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等;NLTK是最常用的英文自然语言处理python基础库之一。 1.英文Tokenization(标记化/分词) 文本是不能成段送入模型中进行分析的 ...
NLP | 2019-03-21 NLP系列 简易情感分析我们来结合一下sklearn,pandas和刚讲过的工具库,来构建一个简易情感分析模型。 12import numpy as npimport pandas as pd 加载数据1data = pd.read_csv("./data/emotion_data.csv") 1data.shape (40000, 4) 1data.head() .dataframe tbody tr th:only-of-type { vertical-alig ...