NLP | 2019-03-21 NLP系列 使用TensorFlow构建卷积神经网络完成新闻分类1234567891011121314# 数据预处理import jiebaimport pandas as ...
NLP | 2019-03-21 NLP系列 facebook基于CNN的机器翻译模型本章概述 基于CNN的翻译系统模型架构 Pooling Encoder Convolution Encoder Convolution NMT 对比CNN与RNN去构建的 encoder-decoder模型,分析CNN的优缺点 使用CNN完成神经翻译系统的Trick 对模型某些部分做缩放(scaling) 对模型参数的初始化 对超参数的选择 【实战】facebook CNN机器翻译系统代码解析 举例训练,及测试 CNN翻译系统 ...
NLP | 2019-03-21 NLP系列 简易情感分析我们来结合一下sklearn,pandas和刚讲过的工具库,来构建一个简易情感分析模型。 12import numpy as npimport pandas as pd 加载数据1data = pd.read_csv("./data/emotion_data.csv") 1data.shape (40000, 4) 1data.head() .dataframe tbody tr th:only-of-type { vertical-alig ...
NLP | 2019-03-21 NLP系列 英文文本处理与NLTKNLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等;NLTK是最常用的英文自然语言处理python基础库之一。 1.英文Tokenization(标记化/分词) 文本是不能成段送入模型中进行分析的 ...
NLP | 2019-03-21 NLP系列 简单爬虫与正则表达式应用有个非常热门的自然语言处理垂直技术叫做知识图谱,知识图谱的构建需要依托于大量的实体和关系,很多这样的内容是可以从互联网上取到的。我们这里举一个最简单的应用,我们用正则表达式把搜狗百科的一些词条和解释抽取出来。 123# 引入爬虫工具库import requests as rqimport re 12# 发送请求page = rq.get("https://baike.sogou.com/v231013.htm") 12# 返回状态码正常page.sta ...
NLP | 2019-03-21 NLP系列 Python正则表达式正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如index, find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和xiniuedu/netease相关的句子),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。 自然语言处理的各种模型和算法要发挥作用离不开数据,离不开“干净”的数据,而现实生活中的数据形态和干净程度 ...
NLP | 2019-03-21 NLP系列 基本文本处理操作NLP处理的对象是文本字符串内容,大家需要熟悉一些基本的文本字符串操作,这里以python为例,帮大家复习以下的中英文字符串操作: 替换 截取 复制 连接 分割 排序 比较 查找 包含 大小写转换 1.清理与替换1en_str = " hello world, hello, my name is pastor! " 12# 去空格及特殊符号 en_str.strip().lstrip().rstrip(',') 12# 字符串替换en_str.repla ...
NLP | 2019-03-21 NLP系列 Word Averaging123456import gensimimport gensim.downloader as apiimport numpy as npfrom sklearn.metrics.pairwise import cosine_similaritymodel = api.load("glove-twitter-25") 12print(model.get_vector("dog"))print(model.get_vector("dog").shape ...
NLP | 2019-03-21 基于DRMM的问答匹配 基于DRMM的问答匹配DRRM模型我们参考MatchZoo的实现 我们略过文本的预处理,训练和预测的代码,直接阅读模型的代码。模型使用Keras框架实现。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858 ...