NLP | 2019-03-21 NLP系列 图解seq2seq1.seq2seq(序列到序列模型)简介对于很多自然语言处理任务,比如聊天机器人,机器翻译,自动文摘,智能问答等,传统的解决方案都是检索式(从 ...
NLP | 2019-03-21 NLP系列 图解seq2seq1.seq2seq(序列到序列模型)简介对于很多自然语言处理任务,比如聊天机器人,机器翻译,自动文摘,智能问答等,传统的解决方案都是检索式(从候选集中选出答案),这对素材的完善程度要求很高,随着深度学习的发展,研究界将深度学习技术应用与自然语言的生成和自然语言的理解的方面的研究,并取得了一些突破性的成果,比如,Sequence-to-sequence (seq2seq) 模型,它是目前自然语言处理技术中非常重要和流行的一个模型,该技术突破了传统的固定大小输入 ...
NLP | 2019-03-21 NLP系列 moses统计翻译系统实战1234567891011%%bash# 安装 Moses# http://www.statmt.org/moses/?n=Development.GetStarted# 下载数据集corpus="$PWD/corpus"mkdir -p $corpuscd $corpus wget http://www.statmt.org/wmt13/training-parallel-nc-v8.tgztar zxvf training-parallel-nc ...
NLP | 2019-03-21 NLP系列 构建于Ubuntu对话数据集上的基于检索的聊天机器人提示:如果大家觉得计算资源有限,欢迎大家在”科学上网“后免费试用google的colab,有免费的K80 GPU供大家使用,大家只需要把课程的notebook上传即可运行 和上一个notebook一样,这是一个基于检索的对话系统,我们会对候选集中的回答和问题进行匹配打分,根据分数的高低进行排序并给出我们选择的最佳回复。 完整的数据可以在Google Drive文件夹中找到:https://drive.google.com/o ...
NLP | 2019-03-21 NLP系列 基于内容检索式的聊天机器人提示:如果大家觉得计算资源有限,欢迎大家在”科学上网“后免费试用google的colab,有免费的K80 GPU供大家使用,大家只需要把课程的notebook上传即可运行 以下内容会介绍到基于检索的聊天机器人原理,并实现一个基于检索的模型,使用了双层Decoder的LSTM模型,通过这个模型可以实现聊天机器人。 本部分英文原文见deep-learning-for-chatbots-2-retrieval-based-model-tensorflow ...
NLP | 2019-03-21 NLP系列 英文文本处理与spaCyspaCy是Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。spaCy 带有预先训练的统计模型和单词向量,目前支持 20 多种语言的标记。它具有世界上速度最快的句法分析器,用于标签的卷积神经网络模型,解析和命名实体识别以及与深度学习整合。 0.英文Tokenization(标记化/分词) 文本是不能成段送入模型中进行分析的,我们通常会把文本切成有独立含义的字、词或者短语,这个过程叫做token ...
NLP | 2019-03-21 NLP系列 聊天机器人概述 资料原文《Deep Learning For Chatbots, Part 1 - Introduction》 的翻译,供自己学习及他人参考。 以下内容主要概述了目前聊天机器人主要用到的技术,从宏观上进行介绍,不涉及具体的技术细节。 聊天机器人 (Chatbot),也被称为对话引擎或者对话系统,大家在智能客服和语音智能助手等场景下可以看到它的身影,它是目前的热点之一。在以下内容当中我们将重温一些被用于聊天机器人中的深度学习技术,披露出目前技术能够解决或者可能 ...
NLP | 2019-03-21 NLP系列 来自Google的Transformer模型本章概述 Google的Transformer模型 编码器,解码器 传统的注意力机制及Multi-head attention 基于位置的单词编码,及词向量,输出层 可视化multi-head attention Transformer与RNN和CNN神经翻译模型的对比 Google模型的训练细节 优化器选择 正则化 label smoothing 实战演示 介绍encoder,decoder类及model类 介绍如何训练模 ...
NLP | 2019-03-21 NLP系列 文本生成-诗词生成案例0.文本生成问题文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。国内外已经有诸如Automated Insights、Narrative Science以及“小南”机器人、“小明”机器人、“运动报道机器人”等文本生成系统投入使用。这些系统根据格式化数据或自然语言文本生成新闻、财报或者其他解释性文本。例如,Automated Insights的WordSmith技术已经被美联社等机构使用,帮助美联社报道大学橄榄球赛事、公司财报等新闻。这使得 ...
NLP | 2019-03-21 NLP系列 情感分析背景介绍在自然语言处理中,情感分析一般是指判断一段文本所表达的情绪状态。其中,一段文本可以是一个句子,一个段落或一个文档。情绪状态可以是两类,如(正面,负面),(高兴,悲伤);也可以是三类,如(积极,消极,中性)等等。情感分析的应用场景十分广泛,如把用户在购物网站(亚马逊、天猫、淘宝等)、旅游网站、电影评论网站上发表的评论分成正面评论和负面评论;或为了分析用户对于某一产品的整体使用感受,抓取产品的用户评论并进行情感分析等等。表格1展示了对电影评论进行情感分析的例子: ...