Pastor Dean | Growth is a long self-war

NLP | 2019-03-21

NLP系列

基于DSSM的问题语义相似度匹配CNTK 303: Deep Structured Semantic Modeling with LSTM NetworksDS ...

NLP | 2019-03-21

NLP系列

基于LSTM的监督学习语义表达抽取InferSentInferSent的官方代码可以从GitHub上找到。我们这里省略数据预处理和训练的环节，只看模型的定义部分。模型利用PyTorch实现。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354"""Main module for Natural L ...

NLP | 2019-03-21

NLP系列

编辑距离计算python实现 1234567891011121314151617181920212223242526272829def editDistDP(s1, s2): m = len(s1) n = len(s2) # 创建一张表格记录所有子问题的答案 dp = [[0 for x in range(n+1)] for x in range(m+1)] # 从下往上填充DP表格 for i in range(m+1): ...

NLP | 2019-03-21

NLP系列

视觉问答机器人（VQA) 原理与实现本章概述2.1 视觉问答机器人问题介绍 2.2 基于图像信息和文本信息抽取匹配的VQA实现方案 2.3 基于注意力（attention）的深度学习VQA实现方案 2.4 【实战】使用keras完成CNN+RNN基础VQA模型 2.5 【实战】基于attention 的深度学习VQA模型实现 2.1 视觉问答机器人问题介绍视觉问答任务的定义是对于一张图片和一个跟这幅图片相关的问题，机器需要根据图片信息对问题进行回答。输入：一张图片和一个关 ...

NLP | 2019-03-21

NLP系列

Cosine similaritybag of words计算文本相似度 1234567891011121314from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.metrics.pairwise import cosine_similaritydef bow_cosine(s1, s2): vectorizer = CountVectorizer() vectorizer ...

NLP | 2019-03-21

NLP系列

词嵌入与fine-tuning很多高阶的深度学习自然语言处理任务，都可以用词向量作为基础。我们课程的很多任务，可以用预训练好的word2vec初始化，接下来进行fine-tuning。如本章的文本分类。其基本思路是将离散的词嵌入到连续的空间中，并以此作为词的表示输入到下层的任务中去。如何使用? 从头训练就像word2vec一样, 这一层是可学习的, 用随机数initialize , 通过BP去调整. pre-trained + fine tuning 用其他网络( ...

NLP | 2019-03-21

NLP系列

Jaccard Similarity12345678910111213def jaccard_sim(s1, s2): a = set(s1.split()) print(len(a)) b = set(s2.split()) print(len(b)) c = a.intersection(b) print(len(c)) print(c) return float(len(c)) / (len(a) + len(b) - ...

NLP | 2019-03-21

NLP系列

基于seq2seq的机器翻译模型本章概述基础seq2seq编解码模型及应用简介应用：神经机器翻译基于注意力机制的seq2seq机器翻译模型词向量 RNN的解码器，编码器上下文内容向量注意力机制可视化【实战】基于keras完成的基础seq2seq机器翻译模型【实战】基于tensorflow的google版本seq2seq机器翻译模型 1.seq2seq（序列到序列模型）简介对于很多自然语言处理任务，比如聊天机器人，机器翻译，自动文摘，智能问答等， ...

NLP | 2019-03-21

NLP系列

python中文新闻分类参考代码：【NLP文本分类】各种文本分类算法集锦，从入门到精通参考代码：NLP系列(4)_朴素贝叶斯实战与进阶 123456789101112import re import pickleimport randomfrom sklearn.svm import SVCfrom sklearn import preprocessing, decomposition, model_selection, metrics, pipelinefrom s ...

NLP | 2019-03-21

NLP系列

基于fasttext的文本情感分析1import fastText 12345678910111213141516171819import re #正则表达式from bs4 import BeautifulSoup #html标签处理import pandas as pddef review_to_wordlist(review): ''' 把IMDB的评论转成词序列 ''' # 去掉HTML标签，拿到内容 review_text = Be ...