NLP | 2019-03-21 NLP系列 基于DSSM的问题语义相似度匹配CNTK 303: Deep Structured Semantic Modeling with LSTM NetworksDS ...
NLP | 2019-03-21 NLP系列 基于LSTM的监督学习语义表达抽取InferSentInferSent的官方代码可以从GitHub上找到。 我们这里省略数据预处理和训练的环节,只看模型的定义部分。模型利用PyTorch实现。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354"""Main module for Natural L ...
NLP | 2019-03-21 NLP系列 编辑距离计算python实现 1234567891011121314151617181920212223242526272829def editDistDP(s1, s2): m = len(s1) n = len(s2) # 创建一张表格记录所有子问题的答案 dp = [[0 for x in range(n+1)] for x in range(m+1)] # 从下往上填充DP表格 for i in range(m+1): ...
NLP | 2019-03-21 NLP系列 视觉问答机器人(VQA) 原理与实现本章概述2.1 视觉问答机器人问题介绍 2.2 基于图像信息和文本信息抽取匹配的VQA实现方案 2.3 基于注意力(attention)的深度学习VQA实现方案 2.4 【实战】使用keras完成CNN+RNN基础VQA模型 2.5 【实战】基于attention 的深度学习VQA模型实现 2.1 视觉问答机器人问题介绍 视觉问答任务的定义是对于一张图片和一个跟这幅图片相关的问题,机器需要根据图片信息对问题进行回答。 输入:一张图片和一个关 ...
NLP | 2019-03-21 NLP系列 Cosine similaritybag of words计算文本相似度 1234567891011121314from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.metrics.pairwise import cosine_similaritydef bow_cosine(s1, s2): vectorizer = CountVectorizer() vectorizer ...
NLP | 2019-03-21 NLP系列 词嵌入与fine-tuning很多高阶的深度学习自然语言处理任务,都可以用词向量作为基础。我们课程的很多任务,可以用预训练好的word2vec初始化,接下来进行fine-tuning。如本章的文本分类。其基本思路是将离散的词嵌入到连续的空间中,并以此作为词的表示输入到下层的任务中去。 如何使用? 从头训练 就像word2vec一样, 这一层是可学习的, 用随机数initialize , 通过BP去调整. pre-trained + fine tuning 用其他网络( ...
NLP | 2019-03-21 NLP系列 Jaccard Similarity12345678910111213def jaccard_sim(s1, s2): a = set(s1.split()) print(len(a)) b = set(s2.split()) print(len(b)) c = a.intersection(b) print(len(c)) print(c) return float(len(c)) / (len(a) + len(b) - ...
NLP | 2019-03-21 NLP系列 基于seq2seq的机器翻译模型本章概述 基础seq2seq编解码模型及应用 简介 应用:神经机器翻译 基于注意力机制的seq2seq机器翻译模型 词向量 RNN的解码器,编码器 上下文内容向量 注意力机制 可视化 【实战】基于keras完成的基础seq2seq机器翻译模型 【实战】基于tensorflow的google版本seq2seq机器翻译模型 1.seq2seq(序列到序列模型)简介 对于很多自然语言处理任务,比如聊天机器人,机器翻译,自动文摘,智能问答等, ...
NLP | 2019-03-21 NLP系列 python中文新闻分类 参考代码:【NLP文本分类】各种文本分类算法集锦,从入门到精通 参考代码:NLP系列(4)_朴素贝叶斯实战与进阶 123456789101112import re import pickleimport randomfrom sklearn.svm import SVCfrom sklearn import preprocessing, decomposition, model_selection, metrics, pipelinefrom s ...
NLP | 2019-03-21 NLP系列 基于fasttext的文本情感分析1import fastText 12345678910111213141516171819import re #正则表达式from bs4 import BeautifulSoup #html标签处理import pandas as pddef review_to_wordlist(review): ''' 把IMDB的评论转成词序列 ''' # 去掉HTML标签,拿到内容 review_text = Be ...