NLP | 2019-03-21 NLP系列 逻辑回归/SVM与文本分类 参考文章:《从原理到应用:简述Logistics回归算法》 Part 1 Logistic Regression1.1 什么是 L ...
NLP | 2019-03-21 NLP系列 统计语言模型 以下内容摘自和修改自吴军《数学之美》 自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递方式。因此让计算机处理自然语言,一个基本问题就是为自然语言这种上下文相关的特性建立数学模型,这个数学模型就是在自然语言处理中常说的统计语言模型(Statistical Language Model)。它是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。 1. 用数学的方法描述语言规律统计语言模型产生 ...
NLP | 2019-03-21 NLP系列 基于LDA的新闻主题分析与可视化呈现1import jieba 123456789101112131415161718192021222324252627282930313233343536# 创建停用词列表def stopwordslist(): stopwords = [line.strip() for line in open('./data/stopwords.txt',encoding='UTF-8').readlines()] return stopw ...
NLP | 2019-03-21 NLP系列 图解seq2seq1.seq2seq(序列到序列模型)简介对于很多自然语言处理任务,比如聊天机器人,机器翻译,自动文摘,智能问答等,传统的解决方案都是检索式(从候选集中选出答案),这对素材的完善程度要求很高,随着深度学习的发展,研究界将深度学习技术应用与自然语言的生成和自然语言的理解的方面的研究,并取得了一些突破性的成果,比如,Sequence-to-sequence (seq2seq) 模型,它是目前自然语言处理技术中非常重要和流行的一个模型,该技术突破了传统的固定大小输入 ...
NLP | 2019-03-21 NLP系列 图解seq2seq1.seq2seq(序列到序列模型)简介对于很多自然语言处理任务,比如聊天机器人,机器翻译,自动文摘,智能问答等,传统的解决方案都是检索式(从候选集中选出答案),这对素材的完善程度要求很高,随着深度学习的发展,研究界将深度学习技术应用与自然语言的生成和自然语言的理解的方面的研究,并取得了一些突破性的成果,比如,Sequence-to-sequence (seq2seq) 模型,它是目前自然语言处理技术中非常重要和流行的一个模型,该技术突破了传统的固定大小输入 ...
NLP | 2019-03-21 NLP系列 基于python的中文关键词抽取与可视化12import reimport jieba.analyse 对中文数据集进行预处理123456789101112def preprocess(input_file, output_file): reader = open(input_file, 'r',encoding='utf-8') writer = open(output_file, 'w',encoding='utf-8') line=reader.rea ...
NLP | 2019-03-21 NLP系列 Jaccard Similarity12345678910111213def jaccard_sim(s1, s2): a = set(s1.split()) print(len(a)) b = set(s2.split()) print(len(b)) c = a.intersection(b) print(len(c)) print(c) return float(len(c)) / (len(a) + len(b) - ...
NLP | 2019-03-21 NLP系列 Cosine similaritybag of words计算文本相似度 1234567891011121314from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.metrics.pairwise import cosine_similaritydef bow_cosine(s1, s2): vectorizer = CountVectorizer() vectorizer ...
NLP | 2019-03-21 NLP系列 视觉问答机器人(VQA) 原理与实现本章概述2.1 视觉问答机器人问题介绍 2.2 基于图像信息和文本信息抽取匹配的VQA实现方案 2.3 基于注意力(attention)的深度学习VQA实现方案 2.4 【实战】使用keras完成CNN+RNN基础VQA模型 2.5 【实战】基于attention 的深度学习VQA模型实现 2.1 视觉问答机器人问题介绍 视觉问答任务的定义是对于一张图片和一个跟这幅图片相关的问题,机器需要根据图片信息对问题进行回答。 输入:一张图片和一个关 ...
NLP | 2019-03-21 NLP系列 编辑距离计算python实现 1234567891011121314151617181920212223242526272829def editDistDP(s1, s2): m = len(s1) n = len(s2) # 创建一张表格记录所有子问题的答案 dp = [[0 for x in range(n+1)] for x in range(m+1)] # 从下往上填充DP表格 for i in range(m+1): ...