NLP |

NLP系列

中文文本基本任务与处理1.分词对于中文和日文这样的特殊亚洲语系文本而言,字和字之间是紧密相连的,单纯从文本形态上无法区分具备独立含义的词(拉丁语系纯天然由空格分隔不同的word),而不同的词以不同的方式排布,可以表达不同的内容和情感,因此在很多中文任务中,我们需要做的第一个处理叫做分词。 这是一个非常基础的功能,但是会较大程度影响下游任务(机器翻译、情感分析、文本理解)的效果。 目前主流的分词方法主要是基于词典匹配的分词方法(正向最大匹配法、逆向最大匹配法和双向匹配分词法等) ...

pastor
pastor
26 min read
NLP |

NLP系列

文本表示进阶1. 预训练在图像领域的应用 参考文章:《从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史》 自从深度学习火起来后,预训练过程就是做图像或者视频领域的一种比较常规的做法,有比较长的历史了,而且这种做法很有效,能明显促进应用的效果。 那么图像领域怎么做预训练呢,上图展示了这个过程,我们设计好网络结构以后,对于图像来说一般是CNN的多层叠加网络结构,可以先用某个训练集合比如训练集合A或者训练集合B对这个网络进行预先训练,在A任务上或者 ...

pastor
pastor
22 min read
NLP |

NLP系列

朴素贝叶斯模型与中文文本分类 参考文章:《朴素贝叶斯模型与中文文本分类》 1. 引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式贝叶斯公式就一行: $P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)} $ 而它其实是由以下的联合概率公式推导出来: $P(Y,X) = P(Y|X)P(X)= ...

pastor
pastor
10 min read
NLP |

NLP系列

facebook fasttext原理与操作 参考文章:《FastText原理总结》 1、应用场景fastText是一种Facebook AI Research在16年开源的一个文本分类器。 其特点就是fast。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保持分类效果的同时,大大缩短了训练时间。 2、优缺点 适合大型数据+高效的训练速度:能够训练模型“在使用标准多核CPU的情况下10分钟内处 ...

pastor
pastor
4 min read
NLP |

NLP系列

词嵌入与fine-tuning很多高阶的深度学习自然语言处理任务,都可以用词向量作为基础。我们课程的很多任务,可以用预训练好的word2vec初始化,接下来进行fine-tuning。如本章的文本分类。其基本思路是将离散的词嵌入到连续的空间中,并以此作为词的表示输入到下层的任务中去。 如何使用? 从头训练 就像word2vec一样, 这一层是可学习的, 用随机数initialize , 通过BP去调整. pre-trained + fine tuning 用其他网络( ...

pastor
pastor
10 min read