语义分析的一些方法

时间:2015-06-18 13:04:46   收藏:0   阅读:24309

语义分析的一些方法

作者:火光摇曳

语义分析的一些方法(上篇)

语义分析的一些方法(中篇)

语义分析的一些方法(下篇)

语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。

工作这几年,陆陆续续实践过一些项目,有搜索广告,社交广告,微博广告,品牌广告,内容广告等。要使我们广告平台效益最大化,首先需要理解用户,Context(将展示广告的上下文)和广告,才能将最合适的广告展示给用户。而这其中,就离不开对用户,对上下文,对广告的语义分析,由此催生了一些子项目,例如文本语义分析,图片语义理解,语义索引,短串语义关联,用户广告语义匹配等。

接下来我将写一写我所认识的语义分析的一些方法,虽说我们在做的时候,效果导向居多,方法理论理解也许并不深入,不过权当个人知识点总结,有任何不当之处请指正,谢谢。

本文主要由以下四部分组成:文本基本处理,文本语义分析,图片语义分析,语义分析小结。先讲述文本处理的基本方法,这构成了语义分析的基础。接着分文本和图片两节讲述各自语义分析的一些方法,值得注意的是,虽说分为两节,但文本和图片在语义分析方法上有很多共通与关联。最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用,并展望一下未来的语义分析方法。

1 文本基本处理

在讲文本语义分析之前,我们先说下文本基本处理,因为它构成了语义分析的基础。而文本处理有很多方面,考虑到本文主题,这里只介绍中文分词以及Term Weighting。

1.1 中文分词

拿到一段文本后,通常情况下,首先要做分词。分词的方法一般有如下几种:

一个文本串除了分词,还需要做词性标注,命名实体识别,新词发现等。通常有两种方案,一种是pipeline approaches,就是先分词,再做词性标注;另一种是joint approaches,就是把这些任务用一个模型来完成。有兴趣可以参考文献[9][62]等。

一般而言,方法一和方法二在工业界用得比较多,方法三因为采用复杂的模型,虽准确率相对高,但耗时较大。

1.2 语言模型

前面在讲“全切分分词”方法时,提到了语言模型,并且通过语言模型,还可以引出词向量,所以这里把语言模型简单阐述一下。

语言模型是用来计算一个句子产生概率的概率模型,即P(w_1,w_2,w_3…w_m),m表示词的总个数。根据贝叶斯公式:P(w_1,w_2,w_3 … w_m) = P(w_1)P(w_2|w_1)P(w_3|w_1,w_2) … P(w_m|w_1,w_2 … w_{m-1})。

最简单的语言模型是N-Gram,它利用马尔科夫假设,认为句子中每个单词只与其前n–1个单词有关,即假设产生w_m这个词的条件概率只依赖于前n–1个词,则有P(w_m|w_1,w_2…w_{m-1}) = P(w_m|w_{m-n+1},w_{m-n+2} … w_{m-1})。其中n越大,模型可区别性越强,n越小,模型可靠性越高。

N-Gram语言模型简单有效,但是它只考虑了词的位置关系,没有考虑词之间的相似度,词语法和词语义,并且还存在数据稀疏的问题,所以后来,又逐渐提出更多的语言模型,例如Class-based ngram model,topic-based ngram model,cache-based ngram model,skipping ngram model,指数语言模型(最大熵模型,条件随机域模型)等。若想了解更多请参考文章[18]。

最近,随着深度学习的兴起,神经网络语言模型也变得火热[4]。用神经网络训练语言模型的经典之作,要数Bengio等人发表的《A Neural Probabilistic Language Model》[3],它也是基于N-Gram的,首先将每个单词w_{m-n+1},w_{m-n+2} … w_{m-1}映射到词向量空间,再把各个单词的词向量组合成一个更大的向量作为神经网络输入,输出是P(w_m)。本文将此模型简称为ffnnlm(Feed-forward Neural Net Language Model)。ffnnlm解决了传统n-gram的两个缺陷:(1)词语之间的相似性可以通过词向量来体现;(2)自带平滑功能。文献[3]不仅提出神经网络语言模型,还顺带引出了词向量,关于词向量,后文将再细述。

技术分享

图3. 基于神经网络的语言模型

从最新文献看,目前state-of-the-art语言模型应该是基于循环神经网络(recurrent neural network)的语言模型,简称rnnlm[5][6]。循环神经网络相比于传统前馈神经网络,其特点是:可以存在有向环,将上一次的输出作为本次的输入。而rnnlm和ffnnlm的最大区别是:ffnnmm要求输入的上下文是固定长度的,也就是说n-gram中的 n 要求是个固定值,而rnnlm不限制上下文的长度,可以真正充分地利用所有上文信息来预测下一个词,本次预测的中间隐层信息(例如下图中的context信息)可以在下一次预测里循环使用。

技术分享

图4. 基于simple RNN(time-delay neural network)的语言模型

如上图所示,这是一个最简单的rnnlm,神经网络分为三层,第一层是输入层,第二层是隐藏层(也叫context层),第三层输出层。 假设当前是t时刻,则分三步来预测P(w_m):

参考文献[7]中列出了一个rnnlm的library,其代码紧凑。利用它训练中文语言模型将很简单,上面“南京市 长江 大桥”就是rnnlm的预测结果。

基于RNN的language model利用BPTT(BackPropagation through time)算法比较难于训练,原因就是深度神经网络里比较普遍的vanishing gradient问题[55](在RNN里,梯度计算随时间成指数倍增长或衰减,称之为Exponential Error Decay)。所以后来又提出基于LSTM(Long short term memory)的language model,LSTM也是一种RNN网络,关于LSTM的详细介绍请参考文献[54,49,52]。LSTM通过网络结构的修改,从而避免vanishing gradient问题。

技术分享

图5. LSTM memory cell

如上图所示,是一个LSTM unit。如果是传统的神经网络unit,output activation bi = activation_function(ai),但LSTM unit的计算相对就复杂些了,它保存了该神经元上一次计算的结果,通过input gate,output gate,forget gate来计算输出,具体过程请参考文献[53,54]。

1.3 Term Weighting

Term重要性

对文本分词后,接下来需要对分词后的每个term计算一个权重,重要的term应该给与更高的权重。举例来说,“什么产品对减肥帮助最大?”的term weighting结果可能是: “什么 0.1,产品 0.5,对 0.1,减肥 0.8,帮助 0.3,最大 0.2”。Term weighting在文本检索,文本相关性,核心词提取等任务中都有重要作用。

核心词、关键词提取

2 文本语义分析

前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。

2.1 Topic Model

首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型,已经有相当多的介绍了,譬如文献[60,64]。在这里,主要想聊一下主题模型的应用以及最新进展(考虑到LDA是pLSA的generalization,所以下面只介绍LDA)。

LDA训练算法简单介绍

LDA的推导这里略过不讲,具体请参考文献[64]。下面我们主要看一下怎么训练LDA。

在Blei的原始论文中,使用variational inference和EM算法进行LDA推断(与pLSA的推断过程类似,E-step采用variational inference),但EM算法可能推导出局部最优解,且相对复杂。目前常用的方法是基于gibbs sampling来做[57]。

对文档d中词w的主题z进行重新采样的公式有非常明确的物理意义,表示为P(w|z)P(z|d),直观的表示为一个“路径选择”的过程。

技术分享

图10. gibbs sampling过程图

以上描述过程具体请参考文献[65]。

对于LDA模型的更多理论介绍,譬如如何实现正确性验证,请参考文献[68],而关于LDA模型改进,请参考Newman团队的最新文章《Care and Feeding of Topic Models》[12]。

主题模型的应用点
主题模型最新进展

首先主题模型自PLSA, LDA后,又提出了很多变体,譬如HDP。LDA的topic number是预先设定的,而HDP的topic number是不固定,而是从训练数据中学习得到的,这在很多场景是有用的,具体参考hdp vs lda。想了解更多LDA模型的升级,请参考文献[73,74]。

深度学习方面,Geoff Hinton及其学生用Deep Boltzmann Machine研究出了类似LDA的隐变量文本模型[82],文章称其抽取的特征在文本检索与文本分类上的结果比LDA好。heavenfireray在其微博评论道:lda结构是word-hidden topic。类lda结构假设在topic下产生每个word是条件独立而且参数相同。这种假设导致参数更匹配长文而非短文。该文章提出word-hidden topic-hidden word,其实是(word,hidden word)-hidden topic,增加的hidden word平衡了参数对短文的适配,在分类文章数量的度量上更好很自然。

其次,随着目前互联网的数据规模的逐渐增加,大规模并行PLSA,LDA训练将是主旋律。大规模主题模型训练,除了从系统架构上进行优化外,更关键的,还需要在算法本身上做升级。variational方法不太适合并行化,且速度相对也比较慢,这里我们着重看sampling-base inference。

主题模型并行化

在文献[67]中,Newman团队提出了LDA算法的并行化版本Approximate distributed-LDA,如下图所示:

技术分享

图11. AD-LDA算法

在原始gibbs sampling算法里,N(w,t)这个矩阵的更新是串行的,但是研究发现,考虑到N(w,t)矩阵在迭代过程中,相对变化较小,多个worker独立更新N(w,t),在一轮迭代结束后再根据多个worker的本地更新合并到全局更新N(w,t),算法依旧可以收敛[67]。

那么,主题模型的并行化(不仅仅是主题模型,其实是绝大部分机器学习算法),主要可以从两个角度来说明:数据并行和模型并行。

数据与模型并行,可以形象的描述为一个棋盘。棋盘的行按照数据划分,棋盘的列按照模型划分。LDA的并行化,就是通过这样的切分,将原本巨大的,不可能在单机存储的矩阵切分到不同的机器,使每台机器都能够将参数存储在内存。再接着,各个worker相对独立计算,计算的过程中不时按照某些策略同步模型数据。

最近几年里,关于LDA并行化已有相当多的开源实现,譬如:

最近的并行LDA实现Peacock[70,65]和LigthLda[13]没有开源,但我们可以从其论文一窥究竟,总体来说,并行化的大体思路是一致的。譬如LightLDA[13],下图是实现架构框图,它将训练数据切分成多个Block,模型通过parameter server来同步,每个data block,类似于sliding windows,在计算完V1的采样后,才会去计算V2的采样(下图中V1,V2,V3表示word空间的划分,即模型的划分)。

技术分享

图12. LightLda并行结构图

2.2 词向量,句向量

词向量是什么

在文本分析的vector space model中,是用向量来描述一个词的,譬如最常见的One-hot representation。One-hot representation方法的一个明显的缺点是,词与词之间没有建立关联。在深度学习中,一般用Distributed Representation来描述一个词,常被称为“Word Representation”或“Word Embedding”,也就是我们俗称的“词向量”。

词向量起源于hinton在1986年的论文[11],后来在Bengio的ffnnlm论文[3]中,被发扬光大,但它真正被我们所熟知,应该是word2vec[14]的开源。在ffnnlm中,词向量是训练语言模型的一个副产品,不过在word2vec里,是专门来训练词向量,所以word2vec相比于ffnnlm的区别主要体现在:

技术分享

图13. word2vec的训练算法

上图是word2vec的两种训练算法:CBOW(continuous bag-of-words)和Skip-gram。在cbow方法里,训练目标是给定一个word的context,预测word的概率;在skip-gram方法里,训练目标则是给定一个word,预测word的context的概率。

关于word2vec,在算法上还有较多可以学习的地方,例如利用huffman编码做层次softmax,negative sampling,工程上也有很多trick,具体请参考文章[16][17]。

词向量的应用

词向量的应用点:

除了产生词向量,word2vec还有很多其他应用领域,对此我们需要把握两个概念:doc和word。在词向量训练中,doc指的是一篇篇文章,word就是文章中的词。

句向量

分析完word distributed representation,我们也许会问,phrase,sentence是否也有其distributed representation。最直观的思路,对于phrase和sentence,我们将组成它们的所有word对应的词向量加起来,作为短语向量,句向量。在参考文献[34]中,验证了将词向量加起来的确是一个有效的方法,但事实上还有更好的做法。

Le和Mikolov在文章《Distributed Representations of Sentences and Documents》[20]里介绍了sentence vector,这里我们也做下简要分析。

先看c-bow方法,相比于word2vec的c-bow模型,区别点有:

技术分享

图14. sentence2vec cBow算法

sentence2vec相比于word2vec的skip-gram模型,区别点为:在sentence2vec里,输入都是paragraph vector,输出是该paragraph中随机抽样的词。

技术分享

图15. sentence2vec Skip-gram算法

下面是sentence2vec的结果示例。先利用中文sentence语料训练句向量,然后通过计算句向量之间的cosine值,得到最相似的句子。可以看到句向量在对句子的语义表征上还是相当惊叹的。

技术分享

图16. sentence2vec 结果示例

词向量的改进

2.3 卷积神经网络

卷积

介绍卷积神经网络(convolutional neural network,简记cnn)之前,我们先看下卷积。

在一维信号中,卷积的运算,请参考wiki,其中的图示很清楚。在图像处理中,对图像用一个卷积核进行卷积运算,实际上是一个滤波的过程。下面是卷积的数学表示:

技术分享

f(x,y)是图像上点(x,y)的灰度值,w(x,y)则是卷积核,也叫滤波器。卷积实际上是提供了一个权重模板,这个模板在图像上滑动,并将中心依次与图像中每一个像素对齐,然后对这个模板覆盖的所有像素进行加权,并将结果作为这个卷积核在图像上该点的响应。如下图所示,卷积操作可以用来对图像做边缘检测,锐化,模糊等。

技术分享技术分享

图17. 卷积操作示例

什么是卷积神经网络

卷积神经网络是一种特殊的、简化的深层神经网络模型,它的每个卷积层都是由多个卷积滤波器组成。它最先由lecun在LeNet[40]中提出,网络结构如下图所示。在cnn中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过多个卷积滤波器去获得观测数据的最显著的特征。技术分享

技术分享

图18. Lenet5网络结构图

卷积神经网络中的每一个特征提取层(卷积层)都紧跟着一个用来求局部平均与二次提取的计算层(pooling层),这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。如下图所示,就是一个完整的卷积过程[21]。

技术分享

图19. 一次完整的卷积过程

它的特殊性体现在两点:(1)局部感受野(receptive field),cnn的神经元间的连接是非全连接的;(2)同一层中同一个卷积滤波器的权重是共享的(即相同的)。局部感受野和权重共享这两个特点,使cnn网络结构更类似于生物神经网络,降低了网络模型的复杂度,减少了神经网络需要训练的参数的个数。

卷积神经网络的一些细节

接下来结合文献[25],再讲讲卷积神经网络的一些注意点和问题。

卷积神经网络在文本上的应用

卷积神经网络在image classify和image detect上得到诸多成功的应用,后文将再详细阐述。但除了图片外,它在文本分析上也取得一些成功的应用。

基于CNN,可以用来做文本分类,情感分析,本体分类等[36,41,84]。传统文本分类等任务,一般基于bag of words或者基于word的特征提取,此类方法一般需要领域知识和人工特征。利用CNN做,方法也类似,但一般都是基于raw text,CNN模型的输入可以是word series,可以是word vector,还可以是单纯的字符。比起传统方法,CNN不需要过多的人工特征。

2.4 文本分类

文本分类应该是最常见的文本语义分析任务了。首先它是简单的,几乎每一个接触过nlp的同学都做过文本分类,但它又是复杂的,对一个类目标签达几百个的文本分类任务,90%以上的准确率召回率依旧是一个很困难的事情。这里说的文本分类,指的是泛文本分类,包括query分类,广告分类,page分类,用户分类等,因为即使是用户分类,实际上也是对用户所属的文本标签,用户访问的文本网页做分类。

几乎所有的机器学习方法都可以用来做文本分类,常用的主要有:lr,maxent,svm等,下面介绍一下文本分类的pipeline以及注意点。

3 图片语义分析

3.1 图片分类

图片分类是一个最基本的图片语义分析方法。

基于深度学习的图片分类

传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。

技术分享

图23. 传统图片分类流程图

传统方法里,人工特征提取是一个巨大的消耗性工作。而随着深度学习的进展,不再需要人工特征,通过深度学习自动提取特征成为一种可能。接下来主要讲述卷积神经网络在图片分类上的使用。

下图是一个经典的卷积神经网络模型图,由Hinton和他的学生Alex Krizhevsky在ILSVRC(Imagenet Large Scale Visual Recognition Competition) 2012中提出。 整个网络结构包括五层卷积层和三层全连接层,网络的最前端是输入图片的原始像素点,最后端是图片的分类结果。一个完整的卷积层可能包括一层convolution,一层Rectified Linear Units,一层max-pooling,一层normalization。

技术分享

图24. 卷积神经网络结构图

对于每一层网络,具体的网络参数配置如下图所示。InputLayer就是输入图片层,每个输入图片都将被缩放成227*227大小,分rgb三个颜色维度输入。Layer1~ Layer5是卷积层,以Layer1为例,卷积滤波器的大小是11*11,卷积步幅为4,本层共有96个卷积滤波器,本层的输出则是96个55*55大小的图片。在Layer1,卷积滤波后,还接有ReLUs操作和max-pooling操作。Layer6~ Layer8是全连接层,相当于在五层卷积层的基础上再加上一个三层的全连接神经网络分类器。以Layer6为例,本层的神经元个数为4096个。Layer8的神经元个数为1000个,相当于训练目标的1000个图片类别。

技术分享

图25. CNN网络参数配置图

基于Alex Krizhevsky提出的cnn模型,在13年末的时候,我们实现了用于广点通的图片分类和图片检索(可用于广告图片作弊判别),下面是一些示例图。

图片分类示例:

技术分享

图26. 图片分类示例图

图片检索示例:

技术分享技术分享

图27. 图片检索示例图

图片分类上的最新进展

在ILSVRC 2012中,Alex Krizhevsky基于GPU实现了上述介绍的,这个有60million参数的模型(简称为AlexNet),赢得了第一名。这个工作是开创性的,它引领了接下来ILSVRC的风潮。2013年,Clarifai通过cnn模型可视化技术调整网络架构,赢得了ILSVRC。2014年,google也加入进来,它通过增加模型的层数(总共22层),让深度更深[48],并且利用multi-scale data training,取得第一名。baidu最近通过更加“粗暴”的模型[44],在GooLeNet的基础上,又提升了10%,top–5错误率降低至6%以下。具体结果如下图所示。

技术分享

图28. ImageNet Classification Result

先简单分析一下“GoogLeNet”[48,51]所采用的方法:

再分析一下“Deep Image by baidu[44]”所采用的方法:

3.2 Image2text,Image2sentence

上面讲述的图片分类对图片语义的理解比较粗粒度,那么我们会想,是否可以将图片直接转化为一堆词语或者一段文本来描述。转化到文本后,我们积累相对深的文本处理技术就都可以被利用起来。

Image2text

首先介绍一种朴素的基于卷积神经网络的image to text方法。

其中种子图片,就是可以覆盖所有待研究图片的行业,但较容易分析语义的图片集。这种方法产生了更加丰富而细粒度的语义表征结果。虽说简单,但效果仍然不错,方法的关键在于种子图片。利用比较好的种子图片(例如paipai数据),简单的方法也可以work得不错。下图是该方法的效果图。

技术分享技术分享

图29. 图片语义tag标注示例图

上面的baseline方法,在训练数据优质且充分的情况下,可以取得很不错的图片tag提取效果,而且应用也非常广泛。但上面的方法非常依赖于训练数据,且不善于发现训练数据之外的世界。

另一个直观的想法,是否可以通过word embedding建立image与text的联系[26]。例如,可以先利用CNN训练一个图片分类器。每个类目label可以通过word2vec映射到一个embedding表示。对于一个新图片,先进行分类,然后对top-n类目label所对应的embedding按照权重(这里指这个类目所属的概率)相加,得到这个图片的embedding描述,然后再在word embedding空间里寻找与图片embedding最相关的words。

Image detection

接下来再介绍下image detection。下图是一个image detection的示例,相比于图片分类,提取到信息将更加丰富。

技术分享

图30. 图片detection示例

目前最先进的detection方法应该是Region-based CNN(简称R-CNN)[75],是由Jeff Donahue和Ross Girshick提出的。R-CNN的具体想法是,将detection分为寻找object和识别object两个过程。在第一步寻找object,可以利用很多region detection算法,譬如selective search[76],CPMC,objectness等,利用很多底层特征,譬如图像中的色块,图像中的边界信息。第二步识别object,就可以利用“CNN+SVM”来做分类识别。

技术分享

图31. Image detection系统框图

这里有R-CNN的实现,请点击rcnn code

Image2sentence

那能否通过深度学习方法,直接根据image产生sentence呢?我们先看一组实际效果,如下图所示(copy from 文献[43])。

技术分享

图32. image2sentence示例图

关于这个方向,最近一年取得了比较大的突破,工业界(Baidu[77],Google[43],Microsoft[80,81]等)和学术界(Stanford[35],Borkeley[79],UML[19],Toronto[78]等)都发表了一系列论文。

简单归纳一下,对这个问题,主要有两种解决思路:

3.3 训练深度神经网络的tricks

考虑到图片语义分析的方法大部分都是基于深度学习的,Hinton的学生Ilya Sutskever写了一篇深度学习的综述文章[47],其中提到了一些训练深度神经网络的tricks,整理如下:

4 总结

4.1 语义分析方法在实际业务中的使用

前面讲述了很多语义分析方法,接下来我们看看如何利用这些方法帮忙我们的实际业务,这里举一个例子,用户广告的语义匹配。

在广点通系统中,用户与广告的关联是通过定向条件来匹配的,譬如某些广告定向到“北京+男性”,那么当“北京+男性”的用户来到时,所有符合定向的广告就将被检索出,再按照“ecpm*quality”排序,将得分最高的展示给用户。但是凭借一些人口属性,用户与广告之间的匹配并不精确,做不到“广告就是想用户所想”,所以用户和广告的语义分析就将派上用场了,可以从这样两方面来说明:

4.2 Future

对于文本和图片的语义分析,可以看到:最近几年,在某些任务上,基于深度学习的方法逐渐超过了传统方法的效果。但目前为止,对于深度学习的发掘才刚刚开始,比较惊艳的神经网络方法,也只有有限几种,譬如CNN,RNN,RBM等。

上文只是介绍了我们在工作中实践过的几个小点,还有更多方法需要我们去挖掘:

4.3 总结

上文主要从文本、图片这两方面讲述了语义分析的一些方法,并结合个人经验做了一点总结。

原本想写得更全面一些,但写的时候才发现上面所述的只是沧海一粟,后面还有更多语义分析的内容之后再更新。另外为避免看到大篇理论就头痛,文中尽可能不出现复杂的公式和理论推导。如果有兴趣,可以进一步阅读参考文献,获得更深的理解。谢谢。

参考文献

    1. Term-weighting approaches in automatic text retrieval,Gerard Salton et.
    2. New term weighting formulas for the vector space method in information retrieval
    3. A neural probabilistic language model 2003
    4. Deep Learning in NLP-词向量和语言模型
    5. Recurrent neural network based language models
    6. Statistical Language Models based on Neural Networks,mikolov博士论文
    7. Rnnlm library
    8. A survey of named entity recognition and classification
    9. Deep learning for Chinese word segmentation and POS tagging
    10. Max-margin tensor neural network for chinese word segmentation
    11. Learning distributed representations of concepts
    12. Care and Feeding of Topic Models: Problems, Diagnostics, and Improvements
    13. LightLda
    14. word2vec
    15. Efficient Estimation of Word Representations in Vector Space
    16. Deep Learning实战之word2vec
    17. word2vec中的数学原理详解 出处2
    18. 斯坦福课程-语言模型
    19. Translating Videos to Natural Language Using Deep Recurrent Neural Networks
    20. Distributed Representations of Sentences and Documents
    21. Convolutional Neural Networks卷积神经网络
    22. A New, Deep-Learning Take on Image Recognition
    23. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
    24. A Deep Learning Tutorial: From Perceptrons to Deep Networks
    25. Deep Learning for Computer Vision
    26. Zero-shot leanring by convex combination of semantic embeddings
    27. Sequence to sequence learning with neural network
    28. Exploting similarities among language for machine translation
    29. Grammar as Foreign Language Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever, Geoffrey Hinton, arXiv 2014
    30. Deep Semantic Embedding
    31. 张家俊. DNN Applications in NLP
    32. Deep learning for natural language processing and machine translation
    33. Distributed Representations for Semantic Matching
    34. distributed_representation_nlp
    35. Deep Visual-Semantic Alignments for Generating Image Descriptions
    36. Convolutional Neural Networks for Sentence Classification
    37. Senna
    38. ImageNet Large Scale Visual Recognition Challenge
    39. Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks
    40. Gradient-Based Learning Applied to Document Recognition
    41. Effetive use of word order for text categorization with convolutional neural network,Rie Johnson
    42. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
    43. Show and Tell: A Neural Image Caption Generator
    44. Deep Image: Scaling up Image Recognition
    45. Large-Scale High-Precision Topic Modeling on Twitter
    46. A. Krizhevsky. One weird trick for parallelizing convolutional neural networks. arXiv:1404.5997, 2014
    47. A Brief Overview of Deep Learning
    48. Going deeper with convolutions. Christian Szegedy. Google Inc. 阅读笔记
    49. Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling
    50. Semi-Supervised Learning Tutorial
    51. http://www.zhihu.com/question/24904450
    52. LONG SHORT-TERM MEMORY BASED RECURRENT NEURAL NETWORK ARCHITECTURES FOR LARGE VOCABULARY SPEECH RECOGNITION
    53. LSTM Neural Networks for Language Modeling
    54. LONG SHORT-TERM MEMORY
    55. Bengio, Y., Simard, P., Frasconi, P., “Learning long-term dependencies with gradient descent is difficult” IEEE Transactions on Neural Networks 5 (1994), pp. 157–166
    56. AliasLDA
    57. Gibbs sampling for the uninitiated
    58. Learning classifiers from only positive and unlabeled data
    59. TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams
    60. LDA数学八卦
    61. Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields Models
    62. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data
    63. Chinese Segmentation and New Word Detection using Conditional Random Fields
    64. Gregor Heinrich. Parameter estimation for text analysis
    65. Peacock:大规模主题模型及其在腾讯业务中的应用
    66. L. Yao, D. Mimno, and A. McCallum. Efficient methods for topic model inference on streaming document collections. In KDD, 2009.
    67. David Newman. Distributed Algorithms for Topic Models
    68. Xuemin. LDA工程实践之算法篇
    69. Brian Lott. Survey of Keyword Extraction Techniques
    70. Yi Wang, Xuemin Zhao, Zhenlong Sun, Hao Yan, Lifeng Wang, Zhihui Jin, Liubin Wang, Yang Gao, Ching Law, and Jia Zeng. Peacock: Learning Long-Tail Topic Features for Industrial Applications. TIST’2015.
    71. 刘知远. 基于文档主题结构的关键词抽取方法研究
    72. Hinton. Reducing the Dimensionality of Data with Neural Networks
    73. Samaneh Moghaddam. On the design of LDA models for aspect-based opinion mining
    74. The FLDA model for aspect-based opinion mining: addressing the cold start problem
    75. Ross Girshick et. Rich feature hierarchies for accurate object detection and semantic segmentation
    76. J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.
    77. Baidu/UCLA: Explain Images with Multimodal Recurrent Neural Networks
    78. Toronto: Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
    79. Berkeley: Long-term Recurrent Convolutional Networks for Visual Recognition and Description
    80. Xinlei Chen et. Learning a Recurrent Visual Representation for Image Caption Generation
    81. Hao Fang et. From Captions to Visual Concepts and Back
    82. Modeling Documents with a Deep Boltzmann Machine
    83. A Deep Dive into Recurrent Neural Nets
    84. Xiang zhang et. Text Understanding from Scratch
评论(0
© 2014 mamicode.com 版权所有 京ICP备13008772号-2  联系我们:gaon5@hotmail.com
迷上了代码!