介绍

也是一篇在CTR预估中堆Deep层数的轮子文,先来了解一下:

  1. DeepFM:使用FM的特征组合能力灌给DNN进行joint-train
  2. Deep&Cross:根据首层和次层的依赖可以解决多阶特征组合的问题

不过xDeepFM所提出的点是结合RNN和CNN的特性完成多阶特征的抽取,并且最终和和DNN以及Linear整合到一起完成显性特征的使用。

Read More

CTR预估

CTR预估一直以来都是工业界搜索、广告和推荐中的核心,而传统的LR模型(逻辑回归)几乎可以被称为CTR界的神算法,虽然他结构非常简单,但是他计算速度特别快,并且在加以特征工程师的修饰,一样可以拿到很好的效果。
但是这样的操作毕竟特征的选择会起比较重要的作用,如果遇到不同任务需要重新提取不同类型的特征。在2014年Facebook通过GBDT的生成LR特征的方式,取得了不错的效果。众所周知,GBDT中的策略树将会有一定的特征选择功能,因此该方式先原先(未经过太多特征工程的特征过一把GBDT),将GBDT的叶子节点作为特征继续输入到LR模型中,最终对目标的CTR值进行预测。
除特征工程外,LR的另一个缺陷就是对于高阶的表达能力不足,从这两个出发点,结合公司中手头的一些工作,整了下最近比较经典的Paper来说说深度学习在CTR预估中的一些方法,主要有:FNNPNNWide&DeepDeep&CrossDeepFmNFM.

Read More

近期使用FM系列完成了一个CTR预估的任务,本文是阅读了一些paper之后对于FMFFMDeepFMNFM,AFM的一个理解和记录

FM

Factorization Machine(FM)由Steffen Rendle在2010年提出,旨在解决系数数据下的特征组合的问题,目前该系列模型在搜索推荐领域被广泛使用。

一个栗子

先来看一个经典的电影评分问题

Read More

Dropout in Deep Network

在机器学习任务中一提到过拟合,L1L2正则项绝对是两大利器,但是在深度神经网络中,Hiton老爷子在2014年提出了一种称为Dropout的方法来避免过拟合,方式对比L1L2更为灵活也是非常高效。

深度神经网络中,在不限制计算的条件下,最佳的正则化方式就是将所有可能组合成的模型进行平均输出,就类似stack的模型融合一样,但是这种方式存在两大问题:

  1. 在计算时需要将训练文件进行相应的分离,因为神经网络的训练本身就是需要极多的数据,这么一分离可能会导致数据不够的情况
  2. 深度神经网络中的计算量本身就很大,计算多个之后其耗时将会更多

Dropout却可以完美的解决上述两个缺陷,他的思想很简单:

Read More

RNN的缺点

RNN的特点毋庸置疑就是在训练/预测当前层节点时可以拿到先前层的数据来进行辅助计算,因此对于序列的学习非常有效。但事实上这个利用前面全部的信息并不是非常有效。比如看下面两个language mdoel:

the clouds are in the sky

这里要预测的sky只需要依赖前前面几个term即可

再看看另一个句子:

I grew up in France… I speak fluent French.

这里在预测French的时候需要前面较长的信息,甚至已经跨到前面一句话了。
因此是可以看出就算在Language Model中不同样本下可能是需要不同的长度的历史信息的,而对于RNN而言他并不能控制历史信息的长度.

Read More

RNN是啥?

当需要处理一些输入或者输出有相互依赖的任务时,传统的神经网络已经不再适用,比如在Language Model中在给定几个单词的情况下来预测下面将会出什么单词的时候。
这时候RNN就有用武之地了,RNN在预测/训练当前节点的时候可以获取前面节点的记忆(memory)信息,这样就可以很自然的完成序列任务的学习了。
一图胜千言,经典的RNN结构是长这样纸的:

Read More

DSSM这篇paper发表在cikm2013,短小但是精炼,值得记录一下
ps:后来跟了几篇dssm的paper,一并记录在这里

DSSM

DSSM的结构

DSSM最大的卖点在检索场景下 使用点击数据来训练语义层次的匹配,简单的来说,传统检索场景下的匹配主要有:

  1. 字面匹配:TFIDFBM25
  2. 使用LSA类模型进行语义匹配,但是效果不好

而DSSM训练出来之后,检索场景下用户输入query之后,可以根据该query计算各个doc的语义相似度。

这里上图最直接:

Read More

Federated Search 介绍1

Federated search is an information retrieval technology that allows the simultaneous search of multiple searchable resources. —from WikiPedia


上图就是一个Federated Search的栗子,在搜索了lyon关键词之后有地图图片视频以及网页,其各种资源一般来说是不在同一个引擎的,其中召回排序算法也是不一致的,而Federated Search要做的就是接收到关键词之后给用户展现一个统一的界面。

Read More

最大熵原理

:其物理意义是体系混乱程度的衡量,在热力学中越大表示物质越混乱,但同时也为越稳定~
现假设离线随机变量$X$的概率分布为$P(X)$,则其熵为定义为:
$$H(P)= -\sum_x P(x) \text{log} P(x)$$

当$X$为均匀分布时,熵值最大:

Read More

Softmax 介绍

多分类是机器学习中一类非常常见的任务,比如将0~9某个字写到图片上,使用多分类的方法来识别这个图片上写的到底是几(MNIST手写体识别),对于多分类任务常用的机器学习方法有:

  1. 借助二分类,使用One vs All或者One vs One来完成多分类
  2. 使用朴素贝叶斯来完成多分类
  3. 决策树类模型~
  4. 最大熵模型
  5. 。。。

Read More