做了一段时间的多任务学习在点击率预估中的应用,是时候给多任务学习做个简单的总结了。
前段时间,VGG 的一拨人搞了个叫 curveball 的优化算法,能够将二阶信息用起来,同时避免了之前的传统方法要么去近似 Hessian 矩阵的逆,要么通过 conjugate-gradient 的方法去得到 Hessian 矩阵的逆,这些传统方法既耗时又对噪声敏感。而 curveball 算法并不需要直接算 Hessian 矩阵和它的逆,每次只是去估计梯度与 Hessian 矩阵的乘积即可,所付出的代价仅仅是额外的两次正向传播。 由于这篇文章写的极为简略,很多过程都直接略掉了,今天我们就来推导这个算法,将作者略去的部分补上。
文章链接:点我
文章代码 github 链接:点我
本文推导内容的 pdf 链接:点我
练练手,强推神经网络的二阶导。
本文推导内容的 pdf 链接:点我
在广告点击率预估场景中,特征工程绝对是最重要的工作,没有之一。能否从海量的数据中找到最有效的特征,决定了一个算法工程师每周是否可以加上一个鸡腿。在实践中我们发现,广告的实时反馈 CTR 特征是一个可以让工程师加鸡腿的特征,这里就来聊聊它的正确使用方法。
最佳拜读了下大名鼎鼎的 SVRG 算法 [5],读完后把前前后后涉及到的方法都看了一遍,这里做个简单的综述和阅读理解,并描述了如何将方差缩减思想应用于在线学习。
最近西部世界第二季开播了,等了一年,终于等到了。西部世界关于意识的理论用了所谓的二分心智理论,这个理论是美国心理学家朱利安·杰恩斯(Julian Jaynes)在他的神书《二分心智的崩塌:人类意识的起源(The Origin of Consciousness in the Breakdown of the Bicameral Mind)》里提出的,这是个神奇的理论,转发一篇介绍此人及此书的文章。