1. 前言 本文翻译自《Attention?Attention!》博客 最近几年,注意力——在深度学习社区中,已然成为最广为流行的概念和实用工具...
1. 文章 An overview of gradient descent optimization algorithms 2. 概要 梯度优化...
1. 请问(决策树、随机森林,Boosting、Adaboot)GBDT和XGBoost的区别是什么? Ans:①首先,随机森林是一个包含多个决...
1. LR为什么可以用来做CTR预估? Ans:若把点击的样本作为正例,未点击的样本作为负例,则样本的CTR就是样本为正例的概率,LR可以输出样...
6.1 接口implement 继承接口,即履行“义务” 接口中所有的方法自动属于public,在接口声明中,不必提供关键字public 接口中...
1. 关于min和max交换位置满足的 d* <= p* 的条件并不是KKT条件 Ans:这里并非是KKT条件,要让等号成立需要满足strong...
1. 前言 实习做NLP任务时,在离线train获得模型bin文件后,在部署到线上之前经常需要测试一下QPS等指标,用Java写了测试流程,用M...
概述 本课程作业主要借助python工具,实现了N-gram分词中的Unigram和Bigram分词器,并将前向最大切词FMM和后向最大切词的结...
1. 前言 准备中期答辩,补充了一个实验,需要对网络结构中的attention层进行可视化,观察序列输入的哪些词或者词组合是网络比较care的...