240 发简信
IP属地:青海
  • Resize,w 360,h 240
    详解深度学习中“注意力机制”

    1. 前言 本文翻译自《Attention?Attention!》博客 最近几年,注意力——在深度学习社区中,已然成为最广为流行的概念和实用工具...

    1.4 47341 2 29 1
  • 详解梯度下降优化算法

    1. 文章 An overview of gradient descent optimization algorithms 2. 概要 梯度优化...

  • 机器学习面试005—决策树

    1. 请问(决策树、随机森林,Boosting、Adaboot)GBDT和XGBoost的区别是什么? Ans:①首先,随机森林是一个包含多个决...

  • 机器学习面试003—逻辑斯蒂回归

    1. LR为什么可以用来做CTR预估? Ans:若把点击的样本作为正例,未点击的样本作为负例,则样本的CTR就是样本为正例的概率,LR可以输出样...

  • Java核心技术--接口与内部类

    6.1 接口implement 继承接口,即履行“义务” 接口中所有的方法自动属于public,在接口声明中,不必提供关键字public 接口中...

  • 机器学习面试001—支持向量机SVM

    1. 关于min和max交换位置满足的 d* <= p* 的条件并不是KKT条件 Ans:这里并非是KKT条件,要让等号成立需要满足strong...

  • NoClassDefFoundError排坑经历

    1. 前言 实习做NLP任务时,在离线train获得模型bin文件后,在部署到线上之前经常需要测试一下QPS等指标,用Java写了测试流程,用M...

  • N-gram 分词

    概述 本课程作业主要借助python工具,实现了N-gram分词中的Unigram和Bigram分词器,并将前向最大切词FMM和后向最大切词的结...

  • Resize,w 360,h 240
    【可视化】网络Attention层

    1. 前言 准备中期答辩,补充了一个实验,需要对网络结构中的attention层进行可视化,观察序列输入的哪些词或者词组合是网络比较care的...