240 发简信
  • 120
    BM25和TFIDF原理及区别

    1,TF−IDF算法 TF是指归一化后的词频,IDF是指逆文档频率。给定一个文档集合D,有d1,d2,d3,......,dn∈D。文档集合总共...

  • 风控系统资料

    最近开始做风控系统,搜集了一些风控和web安全方面的资料,一来分享给大家,也方便自己查看。大家有好的资料也可以分享给我,整理完善,欢迎大神交流指...

    1.7 2629 1 15
  • Elasticsearch搜索中文分词优化

    Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么...

  • 120
    Elasticsearch搜索Suggest功能优化

    搜索Suggest需要优化问题: 怎么优化Suggest词库,提升Suggest词准确率 怎么提高响应速度 suggest词库获取 冷启动可以从...

  • Elasticsearch自定义过滤插件实现复杂逻辑过滤

    最近项目中遇到需要支持对搜索结果根据复杂权限规则来进行过滤,网上没有找到直接相关的资料,最后去官方文档找到了答案. 有时间还是多读读官方文档 使...

  • 120
    快速入门了解机器学习

    以下是最近机器学习笔记,有空再整理 1.机器学习定义 机器学习是一门从数据中研究算法的科学学科,坦白来讲,是根据已有的数据,进行算法选择,并基于...

  • 文本聚类

    最近朋友面试有被问到文本聚类问题,总结如下: 聚类分析,又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,以相似性为基础,在一个聚类...

  • 120
    快速理解RNN(LSTM,GRU)结构原理

    1.RNN解决了什么问题? RNN主要用来解决序列问题,强调的是先后顺序,在NLP中引申出上下文的概念,一个翻译问题,这个词的含义可能和前后的单...

  • linux常用命令集合(持续整理中)

    在 LINUX 命令平台输入 1-2 个字符后按 Tab 键会自动补全后面的部分(前提是要有这个东西,例如在装了 tomcat 的前提下, 输入...