240 发简信
IP属地:浙江
  • 针对结巴分词Memory Error的两种解决方式

    针对结巴分词Memory Error的两种解决方式 一、背景 ​ 最近,在使用Gensim Word2vec根据特定语料训练近义词模型,模型...

  • Resize,w 360,h 240
    SparkML预测PV

    背景 公司需要根据过去一段时间内每天网站的流量数据,预测未来一段时间每日流量,这样,在流量高峰到来前,可以提前警示相关的运营、运维提前准备。 这...

  • 短文本分类概述

    一、行业现状 ​ 随着信息技术的发展,最稀缺的资源不再是信息本身,而是对信息的处理能力。且绝大多数信息表现为文本形式,如何在如此大量且复杂的...

  • 记录Redis事故影响API性能-下篇

    背景 线上服务报大量的Redis,相关依赖这个服务的其他产品线服务也报出同样的日志。 截图线上日志 为什么要写这篇文章 在我的上篇文章中 《记录...

  • Resize,w 360,h 240
    记录Redis事故影响API性能-上篇

    背景 线上服务报大量的Redis,相关依赖这个服务的其他产品线服务也报出同样的日志。 截图线上日志image 解决方法: 没有上线/相关请求的服...

  • Resize,w 360,h 240
    数据采集系统的优化实战

    1 概述 在历时2个月的不断优化过程中,将数据采集系统的处理能力(kafka一个topic)从2.5万提升到了10万,基本符合对下一次峰值的要求...

  • Spark OLAP高阶分析函数总结

    我们经常困惑在数据挖掘和报表分析场景中sql不会写,或者因为sql太长以至于可读性降低; 今天我为大家总结了一些Spark SQL中的高阶函数,...

  • 使用ES的快速实现内容相似性推荐

    问答系统:通过用户给出的一段描述性文本,通过相似度计算查找与用户输入接近的问题相似推荐:用户在浏览当前文章时,基于内容相似性推荐与本篇文章相似的...

  • Resize,w 360,h 240
    仿京东淘宝搜索框实战

    搜索是很多内容类app必不可少的功能,而搜索框提示则为用户关键词输入提供了一种引导,一个友好的搜索框提示不仅能提升用户体验,还能帮助用户节省触达...