240 发简信
IP属地:上海
  • 120
    真正的利器:对比学习SimCSE

    最近看了一篇最新的Sentence Embedding论文,今年4月份的,丹琦大神发表的《Simple Contrastive Learning of Sentence Em...

  • 如何解析图片文字进行文本分析

    最近工作中需要解析图片中的文本信息,进行文本数据分析,首先需要提取图片中的文字,解决方案如下: 1、需要安装包 2、提取示例 3、可能遇到问题 pytesseract.pyt...

  • 写的不错,点赞。

    论文 | 《Deep Pyramid Convolutional Neural Networks for Text Categorization》DPCNN文本分类模型介绍

    一 写在前面 未经允许,不得转载,谢谢~~ 这篇主要是我这学期深度学习课程的作业,所以选了一篇NLP方向的简单学习一下。接下来有时间的话再整理一篇关于用DPCNN模型在AG ...

  • TF-IDF 算法

    问题分析 有一篇很长的文章,用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 智能问答系统是...

  • 120
    序列标注任务数据增强

    在上一篇文章我们学习了基本的数据增强的 N 种方法,今天我们针对“序列标注”任务具体聊一聊如何数据增强?“序列标注”是一个 token-level 的分类任务,当进行全局结构...

  • Batch Normalization

    机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而Batch...

  • 自然语言处理之文本数据增强

    什么是数据增强 数据增强可以简单理解为由少量数据生成大量数据的过程。一般比较成功的神经网络拥有大量参数,使这些参数正确工作需要用大量的数据进行训练,但实际情况中数据并没有那么...

  • NLP 预处理总结

    在处理 NLP 相关任务的时候(文本分类、聚类,智能客服等),首要任务是对文本数据进行预处理。结合自己的实践经验,总结了 N 条预处理的方法。 去掉一些无用的符号 文本中可能...

  • 聚类后,属于同一个类的说明具有很高的相似性,可以通过人工去定义标签。

    DBSCAN 算法

    1、DBSCAN 算法由来 基于距离的聚类算法的聚类结果是球状的簇,当数据集中的聚类结果是非球状结构时,基于距离的聚类算法的聚类效果并不好。 与基于距离的聚类算法不同的是,基...

  • RNN

    RNN RNN 是一种利用神经网络对序列模型的通用模型 利用历史信息结合当前输入进行预测 适合解决时间序列输入输出问题,对于 NLP 来说就是序列标注问题,这就是 NLP 中...

  • CNN

    CNN Basic Model 卷积层 由不同窗口大小的 Filter 构成 Filter 个数由自己决定,超参数。 同一个 Filter 参数共享,极大减少了参数个数。 因...

  • Faiss

    Faiss核心算法实现 Faiss是FAIR出品的一个用于向量k-NN搜索的计算库,其作用主要在保证高准确度的前提下大幅提升搜索速度。Faiss 对一些基础的算法提供了非常高...

  • jieba 分词原理

    基本原理 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);用前缀字典实现了词库的存储(即dict.txt文件中的内容),而弃用之...

  • Apriori 算法

    问题引入 在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,...