本文汇总了部分中文自然语言处理中常用的,比较复杂的正则表达式,但并不是都是原创,部分引用了现有的网络资源,特此声明。 相对其他语言的自然语...
本文汇总了部分中文自然语言处理中常用的,比较复杂的正则表达式,但并不是都是原创,部分引用了现有的网络资源,特此声明。 相对其他语言的自然语...
从11月初开始,google-research就陆续开源了BERT的各个版本。google此次开源的BERT是通过tensorflow高级API...
熟悉神经网络语言模型的主体结构并不足以建立性能较好的模型。建立成功的神经网络语言需要注重许多细节处理,如词典的构建、模型初始化、超参的选择等等,...
《动手学深度学习》是亚马逊的AI专家阿斯顿·张,李沐等合著的交互式书籍,综合利用文字、公式、图示以及代码帮助读者学习深度学习。不考虑亚马逊为了推...
步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?...
重要性采样(Important Sampling, IS)属于蒙特卡洛(Monte Carlo)方法,被Bengio and Senecal (...
博客地址:https://zhwhong.cn/2017/02/23/Machine-Learning-Materials/ Awesome系列...
近十几年,神经网络语言建模(Language Modeling, LM)一直是人工智能领域的研究热点,多种神经网络结构被引入到语言建模中。其中,...
语言建模一直均以分词为最小单位,即词级语言模型。后来研究者尝试在字符级别进行语言建模,提出了数种字符级的语言模型,其中最为成功是Y. Kim a...
知识图谱( Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了...
专题公告
该专题是机器学习、推荐系统和自然语言处理、深度学习相关算法学习记录,用通俗的语言去理解算法,去朴实的文字记录每次前行,每个算法力争说清缘由,且尝试实现或者使用开源库进行。机器学习忍者在路上……