240 发简信
  • OAG-WhoIsWho 赛道二比赛总结

    第一次完整地打完一次数据竞赛,虽然成绩一般,但还是学习到了一些东西,特此总结一下。文章主要内容如下: 赛题介绍我的做法打代码过程中学到的一些知识...

  • 120
    中文垃圾邮件分类(1)

    文章主要内容如下: 数据集介绍数据预处理特征提取训练分类器实验结果总结 1. 数据集介绍 使用中文邮件数据集:trec06c。数据集下载地址:h...

  • 120
    海量词库构建(1):概览

    这学期要做软件工程大作业,我选的课题是“海量词库构建”。前前后后总时间至少两周吧。不过还是学到了挺多新知识,也踩过许多坑。从中我也意识到了,写好...

  • 120
    Mysql + Grafana 监控爬虫程序

    在使用爬虫爬取大量数据的时候,一般我们都会把程序挂在服务器上运行,然后就可以去干别的事情了。但是,我们还是有必要定时看一下程序运行情况的。虽然我...

  • 120
    爬虫获取 js 动态数据 (万方数据库文献下载)

    今天讲讲用爬虫下载万方数据库文献。 这是我们要爬取的文献链接:http://www.wanfangdata.com.cn/details/det...

    0.1 4055 6 12
  • 120
    爬虫获取 js 动态数据 (漫画图片下载)

    爬虫遇到 js 动态数据时,主要解决方法有两种: 使用一些库,例如 Selenium,来模拟浏览器环境抓取数据。但这样做对内存和 CPU 的消耗...

    1.0 3850 5 11