240 发简信
  • 120
    爬虫(1)--- Python网络爬虫二三事

    1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、数据可视化等各大部分。在此作为...

    2.6 15842 45 524 6
  • 120
    NLP(1)--- 初识文本挖掘

    1 初始文本挖掘 1.1 何为文本挖掘 文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信...

    0.3 16760 19 77 2
  • 爬虫(2)--- 构建简单代理IP池

    目录 1. 何为代理IP池?2. 代理IP池构建2.1 浏览器伪装2.2 代理IP爬取2.3 代理IP验证2.4 代理IP多进程验证2.5 函数...

    0.6 3638 6 39
  • 120
    爬虫(4)--- 一起来爬广东高校快递信息

    目录1.“看不见”的数据2. 让数据现身2.1 数据API分析2.1.1 数据文件在哪里?2.1.2 guid(数据全局唯一标识符)在哪里?2....

  • Python(2)---并发编程

    目录 1. Python多线程与多进程知识1.1 并发与并行1.2 线程(thread)与进程(process)1.3 IO密集型与CPU密集...

    0.1 1602 2 13
  • 数据预处理实战(1)

    目录 1. 前言2. 数据字典3. 优雅使用pandas3.1 读取数据3.2 索引与选取3.3 布尔索引3.4 去重3.5 分组3.6 数据框...

  • 120
    算法学习(2)--- 谷歌PageRank算法

    1. 从Google网页排序到PageRank算法 (1)谷歌网页怎么排序? 先对搜索关键词进行分词,如“技术社区”分词为“技术”和“社区”; ...

    0.2 2957 1 12
  • 120
    Linux学习(2)---文件分割与合并

    目录 1. 前记2. 文件分割(split)2.1 命令语法2.2 使用实例(1)查看文件总行数(2)分割文件(3)分割结果3. 文件合并...

  • 120
    Python(3)---从迭代器到异步IO

    目录 1. 迭代(iteration)与迭代器(iterator)1.1 构建简单迭代器1.2 调用next()1.3 迭代器状态图2. 生...

个人介绍
一枚行走在数据科学路上的码农
乐于结识武林各派高手,喜欢尝试新鲜的事物,爱篆刻,爱篮球,爱健身。
目前关注NLP/机器学习/推荐系统等分支技术
个人网站:https://www.debugnlp.com/