1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、数据可视化等各大部分。在此作为...
1 初始文本挖掘 1.1 何为文本挖掘 文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信...
目录 1. 何为代理IP池?2. 代理IP池构建2.1 浏览器伪装2.2 代理IP爬取2.3 代理IP验证2.4 代理IP多进程验证2.5 函数...
目录1.“看不见”的数据2. 让数据现身2.1 数据API分析2.1.1 数据文件在哪里?2.1.2 guid(数据全局唯一标识符)在哪里?2....
目录 1. Python多线程与多进程知识1.1 并发与并行1.2 线程(thread)与进程(process)1.3 IO密集型与CPU密集...
目录 1. 前言2. 数据字典3. 优雅使用pandas3.1 读取数据3.2 索引与选取3.3 布尔索引3.4 去重3.5 分组3.6 数据框...
1. 从Google网页排序到PageRank算法 (1)谷歌网页怎么排序? 先对搜索关键词进行分词,如“技术社区”分词为“技术”和“社区”; ...
目录 1. 前记2. 文件分割(split)2.1 命令语法2.2 使用实例(1)查看文件总行数(2)分割文件(3)分割结果3. 文件合并...
1 VMware网卡 VMware默认情况下会安装三个网卡,如下图示(点击最上方编辑-->虚拟网络编辑器)。 VMnet0:“桥接网络” VMn...