java爬虫进阶篇(半小时知乎两万推荐问题)

上一篇写了一个简单的新浪新闻爬虫作为上手主要是用jsoup包来对url页面进行抓取到本地,并在本地进行数据的解析提取。这里就不重复叙述jsoup的用法了,百度一下基本一大片。看了网上大神们都有对知乎进行爬取,今天我也拿它来试试手。写这篇文章的目的主要是想将自己在爬取中遇到的一些坑,以及怎么解决的做一下记录。也算是一次加深理解的过程。

爬取的目标页面
2017-12-31_172919.png

目标是爬取问题推荐页面的所有问题。但是随后我就发现一个问题,第一次我是通过抓取这个https://www.zhihu.com/explore/recommendations链接来获取问题列表,但是当代码敲完测试的时候发现数据只有20条。。。这显然不是我所期望的,看了一遍代码 发现代码是没有毛病,那么问题出在哪里?排查了一片以及debug模式。最终发现是页面的问题。因为我忽略了一个重要的地方。页面是动态加载的,而且每次只加载20条。

页面加载.png

问题就出在这个地方,这里其实还包含了一个地址(https://www.zhihu.com/node/ExploreRecommendListV2)。通过抓包可以发现(google的F12真的好用,推荐多去看看)
ajax请求头.png

请求参数.png

返回json结果.png

知道问题出在哪里其实就已经完成了一半了。说一下接下来我的思路:

  • 因为用请求的参数可以看出其实这就是一个类似于一个分页信息一样。那么我只要在java代码中每次模仿页面的请求给知乎发送ajax请求,然后解析返回的json结果是不是就可以获取其中的问题信息了。
  • 上面其实就已经有两个需求需要解决。
    1. 在java代码中模仿ajax发送请求。采用的是Httpclient。
    2. 解析返回的json,Gson jar包可以完美解决。

封装了httpclient post请求

  public class HttpClientUtil {
    /**
     * 
    * @Title: doPost
    * @Description: 模仿提交post请求
    * @param @param url
    * @param @param map 请求的参数 采用map集合封装参数
    * @param @param charset 编码格式
    * @param @return    参数
    * @return String 返回类型
    * @author  liangchu
    * @date 2017-12-31 下午7:09:14 
    * @throws
     */
    public static String doPost(String url,Map<String,Object> map,String charset){  
        HttpClient httpClient = null;  
        HttpPost httpPost = null;  
        String result = null;  
        try{  
            httpClient = new SSLClient();  
            httpPost = new HttpPost(url);  
            //设置参数  
            List<NameValuePair> list = new ArrayList<NameValuePair>();  
            Iterator iterator = map.entrySet().iterator();  
            while(iterator.hasNext()){  
                Entry<String,Object> elem = (Entry<String, Object>) iterator.next();  
                list.add(new BasicNameValuePair(elem.getKey(),(String) elem.getValue()));  
            }  
            if(list.size() > 0){  
                UrlEncodedFormEntity entity = new UrlEncodedFormEntity(list,charset);  
                httpPost.setEntity(entity);  
            }  
            HttpResponse response = httpClient.execute(httpPost);  
            if(response != null){  
                HttpEntity resEntity = response.getEntity();  
                if(resEntity != null){  
                    result = EntityUtils.toString(resEntity,charset);  
                }  
            }  
        }catch(Exception ex){  
            ex.printStackTrace();  
        }  
        return result;  
    }  
}

根据url链接地址获取对应的信息列表

/**
     * 
    * @Title: spiderZH2
    * @Description: 这里是采用httpclient包发送请求 获取需要加载的列表
    * @param @param url    参数url地址 offset 根据offset显示问题信息列表 
    * @return void 返回类型
    * @author  liangchu
    * @date 2017-12-31 下午2:11:23 
    * @throws
     */
    public static void spiderZH2(String url,int offset){
        try {
            //String curl ="https://www.zhihu.com/node/ExploreRecommendListV2";
             Map<String,Object> createMap = new HashMap<String,Object>();
             String charset = "utf-8";
             // method 提交的参数             
             createMap.put("method", "next");
             Map<String,Object> map = new HashMap<String, Object>();
             // 分页显示的数据
             map.put("limit", 20);
             map.put("offset", offset);
             createMap.put("method", "next");
             Gson gson = new Gson();
             String mapStr = gson.toJson(map);
             // 请求的参数
             createMap.put("params", mapStr);
             // 根据httpclient模仿post请求
             String httpOrgCreateTestRtn = HttpClientUtil.doPost(url,createMap,charset); 
             Map maps = gson.fromJson(httpOrgCreateTestRtn, Map.class);
            String html = maps.get("msg").toString();
             Document doc = Jsoup.parse(html);
             Elements elements = 
                     doc.select("div[class=zm-item]").select("h2").
                     select("a[class=question_link]");
            File file = new File("F:/replite/zhifuwenda.txt");
            // 遍历每个问题节点
            for (Element question : elements) {
                // 获取连接地址
                String qUrl = question.attr("href");
                // 这里需要判断urlhttp格式
                if(!qUrl.contains("https://")){
                    qUrl = "https://www.zhihu.com"+qUrl;
                }
                Document document2=Jsoup.connect(qUrl)
                        .userAgent("Mozilla/5.0 "
                                + "(iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) "
                                + "AppleWebKit/533.17.9"
                                + " (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5")
                        .get();             
                // 问题标题             
                Elements title = document2.select("#root").select("div").select("main").
                select("div").select("div:nth-child(10)").select("div.QuestionHeader").
                select("div.QuestionHeader-content").select("div.QuestionHeader-main").
                select("h1");
                // 回答问题的内容
                Elements content = document2.select("#root").select("div").select("main").
                        select("div").select("div.Question-main").select("div.Question-mainColumn").
                        select("div.Card.AnswerCard").select("div").select("div").
                        select("div.RichContent.RichContent--unescapable").
                        select("div.RichContent-inner");                
                if (!file.getParentFile().exists()) {//判断路径是否存在,如果不存在,则创建上一级目录文件夹
                    file.getParentFile().mkdirs();
                }
                FileWriter fileWriter=new FileWriter(file, true); 
                fileWriter.write("=============链接:"+qUrl+"\r\n");
                fileWriter.write("=============标题:"+title.get(0).text()+"\r\n");
                fileWriter.write("=============回答:"+content.get(0).text()+"\r\n");
                fileWriter.close();
            }
            
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

调用

public static void main(String [] args){
        // 这里采用循环的方式去除列表
        String url = "https://www.zhihu.com/node/ExploreRecommendListV2";
        for(int i=1;i<1000;i++){
        spiderZH2(url,59+i*20);
        }
    }

数据采集截图

2017-12-31_191857.png

改进的地方还有很多,比如说可以采用多线程采集,应该效率会比较高,在实际的应用应该是采集的数据可以存入redis中,然后在由redis insert进数据库。要改进的地方还有很多,时间的问题也就没有去考虑的。这也算是上一个版本一个小小的提升吧。O(∩_∩)O

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,265评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,274评论 1 288
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,087评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,479评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,782评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,218评论 1 207
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,594评论 2 309
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,316评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,955评论 1 237
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,274评论 2 240
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,803评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,177评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,732评论 3 229
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,953评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,687评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,263评论 2 267
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,189评论 2 258

推荐阅读更多精彩内容

  • 随着互联网+时代的来临,越来越多的互联网企业层出不穷,涉及游戏、视频、新闻、社交、电商、房产、旅游等众多行业。如今...
    JackChen1024阅读 10,654评论 2 49
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 170,534评论 25 707
  • 自从在朋友@gyg 的帮助下,注册了steemit账号,并于2017年9月24日发出了第一篇文章,说是文章,其实就...
    胡义华阅读 714评论 4 3
  • 看到这条线了吗,看样了,你很快会拥有一场轰轰烈烈的爱情! ...
    晨若若曦阅读 4,437评论 7 7
  • 他叫笨南北, 你叫小东西。 他是小沙弥, 你是小伶俐。 他很喜欢你,轻轻叹息。 像夏虫语冰, 心碎自欺。 像风吹大...
    忘苏阅读 321评论 5 7