java实现爬虫爬网站图片

第一步，实现 LinkQueue，对url进行过滤和存储的操作

import java.util.ArrayList;  
import java.util.Collections;  
import java.util.HashSet;  
import java.util.List;  
import java.util.Set;  
  
public class LinkQueue {  
  
   // 已访问的 url 集合  
    private static Set<String> visitedUrl = Collections.synchronizedSet(new HashSet<String>());

    // 未访问的url  
    private static List<String> unVisitedUrl = Collections.synchronizedList(new ArrayList<String>());

    // 未访问的URL出队列  
    public static String unVisitedUrlDeQueue() {
        if (unVisitedUrl.size() > 0) {
            String url = unVisitedUrl.remove(0);
            visitedUrl.add(url);
            return url;
        }
        return null;
    }

    // 新的url添加进来的时候进行验证，保证只是添加一次  
    public static void addUnvisitedUrl(String url) {
        if (url != null && !url.trim().equals("") && !visitedUrl.contains(url)
                && !unVisitedUrl.contains(url))
            unVisitedUrl.add(url);
    }

    // 判断未访问的URL队列中是否为空  
    public static boolean unVisitedUrlsEmpty() {
        return unVisitedUrl.isEmpty();
    }
      
}

第二步，收集每一个url下的链接进行过滤产生新的链接

import java.util.HashSet;  
import java.util.Set;  
import org.htmlparser.Node;  
import org.htmlparser.NodeFilter;  
import org.htmlparser.Parser;  
import org.htmlparser.filters.NodeClassFilter;  
import org.htmlparser.filters.OrFilter;  
import org.htmlparser.tags.LinkTag;  
import org.htmlparser.util.NodeList;  
import org.htmlparser.util.ParserException;  
  
/** 
 * 过滤http的url，获取可以符合规则的url 
 * @author Administrator 
 * 
 */  
public class ParserHttpUrl {  
      
    // 获取一个网站上的链接,filter 用来过滤链接  
    public static Set<String> extracLinks(String url, LinkFilter filter) {  
        Set<String> links = new HashSet<String>();  
        try {  
            Parser parser = new Parser(url);  
            // 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接  
            NodeFilter frameFilter = new NodeFilter() {  
                public boolean accept(Node node) {  
                    if (node.getText().startsWith("frame src=")) {  
                        return true;  
                    } else {  
                        return false;  
                    }  
                }  
            };  
            // OrFilter 来设置过滤 <a> 标签，和 <frame> 标签  
            OrFilter linkFilter = new OrFilter(new NodeClassFilter(  
                    LinkTag.class), frameFilter);  
            // 得到所有经过过滤的标签  
            NodeList list = parser.extractAllNodesThatMatch(linkFilter);  
            for (int i = 0; i < list.size(); i++) {  
                Node tag = list.elementAt(i);  
                if (tag instanceof LinkTag)// <a> 标签  
                {  
                    LinkTag link = (LinkTag) tag;  
                    String linkUrl = link.getLink();// url  
                    if (filter.accept(linkUrl))  
                        links.add(linkUrl);  
                } else// <frame> 标签  
                {  
                    // 提取 frame 里 src 属性的链接如 <frame src="test.html"/>  
                    String frame = tag.getText();  
                    int start = frame.indexOf("src=");  
                    frame = frame.substring(start);  
                    int end = frame.indexOf(" ");  
                    if (end == -1)  
                        end = frame.indexOf(">");  
                    String frameUrl = frame.substring(5, end - 1);  
                    if (filter.accept(frameUrl))  
                        links.add(frameUrl);  
                }  
            }  
        } catch (ParserException e) {  
            e.printStackTrace();  
        }  
        return links;  
    }  
}

第三步，实现图片下载功能

import java.io.File;  
import java.io.FileOutputStream;  
import java.io.InputStream;  
import java.net.URL;  
import java.net.URLConnection;  
import java.util.ArrayList;  
import java.util.List;  
import java.util.regex.Matcher;  
import java.util.regex.Pattern;  
  
/*** 
 * java抓取网络图片 
 *
 * @author swinglife 
 */  
public class DownLoadPic {  
  
    // 编码  
    private static final String ECODING = "UTF-8";  
    // 获取img标签正则  
    private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";  
    // 获取src路径的正则  
    private static final String IMGSRC_REG = "http:\"?(.*?)(\"|>|\\s+)";  
  
    public static void downloadPic(String url) {  
        // 获得html文本内容  
        String HTML = null;  
        try {  
            HTML = DownLoadPic.getHTML(url);  
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
        if (null != HTML && !"".equals(HTML)) {  
            // 获取图片标签  
            List<String> imgUrl = DownLoadPic.getImageUrl(HTML);  
            // 获取图片src地址  
            List<String> imgSrc = DownLoadPic.getImageSrc(imgUrl);  
            // 下载图片  
            DownLoadPic.download(imgSrc);  
        }  
    }  
  
    /*** 
     * 获取HTML内容 
     *  
     * @param url 
     * @return 
     * @throws Exception 
     */  
    private static String getHTML(String url) throws Exception {  
        URL uri = new URL(url);  
        URLConnection connection = uri.openConnection();  
        InputStream in = connection.getInputStream();  
        byte[] buf = new byte[1024];  
        int length = 0;  
        StringBuffer sb = new StringBuffer();  
        while ((length = in.read(buf, 0, buf.length)) > 0) {  
            sb.append(new String(buf, ECODING));  
        }  
        in.close();  
        return sb.toString();  
    }  
  
    /*** 
     * 获取ImageUrl地址 
     *  
     * @param HTML 
     * @return 
     */  
    private static List<String> getImageUrl(String HTML) {  
        Matcher matcher = Pattern.compile(IMGURL_REG).matcher(HTML);  
        List<String> listImgUrl = new ArrayList<String>();  
        while (matcher.find()) {  
            listImgUrl.add(matcher.group());  
        }  
        return listImgUrl;  
    }  
  
    /*** 
     * 获取ImageSrc地址 
     *  
     * @param listImageUrl 
     * @return 
     */  
    private static List<String> getImageSrc(List<String> listImageUrl) {  
        List<String> listImgSrc = new ArrayList<String>();  
        for (String image : listImageUrl) {  
            Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(image);  
            while (matcher.find()) {  
                listImgSrc.add(matcher.group().substring(0, matcher.group().length() - 1));  
            }  
        }  
        return listImgSrc;  
    }  
  
    /*** 
     * 下载图片 
     *  
     * @param listImgSrc 
     */  
    private static void download(List<String> listImgSrc) {  
  
        for (String url : listImgSrc) {  
            try {  
                String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());
                URL uri = new URL(url);  
                InputStream in = uri.openStream();  
                FileOutputStream fo = new FileOutputStream(new File(imageName));  
                byte[] buf = new byte[1024];  
                int length = 0;  
                while ((length = in.read(buf, 0, buf.length)) != -1) {  
                    fo.write(buf, 0, length);  
                }  
                in.close();  
                fo.close();  
            } catch (Exception e) {  
                e.printStackTrace();  
            }  
        }  
    }  
}

实在Filter接口，定义过滤接口：

public interface Filter { 
    public boolean accept(String url);  
}

第四步，过滤规则的实现：

public class Crawler {  
  
    /** 
     * 抓取过程 
     *  
     * @return 
     * @param seeds 
     */  
    public void crawling(String url) { // 定义过滤器  
          
        Filter filter = new Filter() {  
            public boolean accept(String url) {  
                //这里过滤规则随需要爬的网站的规则进行改变，推荐使用正则实现，本人是爬豆瓣网站  
                if(url.indexOf("douban.com/group/topic") != -1 || url.indexOf("douban.com/group/haixiuzu/discussion?start") != -1 )  
                    return true;  
                else  
                    return false;  
            }  
        };  
        // 初始化 URL 队列  
        LinkQueue.addUnvisitedUrl(url);  
          
        // 循环条件，待抓取的链接不空  
        while (!LinkQueue.unVisitedUrlsEmpty()) {  
            // 队头URL出队列  
            String visitUrl = (String) LinkQueue.unVisitedUrlDeQueue();  
            if (visitUrl == null)  
                continue;  
              
            DownLoadPic.downloadPic(visitUrl);  
  
            // 提取出下载网页中的 URL  
            Set<String> links = ParserHttpUrl.extracLinks(visitUrl, filter);  
            // 新的未访问的 URL 入队  
            for (String link : links) {  
                LinkQueue.addUnvisitedUrl(link);  
            }  
        }  
    }  
  
    // main 方法入口  
    public static void main(String[] args) {  
        Crawler crawler = new Crawler();  
        crawler.crawling("http://www.douban.com/group/haixiuzu/discussion?start=0");  
    }  
}

转载请注明原文地址：
http://blog.csdn.net/javaxiaojian/article/details/46680297

最后编辑于：2017.12.03 04:11:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,117评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,328评论 1赞 293
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,839评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,007评论 0赞 206
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,384评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,629评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,880评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,593评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,313评论 1赞 243
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,575评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,066评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,392评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,052评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,082评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,844评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,662评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,575评论 2赞 270

java实现爬虫爬网站图片

推荐阅读更多精彩内容