public void process(Page page) {
String rawText = page.getRawText();
Html html = page.getHtml();
String regEx = "(,s=\")\\d{4}-\\d{2}-\\d{2}(\";)";
Pattern p = Pattern.compile(regEx);
Matcher matcher = p.matcher(rawText);
if (matcher.find()) {
String res = matcher.group();
String[] array = res.split("\"");
String str = array[1];
}
String title = html.xpath("//h2[@class='rich_media_title']/text()").toString();
String content = html.xpath("//div[@class='rich_media_content ']").toString();
Html html1 = new Html(content);
List<String> imageList = html1.xpath("//img/@data-src").all();
System.out.println("ok");
System.out.println("hello");
}
微信文章爬取
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 关于本篇文章 了解一些 servlet 概念,本编文章只进行一些文章格式修改,文章内使用的图片均来自 Runoob...
- WKWebView的坑相信大家已经踩过很多了.之前cookie的问题已经处理过一些了.但是这次又出现了新坑.在第一...
- 微信小程序返回的登录信息中Set-Cookie字段值之间是用‘,’连接的,而需要返回给服务器的则是';' 故需要自...