爬取美剧天堂

概述

有时候会看看美剧,所以回到美剧天堂去下载一些美剧看看。所以想怕网站的美剧都爬取出来

页面分析

网站是分为6类做的:魔幻/科幻、灵异/惊悚、都市/感情、犯罪/历史、选秀/综艺、动漫/卡通。而对应的分类网页分别用序号标记。
首先要获取的就是美剧详细页面的连接地址,通过开发者模式可以看到是一个列表的href属性。那么通过xpath就可以获取到://a[@class='B font_14']/@href。如下图

详细页面链接

还有就是要获取到页数,也可以通过开发者模式看到。//div[@class='page']/span/text()

页数

然后进到纤细页面看名称和下载链接了。这里就不在截图,都很简单。

name = selecter.xpath("//div[@class='info-title']/h1/text()")[0]
links = selecter.xpath("//input[@name='down_url_list_0']/following-sibling::p/strong/a/@href")

代码实现

有了上面的信息就很简单了。首先获取类型对应的页面,过滤到详情页,再爬取详情页对应的信息即可。因为第一页为了爬取页面已经爬取一遍了,所以就单独做了一下区分。
完整代码可以看我的github:完整代码