python 爬虫

Beautiful Soup


如果包含Chinese characters, apply decode() method.



Urllib vs Request



下载图片:

An unordered list starts with the <ul> tag. 



值得注意的1. 我没有用lxml,而是html5lib

2.  img['src'] 这个似乎是一个html component




爬百度百科:

但是爬的速度特别慢,因为它是先download下来html文件再寻找东西。


推荐阅读更多精彩内容