import requests
from bs4 import BeautifulSoup
import re
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
headers={'User-Agent':user_agent}
base_url='http://www.jianshu.com/c/1b31f26b6af0?order_by=added_at&page='
authorList={}
def download(url):
r=requests.get(url,headers=headers)
return r
def get_article_num(url): #获取文章总数
r = download(url)
soup = BeautifulSoup(r.text, 'lxml')
special_topic_info = soup.find('div', class_='info').text.strip() #
article_num = int(re.search(r'\d+', special_topic_info).group())
return article_num
def run():
page_index = 1
num=0
while num<=article_num:
print("第{}页作者...".format(page_index))
r=download(base_url + str(page_index))
soup=BeautifulSoup(r.text,'lxml')
author=soup.find_all('a',class_='blue-link')
article=soup.find_all('li',id=re.compile(r'\d+'))
for i in range(len(author)):
if(author[i].text not in authorList):
authorList[author[i].text]=1
else:
authorList[author[i].text] = 1+authorList[author[i].text]
if len(author) == 0: break
print(len(author))
num += len(author)
page_index += 1
for k, v in authorList.items():
print(k + 5 * ' ' + str(v))
article_num=get_article_num(base_url + str(1))
run()
【Python爬虫】统计各自作业完成次数
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 目录 一、思路二、封装函数三、运行结果 一、思路 抓取作业提交专题文章数据,并统计各自作业的完成情况。 需要注意的...
- 再次强调爬虫的逻辑是:请求url-->接收返回的数据-->解析数据-->愉快地存储,这里对于自己最难的还是url的...
- 不止一次让我感谢一个人,那就是程程老师!从零基础开始学起Python爬虫过程中,从完全无知,到逐渐了解了专业的一些...
- 【蝴蝶效应】 蝴蝶效应:上个世纪70年代,美国一个名叫洛伦兹的气象学家在解释空气系统理论时说,亚马逊雨林一只蝴蝶...