把豆瓣分类电影排行爬回来写进数据库中(完成)

由于最近想做一个爬虫,把爬回来的数据放到数据库中。可是我不懂,MySQL。但由于未来工作很可能都是在Linux上做开发。所以,从前天起我就先掉进了Linux的坑。虚拟机上的centos7先是没有图形界面,原来我用了最小安装。然后重新装了个有图形界面的,结果上不了网。走了一圈百度,折腾了一天还是没解决。到了晚上实在没办法了,有个做运维的群友帮我远程协助解决了。

本以为今天可以开开心心写代码了,结果掉进了MySQL的坑!首先安装mysql,用yum直接install mysql。然后装了个8m的不知道什么东西。结果无法开启mysql服务器,报错找不到好像是sockets这个文件。百度,弄了一个小时都没卵用。最后wget了一个上百兆的回来yum啊什么的各种弄,最后终于成功运行了!!接着百度了个Python教程跟着做。先下载Python~MySQL包,然后开始import以后connect,结果就出问题了。。。又转了半个小时才发现是我没有建立数据库,所以连接不上。那我就退出Python,想先创建database。在命令行输入MySQL,报错!deny!password=no。怎么那么多鸟问题!转一圈百度,十几分钟。换个命令mysql -u root -p 。好了,弹出信息叫我输入密码,输入root。终于成功了!!马上找书,跟着书上演练一遍表的创建与插入。

我以为在mysql,我现在算得上入门了。晚上健身回来,回房间换台电脑用windows开始写代码。结果尼玛密码错误!!!难道密码不是root吗?没办法,继续百度。又瞎弄了一个小时,事情到了无法解决的地步!我把mysql删了,重装!!这次一切正常!明天,我就可以写代码了。。。。。应该吧
好了开始写代码了,然后跳进了代码的坑。由于听说beautifulsoup很好用,我试了一下马上爬了一个table标签的信息。可是当我想进一步提取更多信息的时候。。。。却不知道如何着手。我继续find,select都是给我返回resultset不能find和select的错误。然后string,text,get_text()还一直用不了,报错。之后我放弃了bs,决定用回正则。以前不会正则,现在找了个在线正则匹配的网站后。我一下子学会了正则!幸福感满满的!我也爬到了我想要的信息!

那下一步就是建立数据库吧,意思是我又跳进了数据库的坑!今天是29号,我昨晚弄到两点都没解决的问题:无法插入数据!首先给我报错的是unknown column “ XXX” in the fieldlist,百度一圈没找到解决方法。自己瞎搞胡搞终于解决了这个问题。可是当我要插入数据时又好像出现了编码问题。。。搞定了编码问题,然后 unknow column 又回来了。今天看看能不能解决

昨晚凌晨两点,也就是30号。我终于成功写进了数据库。。。原来我之前是错在了格式化符。。。
'INSERT INTO douban VALUES(null,"%s","%s","%s")'我没有给%s加双引号,就卡了我几个小时
虽然我好不容易把内容写进了数据库。但是,这什么鬼东西?

好吧。。。我承认我智商不怎么够,只爬一个页面然后还想把所有内容利用列表嵌套列表的方式分步写进数据库里。。。这思路从一开始就是错的。
一觉睡醒以后,我重新找到了思路。从电影分类页面中找到每一一部电影的链接,爬下来,一个个的打开,再爬取信息,写进数据库。

效果图

好了现在可以上代码了

#-*- coding: UTF-8 -*-
from urllib.request import Request, urlopen
from urllib.error import URLError,HTTPError
import re
import sys
import pymysql
import time

import sys  
import json

conn = pymysql.connect(host="localhost",user="root",passwd="root",db="douban",charset="utf8")
cur = conn.cursor()
cur.execute('DROP TABLE IF EXISTS douban')
sql = """CREATE TABLE douban( id int primary key not null auto_increment,title text,actor text ,rating char(20))"""

cur.execute(sql)
#连接数据库,查看有没有douban这个表,如果有,删掉然后新建一个


url = 'https://movie.douban.com/j/chart/top_list?type=10&interval_id=100:90&action=&start=20&limit=100'
req = Request(url)
user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit'
req.add_header('User-Agent' ,user_agent)
try:
    response = urlopen(req)
except HTTPError as e:
    print ('The server couldn\\'t fulfill the request.')
    print ('Error code:',e.code)
except URLError as e:
    print('We failed to reach a server.')
    print('Reason:',e.reason)
html = response.read().decode('utf-8')

lp= re.compile(r'movie.douban.com.*?subject.*?\\d+')
link=lp.findall(html)
#连接豆瓣网,找出分类页面中所有电影的超链接地址


    

for i in link:
    i=(i.replace('\\\\',''))
#由于找出来的链接都存在着'\\'这个转义符,所以要替换掉
    url ='https://'+ i
    req = Request(url)
    user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit'
    req.add_header('User-Agent' ,user_agent)
    try:
        response = urlopen(req)
    except HTTPError as e:
        print ('The server couldn\\'t fulfill the request.')
        print ('Error code:',e.code)
    except URLError as e:
        print('We failed to reach a server.')
        print('Reason:',e.reason)
    html = response.read().decode('utf-8')

#从找出来的所有链接中,利用for循环一条一条接入


    p1 = re.compile(r'<span property="v:itemreviewed">(.*?)</span>')
    p2=re.compile(r'"v:starring">(.*?)</a>')
    p3=re.compile(r'<strong class="ll rating_num" property="v:average">(.*?)</strong>')
    t =p1.findall(html)
    a=p2.findall(html)
    r=p3.findall(html)
    sql2='INSERT INTO douban VALUES(null,"%s","%s","%s")'
    l=[]
    l.append([t,a,r])

    cur.executemany(sql2,l)
    conn.commit()
    for j in t:
        print("正在写入"+j)
    time.sleep(0.5)
#然后利用正则把每部电影的标题,演员,评分找出来写进数据库
#休息个0.5秒,下一步电影

完成以后,我没有休息。今天我又花了一天时间,用同样的思路,爬了一些车牌号。


写完以后,我真个人虚脱了,健身房都没力气去。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容