爬虫入门02作业

作业:

  • 选择简书“解密大数据”专题里面上次爬虫作业的文档地址作为分析页面。
  • 分析并提交该页面结构分析与元素标签位置信息。

  1. 对页面元素进行编号,根据编号的顺序进行描述。
第二次作业图.jpg

2 . 如上图所示:
1 . 编号1——左上角简书标签

对应代码:
![](./爬虫入门01作业 - 简书_files/logo-58fd04f6f0de908401aa561cda6a0688.png)

2 . 编号2—— 发现、关注、消息

     发现对应代码:
     <li class="">
     <a href="http://www.jianshu.com/">
     <span class="menu-text">发现</span>
     <i class="iconfont ic-navigation-discover menu-icon"></i>
     </a>  
     </li>
     关注对应代码:
     <li class="">
     <a href="http://www.jianshu.com/subscriptions">
     <span class="menu-text">关注</span>
     <i class="iconfont ic-navigation-follow menu-icon"></i>
     </a>           
      </li>
      消息对应代码:
      <a data-hover="dropdown" href="http://www.jianshu.com/notifications" class="notification-btn"><span class="menu-text">消息</span> <i class="iconfont ic-navigation-notification menu-icon"></i> <!----> <!----></a>

3 . 编号3——搜索对话框

<input type="text" name="q" id="q" value="" placeholder="搜索" 
class="search-input">

4 . 编号4——写文章按钮

<a class="btn write-btn" target="_blank" href="/writer#/">
<i class="iconfont ic-write"></i>写文章</a>

5 . 编号5——标题:爬虫入门01作业

<h1 class="title">爬虫入门01作业</h1>

6 . 编号6——作者框和用户名

作者框:<span class="tag">作者</span>
用户名:<span class="name"><a href="/u/99cd79c6cb07">mudu86</a></span>

7 . 编号7——信息:日期,字数、阅读量、评论数、喜欢、赞赏

 <span class="publish-time" data-toggle="tooltip" data-placement="bottom" title="" data-original-title="最后编辑于 2017.07.03 14:26">2017.07.03 12:25*</span>
 <span class="wordage">字数 636</span>
 < <span class="views-count">阅读 24</span>
<span class="comments-count">评论 2</span>
<span class="likes-count">喜欢 4</span>
 <span class="rewards-count ">赞赏 1</span></div>

8 .编号8——文章编辑按钮

<a href="/writer#/notebooks/14029055/notes/14139962" target="_blank" class="edit">编辑          > 文章</a>

9 . 编号9——正文

    <div class="show-content">
          <h3>课堂作业</h3>
    <ul>
    <li>
    <p>要爬取的数据类别</p>
    </li>
    <li>
    <p>对应的数据源网站</p>
    </li>
    <li>
    <p>爬取数据的URL</p>
    </li>
    <li>
    <p>数据筛选规则(选做)</p>
    </li>
    </ul>
    <h4>要爬取的数据类型</h4>
    <p>我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。</p>
    <h4>对应的数据源网站</h4>
    <ol>
    <li>三大证券报:<ul>
    <li><a href="http://cs.com.cn/" target="_blank">中国证券报</a></li>
    <li><a href="http://www.cnstock.com/" target="_blank">上海证券报</a></li>
    <li><a href="http://www.stcn.com/" target="_blank">证券时报</a></li>
    </ul>
    </li>
    <li>两大官方网站:<ul>
    <li><a href="http://www.sse.com.cn/" target="_blank">上海证券交易所</a></li>
    <li>
    <a href="http://www.szse.cn/" target="_blank">上海证券交易所]</a> </li>
    </ul>
    </li>
    <li>最大信息发布网站:<ul>
    <li><a href="http://www.cninfo.com.cn/cninfo-new/index" target="_blank">巨潮咨询网</a></li>
    </ul>
    </li>
    <li>财经新闻网站:<ul>
    <li><a href="http://www.eastmoney.com/" target="_blank">东方财富网</a></li>
    </ul>
    </li>
    <li>股票论坛:<ul>
    <li><a href="https://xueqiu.com/" target="_blank">雪球网</a></li>
    </ul>
    </li>
    </ol>
    <h4>爬取数据的URL</h4>
    <ol>
    <li>三大证券报:<ul>
    <li>中国证券报 : <a href="http://www.cs.com.cn/gppd/" target="_blank">http://www.cs.com.cn/gppd/</a>
    </li>
    <li>上海证券报 :<a href="http://ggjd.cnstock.com/gglist/search/ggkx%E3%80%81http://news.cnstock.com/bwsd/index.html" target="_blank">http://ggjd.cnstock.com/gglist/search/ggkx、http://news.cnstock.com/bwsd/index.html</a>
    </li>
    <li>证券时报 :<a href="http://data.stcn.com/" target="_blank">http://data.stcn.com/</a>
    </li>
    </ul>
    </li>
    <li>两大官方网站:<ul>
    <li>上海证券交易所 :<a href="http://www.sse.com.cn/disclosure/overview/" target="_blank">http://www.sse.com.cn/disclosure/overview/</a>
    </li>
    <li>深圳证券交易所 :<a href="http://www.szse.cn/main/disclosure/" target="_blank">http://www.szse.cn/main/disclosure/</a>
    </li>
    </ul>
    </li>
    <li>最大信息发布网站:<ul>
    <li>巨潮咨询网 :<a href="http://www.cninfo.com.cn/cninfo-new/index" target="_blank">http://www.cninfo.com.cn/cninfo-new/index</a>
    </li>
    </ul>
    </li>
    <li>财经新闻网站:<ul>
    <li>东方财富网 : <a href="http://stock.eastmoney.com/report.html%E3%80%81http://stock.eastmoney.com/bidu.html" target="_blank">http://stock.eastmoney.com/report.html、http://stock.eastmoney.com/bidu.html</a> </li>
    </ul>
    </li>
    <li>股票论坛:<ul>
    <li>雪球网 : <a href="https://xueqiu.com/hq" target="_blank">https://xueqiu.com/hq</a>
    </li>
    </ul>
    </li>
    </ol>
    <h4>数据筛选规则</h4>
    <p>股票消息分为:实时性和非实时性的消息,因此要分2种方式设定规则。</p>
    <ul>
    <li>
    <p>实时性消息: 每20分钟刷新一次网站采集的数据,如果采集的数据中有自己设置的关键词(例如:突发重大新闻,自己关心的股票,涨幅超过5%),提取相应的信息。</p>
    </li>
    <li>
    <p>非实时性消息:每年发布季报、半年报、年报的日期,爬取上海证券交易所、深圳证券交易所、巨潮咨询网中每个公司发布的年报摘要,如果有自己设置的关键词(营业额年增长率超过50%、营业利润率超过20%),提取对应的公司信息。每日爬取雪球网中行情排行榜、热度排行榜、讨论排行榜中上榜的股票,并通过每周上榜股票的次数。</p>
    </li>
    </ul>
    </div>

10.解析正文结构:

  • 标题:三级标题——课堂作业。
<h3> 课堂作业 </h3>
  • 无序序列:要爬取的数据类别、对应的数据源网站、爬取数据的URL、数据筛选规则
<ul>
<li>
<p>要爬取的数据类别</p>
</li>
<li>
<p>对应的数据源网站</p>
</li>
<li>
<p>爬取数据的URL</p>
</li>
<li>
<p>数据筛选规则(选做)</p>
</li>
</ul>
  • 标题:四级标题——要爬取的数据类型
<h4>要爬取的数据类型</h4>
``
- 段落标签:

<p>我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。</p>

- 有序序列和无序序列混合:
    - 有序序列——三大证券报、两大官方网站、最大信息发布网站、财经新闻网站
    - 无序序列——三大证券报中中国证券报、上海证券报、证券时报

无序序列

<ul>
<li><a href="http://cs.com.cn/" target="_blank">中国证券报</a></li>
<li><a href="http://www.cnstock.com/" target="_blank">上海证券报</a></li>
<li><a href="http://www.stcn.com/" target="_blank">证券时报</a></li>
</ul>


有序序列

<ol>
<li>三大证券报:
<li>两大官方网站:
<li>最大信息发布网站:
<li>财经新闻网站:
</ol>


有序和无序混合

<ol>
<li>三大证券报:<ul>
<li><a href="http://cs.com.cn/" target="_blank">中国证券报</a></li>
<li><a href="http://www.cnstock.com/" target="_blank">上海证券报</a></li>
<li><a href="http://www.stcn.com/" target="_blank">证券时报</a></li>
</ul>
</li>
<li>两大官方网站:<ul>
<li><a href="http://www.sse.com.cn/" target="_blank">上海证券交易所</a></li>
<li>
<a href="http://www.szse.cn/" target="_blank">上海证券交易所]</a> </li>
</ul>
</li>
<li>最大信息发布网站:<ul>
<li><a href="http://www.cninfo.com.cn/cninfo-new/index" target="_blank">巨潮咨询网</a></li>
</ul>
</li>
<li>财经新闻网站:<ul>
<li><a href="http://www.eastmoney.com/" target="_blank">东方财富网</a></li>
</ul>
</li>
<li>股票论坛:<ul>
<li><a href="https://xueqiu.com/" target="_blank">雪球网</a></li>
</ul>
</li>
</ol>

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容

  • 课后作业两篇 1.选择简书“解密大数据”专题里面上次爬虫课的作业文档地址作为分析页面 2.分析并提交该页面的网页结...
    明说危险阅读 158评论 0 0
  • 网页结构分析 上面两个界面分别是评论栏,以及相关文章栏。再做进一步的拆分 顶部导航栏分为: 网页logo 导航栏 ...
    汤尧阅读 492评论 1 1
  • 课堂作业 要爬取的数据类别 对应的数据源网站 爬取数据的URL 数据筛选规则(选做) 要爬取的数据类型 我对金融行...
    mudu86阅读 925评论 2 3
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,099评论 18 139
  • 小的时候,我有一个梦想,希望自己每个月的收入能有2万块。这个梦想很直白,说出来肯定很多人会笑话,小孩子为什么对钱这...
    晑日藈阅读 279评论 1 2