记录微信公众号历史文章采集(三、爬取历史文章信息和原文地址)

参考自知乎专题微信公众号内容的批量采集与应用,作者:飯口組組長
原作者(飯口組組長)有一句话:我的方法来源于许多同行的分享精神,所以我也会延续这个精神,将我的成果分享出来。
这系列的文章也是为了延续这份分享精神!
该系列文章是根据知乎专题的教程一步一步实现过程,以及实现过程中踩过的一些坑。
关于原理介绍这里就不重复了,大家可以参考知乎专题。
前期的代码可以在专题中找到。

PHP代码修改

在完善php代码之前,我们要先准备一份链接数据的代码。这里也没准备用啥框架实现,就直接写了个简单的获取pdo链接的函数:

<?
function getConnection()
{
  $dbms='mysql';     //数据库类型
  $host='localhost'; //数据库主机名
  $dbName='weixin';    //使用的数据库
  $port='3307';    //使用的数据库
  $user='root';      //数据库连接用户名
  $pass='root';          //对应的密码root
  $dsn="$dbms:host=$host;port=$port;dbname=$dbName";
  try {
      $pdo = new PDO($dsn, $user, $pass); //初始化一个PDO对象
      $pdo->exec("SET NAMES 'utf8';");
      $pdo->setAttribute(PDO::ATTR_ERRMODE,PDO::ERRMODE_EXCEPTION);
      return $pdo;
  }catch (PDOException $e) {
      echo $e->getMessage();
  }
}

代码这里就不做详细解释了,感兴趣的可以去了解下pdo。

接下来完善getMsgJson.php,这个文件。该php就能实现爬取历史页面的文章信息和原文地址了。但爬取微信文章内容还需要其他代码。
嗯嗯,直接给改好的代码吧,有不懂的可以私聊问作者吧,有空尽量回。

<?
include 'getConnection.php';
$str = $_POST['str'];
$url = $_POST['url'];//先获取到两个POST变量

//先针对url参数进行操作
parse_str(parse_url(htmlspecialchars_decode(urldecode($url)),PHP_URL_QUERY ),$query);//解析url地址
$biz = $query['__biz'];//得到公众号的biz
//接下来进行以下操作
//从数据库中查询biz是否已经存在,如果不存在则插入,这代表着我们新添加了一个采集目标公众号。
$pdo = getConnection();
$sql = 'SELECT * FROM weixin WHERE biz = ?';
$stmt = $pdo->prepare($sql);
$stmt->bindParam(1, $biz);
$stmt->execute();
$res = $stmt->fetch(PDO::FETCH_ASSOC);
if (!$res) {
    $sql = 'INSERT INTO weixin (biz, collect) VALUES (?, ?)';
    $stmt = $pdo->prepare($sql);
    $stmt->execute(array($biz, strtotime("now")));
}

//再解析str变量
$json = urldecode($str);//首先进行json_decode
file_put_contents('./his.txt', $json);
// $json = htmlspecialchars_decode($json);//首先进行json_decode
$json = json_decode($json, true);//首先进行json_decode
if(!$json){
    $json = json_decode(htmlspecialchars_decode($str),true);//如果不成功,就增加一步htmlspecialchars_decode
}


foreach($json['list'] as $k=>$v){
    $type = $v['comm_msg_info']['type'];
    if($type==49){//type=49代表是图文消息
        $content_url = str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['content_url']));//获得图文消息的链接地址
        $is_multi = $v['app_msg_ext_info']['is_multi'];//是否是多图文消息
        $datetime = $v['comm_msg_info']['datetime'];//图文消息发送时间
        //在这里将图文消息链接地址插入到采集队列库中(队列库将在后文介绍,主要目的是建立一个批量采集队列,另一个程序将根据队列安排下一个采集的公众号或者文章内容)
        $sql = 'SELECT id FROM tmplist WHERE content_url = ?';
        $stmt = $pdo->prepare($sql);
        $stmt->bindParam(1, $content_url);
        $stmt->execute();
        $res = $stmt->fetch(PDO::FETCH_ASSOC);
        if (!$res) {
            $sql = 'INSERT INTO tmplist (content_url) VALUES (?)';
            $stmt = $pdo->prepare($sql);
            $stmt->bindParam(1, $content_url);
            $res = $stmt->execute();
            $post = array();
            $post['field_id'] = $v['app_msg_ext_info']['fileid'];//一个微信给的id
            $post['title'] =  $v['app_msg_ext_info']['title'];//文章标题
            $post['title_encode'] = urlencode(str_replace("&nbsp;", "", $post['title']));//建议将标题进行编码,这样就可以存储emoji特殊符号了
            $post['digest'] = $v['app_msg_ext_info']['digest'];//文章摘要
            $post['source_url']  = str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['source_url']));//阅读原文的链接
            $post['cover'] =  str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['cover']));//封面图片

            $post['is_top'] = 1;//标记一下是头条内容
            $post['is_multi'] = $is_multi;
            $post['biz'] = $biz;
            $post['content_url'] = $content_url;
            $post['zdatetime'] = $datetime;//文章摘要
            //现在存入数据库
            $sql = 'INSERT INTO post (biz, field_id, title, title_encode, digest, content_url, source_url, cover, is_top, is_multi, zdatetime) VALUES (:biz, :field_id, :title, :title_encode, :digest, :content_url, :source_url, :cover, :is_top, :is_multi, :zdatetime)';
            $stmt = $pdo->prepare($sql);
            $res = $stmt->execute($post);
        }
        if($is_multi==1){//如果是多图文消息
            foreach($v['app_msg_ext_info']['multi_app_msg_item_list'] as $kk=>$vv){//循环后面的图文消息
                $content_url = str_replace("\\","",htmlspecialchars_decode($vv['content_url']));//图文消息链接地址
                //这里再次根据$content_url判断一下数据库中是否重复以免出错
                $sql = 'SELECT id FROM tmplist WHERE content_url = ?';
                $stmt = $pdo->prepare($sql);
                $stmt->bindParam(1, $content_url);
                $stmt->execute();
                $res = $stmt->fetch(PDO::FETCH_ASSOC);
                if (!$res) {
                    $sql = 'INSERT INTO tmplist (content_url) VALUES (?)';
                    $stmt = $pdo->prepare($sql);
                    $stmt->bindParam(1, $content_url);
                    $res = $stmt->execute();
                    //在这里将图文消息链接地址插入到采集队列库中(队列库将在后文介绍,主要目的是建立一个批量采集队列,另一个程序将根据队列安排下一个采集的公众号或者文章内容)
                    $post = array();
                    $post['title'] = $vv['title'];//文章标题
                    $post['field_id'] = $vv['fileid'];//一个微信给的id
                    $post['title_encode'] = urlencode(str_replace("&nbsp;","",$post['title']));//建议将标题进行编码,这样就可以存储emoji特殊符号了
                    $post['digest'] = htmlspecialchars($vv['digest']);//文章摘要
                    $post['source_url'] = str_replace("\\","",htmlspecialchars_decode($vv['source_url']));//阅读原文的链接
                    $post['cover'] = str_replace("\\","",htmlspecialchars_decode($vv['cover']));//封面图片
                    //$cover = getCover(str_replace("\\","",htmlspecialchars_decode($vv['cover'])));
                    $post['zdatetime'] = $datetime;
                    $post['is_multi'] = $is_multi;
                    $post['is_top'] = 0;
                    $post['biz'] = $biz;
                    $post['content_url'] = $content_url;
                    //现在存入数据库
                    $sql = 'INSERT INTO post (biz, field_id, title, title_encode, digest, content_url, source_url, cover, is_multi, is_top, zdatetime) VALUES (:biz, :field_id, :title, :title_encode, :digest, :content_url, :source_url, :cover, :is_multi, :is_top, :zdatetime)';
                    $stmt = $pdo->prepare($sql);
                    $res = $stmt->execute($post);
                }
            }
        }
    }
}

想要看效果的可以把getWxHis.php、getWxPost.php中的echo语句注释掉。

// echo "<script>setTimeout(function(){window.location.href='".$url."';},2000);</script>";//将下一个将要跳转的$url变成js脚本,由anyproxy注入到微信页面中。

未完待续......To be Continued......

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容