Fork 36kr.com
PHP采集http://www.36kr.com的文章,并存入数据库。只采集文章标题,文章正文内容部分和文章url地址。我试了一下从 2012/12/11-20:48 http://www.36kr.com/p/200100.html到今天 http://www.36kr.com/p/206670.html花
PHP采集http://www.36kr.com的文章,并存入数据库。
只采集文章标题,文章正文内容部分和文章url地址。
我试了一下从 2012/12/11-20:48 http://www.36kr.com/p/200100.html
到今天 http://www.36kr.com/p/206670.html
花费20多分钟,共采集了5959条,导出的sql文件足足有17M。
数据已经放到了:http://fork36kr.sinaapp.com/
补充:
我试了一下用DOM匹配代替正则,同样是抓了864条记录,在我的机器上,正则用时391秒,DOM用时410秒。
只测试了一遍,结果可能存在一定偶然性。
我使用的DOM匹配规则
用下面的替换正则部分。
$doc = new DOMDocument();
libxml_use_internal_errors(true);
$doc->loadHTML($page);
$title = $doc->getElementsByTagName('h1')->item(0)->nodeValue;
$xpath = new DOMXPath($doc);
$content = $xpath->query('//*[@id="topic_show"]/div[1]/div[2]/div[1]/div[3]')->item(0)->nodeValue;
第一次用PHP DOM,我觉得还是正则更简洁些,不知有没有更好的写法。
只采集文章标题,文章正文内容部分和文章url地址。
我试了一下从 2012/12/11-20:48 http://www.36kr.com/p/200100.html
到今天 http://www.36kr.com/p/206670.html
花费20多分钟,共采集了5959条,导出的sql文件足足有17M。
数据已经放到了:http://fork36kr.sinaapp.com/
补充:
我试了一下用DOM匹配代替正则,同样是抓了864条记录,在我的机器上,正则用时391秒,DOM用时410秒。
只测试了一遍,结果可能存在一定偶然性。
我使用的DOM匹配规则
用下面的替换正则部分。
$doc = new DOMDocument();
libxml_use_internal_errors(true);
$doc->loadHTML($page);
$title = $doc->getElementsByTagName('h1')->item(0)->nodeValue;
$xpath = new DOMXPath($doc);
$content = $xpath->query('//*[@id="topic_show"]/div[1]/div[2]/div[1]/div[3]')->item(0)->nodeValue;
第一次用PHP DOM,我觉得还是正则更简洁些,不知有没有更好的写法。
<?php /** * @link https://github.com/MaGuowei * @copyright 2013 maguowei.com * @author Ma Guowei <imaguowei@gmail.com> */ /** * 36kr文章采集 * * Class Fork36kr */ class Fork36kr { private $start; private $end; private $number = 0; private $dsn; private $user; private $password; private $pdo; /** * @param int $start 采集起点文章id * @param int $end 采集终点文章id * @param string $dsn PDO数据源 * @param string $user 数据库用户名 * @param string $password 数据库密码 */ public function __construct($start=200100, $end=206670,$dsn='',$user='',$password='') { $this->start = $start; $this->end = $end; $this->dsn = $dsn; $this->user = $user; $this->password = $password; if($dsn) { $this->pdo = new PDO($this->dsn,$this->user,$this->password); } } public function fork() { $ch = curl_init(); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); echo "<<<<< OK. Start Fork 36kr >>>>>\n"; for($i=$this->start;$i<=$this->end;$i++) { $url = "http://www.36kr.com/p/".$i.".html"; curl_setopt($ch, CURLOPT_URL, $url); $page = curl_exec($ch); if(curl_getinfo($ch)['http_code']==200) { $t = preg_match('#<h1 class="entry-title sep10">.*</h1>#', $page, $title); $c = preg_match('#<div class="mainContent sep-10">.*</div>#Us', $page, $content); if($t&&$c) { $title = strip_tags($title[0]); $content = strip_tags($content[0]); //$content = strip_tags($content[0],'<p><a>'); //保留<p>和<a>标记 echo $url.','.$title."\n"; $this->number++; } if($this->dsn) { $this->save($title,$content,$url); } } } echo '<<<< Fork Over! Total: '.$this->number.' >>>>'; } private function save($title,$content,$url) { $sql = "INSERT INTO `36kr` (`id`,`title`,`content`,`url`) VALUES (null,:title,:content,:url)"; $stmt = $this->pdo->prepare($sql); $stmt->bindParam(':title',$title); $stmt->bindParam(':content',$content); $stmt->bindParam(':url',$url); $stmt->execute(); } } $dsn = 'mysql:host=localhost;dbname=test'; $user = 'root'; $password= 'root'; $kr = new Fork36kr(200100,206670,$dsn,$user,$password); $kr->fork();
2. [文件] 36kr (1).sql ~ 1KB 下载(5) 跳至 [1] [2] [全屏预览]
-- phpMyAdmin SQL Dump -- version 4.0.5 -- http://www.phpmyadmin.net -- -- 主机: localhost -- 生成日期: 2013 �?10 �?03 �?00:36 -- 服务器版本: 5.6.12-log -- PHP 版本: 5.5.3 SET SQL_MODE = "NO_AUTO_VALUE_ON_ZERO"; SET time_zone = "+00:00"; /*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */; /*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */; /*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */; /*!40101 SET NAMES utf8 */; -- -- 数据库: `test` -- -- -------------------------------------------------------- -- -- 表的结构 `36kr` -- CREATE TABLE IF NOT EXISTS `36kr` ( `id` int(11) NOT NULL AUTO_INCREMENT, `title` varchar(128) NOT NULL, `content` text NOT NULL, `url` varchar(128) NOT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ; /*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */; /*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */; /*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */;
- 上一篇:基于静态huffman编码的压缩
- 下一篇:php水印图类
精彩图集
精彩文章