龙盟编程博客 | 无障碍搜索 | 云盘搜索神器
快速搜索
主页 > web编程 > php编程 >

多线程的cURL

时间:2014-07-22 14:48来源: 作者: 点击:
分享到:
本处是一个可以灵活的多线程的调用 cURL的。这里跟php手册 http://us2.php.net/manual/zh/function.curl-multi-select.php 中提供的样例不同,代码执行效率要高不少本处两个文件,一个是muti_curl的文件
本处是一个可以灵活的多线程的调用 cURL的。
这里跟php手册 http://us2.php.net/manual/zh/function.curl-multi-select.php 中提供的样例不同,代码执行效率要高不少
本处两个文件,一个是muti_curl的文件,里面包含两个class
一个是运用的方法,这里是批量检查代理ip是否可用
<?php

class request_setting {
    public $url = false;
    public $method = 'GET';
    public $post_data = null;
    public $headers = null;
    public $options = null;
    function __construct($url, $method = "GET", $post_data = null, $headers = null, $options = null) {
        $this->url = $url;
        $this->method = $method;
        $this->post_data = $post_data;
        $this->headers = $headers;
        $this->options = $options;
    }
    public function __destruct() {
        unset($this->url, $this->method, $this->post_data, $this->headers, $this->options);
    }
}
/***********************************************************************************************
	批量操作的类
*******************************************************************************************/
class muti_curl {
	protected	$thread_size = 100;
	protected 	$timeout = 30;
    private 	$callback;
	protected 	$options = array(
        CURLOPT_SSL_VERIFYPEER => false,//禁用后cURL将终止从服务端进行验证。使用CURLOPT_CAINFO选项设置证书使用CURLOPT_CAPATH选项设置证书目录 如果CURLOPT_SSL_VERIFYPEER(默认值为2)被启用,CURLOPT_SSL_VERIFYHOST需要被设置成TRUE否则设置为FALSE。	 自cURL 7.10开始默认为TRUE。从cURL 7.10开始默认绑定安装。
        CURLOPT_RETURNTRANSFER => true,  //将 curl_exec()获取的信息以文件流的形式返回,而不是直接输
        CURLOPT_CONNECTTIMEOUT => 15,
        CURLOPT_TIMEOUT => 30,
//		CURLOPT_HTTP_VERSION=>CURL_HTTP_VERSION_1_0, //使用代理的时候用这个去抓取数据,更爽
//		CURLOPT_AUTOREFERER=>false,//	 当根据Location:重定向时,自动设置header中的Referer:信息。	
//		CURLOPT_BINARYTRANSFER=>false,	 //在启用CURLOPT_RETURNTRANSFER的时候,返回原生的(Raw)输出这个不用设置。	
//		CURLOPT_COOKIESESSION=>true,//	 启用时curl会仅仅传递一个session cookie,忽略其他的cookie,默认状况下cURL会将所有的cookie返回
//		CURLOPT_CRLF=>false,//	 启用时将Unix的换行符转换成回车换行符。	
//		CURLOPT_DNS_USE_GLOBAL_CACHE=>false,	// 启用时会启用一个全局的DNS缓存,此项为线程安全的,并且默认启用。	
//		CURLOPT_FAILONERROR=>false,	// 显示HTTP状态码,默认行为是忽略编号小于等于400的HTTP信息。	
//		CURLOPT_FILETIME=>true,	 //启用时会尝试修改远程文档中的信息。结果信息会通过 curl_getinfo()函数的CURLINFO_FILETIME选项返回。 curl_getinfo().	
//		CURLOPT_FOLLOWLOCATION=>false, //	 启用时会将服务器服务器返回的"Location: "放在header中递归的返回给服务器,使用CURLOPT_MAXREDIRS可以限定递归返回的数量。	
//		CURLOPT_FORBID_REUSE=>true,	 //在完成交互以后强迫断开连接,不能重用。	
//		CURLOPT_FRESH_CONNECT=>true,//	 强制获取一个新的连接,替代缓存中的连接。	
//		CURLOPT_FTP_USE_EPRT=>false,//	 启用时当FTP下载时,使用EPRT (或 LPRT)命令。设置为FALSE时禁用EPRT和LPRT,使用PORT命令 only.	
//		CURLOPT_FTP_USE_EPSV=>false,//	 启用时,在FTP传输过程中回复到PASV模式前首先尝试EPSV命令。设置为FALSE时禁用EPSV命令。	
//		CURLOPT_FTPAPPEND=>false,//	 启用时追加写入文件而不是覆盖它。	
//		CURLOPT_FTPASCII=>false,//	CURLOPT_TRANSFERTEXT的别名。	
//		CURLOPT_FTPLISTONLY=>false,//	 启用时只列出FTP目录的名字。	
//		CURLOPT_HEADER=>true,//	 启用时会将头文件的信息作为数据流输出。	
//		CURLINFO_HEADER_OUT=>false,	 //启用时追踪句柄的请求字符串。	
//		CURLOPT_HTTPGET=>true,//	 启用时会设置HTTP的method为GET,因为GET是默认是,所以只在被修改的情况下使用。	
//		CURLOPT_HTTPPROXYTUNNEL	=>true,// 启用时会通过HTTP代理来传输。	
//		CURLOPT_MUTE=>true,//	 启用时将cURL函数中所有修改过的参数恢复默认值。	
//		CURLOPT_NETRC=>false,//	 在连接建立以后,访问~/.netrc文件获取用户名和密码信息连接远程站点。	
//		CURLOPT_NOBODY=>true,	 启用时将不对HTML中的BODY部分进行输出。	
//		CURLOPT_NOPROGRESS=>false,//启用时关闭curl传输的进度条,此项的默认设置为启用。
//		CURLOPT_NOSIGNAL=>false,//	 启用时忽略所有的curl传递给php进行的信号。在SAPI多线程传输时此项被默认启用。	 cURL 7.10时被加入。
//		CURLOPT_POST=>false,//	 启用时会发送一个常规的POST请求,类型为:application/x-www-form-urlencoded,就像表单提交的一样。	
//		CURLOPT_PUT=>false,//	 启用时允许HTTP发送文件,必须同时设置CURLOPT_INFILE和CURLOPT_INFILESIZE。	
//		CURLOPT_TRANSFERTEXT=>false,//	 启用后对FTP传输使用ASCII模式。对于LDAP,它检索纯文本信息而非HTML。在Windows系统上,系统不会把STDOUT设置成binary模式。	
//		CURLOPT_UNRESTRICTED_AUTH=>true,//	 在使用CURLOPT_FOLLOWLOCATION产生的header中的多个locations中持续追加用户名和密码信息,即使域名已发生改变。	
//		CURLOPT_UPLOAD=>false,//	 启用后允许文件上传。	
//		CURLOPT_VERBOSE	=>true,// 启用时会汇报所有的信息,存放在STDERR或指定的CURLOPT_STDERR中。
    );
    private 	$headers = array();
    private 	$requests = array();
	private 	$requestMap = array();
	/*********************
		构造一个callback的函数
	********************/
	function __construct($callback = null) {
        $this->callback = $callback;
    }

    /********************************************************************
     重载 __get的方法
     *******************************************************************/
	 public function __get($name) {
	 	return (isset($this->{$name})) ? $this->{$name} : null;
	}

    /*********************************************************************
     重载 __set的方法
     *******************************************************/
    public function __set($name, $value) {
        // 增加一个设置到headers
        if ($name == "options" || $name == "headers") {
            $this->{$name} = $value + $this->{$name};
        } else {
            $this->{$name} = $value;
        }
        return true;
    }
	//增加一个请求
     public function add($request) {
        $this->requests[] = $request;
        return true;
    }


    public function request($url, $method = "GET", $post_data = null, $headers = null, $options = null) {
        $this->requests[] = new request_setting($url, $method, $post_data, $headers, $options);
        return true;
    }

    public function get($url, $headers = null, $options = null) {
        return $this->request($url, "GET", null, $headers, $options);
    }

    public function post($url, $post_data = null, $headers = null, $options = null) {
        return $this->request($url, "POST", $post_data, $headers, $options);
    }

    private function single_curl() {
        $ch = curl_init();  //初始化
        $request = array_shift($this->requests);//把第一个单元移出并作为结果
        $options = $this->get_options($request);//获得该单元的设置
        curl_setopt_array($ch, $options);//批设置
        $output = curl_exec($ch);
        $curl_info = curl_getinfo($ch);

        if ($this->callback) {
            $callback = $this->callback;
            if (is_callable($this->callback)) {
                call_user_func($callback, $output, $curl_info, $request);
            }
        }
        else
            return $output;
        return true;
    }

  
    private function rolling_curl($thread_size = null) {
		if ($thread_size){
			$this->thread_size = $thread_size;
		}
     
        if (count($this->requests) < $this->thread_size){
			$this->thread_size = count($this->requests);
		}
		if ($this->thread_size < 2) {
           	$errorinfo = '线程大小必须大于 1!!!!';
    		throw new Exception($errorinfo);
        }
		$queue = curl_multi_init();

        //在线程里开始增加任务队列
        for ($i = 0; $i < $this->thread_size; $i++) {
            $ch = curl_init();
            $options = $this->get_options($this->requests[$i]);
            curl_setopt_array($ch, $options);//获得设置
            curl_multi_add_handle($queue, $ch);//添加进去
            $key = (string) $ch;
            $this->requestMap[$key] = $i;
        }
		do {
			while (($statu_run_muti_exec = curl_multi_exec($queue, $active)) == CURLM_CALL_MULTI_PERFORM) ;
			if ($statu_run_muti_exec != CURLM_OK){	break;	}
            // 发现完成的一个请求,进行处理
            while ($done = curl_multi_info_read($queue)) {
				$curl_info = curl_getinfo($done['handle']);
				$output = curl_multi_getcontent($done['handle']);
				$callback = $this->callback;
				if (is_callable($callback)){
					$key = (string) $done['handle'];
					$request = $this->requests[$this->requestMap[$key]];
					unset($this->requestMap[$key]);//这个销毁变量用得很帅
					call_user_func($callback, $output, $curl_info, $request);
                }
				//增加一个未处理的请求加入到一个已经完成的队列中
				if ($i < count($this->requests) && isset($this->requests[$i]) && $i < count($this->requests)) {
					$ch = curl_init();
					$options = $this->get_options($this->requests[$i]);
					curl_setopt_array($ch, $options);
					curl_multi_add_handle($queue, $ch);
                    $key = (string) $ch;
                    $this->requestMap[$key] = $i;
					$i++;
                }
                curl_multi_remove_handle($queue, $done['handle']);
				echo "done ";
				print_r($queue);
				print_r ($done);
            }
			// 这一步非常非常重要如果有一个完成后,要重新设置设置timeout的时间
			//这里很关键的一点,就是要保证第一次所有的线程里的请求最少有一个是有效的,否则就出现第一次所有的都没有效果,导致 $active=0,因此不执行下面的东西
            if ($active >0){
				curl_multi_select($queue, $this->timeout);
			}

        } while ($active);
        curl_multi_close($queue);
        return true;
    }
    public function execute($thread_size = null) {
        //判断thread_size的大小如果只有一个请求,就用单线程模式
        if (count($this->requests) == 1) {
            return $this->single_curl();
        } else {
            return $this->rolling_curl($thread_size);
        }
    }
    private function get_options($request) {
		$options = $this->__get('options');
		if (ini_get('safe_mode') == 'Off' || !ini_get('safe_mode')) {
//			$options[CURLOPT_FOLLOWLOCATION] = 1;
//			$options[CURLOPT_MAXREDIRS] = 5;
		}
		$headers = $this->__get('headers');
		
		if ($request->options) {
			$options = $request->options + $options;
		}
		$options[CURLOPT_URL] = $request->url;
		//下面分别对post选项与header选项进行设置
		if ($request->post_data){
			$options[CURLOPT_POST] = 1;
			$options[CURLOPT_POSTFIELDS] = $request->post_data;
		}
		if ($headers) {
			$options[CURLOPT_HEADER] = 0;
			$options[CURLOPT_HTTPHEADER] = $headers;
        }
		return $options;
    }

    public function __destruct() {
        unset($this->thread_size, $this->callback, $this->options, $this->headers, $this->requests);
    }
}
?>

2. [代码]此文件利用muti_curl的方法来多线程的检查代理ip是否可用     跳至 [1] [2] [全屏预览]

<?php
header("content-type:text/html; charset=utf-8");
require("muti_curl_class.php");
set_time_limit(0);
$sucesesnum=0;
$good_proxy=array();
function request_callback($response, $info, $request) {
	global $sucesesnum,$good_proxy;
//	下面的正则可以对返回的结果进行选择性显示
/*	if (preg_match("~<title>(.*?)</title>~i", $response, $out)) {
			$title = $out[1];
	}*/
//	echo '<br>'.$response .'<br>';
	echo '<br>';
//对响应也就是	$response 进行检测判断里面是否有设定的字符,如果有判断运用该代理成功
	if( $response !== false && substr_count($response, 'User-agent: Baiduspider') >=1 ) {
			//	$result = true;
		echo "true<br>";
//		echo $request[options][10004];
//		print_r ($request->options);
		echo $request->options[CURLOPT_PROXY];
		$good_proxy[]=$request->options[CURLOPT_PROXY];
	}
	echo '<br>the-->'. $sucesesnum.'<---use:'. $info['total_time']; 
//	print_r ($request);
	//echo $request->url;
	$sucesesnum++;
	echo "<hr>";
}
$params = array_merge($_GET, $_POST); //此处获得传递过来的代理ip的地址
$result = $proxy_ip = trim($params['ip']);
$timeout=intval(trim($params['timeout']));
if($timeout<3 ){$timeout=3;}
if($timeout>300){$timeout=300;}
$thread_size=intval(trim($params['thread_size']));
if($thread_size<5){$thread_size =5;}
if($thread_size>300){$thread_size =300;}

if($proxy_ip == '') {
	echo '请输入IP!!';
	return;
}
$replace_arr1 = array('&nbsp;', 'qq代理:', 'dn28.com', 'qqip', 'qq代理', 'qq代理ip', '代理ip:', 'ip:', '代理ip','"',"'",'\\','/',' ');
$result = str_replace($replace_arr1, array(''), $result);
$result = str_replace(",", "\n", $result);
$resArr = explode("\n", $result);
foreach($resArr as $k => $v) {
	$posProxy = getPos($v, '@');
	if($posProxy===false){
		if (!empty($v)){$proxyip_and_port = $v;	}
	}else{
		$proxyip_and_port = substr($v, 0, $posProxy);
	}
	$newRes[] =trim($proxyip_and_port);
}
print_r($newRes);
//die();
$option_setting = array(
        CURLOPT_SSL_VERIFYPEER => 0,
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_CONNECTTIMEOUT => 5,
        CURLOPT_TIMEOUT => 30,
		CURLOPT_HEADER=>false,
		CURLOPT_PROXY=>'',//这个地方设置代理的位置
    );
$url= 'http://www.baidu.com/robots.txt';
$btime=time();
$rc = new muti_curl("request_callback");
$rc->timeout = $timeout;
$rc->thread_size = $thread_size;
foreach ($newRes as $v) {
	$option_setting[CURLOPT_PROXY]=$v;
	$request = new request_setting($url, $method = "GET", $post_data = null,$header= null, $option_setting);
	$rc->add($request);
}
$rc->execute();
$etime=time();
$usedtime=$etime-$btime;
echo 'all'. $sucesesnum.'use'. $usedtime; 
echo '<hr>';
$good_proxy= array_unique($good_proxy);
$str='';
foreach  ($good_proxy as $v){
	$str.="'".trim($v)."',";
}
$str= str_replace ( ' ' , '' ,$str );
$str = preg_replace('/\s+/', ' ', $str);
echo $str.'<br>';
var_export ($good_proxy);
//var_dump ($good_proxy);













//**************************************************************************************************
//*******************************只用了一个函数

function parseProxyInfo ( $proxyStr ) {
	//$proxyStr = '202.115.207.25:80@HTTP;四川省成都市 四川师范大学';
	$posIp = getPos($proxyStr, ':');
	$ip = substr($proxyStr, 0, $posIp);
	$posPort = getPos($proxyStr, '@');
	$port = substr($proxyStr, $posIp+1, $posPort-$posIp-1);
	$posType = getPos($proxyStr, ';');
	$type = substr($proxyStr, $posPort+1, $posType-$posPort-1);
	$location = substr(strstr($proxyStr, ';'), 1);
	return array(
				'ip'	=>	$ip,
				'port'	=>	$port,
				'type'	=>	$type,
				'location'	=>	$location
			);
}

function getPos($haystack, $needle){
	return strpos($haystack, $needle);
}

function check_proxy_is_useful($model, $proxy_info_arr = array()) {
	global $params, $config;
	if($model == 'single') {
		$proxy_port = intval(trim($params['port']));
		$check_proxy_url = $config['verify_url'];
		$proxy_time_out = intval(trim($params['timeout']));
		$retry = intval(trim($params['retry']));
		$proxy_ip = trim($params['ip']);
		$proxy = new proxy( $proxy_ip, $proxy_port, $check_proxy_url, $proxy_time_out, $retry );
		//成功返回string success, 失败返回boolean false
		$result = $proxy -> check_proxy();
		//var_dump($result);
		$proxy_str_success = '<font color="green">'.$proxy_ip.':'.$proxy_port.'@'.'HTTP 代理验证成功!</font>';
		$proxy_str_failed = '<font color="red">'.$proxy_ip.':'.$proxy_port.'@'.'HTTP 代理验证失败!</font>';
		return $result !== false ? $proxy_str_success : $proxy_str_failed;	
	} elseif ($model == 'collect') {
		$proxy_port = intval(trim($proxy_info_arr['port']));
		$check_proxy_url = $config['verify_url'];
		$proxy_time_out = intval(trim($params['timeout']));
		$retry = intval(trim($params['retry']));
		$proxy_ip = trim($proxy_info_arr['ip']);
		/*echo $proxy_ip.'<br />';
		echo $proxy_port.'<br />';
		echo $check_proxy_url.'<br />';
		echo $proxy_time_out.'<br />';
		echo $retry.'<br />';*/
		if(!isset($proxy)) {
			$proxy = new proxy( $proxy_ip, $proxy_port, $check_proxy_url, $proxy_time_out, $retry );
		} 		
		//成功返回string success, 失败返回boolean false
		$result = $proxy -> check_proxy();
		return $result;
	}
}

function get_single(){
	global $params, $config;
	$proxy_ip = trim($params['ip']);
	if($proxy_ip == '') {
		echo '请输入IP!!';
		return;
	}
	echo check_proxy_is_useful('single');
}

function get_proxy_by_collect(){
	global $params, $config;
	$params['url'] = trim($params['url']);
	if($params['url'] == '') {
		echo '请输入url!';
		return;
	}
	//$url = 'http://www.dn28.com/html/75/n-5175.html';
	$con = iconv('GBK', 'UTF-8', file_get_contents($params['url']));
	preg_match ('/<\/TBODY><\/TABLE>(.*)<BR><div class="adbox">/s', $con, $arr);
	$result = strip_tags ($arr[1], '<BR>');
	$replace_arr1 = array('&nbsp;', 'qq代理:', 'dn28.com', 'qqip', 'qq代理', 'qq代理ip', '代理ip:', 'ip:', '代理ip');
	$result = str_replace($replace_arr1, array(''), $result);
	//print_r($arr);
	$resArr = explode('<BR>', $result);
	//print_r($resArr);
	echo '<h3>代理开始批量验证中,整个过程将会花费您几分钟时间。</h3>';
	unset($_SESSION['success_arr']);
	foreach($resArr as $k => $v) {
		$newRes[$k] = parseProxyInfo($v);
		//print_r($newRes[$k]);
		/*return;*/
		$result = check_proxy_is_useful('collect', $newRes[$k]);
		$proxy_str_success = '<font color="green">'.$newRes[$k]['ip'].':'.$newRes[$k]['port'].'@'.$newRes[$k]['type'].' 代理验证成功!&nbsp;&nbsp;&nbsp;IP地址:'.$newRes[$k]['location'].'</font>';
		$proxy_str_failed = '<font color="red">'.$newRes[$k]['ip'].':'.$newRes[$k]['port'].'@'.$newRes[$k]['type'].' 代理验证失败!&nbsp;&nbsp;&nbsp;IP地址:'.$newRes[$k]['location'].'</font>';
		if($result !== false ){
			echo $proxy_str_success;
			$_SESSION['success_arr'][] = $success_arr[] = $newRes[$k];
		} else {
			echo $proxy_str_failed;	
		}
		echo '<br />';
	}
	if(isset($success_arr) && count($success_arr) > 0 ) {
		save_success_proxy($success_arr);
		echo '<p style="text-align:center; font-size: 14px; padding: 30px 0;"><a target="_blank" href="export.php">[保存验证成功的代理到本地电脑]</a>&nbsp;&nbsp;&nbsp;<a target="_blank" href="history_proxy.php">[我要看看历史数据]</a></p>';
	} else {
		echo '<p style="text-align:center; font-size: 14px; padding: 30px 0;"><a target="_blank" href="history_proxy.php">[我要看看历史数据]</a></p>';
	}
	//print_r($success_arr);
}

function get_proxy_by_rule(){
	global $params, $config;
	$result = $proxy_ip = trim($params['ip']);
	if($proxy_ip == '') {
		echo '请输入IP!!';
		return;
	}
	$replace_arr1 = array('&nbsp;', 'qq代理:', 'dn28.com', 'qqip', 'qq代理', 'qq代理ip', '代理ip:', 'ip:', '代理ip');
	$result = str_replace($replace_arr1, array(''), $result);
	$resArr = explode("\n", $result);
	//print_r($resArr);
	echo '<h3>代理开始批量验证中,整个过程将会花费您几分钟时间。</h3>';
	unset($_SESSION['success_arr']);
	foreach($resArr as $k => $v) {
		$newRes[$k] = parseProxyInfo($v);
		//print_r($newRes[$k]);
		/*return;*/
		$result = check_proxy_is_useful('collect', $newRes[$k]);
		//var_dump($result);
		$proxy_str_success = '<font color="green">'.$newRes[$k]['ip'].':'.$newRes[$k]['port'].'@'.$newRes[$k]['type'].' 代理验证成功!&nbsp;&nbsp;&nbsp;IP地址:'.$newRes[$k]['location'].'</font>';
		$proxy_str_failed = '<font color="red">'.$newRes[$k]['ip'].':'.$newRes[$k]['port'].'@'.$newRes[$k]['type'].' 代理验证失败!&nbsp;&nbsp;&nbsp;IP地址:'.$newRes[$k]['location'].'</font>';
		if($result !== false ){
			echo $proxy_str_success;
			$_SESSION['success_arr'][] = $success_arr[] = $newRes[$k];
		} else {
			echo $proxy_str_failed;	
		}
		echo '<br />';
	}
	if(isset($success_arr) && count($success_arr) > 0 ) {
		save_success_proxy($success_arr);
		echo '<p style="text-align:center; font-size: 14px; padding: 30px 0;"><a target="_blank" href="export_var.php">[保存到php格式文件]</a>&nbsp;&nbsp;&nbsp;<a target="_blank" href="export.php">[保存验证成功的代理到本地电脑]</a>&nbsp;&nbsp;&nbsp;<a target="_blank" href="history_proxy.php">[我要看看历史数据]</a></p>';
	} else {
		echo '<p style="text-align:center; font-size: 14px; padding: 30px 0;"><a target="_blank" href="history_proxy.php">[我要看看历史数据]</a></p>';
	}
}

function save_success_proxy($success_arr){
	global $config;
	date_default_timezone_set('PRC');
	$str = '';
	foreach($success_arr as $k => $v) {
		$str .= $v['ip'].':'.$v['port'].'@'.$v['type'].';'.$v['location']."\n";
	}
	$fp = fopen($config['root_path'].'/success_proxy/'.date('YmdHi').'.log', 'a+');
	fwrite($fp, $str);
	fclose($fp);
	unset($str);
}

?>
精彩图集

赞助商链接