龙盟编程博客 | 无障碍搜索 | 云盘搜索神器
快速搜索
主页 > web编程 > php编程 >

批量下载搜狗词库

时间:2014-07-22 14:49来源: 作者: 点击:
分享到:
coreseek搜索引擎要用到mmseg,但是mmseg自带的词库不是很全面,导至搜索结果不精细。这个程序就是用来下载搜狗词库。
coreseek搜索引擎要用到mmseg,但是mmseg自带的词库不是很全面,导至搜索结果不精细。这个程序就是用来下载搜狗词库。
<?php
	/*//echo microtime();
	echo $start=strtotime(date("Y-m-01"))."<br/>";
	echo urlencode(iconv("UTF-8","GB2312//IGNORE","中国的") );
	echo urlencode("/");
	require_once "pinyin.php";
	$pinyin=new PY_deal();
	echo join($pinyin->pinyin("麦包包批发,[魅惑/微光摇曳/青春密语]三种款式,自由选择!现只需50元/款!"));*/

	$fp=fopen("dictory.txt", "a+");
	for($i=1;$i<=4;$i++){
		$curl=curl_init();
		$url="http://pinyin.sogou.com/dict/search.php?word=%B0%A2%C0%EF%B0%CD%B0%CD%B2%FA%C6%B7%B4%CA%BB%E3&type=0&personal=1&page={$i}";
		$options=array(CURLOPT_URL=>$url,CURLOPT_RETURNTRANSFER=>true,CURLOPT_HEADER=>false);
		curl_setopt_array($curl, $options);
		$rs=curl_exec($curl);
		curl_close($curl);
		$pattern_list="/\<dl\s+class\=\"dictlist\"\>([\S\s]+)?\<\/dl\>/i";
		preg_match_all($pattern_list,$rs,$match);
		$rs=$match[1][0];
		$pattern="/\?id=(\d+?)\"/i";
		preg_match_all($pattern,$rs,$match);
		$rs=$match[1];
		
		foreach($rs as $v){
			$link="http://pinyin.sogou.com/dict/download_txt.php?id={$v}";
			$curl=curl_init();
			$options=array(CURLOPT_URL=>$link,CURLOPT_FILE=>$fp,CURLOPT_HEADER=>false);
			curl_setopt_array($curl, $options);
			curl_exec($curl);
			curl_close($curl);
			

		}

	}
	

	fclose($fp);
?>

2. [代码][PHP]代码     跳至 [1] [2] [全屏预览]

$fp=fopen("dictory.txt", "a+");
	for($i=1;$i<=4;$i++){
		$curl=curl_init();
		$url="http://pinyin.sogou.com/dict/search.php?word=%B0%A2%C0%EF%B0%CD%B0%CD%B2%FA%C6%B7%B4%CA%BB%E3&type=0&personal=1&page={$i}";
		$options=array(CURLOPT_URL=>$url,CURLOPT_RETURNTRANSFER=>true,CURLOPT_HEADER=>false);
		curl_setopt_array($curl, $options);
		$rs=curl_exec($curl);
		curl_close($curl);
		$pattern_list="/\<dl\s+class\=\"dictlist\"\>([\S\s]+)?\<\/dl\>/i";
		preg_match_all($pattern_list,$rs,$match);
		$rs=$match[1][0];
		$pattern="/\?id=(\d+?)\"/i";
		preg_match_all($pattern,$rs,$match);
		$rs=$match[1];
		
		foreach($rs as $v){
			$link="http://pinyin.sogou.com/dict/download_txt.php?id={$v}";
			$curl=curl_init();
			$options=array(CURLOPT_URL=>$link,CURLOPT_FILE=>$fp,CURLOPT_HEADER=>false);
			curl_setopt_array($curl, $options);
			curl_exec($curl);
			curl_close($curl);
			

		}

	}
	

	fclose($fp);
精彩图集

赞助商链接