龙盟编程博客 | 无障碍搜索 | 云盘搜索神器
快速搜索
主页 > web编程 > php编程 >

PHP一个敏感信息过滤思路

时间:2014-07-22 14:49来源: 作者: 点击:
分享到:
PHP一个敏感信息过滤思路,没有代码,只是一个思路,理解后写出代码也就是分分钟的事。 br / 首先提取中英文字符,其余字符不要。 br / 接着分词,只要名词 动词其余不要。 br / 接着外
PHP一个敏感信息过滤思路,没有代码,只是一个思路,理解后写出代码也就是分分钟的事。
首先提取中英文字符,其余字符不要。
接着分词,只要名词 动词其余不要。
接着外面定义一个数组,当然 数据来源自定,为了方便理解 外面这里定义一个数组,
array('色情'=>array('小姐','上门','服务'))
接着一个循环,循环分好的词,开始使用 in_array()看词语在不在敏感词里,
一个类目出现一次加一分,可设定个分值,超过限制,就确认为垃圾信息。

回头 我放出代码实现。

//提取中文字符
@header ( 'Content-Type: text/html; charset=utf-8' );
$str = <<<EOT
网站名字:郑州seo
网站域名:http://www.80mv.com
网站基本情况:
网站快照隔天  网站pr=0  百度权重=2 网站反向链接5853 收录量=53
每天专人维护  定时更新
网站大致内容:
80seo论坛是郑州seo工作者郑州站长交流的平台,80SEO论坛、郑州SEO交流论坛、郑州SEO论坛提供SEO咨询杂谈、SEO相关问题答疑以及友情链接交换、SEO人才招聘,郑州网站推广
招聘、郑州网站优化需求信息发布以提高人际交流达到扩展人脉、交换链接互助答疑的目的。郑州SEO交流论坛论坛欢迎您的加入期待大家互助进步!";
height="38" border="0" alt="到百度首页"></a><div class="tab"><a href="http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7"  onmousedown="return c({'fm':'tab','tab':'news'})">新闻</a> <b>网页</b> <a href="http://tieba.baidu.com/f?kw=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&fr=wwwt"  onmousedown="return c({'fm':'tab','tab':'tieba'})">贴吧</a> <a href="http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&fr=wwwt"  onmousedown="return c({'fm':'tab','tab':'zhidao'})">知道</a> <a href="http://mp3.baidu.com/m?tn=baidump3&ct=134217728&lm=-1&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7"  onmousedown="return c({'fm':'tab','tab':'mp3'})">MP3</a> <a href="http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7"  onmousedown="return c({'fm':'tab','tab':'pic'})">图片</a> <a href="http://video.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7"  onmousedown="return c({'fm':'tab','tab':'video'})">视频</a> <a href="http://map.baidu.com/m?word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&fr=ps01000"  onmousedown="return c({'fm':'tab','tab':'map'})">地图</a> <span id="tb_mr" onmousedown="return c({'fm':'tab','tab':'tbmore'});"><b>更多</b><small>▼</small></span></div><div id="more"><a href="http://baike.baidu.com/searchword/?word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&pic=1"  onmousedown="return c({'fm':'tab','tab':'baike'})">百科</a><a href="http://wenku.baidu.com/search?word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&lm=0&od=0"  onmousedown="return c({'fm':'tab','tab':'wenku'})">文库</a><a href="http://dict.baidu.com/s?wd=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7"  onmousedown="return c({'fm':'tab','tab':'dict'})">词典</a><div></div><a href="http://www.baidu.com/more/"  onmousedown="return c({'fm':'tab','tab':'more'})">更多<span>>></span></a></div></div><form name="f" action="s"  class="fm"><input type="hidden" name="tn" value="baiduhome_pg"><input type="hidden" name="bs" value="unicode字符值 范围"><input type="hidden" name="f" value="8"><input type="hidden" name="rsv_bp" value="1"><input name="wd" id="kw" class="i" value="unicode字符值 范围" maxlength="100"><span class="btn_wr"><input type="submit" id="su" value="百度一下" class="btn" onmousedown="this.className='btn btn_h'" onmouseout="this.className='btn'"></span><span class="tools"><span id="mHolder"><div id="mCon"><span>输入法</span></div><ul id="mMenu"><li><a href="#" name="ime_hw">手写</a></li><li><a href="#" name="ime_py">拼音</a></li><li class="ln"></li><li><a href="#" name="ime_cl">关闭</a></li></ul></span><span class="seth" id="seth"><strong>推荐 : </strong><a href="#" onClick="h(this)" onmousedown="return ns_c({'fm':'behs','tab':'homepage','pos':1})">把百度设为主页</a></span>
<span class="setf" id="setf"><strong>推荐&nbsp;:&nbsp;</strong><a href="javascript:void(0)" onClick="fa(this)" onmousedown="return ns_c({'fm':'behs','tab':'favorites','pos':1})">把百度加入收藏夹</a></span>
</span></form></div><br>
<div id="container">
<table width="30%" cellpadding="0" cellspacing="0" align="right"><tr>
<td align="left" style="padding-right:10px">
<div style="border-left:1px solid #e1e1e1;padding-left:10px;word-break:break-all;word-wrap:break-word;">
EOT;
$str = strip_tags($str,"");
$str = str_replace(array(' ',"\t","\r\n","\r","\n"),'',$str);
preg_match_all('/[\w\s\x{4e00}-\x{9fff}]+/u', $str, $matches);
$str = implode('', $matches[0]);
print_r($str);
精彩图集

赞助商链接