PHP一个敏感信息过滤思路
PHP一个敏感信息过滤思路,没有代码,只是一个思路,理解后写出代码也就是分分钟的事。 br / 首先提取中英文字符,其余字符不要。 br / 接着分词,只要名词 动词其余不要。 br / 接着外
PHP一个敏感信息过滤思路,没有代码,只是一个思路,理解后写出代码也就是分分钟的事。
首先提取中英文字符,其余字符不要。
接着分词,只要名词 动词其余不要。
接着外面定义一个数组,当然 数据来源自定,为了方便理解 外面这里定义一个数组,
array('色情'=>array('小姐','上门','服务'))
接着一个循环,循环分好的词,开始使用 in_array()看词语在不在敏感词里,
一个类目出现一次加一分,可设定个分值,超过限制,就确认为垃圾信息。
回头 我放出代码实现。
首先提取中英文字符,其余字符不要。
接着分词,只要名词 动词其余不要。
接着外面定义一个数组,当然 数据来源自定,为了方便理解 外面这里定义一个数组,
array('色情'=>array('小姐','上门','服务'))
接着一个循环,循环分好的词,开始使用 in_array()看词语在不在敏感词里,
一个类目出现一次加一分,可设定个分值,超过限制,就确认为垃圾信息。
回头 我放出代码实现。
//提取中文字符 @header ( 'Content-Type: text/html; charset=utf-8' ); $str = <<<EOT 网站名字:郑州seo 网站域名:http://www.80mv.com 网站基本情况: 网站快照隔天 网站pr=0 百度权重=2 网站反向链接5853 收录量=53 每天专人维护 定时更新 网站大致内容: 80seo论坛是郑州seo工作者郑州站长交流的平台,80SEO论坛、郑州SEO交流论坛、郑州SEO论坛提供SEO咨询杂谈、SEO相关问题答疑以及友情链接交换、SEO人才招聘,郑州网站推广 招聘、郑州网站优化需求信息发布以提高人际交流达到扩展人脉、交换链接互助答疑的目的。郑州SEO交流论坛论坛欢迎您的加入期待大家互助进步!"; height="38" border="0" alt="到百度首页"></a><div class="tab"><a href="http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7" onmousedown="return c({'fm':'tab','tab':'news'})">新闻</a> <b>网页</b> <a href="http://tieba.baidu.com/f?kw=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&fr=wwwt" onmousedown="return c({'fm':'tab','tab':'tieba'})">贴吧</a> <a href="http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&fr=wwwt" onmousedown="return c({'fm':'tab','tab':'zhidao'})">知道</a> <a href="http://mp3.baidu.com/m?tn=baidump3&ct=134217728&lm=-1&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7" onmousedown="return c({'fm':'tab','tab':'mp3'})">MP3</a> <a href="http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7" onmousedown="return c({'fm':'tab','tab':'pic'})">图片</a> <a href="http://video.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7" onmousedown="return c({'fm':'tab','tab':'video'})">视频</a> <a href="http://map.baidu.com/m?word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&fr=ps01000" onmousedown="return c({'fm':'tab','tab':'map'})">地图</a> <span id="tb_mr" onmousedown="return c({'fm':'tab','tab':'tbmore'});"><b>更多</b><small>▼</small></span></div><div id="more"><a href="http://baike.baidu.com/searchword/?word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&pic=1" onmousedown="return c({'fm':'tab','tab':'baike'})">百科</a><a href="http://wenku.baidu.com/search?word=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7&lm=0&od=0" onmousedown="return c({'fm':'tab','tab':'wenku'})">文库</a><a href="http://dict.baidu.com/s?wd=unicode%D7%D6%B7%FB%D6%B5%20%B7%B6%CE%A7" onmousedown="return c({'fm':'tab','tab':'dict'})">词典</a><div></div><a href="http://www.baidu.com/more/" onmousedown="return c({'fm':'tab','tab':'more'})">更多<span>>></span></a></div></div><form name="f" action="s" class="fm"><input type="hidden" name="tn" value="baiduhome_pg"><input type="hidden" name="bs" value="unicode字符值 范围"><input type="hidden" name="f" value="8"><input type="hidden" name="rsv_bp" value="1"><input name="wd" id="kw" class="i" value="unicode字符值 范围" maxlength="100"><span class="btn_wr"><input type="submit" id="su" value="百度一下" class="btn" onmousedown="this.className='btn btn_h'" onmouseout="this.className='btn'"></span><span class="tools"><span id="mHolder"><div id="mCon"><span>输入法</span></div><ul id="mMenu"><li><a href="#" name="ime_hw">手写</a></li><li><a href="#" name="ime_py">拼音</a></li><li class="ln"></li><li><a href="#" name="ime_cl">关闭</a></li></ul></span><span class="seth" id="seth"><strong>推荐 : </strong><a href="#" onClick="h(this)" onmousedown="return ns_c({'fm':'behs','tab':'homepage','pos':1})">把百度设为主页</a></span> <span class="setf" id="setf"><strong>推荐 : </strong><a href="javascript:void(0)" onClick="fa(this)" onmousedown="return ns_c({'fm':'behs','tab':'favorites','pos':1})">把百度加入收藏夹</a></span> </span></form></div><br> <div id="container"> <table width="30%" cellpadding="0" cellspacing="0" align="right"><tr> <td align="left" style="padding-right:10px"> <div style="border-left:1px solid #e1e1e1;padding-left:10px;word-break:break-all;word-wrap:break-word;"> EOT; $str = strip_tags($str,""); $str = str_replace(array(' ',"\t","\r\n","\r","\n"),'',$str); preg_match_all('/[\w\s\x{4e00}-\x{9fff}]+/u', $str, $matches); $str = implode('', $matches[0]); print_r($str);
精彩图集
精彩文章