零基础写python爬虫之使用urllib2组件抓取网页内容(2)

时间:2014-11-05 12:16来源:网络整理作者:网络点击: 次

分享到：

默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7)，这个身份可能会让站点迷惑，或者干脆不工作。浏览器确认自

默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7)，

这个身份可能会让站点迷惑，或者干脆不工作。

浏览器确认自己身份是通过User-Agent头，当你创建了一个请求对象，你可以给他一个包含头数据的字典。

下面的例子发送跟上面一样的内容，但把自身模拟成Internet Explorer。

（多谢大家的提醒，现在这个Demo已经不可用了，不过原理还是那样的）。

import urllib  
import urllib2  
url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'name' : 'WHY',  
          'location' : 'SDU',  
          'language' : 'Python' }  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
req = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(req)  
the_page = response.read()

以上就是python利用urllib2通过指定的URL抓取网页内容的全部内容，非常简单吧，希望对大家能有所帮助

上一篇：Python random模块常用方法
下一篇：零基础写python爬虫之爬虫的定义及URL构成

分享到： QQ空间新浪微博人人网开心网更多

精彩图集

成为顶尖算

用Python编写

跟老齐学P

Python struct模

精彩文章

热点文章

零基础写python爬虫之使用urllib2组件抓取网页内容(2)

热门标签

赞助商链接