Python爬取Coursera课程资源的详细过程(2)

时间:2014-11-05 12:18来源:网络整理作者:网络点击: 次

分享到：

将表单中提交的内容存放在字典中，然后作为data参数传递给Session.post函数。一般情况下，最好是加上请求 User-Agent ， Referer 等请求头部，User-Agent用来模拟

将表单中提交的内容存放在字典中，然后作为data参数传递给Session.post函数。一般情况下，最好是加上请求User-Agent，Referer等请求头部，User-Agent用来模拟浏览器请求，Referer用来告诉服务器我是从referer页面跳转到请求页面的，有时候服务器会检查请求的Referer字段来保证是从固定地址跳到当前请求页的。

上面片段的运行结果很奇怪，显示如下信息：Invalid CSRF Token。后来在github上面搜索到一个Coursera的批量下载脚本，发现人家发送页面请求时headers多了XCSRF2Cookie, XCSRF2Token, XCSRFToken, cookie4个字段。于是又重新看了一下post页面的请求头部，发现确实有这几个字段，估计是服务器端用来做一些限制的。

用浏览器登录了几次，发现XCSRF2Token, XCSRFToken是长度为24的随机字符串，XCSRF2Cookie为"csrf2_token_"加上长度为8的随机字符串。不过一直没搞明白Cookie是怎么求出来的，不过看github上面代码，Cookie似乎只是"csrftoken"和其他三个的组合，试了一下竟然可以。

在原来的代码上添加以下部分就足够了。

def randomString(length):
    return ''.join(random.choice(string.letters + string.digits) for i in xrange(length))
XCSRF2Cookie = 'csrf2_token_%s' % ''.join(randomString(8))
XCSRF2Token = ''.join(randomString(24))
XCSRFToken = ''.join(randomString(24))
cookie = "csrftoken=%s; %s=%s" % (XCSRFToken, XCSRF2Cookie, XCSRF2Token)
post_headers = {"User-Agent": user_agent,
                "Referer": "https://accounts.coursera.org/signin",
                "X-Requested-With": "XMLHttpRequest",
                "X-CSRF2-Cookie": XCSRF2Cookie,
                "X-CSRF2-Token": XCSRF2Token,
                "X-CSRFToken": XCSRFToken,
                "Cookie": cookie
                }

至此登录功能初步实现。

分析资源链接

登录成功后，我们只需要get到资源页面的内容，然后过滤出自己需要的资源链接就行了。资源页面的地址很简单，为https://class.coursera.org/name/lecture，其中name为课程名称。比如对于课程comnetworks-002，资源页面地址为https://class.coursera.org/comnetworks-002/lecture。

抓取到页面资源后，我们需要分析html文件，这里选择使用BeautifulSoup。BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库，相当强大。具体使用官网上有很详细的文档，这里不再赘述。在使用BeautifulSoup前，我们还得找出资源链接的规律，方便我们过滤。

其中课程每周的总题目为class=course-item-list-header的div标签下，每周的课程均在class=course-item-list-section-list的ul标签下，每节课程在一个li标签中，课程资源则在li标签中的div标签中。

查看了几门课程之后，发现过滤资源链接的方法很简单，如下：

ppt和ppt资源：用正则表达式匹配链接；字幕资源：找到title="Subtitles (srt)"的标签，取其href属性；视频资源：找到title="Video (MP4)"的标签，取其href属性即可。

字幕和视频也可以用正则表达式过滤，不过用BeautifulSoup根据title属性来匹配，有更好的易读性。而ppt和pdf资源，没有固定的title属性，只好利用正则表达式来匹配。

具体代码如下：

soup = BeautifulSoup(content)
chapter_list = soup.find_all("div", class_="course-item-list-header")
lecture_resource_list = soup.find_all("ul", class_="course-item-list-section-list")
ppt_pattern = re.compile(r'https://[^"]*\.ppt[x]?')
pdf_pattern = re.compile(r'https://[^"]*\.pdf')
for lecture_item, chapter_item in zip(lecture_resource_list, chapter_list):
    # weekly title
    chapter = chapter_item.h3.text.lstrip()
    for lecture in lecture_item:
        lecture_name = lecture.a.string.lstrip()
        # get resource link
        ppt_tag = lecture.find(href=ppt_pattern)
        pdf_tag = lecture.find(href=pdf_pattern)
        srt_tag = lecture.find(title="Subtitles (srt)")
        mp4_tag = lecture.find(title="Video (MP4)")
        print ppt_tag["href"], pdf_tag["href"]
        print srt_tag["href"], mp4_tag["href"]

下载资源

上一篇：使用Python编写简单网络爬虫抓取视频下载资源
下一篇：使用python开发vim插件及心得分享

分享到： QQ空间新浪微博人人网开心网更多

精彩图集

成为顶尖算

用Python编写

跟老齐学P

Python struct模

精彩文章

热点文章

Python爬取Coursera课程资源的详细过程(2)

热门标签

赞助商链接