Python爬取Coursera课程资源的详细过程(3)

时间:2014-11-05 12:18来源:网络整理作者:网络点击: 次

分享到：

既然已经得到了资源链接，下载部分就很容易了，这里我选择使用curl来下载。具体思路很简单，就是输出 curl resource_link -o file_name 到一个种子文件中去，

既然已经得到了资源链接，下载部分就很容易了，这里我选择使用curl来下载。具体思路很简单，就是输出curl resource_link -o file_name到一个种子文件中去，比如到feed.sh中。这样只需要给种子文件执行权限，然后运行种子文件即可。

为了便于归类课程资源，可以为课程每周的标题建立一个文件夹，之后该周的所有课程均下载在该目录下。为了方便我们快速定位到每节课的所有资源，可以把一节课的所有资源文件均命名为课名.文件类型。具体的实现比较简单，这里不再给出具体程序了。可以看一下一个测试例子中的feed.sh文件，部分内容如下：

mkdir 'Week 1: Introduction, Protocols, and Layering'
cd 'Week 1: Introduction, Protocols, and Layering'
curl https://d396qusza40orc.cloudfront.net/comnetworks/lect/1-readings.pdf -o '1-1 Goals and Motivation (15:46).pdf'
curl https://class.coursera.org/comnetworks-002/lecture/subtitles?q=25_en&format=srt -o '1-1 Goals and Motivation (15:46).srt'
curl https://class.coursera.org/comnetworks-002/lecture/download.mp4?lecture_id=25 -o '1-1 Goals and Motivation (15:46).mp4'
curl https://d396qusza40orc.cloudfront.net/comnetworks/lect/1-readings.pdf -o '1-2 Uses of Networks (17:12).pdf'
curl https://class.coursera.org/comnetworks-002/lecture/subtitles?q=11_en&format=srt -o '1-2 Uses of Networks (17:12).srt'
curl https://class.coursera.org/comnetworks-002/lecture/download.mp4?lecture_id=11 -o '1-2 Uses of Networks (17:12).mp4'

到这里为止，我们已经成功完成爬取Coursera课程资源的目标，具体的代码放在gist上。使用时，我们只需要运行程序，并把课程名称作为参数传递给程序就可以了(这里的课程名称并不是整个课程的完整名字，而是在课程介绍页面地址中的缩略名字，比如Computer Networks这门课，课程名称是comnetworks-002)。

其实，这个程序可以看做一个简单的小爬虫程序了，下面粗略介绍下爬虫的概念。

一点都不简单的爬虫

关于什么是爬虫，wiki上是这样说的

A Web crawler is an Internet bot that systematically browses the World Wide Web, typically for the purpose of Web indexing.

爬虫的总体架构图如下(图片来自wiki)：

简单来说，爬虫从Scheduler中获取初始的urls，下载相应的页面，存储有用的数据，同时分析该页面中的链接，如果已经访问就pass，没访问的话加入到Scheduler中等待抓取页面。

当然有一些协议来约束爬虫的行为规范，比如许多网站都有一个robots.txt文件来规定网站哪些内容可以被爬取，哪些不可以。

每个搜索引擎背后都有一个强大的爬虫程序，把触角伸到网络中的所有角落，不断去收集有用信息，并建立索引。这种搜索引擎级别的爬虫实现起来非常复杂，因为网络上的页面数量太过庞大，只是遍历他们就已经很困难了，更不要说去分析页面信息，并建立索引了。

实际应用中，我们只需要爬取特定站点，抓取少量的资源，这样实现起来简单很多。不过仍然有许多让人头疼的问题，比如许多页面元素是javascript生成的，这时候我们需要一个javascript引擎，渲染出整个页面，再加以过滤。

更糟糕的是，许多站点都会用一些措施来阻止爬虫爬取资源，比如限定同一IP一段时间的访问次数，或者是限制两次操作的时间间隔，加入验证码等等。绝大多数情况下，我们不知道服务器端是如何防止爬虫的，所以要想让爬虫工作起来确实挺难的。

上一篇：使用Python编写简单网络爬虫抓取视频下载资源
下一篇：使用python开发vim插件及心得分享

分享到： QQ空间新浪微博人人网开心网更多

精彩图集

成为顶尖算

用Python编写

跟老齐学P

Python struct模

精彩文章

热点文章

Python爬取Coursera课程资源的详细过程(3)

热门标签

赞助商链接