`

如何写程序自动下载BBC Learning English的所有在线课程

阅读更多

BBC Learning English在线3大系列课程:Lower intermediateIntermediateEnglish My Way 声音很悦耳,尤其是Jamaica Inn和The Importance of Being Earnest,堪称完美,百听不厌,这对于英语兴趣的培养和英语能力的提升非常有帮助。到目前为止,这些课程的mp3和pdf文件已经有2859个,而且还在持续增长中,如果能写个程序自动地把这些文件下载下来就好了,要是手工一个个下载,那得累死吧,尤其是对那些还从来没有学过这个课程的人。

下载下来后将文件拷贝到手机上,在挤地铁挤公交的时候戴着耳机听一听,充分利用时间嘛,听不懂的还可以看看录音稿,要不然直接在BBC的网站上看,那太不方便了。

首先,我们使用maven引入jsoup依赖:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.7.2</version>
</dependency>

 

接下来就可以写代码了:

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;

import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.HashSet;
import java.util.Set;
import java.util.concurrent.atomic.AtomicInteger;

/**
 * Created by ysc on 10/21/15.
 * 下载BBC Learning English在线课程
 */
public class BBC {
    private static int count = 0;
    public static void main(String[] args) {
        String path = "/Users/apple/百度云同步盘/BBC/";

        //***
        //archived version
        //***
        //General & Business English
        download("http://www.bbc.co.uk/worldservice/learningenglish/general/sixminute/",
                "6 Minute English Archived",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/general/englishatwork/",
                "English at Work",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/general/expressenglish/",
                "Express English",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/general/talkaboutenglish/",
                "Talk about English",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/business/talkingbusiness/",
                "Talking Business",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/business/wab/",
                "Working Abroad",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/work/handy/",
                "Handy Guide",
                path);
        //Grammar, Vocabulary & Pronunciation
        download("http://www.bbc.co.uk/worldservice/learningenglish/language/wordsinthenews/",
                "Words in the News Archived",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/language/theenglishwespeak/",
                "The English We Speak Archived",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/language/theteacher/",
                "The Teacher",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/language/newsextra/",
                "News English Extra",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/language/newsaboutbritain/",
                "News about Britain",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/language/askaboutenglish/",
                "Ask about English",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/language/uptodate/",
                "Keep your English up to date",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/language/faceup/",
                "Face Up to Phrasals",
                path);
        //Talking Sport
        download("http://www.bbc.co.uk/worldservice/learningenglish/talkingsport/",
                "Talking Sport",
                path);
        //Specials
        download("http://www.bbc.co.uk/worldservice/learningenglish/specials/",
                "Specials",
                path);

        //***
        //Features
        //***
        download("http://www.bbc.co.uk/learningenglish/english/features/news-report",
                "News Report",
                path);
        download("http://www.bbc.co.uk/learningenglish/english/features/the-english-we-speak",
                "The English We Speak",
                path);
        download("http://www.bbc.co.uk/learningenglish/english/features/lingohack",
                "Lingohack",
                path);
        download("http://www.bbc.co.uk/learningenglish/english/features/6-minute-english",
                "6 Minute English",
                path);
        download("http://www.bbc.co.uk/worldservice/learningenglish/grammar/pron/sounds/",
                "The sounds of English",
                path,
                true,
                true);
        download("http://www.bbc.co.uk/learningenglish/english/features/drama",
                "Dramas from BBC Learning English",
                path);
        download("http://www.bbc.co.uk/learningenglish/english/features/witn",
                "Words in the News",
                path);

        //***
        //Courses
        //***
        download("lower-intermediate", 30, path);
        download("intermediate", 30, path);
        download("emw", 15, path);

        System.out.println("total file count: " + count);
    }

    public static void download(String entranceURL, String type, String path){
        download(entranceURL, type, path, false, false);
    }
    /**
     * 下载课程
     * @param entranceURL 课程入口页面
     * @param type 课程类型
     * @param path 保存到本地的路径
     * @param containEntrance 是否下载入口页面上的课程
     * @param justOriginalName 是否使用原来的文件名称保存文件
     */
    public static void download(String entranceURL, String type, String path, boolean containEntrance, boolean justOriginalName){
        int timeout = 300000;
        if(!entranceURL.endsWith("/")){
            entranceURL += "/";
        }
        Set<String> urls = new HashSet<>();
        boolean ok = false;
        int limit=0;
        while (!ok && (limit++) < 3) {
            try {
                System.out.println("【"+type+"】*** connect " + entranceURL);
                for (Element element : Jsoup.connect(entranceURL).timeout(timeout).get().select("a")) {
                    String href = element.attr("href").trim();
                    if (!href.startsWith("http")) {
                        if(href.startsWith("/")){
                            href = "http://www.bbc.co.uk" + href;
                        }else{
                            href = entranceURL + href;
                        }
                    }
                    if (href.startsWith(entranceURL) && (!href.equals(entranceURL) || containEntrance) ) {
                        urls.add(href);
                    }
                }
                ok = true;
            } catch (Exception e) {
                System.out.println(e.getMessage() + " retry...");
            }
        }
        AtomicInteger i = new AtomicInteger(1);
        Set<String> resources = new HashSet<>();
        urls.stream().sorted().forEach(url -> {
            boolean success = false;
            int times=0;
            while (!success && (times++) < 3) {
                try {
                    System.out.println(i.get() + "、connect " + url);
                    for (Element element : Jsoup.connect(url).timeout(timeout).get().select("a")) {
                        String href = element.attr("href").trim();
                        //只下载mp3、mp4、wav和pdf文件
                        if (href.endsWith(".mp3") || href.endsWith(".wav") || href.endsWith(".mp4") || href.endsWith(".pdf")) {
                            if (!href.startsWith("http")) {
                                if(href.startsWith("/")){
                                    href = "http://www.bbc.co.uk" + href;
                                }else{
                                    String[] attr = url.split("/");
                                    href = url.substring(0, url.length()-attr[attr.length-1].length()) + href;
                                }
                            }
                            resources.add(href);
                        }
                    }
                    i.incrementAndGet();
                    success = true;
                } catch (Exception e) {
                    System.out.println(e.getMessage() + " retry...");
                }
            }
        });
        AtomicInteger j = new AtomicInteger(1);
        count += resources.size();
        resources.stream().sorted().forEach(resource -> {
            boolean success = false;
            int times=0;
            while (!success && (times++) < 3) {
                try {
                    //提取文件名称
                    String[] attr = resource.split("/");
                    String fileName = attr[attr.length - 2] + "_" + attr[attr.length - 1].replace(attr[attr.length - 2], "");
                    if(attr[attr.length - 1].endsWith(attr[attr.length - 2])){
                        fileName = attr[attr.length - 1];
                    }
                    fileName = fileName.replace("_download", "");
                    if(justOriginalName){
                        fileName = attr[attr.length - 1];
                    }
                    System.out.println(resources.size() + "/" + j.get() + "、find resource: " + resource);
                    //确保本地路径存储
                    Path dir = Paths.get(path, type);
                    if (!Files.exists(dir)) {
                        //不存在则新建
                        dir.toFile().mkdirs();
                    }
                    //保存文件的完整本地路径
                    Path out = Paths.get(path, type, fileName);
                    //如果文件存在则表示之前已经下载过,本次不用下载
                    //因为BBC的访问不稳定,所以可能需要执行程序多次才能完整下载完毕,所以这里要处理已存在文件的问题
                    if (!Files.exists(out)) {
                        //下载文件
                        Connection.Response response = Jsoup.connect(resource).maxBodySize(0).ignoreContentType(true).timeout(timeout).execute();
                        //将文件保存到本地
                        Files.write(out, response.bodyAsBytes());
                        System.out.println(resources.size() + "/" + j.get() + "、save resource to: " + out);
                    } else {
                        System.out.println(resources.size() + "/" + j.get() + "、resource exist, don't need to download");
                    }
                    j.incrementAndGet();
                    success = true;
                } catch (Exception e) {
                    System.out.println(e.getMessage() + " retry...");
                }
            }
        });
    }

    /**
     * BBC Learning English在线课程类型:
     * 1、lower-intermediate http://www.bbc.co.uk/learningenglish/english/course/lower-intermediate
     * 2、intermediate http://www.bbc.co.uk/learningenglish/english/course/intermediate
     * 3、emw http://www.bbc.co.uk/learningenglish/english/course/emw
     * @param type 课程类型
     * @param unitCount 课数
     * @param path 保存到本地的路径
     */
    public static void download(String type, int unitCount, String path) {
        int timeout = 300000;
        Set<String> hrefs = new HashSet<>();
        System.out.println("【"+type+"】*** starting... ");
        for(int i=1; i<=unitCount; i++) {
            int times=0;
            boolean success = false;
            while (!success && (times++) < 3) {
                try {
                    String url = "http://www.bbc.co.uk/learningenglish/english/course/" + type + "/unit-" + i + "/downloads";
                    System.out.println("unit " + i + "、connect " + url);
                    for (Element element : Jsoup.connect(url).timeout(timeout).get().select("a")) {
                        String href = element.attr("href").trim();
                        //只下载mp3、mp4、wav和pdf文件
                        if (href.endsWith(".mp3") || href.endsWith(".wav") || href.endsWith(".mp4") || href.endsWith(".pdf")) {
                            hrefs.add(href);
                        }
                    }
                    success = true;
                } catch (Exception e) {
                    System.out.println(e.getMessage()+" retry...");
                }
            }
        }
        AtomicInteger i = new AtomicInteger(1);
        count += hrefs.size();
        hrefs.stream().sorted().forEach(href -> {
            boolean success = false;
            while (!success) {
                try {
                    //提取文件名称
                    String[] attr = href.split("/");
                    String fileName = attr[attr.length - 2] + "_" + attr[attr.length - 1].replace(attr[attr.length - 2], "");
                    if(attr[attr.length - 1].endsWith(attr[attr.length - 2])){
                        fileName = attr[attr.length - 1];
                    }
                    fileName = fileName.replace("_download", "");
                    System.out.println(hrefs.size() + "/" + i.get() + "、find resource: " + href);
                    //确保本地路径存储
                    Path dir = Paths.get(path, type);
                    if (!Files.exists(dir)) {
                        //不存在则新建
                        dir.toFile().mkdirs();
                    }
                    //保存文件的完整本地路径
                    Path out = Paths.get(path, type, fileName);
                    //如果文件存在则表示之前已经下载过,本次不用下载
                    //因为BBC的访问不稳定,所以可能需要执行程序多次才能完整下载完毕,所以这里要处理已存在文件的问题
                    if (!Files.exists(out)) {
                        //下载文件
                        Connection.Response response = Jsoup.connect(href).maxBodySize(0).ignoreContentType(true).timeout(timeout).execute();
                        //将文件保存到本地
                        Files.write(out, response.bodyAsBytes());
                        System.out.println(hrefs.size() + "/" + i.get() + "、save resource to: " + out);
                    } else {
                        System.out.println(hrefs.size() + "/" + i.get() + "、resource exist, don't need to download");
                    }
                    i.incrementAndGet();
                    success = true;
                } catch (Exception e) {
                    System.out.println(e.getMessage()+" retry...");
                }
            }
        });
    }
}

 

 

代码也可以从我的开源项目HtmlExtractor中获取。

对于不会写程序只想学英语的同学可以从我的百度网盘直接下载。

 

 

 

 

 

3
1
分享到:
评论
1 楼 flnixlee 2016-03-12  
杨哥的分享的自动下载的视频很实用
想请教下:像百度网盘中
http://pan.baidu.com/s/1i33WzrB
这样需要点击下载才能下的视频该如何修改代码?

相关推荐

    BBC learning English-_housewife

    描述中的 "BBC learning English _housewife" 似乎没有提供额外的具体信息,但我们可以推测,课程内容可能涵盖了与家庭生活、购物、烹饪、家务管理等相关的词汇、短语和对话场景。 标签 "BBC learning English" ...

    BBC learning English-about revision

    BBC learning English-about revision

    BBC learning English-about drinking

    《BBC Learning English - About Drinking》是一系列专门探讨英语中与饮酒相关的词汇、表达和文化背景的教育资源。这个学习资源旨在帮助英语学习者更好地理解和运用在谈论饮酒时的地道英语,从而提升他们的语言交际...

    BBC learning English-internet shopping

    BBC learning English-internet shopping

    BBC English word

    其次,对于口语训练,BBC可能提供了一系列对话或访谈节目,例如“6 Minute English”或“Learning English TV”。这些节目通常涉及日常生活话题,旨在帮助学习者在实际情境中应用英语。通过模仿对话中的表达方式、...

    BBC-LEARNING-ENGLISH

    英国广播公司学习英语

    2020年高中英语Unit2Workingtheland单元质量评估检测卷新人教版必修4

    在线英语听力资源如English Listening Lesson Library Online (ELLLO)和BBC Learning English提供了丰富的音频和视频材料,覆盖各种话题,适合不同年龄和水平的学习者。学生可以按照自己的进度进行练习,并且可以...

    国家开放大学(电大)人文英语1形考任务6.docx

    2. **BBC Learning English**:提供丰富的音频和视频资料,适合各个级别的学习者。 3. **Coursera/edX**:这两个平台提供了由世界顶尖大学开设的在线英语课程,涵盖从初级到高级的多个层次。 4. **Reddit’s r/...

    英耐企业英语培训介绍.pdf

    混合学习进一步细分为不同的组合,比如在线学习加上导师辅导(E-Learning + Tutor Coaching),在线学习加上沙龙课程(E-Learning + Salon Class),以及在线学习结合电话课程(E-Learning + Phone Calling Course)。...

    很好英语学习网站大家看看

    9. 其他如 Comenius 免费网上学校、在线英语学习网站如 UCLA 的英语在线课程、NLL 英语在线学习等,提供系统化的在线课程,适合有特定需求或希望按部就班学习的人。 英语听力部分,有专门的 ESL 实验室如 Randall ...

    非常多的英语学习网站,非常强大,你们该下了

    所有的英语学习网站,强大极了…… http://bt.btchina.net/wwenglish/下载(BT) ...成语字典 http://www.english-zone.com/idioms/dictionary.html ...BBC learning English ………… ………… …………

    福建省永春第七中学2021-2021学年八年级英语下学期第一次月考试题仁爱版.pdf

    英语学习资源 ...* 英语学习网站:BBC Learning English、English Central等 * 英语学习书籍:《英语学习大全》、《英语语法大全》等 * 英语学习社区:English language learners、English Speaking Practice等

    兖州市高二英语上学期期中试题(扫描版)(2021-2022学年).pdf

    至于英语学习,除了纸质或PDF形式的试题,还可以利用在线资源如Duolingo、BBC Learning English、Khan Academy等提升语言技能。这些平台提供互动练习、视频教程、听力训练等多种学习方式,有助于提高听、说、读、写...

    english

    订阅英语学习频道,如BBC Learning English、EngVid等,获取专业指导。 7. 考试准备:对于有特定目标的学习者,如准备托福、雅思、GRE等国际考试,需要了解其考试结构,针对性地进行复习。熟悉题型,进行模拟练习,...

    英语学习网站

    BBC English是英国广播公司(BBC)提供的英语学习资源,涵盖了听力、阅读、写作和口语等多方面技能的提升。其内容丰富,包括新闻、文化节目、语言课程和练习题,适合不同层次的学习者。 #### LearnEnglish British ...

    2016四级第一套作文范文.docx

    - **英语学习网站**:浏览如BBC Learning English、VOA Learning English等网站,学习地道的表达方式和句型结构。 #### 3. 数字化模拟练习 随着信息技术的发展,越来越多的数字化模拟练习软件被开发出来,帮助考生...

    高一英语一单元作文.docx

    同时,互联网上有大量的英语作文范例和写作指导,如BBC Learning English等网站,学生可以通过这些资源学习不同的写作技巧和风格。 在描述中的海滩经历,可以作为写作练习的生动素材。记叙文是英语作文的一种常见...

    信息化视角下小学英语语用教学探究.docx

    1. **听力与阅读**:推荐学生访问BBC Learning English等网站,观看英语教学视频,既提高了听力水平,又增强了阅读理解能力。 2. **阅读**:教会学生使用搜索引擎寻找合适的英语文章,通过翻译软件辅助理解,逐渐...

    四级英语听力

    - 当今互联网上有许多优质的英语学习资源,如BBC Learning English、VOA Special English等,这些都是很好的听力练习平台。 8. **制定学习计划** - 设定明确的学习目标,并制定合理的计划。例如,每天至少花半...

    真棒:为在公共领域准备雅思考试的学生提供的真棒清单(正在进行中)

    - **BBC Learning English** 提供各种新闻和对话材料,帮助考生熟悉不同口音和语速。 - **TED Talks** 涵盖多种主题,是提升听力理解的好去处,同时也能了解多元文化背景。 2. **阅读理解** - **The Guardian** ...

Global site tag (gtag.js) - Google Analytics