jsoup抓取起点小说 - - ITeye博客

`

liuzejian4

浏览: 59127 次
性别:
来自: 西安

最近访客更多访客>>

supermanxm_002

ringphone

zjie20723

liupingtoday

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

donghang：怎么才算破解成功，我的破解后还有提示，感觉好象没有起作用，能贴 ...
MyEclipse9版本的破解方法

jsoup抓取起点小说

博客分类：

jsoup解析html

阅读更多

public class JsoupQidian {
    public static void main(String[] args){

        try {
            //直接加载url
            Document docs = Jsoup.connect("http://www.qidian.com/BookReader/2372415.aspx").get();

            //获得body
            Element body=docs.body();

            //通过类jquery 选择器选中html元素
            Elements ls= body.getElementsByTag("a");//select(".grid_3:contains(ActiveMQ) ");
            // 遍历元素
             for (Element el :ls){
                   String title=el.attr("title");
                  if(title != null && title.startsWith("字数：")){
                     System.out.println("http://www.qidian.com/"+el.attr("href"));
                      try {
                          Thread.sleep(5000);
                      } catch (InterruptedException e) {
                          e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates.
                      }
                      Document temdoc = Jsoup.connect("http://www.qidian.com/"+el.attr("href")).get();
                          System.out.println(temdoc.body().text());
                  }
             }
        } catch (IOException e) {
            e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates.
        }
    }
}

程序是没问题的，但是起点做了防抓取检测，明天我会尝试结合httpclient抓取起点内容

分享到：

修改了下，不过不是很的方式 | jsoup解析html基础

2012-08-09 23:10
浏览 1414
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Jsoup爬笔趣阁小说: 使用JDBC驱动，我们可以将Jsoup抓取到的信息插入到数据库中。例如，`Statement stmt = conn.createStatement(); stmt.executeUpdate("INSERT INTO novels (title, author) VALUES (?, ?)", title, author);`这段代码...

jsoup网页爬虫小案例: 总的来说，Jsoup提供了一个直观的接口，使得Java开发者能够高效地进行网页抓取和数据提取。通过学习和实践这个"jsoup网页爬虫小案例"，你将能够掌握如何利用Jsoup创建自己的爬虫项目，为日后的数据挖掘和分析打下...

爬虫实例(jsoup).zip: 对于想要学习爬虫技术的Java开发者来说，这是一个理想的起点，可以让你了解爬虫的基本工作原理，同时掌握jsoup的使用方法。【压缩包子文件的文件名称列表】"reptile2"可能是项目的源代码文件夹，其中可能包含主...

JsoupDemo可运行的完整工程: JsoupDemo项目是一个很好的起点，用于学习和实践使用Jsoup进行网页抓取和解析。通过理解Jsoup的核心功能，如HTML解析、CSS选择器和链接提取，开发者可以轻松构建自己的网页抓取工具，满足各种数据提取需求。此外，...

Java 爬虫jsoup简单的demo: 这个例子展示了如何使用Jsoup抓取网页链接，以及如何使用EasyExcel将数据写入Excel文件的不同工作表。这只是Java爬虫和数据处理的一个起点，实际应用中可能需要处理更复杂的逻辑，如登录、分页、反爬虫策略等。同时...

jsoup示例-爬取广西师大首页信息: **Jsoup：网页抓取与解析利器** Jsoup是一个用于处理真实世界HTML的Java库。它提供了非常方便的API，用于提取和操作数据，使用DOM、CSS以及类似于jQuery的方法。在本示例中，我们将深入探讨如何使用Jsoup来爬取广西...

java基于jsoup+mongodb的简单爬虫入门程序: 总结，本教程的"Spider1"项目是一个基础的Java爬虫示例，它结合了Jsoup的HTML解析能力和MongoDB的数据存储功能，为初学者提供了一个实践爬虫技术的起点。通过这个项目，你可以了解到如何从网页中抓取数据，如何处理...

agriculture_jsoup数据爬取示例_: 在这个“agriculture_jsoup数据爬取示例”中，我们将探讨如何利用Jsoup库来抓取猪易通网站上的数据并将其存储到本地数据库。 Jsoup是一个Java库，它提供了一个简单、方便的方式来解析HTML文档，提取和操作数据。它...

Java爬虫示例：实现信息抓取的完整源码+爬虫示例源码: 项目描述：本项目是一个基于Java编写的网络爬虫，旨在实现对指定网页的信息抓取。...这个爬虫示例对于需要快速搭建简单爬虫的开发者来说是一个很好的起点，也可以作为学习Java网络编程和数据抓取的实用案例。

jsoup-zoom-example: - `ZoomExample.java`：主要示例类，演示了如何使用Jsoup抓取和操作HTML。 3. `src/main/resources`：资源文件目录，可能包含配置文件或其他静态资源。 4. `README.md`：项目说明文件，提供项目背景、使用方法和...

起点爬虫: 6. **爬虫框架**：为了简化开发，有许多现成的爬虫框架可供使用，如Python的Scrapy、Java的Jsoup等。它们提供了完整的架构和工具集，帮助开发者快速实现功能。在"起点爬虫"中，可能包含了以下内容： - **源码示例...

抓取网页信息程序，并下载下来: 总的来说，这个程序提供了一种自动获取和下载网页信息的方法，对于学习和实践网页抓取技术的人来说，是一个很好的起点。不过，使用者应该具备一定的编程和网络知识，理解其工作原理，以确保合法且有效地使用。

网页爬虫自动抓取网页内容: 1. **种子URL**：爬虫的起点通常是一些初始的网址（种子URL），这些URL包含用户希望抓取信息的网页。 2. **HTTP请求**：爬虫通过发送HTTP或HTTPS请求到服务器来获取网页内容。这涉及到HTTP方法如GET和POST，以及...

一个可以抓取网页特定内容的爬虫: 这个简单的网络爬虫项目是一个很好的起点，它展示了如何使用Java和Jsoup库进行网页数据抓取。通过这样的项目，学生可以学习到网络爬虫的基本工作流程，为更复杂的爬虫开发打下基础。同时，它也展示了如何通过编程...

轻松上手Java爬虫：CSDN文章抓取与整理.zip: 在本压缩包中，你将找到一个Java实现的CSDN文章抓取与整理的项目，这将是一个很好的起点来学习和实践Java爬虫技术。首先，了解Java爬虫的基础是必不可少的。Java作为一种流行的编程语言，拥有强大的网络处理库，如...

WebMagic 抓取CSDN博客、并打印: `Spider`是整个流程的起点，它负责启动爬虫并调度任务；`PageProcessor`处理抓取到的页面，提取所需数据；`Downloader`下载网页内容；`Scheduler`管理待抓取的URL队列。 1. **创建Spider** 要抓取CSDN博客，首先...

很简易的java爬虫可以爬取携程的航班数据.rar: 通过阅读源码，我们可以看到如何初始化jsoup连接，如何设置请求头以模拟浏览器行为，以及如何解析和存储抓取到的航班信息。总结来说，这个Java爬虫项目为我们提供了一个学习和实践网络爬虫技术，特别是使用jsoup...

jSoupDemo:这使用jSoup html解析Playstore页面以检索应用程序的类别: **jSoupDemo项目详解** `jSoupDemo` 是一个基于Java的项目，它利用了`jSoup`这个强大的HTML解析库来抓取Google Play商店...这个项目对于那些想要从事Web数据挖掘、内容抓取或数据分析的人来说，是一个极好的实践起点。

OurUMDParser:刮板使用jsoup从ourumd.com检索GradeProfessor评分数据: 总之，OurUMDParser是一个很好的示例，展示了如何利用Java和jsoup库进行Web数据抓取。对于想要学习网络爬虫技术或对教育领域数据分析感兴趣的开发者来说，这是一个很好的起点。通过深入研究和理解这个项目，不仅可以...

一个java写的爬虫Demo，可以抓取果壳网的果壳问答栏目中的首页标题，注释详细，供参考。: Java爬虫程序是一种用于自动化网页数据抓取的工具，它能高效地遍历网页并提取所需信息。在这个特定的案例中，...对于希望学习网络爬虫技术的人来说，这是一个很好的起点，能够帮助他们逐步掌握网络爬虫的基本技能。

Global site tag (gtag.js) - Google Analytics