最新文章列表

谈谈html页面的解析(一)

如今,互联网上的信息越来越多,互联网的信息已经成为一个越来越大的矿山,这个里面有黄金也有垃圾,我们坐在这个矿山上,如何挖掘其中的金子,已经越来越受到重视,而这个挖掘过程的第一步就是需要将这些非结构化的数据转变为结构化的数据。最简单的搜索的爬虫需要这种转变,由WEB到WAP的转码需要这种转变,WEB数据的应用也需要这种转变。 我们通过浏览器所看到的页面信息,是由包含了很多的页面元素组装在一起的,其中 ...
jianfeihit 评论(0) 有10654人浏览 2012-09-04 22:45

JSoup 用法详解

  清单 1 // 直接从字符串中输入 HTML 文档 String html = "<html><head><title> 开源中国社区 </title></head>" + "<body><p> 这里是 jsoup 项目的相关文章 </p&g ...
chen106106 评论(0) 有2619人浏览 2012-09-01 16:44

jsoup解析html基础

我用的是jsoup-1.6.3 jar 这个jar不需要别的jar包 //直接加载url Document docs = Jsoup.connect("http://www.apache.org").get(); //获得body Element body=docs.body(); ...
liuzejian4 评论(0) 有1201人浏览 2012-08-08 23:14

2b公交抓取程序,第一版(JAVA)

import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.E ...
soulwzy 评论(0) 有1277人浏览 2012-08-07 11:03

使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用

  在线演示   本地下载   如果你曾经开发过内容聚合类网站的话,使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用java 的话,我们都会使用到一些HTML的解析,例如,httpparser,最早gbin1.com 的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果,并且整合呈现给搜索用户,这也就是G ...
jjfat 评论(0) 有870人浏览 2012-07-20 21:36

使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用

日期:2012-7-20  来源:GBin1.com 在线演示   本地下载 如果你曾经开发过内容聚合类网站的话,使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用java 的话,我们都会使用到一些HTML的解析,例如,httpparser,最早gbin1.com 的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果 ...
tyygming 评论(0) 有1053人浏览 2012-07-20 11:21

解析HTML工具Jsoup的封装类

自己封装了使用jsoup解析HTML文件的封装工具类,欢迎大家多提点意见。 package util; import java.io.File; import java.io.IOException; import java.util.regex.Pattern; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import o ...
will_akazam 评论(0) 有3396人浏览 2012-07-18 16:24

jsoup很好很强大 对html解析{待续正在学}

http://www.open-open.com/jsoup/ Document doc = Jsoup.connect("http://example.com/").get(); String title = doc.title(); ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Document doc = ...
zmx955 评论(0) 有1001人浏览 2012-07-16 14:12

jsoup 简介

  jsoup 简介 jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 的主要功能如下: 1. 从一个 URL,文件或字符串中解析 HTML; 2. 使用 DOM 或 CSS 选择器来查找、取出数据;
晨必须的 评论(0) 有15200人浏览 2012-06-01 13:02

Jsoup的简单应用

昨天在网上百度看到一个提问:http://zhidao.baidu.com/question/423488719.html?fr=uc_push&push=ql&oldq=1(题目内容是用jsoup抓取这个网站的信息并输出Free一栏中排名上升度大于30的游戏名) 因为刚看了Jsoup,所以就拿过来做了一下,源代码如下(仅供参考,如果有什么不对的地方,欢迎指正)     im ...
joyocaowei 评论(0) 有4623人浏览 2012-05-18 19:20

抓取时网址不完整补全处理

/** * 将不完整的网址转换成完整网址 * <pre> * example: * sourceUrl = "http://www.wed114.cn/jiehun/shishanghunli/hunlicehua/"; * toConvertUrl = "/jiehun/shishanghunli/hunlicehua/2 ...
chtx87_98 评论(0) 有1139人浏览 2012-04-16 17:24

Jsoup抓取

1.下载Jsoup核心库   地址: http://jsoup.org/download  
chtx87_98 评论(0) 有1269人浏览 2012-04-16 17:04

jsoup 取json值

  //json页面返回格式{"data":{"blogs":[{"albid":865218,"id":12323,..... org.json.JSONObject   //返回多个json里面的id值     public static List  findimgCrawIdList(String url ...
ykdn2010 评论(0) 有14822人浏览 2012-04-07 17:17

jsoup解析网页

   jsoup功能很强大,我用它来解析网页很轻松。但我只用了它一小部分功能,已经足矣。现在是我解析百度的一个小示例   package top100.bis; import java.io.IOException; import java.net.MalformedURLException; import java.util.ArrayList; import java.util.H ...
hzywy 评论(0) 有4442人浏览 2012-03-31 09:24

jsoup从巨鲸批量下载迈克杰克逊的MP3歌曲

jsoup下载地址 http://www.jsoup.org   package jsoup; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; i ...
you_java 评论(0) 有1942人浏览 2012-03-21 14:13

jsoup httpclient 爬取网页并下载google图标

jsoup下载地址 http://www.jsoup.org httpclient下载地址 http://hc.apache.org/downloads.cgi 其他jar包见附件 package jsoup; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; impo ...
you_java 评论(0) 有5481人浏览 2012-03-21 10:51

jsoup抓取其他网站的页面代码

需要的jar包见http://you-java.iteye.com/blog/1457440   <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <%@ page import=" ...
you_java 评论(0) 有1702人浏览 2012-03-19 15:29

HttpClient根据jsoup解析网页

package jsoup; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.clie ...
you_java 评论(0) 有6467人浏览 2012-03-19 12:30

jsoup select 选择器

File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); Elements links = doc.select("a[href]" ...
jsczxy2 评论(3) 有2910人浏览 2012-01-29 22:17

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics