`
lan13217
  • 浏览: 500186 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

jsouptest

 
阅读更多
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class T {

	/**
	 * @param args
	 * @throws IOException 
	 */
	public static void main(String[] args) throws IOException {
		Document doc = Jsoup.connect("http://www.xxxx.net/new/new_1.htm")
		  .get();
		  //.data("query", "Java")
		  //.userAgent("Mozilla")
		  //.cookie("auth", "token")
		  //.timeout(3000)
		  //.post();
		Elements resultLinks = doc.select("div.main_l_l"); 
		for(Element e:resultLinks){
			Elements tresultLinks = e.select("div.list_body a");
			for(Element te:tresultLinks){
				String href=te.attr("href");
				System.out.println("Start:"+href);
				Document art = Jsoup.connect(href)
				  .get();
				String title = art.select("h1").get(0).html();
				String content = art.select("#art_content").get(0).html();

				Pattern pattern = Pattern.compile("(?si)<!--NEWSZW_HZH_BEGIN-->(.+?)<!--NEWSZW_HZH_END-->");
				Matcher m = pattern.matcher(content);
				while (m.find()) {
					content=m.group(1);
				}
				System.out.println("*************title********************");
				System.out.println(title);
				System.out.println("*************content********************");
				System.out.println(content);

			}
		}
	}
}
分享到:
评论

相关推荐

    jsoupTest.java

    &lt;groupId&gt;org.apache.poi &lt;artifactId&gt;poi &lt;version&gt;3.17 &lt;groupId&gt;org.apache.poi &lt;artifactId&gt;poi-ooxml &lt;version&gt;3.15 &lt;groupId&gt;org.jsoup ...通过jsoup爬虫获取数据,导出文件

    jsoup+httpclient j简单爬虫

    通过这个名为 "jsoupTest" 的项目,你可以进一步实践上述概念,编写一个简单的爬虫程序,抓取指定网页的数据,然后使用 JSoup 进行解析。这个过程可以帮助你更好地理解和掌握这两种库的使用方法,为更复杂的网络爬虫...

    java使用Jsoup连接网站超时的解决方法

    package jsoupTest; import java.io.IOException; import org.jsoup.*; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements;...

    scrapping:用于在 Java 中进行报废的不同框架

    Maven 3 + JUnit + Jsoup + HTMLUnit + HTMLParser汤( ) 参见: com.aj.scrapping.test.JsoupTest.javaHTML单元( ) 参见: com.aj.scrapping.test.HTMLUnitTest.javaHTML解析器( ) 参见: ...

Global site tag (gtag.js) - Google Analytics