本想实现直接分析任意一个链接地址,如果该站点是文章则只抓取文章,不是文章则只抓取标题和描述信息,但找了很多相关资料,本人能力有限,看了很多砖家写的什么算法也是瞎扯淡,干脆简单的实现标题和表述的抓取,这个很简单,本不想贴在此,但怕以后要用,好找点,先先记录在此:
package com.jyeba.core.html;
public class HtmlInfo {
private String title;
private String desc;
public void setTitle(String title) {
this.title = title;
}
public String getTitle() {
return title;
}
public void setDesc(String desc) {
this.desc = desc;
}
public String getDesc() {
return desc;
}
}
抓取工具类
package com.jyeba.core.html;
public class HtmlTools {
public static HtmlInfo getHtmlInfo(String url) throws IOException {
HtmlInfo html = new HtmlInfo();
Document doc = Jsoup.connect(url)
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(6000)
.get();
Elements e = doc.select("title");
if (e.size() > 0) {
System.out.println(e.text());
html.setTitle(e.text());
}
e = doc.select("meta[name=Description]");
if (e.size() > 0) {
System.out.println(e.get(0).attr("content"));
html.setDesc(e.get(0).attr("content"));
}
return html;
}
public static void main(String[] args) throws IOException{
HtmlInfo info=HtmlTools.getHtmlInfo("http://news.qq.com/a/20111017/000091.htm");
}
}
分享到:
相关推荐
对于"网站分类",获取到的标题和描述信息可以作为特征,通过机器学习算法训练模型,实现自动化的网站类别识别。"数据挖掘"则涉及从大量网页信息中发现有价值的知识和模式,分词后的词汇可以作为挖掘的基础单元。而...
本文档主要探讨了基于JAVA技术实现网页内容智能抓取的方法、架构以及核心技术和业务流程。 一、架构 该系统完全基于JAVA开发,体现了JAVA作为一种强大的后端开发语言的优势。其架构主要包括以下几个部分: 1. XML...
项目描述:本项目是一个基于Java编写的网络爬虫,旨在实现对指定网页的信息抓取。通过使用Jsoup库,我们可以轻松地连接到目标网页,并提取出感兴趣的内容,比如网页标题、链接等。该爬虫示例展示了如何获取网页的...
【描述】:本文将介绍如何利用Java的HTML解析器Jsoup实现自动抓取和解析网页内容,特别是对于内容聚合类网站的开发非常有帮助。Jsoup提供了一种类似jQuery的API,能够方便地提取和处理HTML数据。 【标签】:数据库 ...
标题中的“java调用大华摄像头”指的是使用Java编程语言编写代码,通过网络或者直接连接方式与大华摄像头建立联系,执行如视频流获取、图像抓取等操作。这可能涉及到TCP/IP通信协议、RTSP(Real Time Streaming ...
2. **RSS架构**:了解RSS的结构是必要的,包括RSS版本(如RSS 2.0)、频道(channel)、条目(item)、标题(title)、链接(link)、描述(description)等元素。每个RSS feed都有一个频道,频道下包含多个条目,每...
“java抓取图片”则强调了实现这一功能所采用的编程语言,即Java,这是一种广泛应用的、面向对象的编程语言,具有跨平台性和丰富的库支持,适合开发网络爬虫程序。 【详细知识点】: 1. **网络爬虫技术**:网络...
【标题】"抓取开发者头条分享的所有文章"指的是在互联网上使用特定的技术手段,自动收集开发者头条这个平台上的各类文章信息。开发者头条作为一个面向程序员和技术爱好者的资讯平台,提供了丰富的技术文章、博客和...
标题中的“搜索源代码(JAVA实现)”指的是使用Java编程语言实现的搜索引擎的相关代码。这通常涉及到网络爬虫、数据抓取、索引构建、查询处理和结果排序等多个方面。网络爬虫是搜索引擎的重要组成部分,它负责自动...
标题中的“抓取网上信息,抓取人人网院校”指的是网络爬虫技术,特别是针对人人网院校信息的抓取。网络爬虫是一种自动化程序,它按照一定的规则在互联网上遍历网页,抓取所需的数据。在这个场景中,可能是为了获取...
【标题】:“百度贴吧java爬虫” 在编程领域,网络爬虫是一种自动化程序,用于从互联网上抓取大量数据。本项目聚焦于使用Java语言编写一个针对百度贴吧的爬虫,目的是获取用户发布的内容、用户名以及楼层信息。百度...
在本例中,我们关注的标题是“网页抓取例子”,这表明我们将探讨如何实现一个简单的网页抓取程序。描述部分虽然为空,但我们可以从提供的博文链接(https://guoyiqi.iteye.com/blog/735515)中获取更多信息,它可能...
标题中的“图片抓取器”指的是一个专门用于从网页中批量下载图片的软件或工具。这类工具通常能够帮助用户快速、高效地从互联网上获取所需的图片资源,尤其适用于需要大量图片素材的情况,如设计师、摄影师或者网站...
标题中的“基于海康sdk的java程序摄像头实时抓拍图片保存到本地”表明这是一个使用海康威视(Hikvision)提供的SDK进行Java编程的项目,目的是实现通过摄像头实时捕获图像并将其保存到本地计算机的功能。这个项目是...
标题“java获取网页主信息之五:测试”暗示了这是一个关于Java获取网页信息系列教程的第五部分,重点可能放在测试和验证已经实现的代码功能上。在这个阶段,开发者通常会编写单元测试或者集成测试,确保代码能够正确...
【标题】中的“Java网络爬虫(蜘蛛)源码”是指使用Java编程语言实现的网络爬虫程序,这种程序能够自动地在互联网上抓取网页信息。网络爬虫,也称为网页蜘蛛或网络机器人,是互联网上的自动化程序,用于遍历网页并收集...
HTMLParser是一个Java库...通过这份PDF文档的学习,读者应该能够掌握HTMLParser的基本用法,从而实现在Java环境中高效地从网页抓取数据。如果配合实践,理解并熟练运用这些知识,将极大地提升开发者的Web数据处理能力。
【标题】"搜索链接Java网络爬虫(蜘蛛)源码-zhizhu"指的是一个使用Java编程语言编写的网络爬虫程序,其主要功能是抓取网页中的链接信息。网络爬虫,也常被称为“蜘蛛”或“机器人”,是自动化浏览互联网并提取信息的...
标题中的“抓取网页信息程序”指的是一个软件或脚本,其主要功能是通过网络爬虫技术从互联网上获取特定的网页数据。这种程序通常由编程语言如Python、Java或JavaScript编写,它能够自动化地浏览网页,解析HTML或XML...
根据给定文件的标题、描述和部分内容,以下是关于Java技术的搜索引擎研究与实现的详细知识点。 首先,搜索引擎本质上是数据库的一种,具备自动信息搜集和定期搜索这两种工作模式。搜索引擎通常利用所谓的“蜘蛛程序...