链接分享的java实现（抓取标题和描述信息） - 悍匪 - ITeye博客

`

ybhanxiao

浏览: 115252 次
性别:
来自: 成都

最近访客更多访客>>

JKxiaoxing

xiaojianliang

wyf3628035

li346985170

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

链接分享的java实现（抓取标题和描述信息）

阅读更多

本想实现直接分析任意一个链接地址，如果该站点是文章则只抓取文章，不是文章则只抓取标题和描述信息，但找了很多相关资料，本人能力有限，看了很多砖家写的什么算法也是瞎扯淡，干脆简单的实现标题和表述的抓取，这个很简单，本不想贴在此，但怕以后要用，好找点，先先记录在此：

package com.jyeba.core.html;

public class HtmlInfo {
private String title;
private String desc;
public void setTitle(String title) {
this.title = title;
}
public String getTitle() {
return title;
}
public void setDesc(String desc) {
this.desc = desc;
}
public String getDesc() {
return desc;
}

}

抓取工具类
package com.jyeba.core.html;



public class HtmlTools {
public static HtmlInfo getHtmlInfo(String url) throws IOException {
HtmlInfo html = new HtmlInfo();

Document doc = Jsoup.connect(url)

.data("query", "Java")

.userAgent("Mozilla")

.cookie("auth", "token")

.timeout(6000)

.get();

Elements e = doc.select("title");
if (e.size() > 0) {

System.out.println(e.text());
html.setTitle(e.text());
}

e = doc.select("meta[name=Description]");
if (e.size() > 0) {
System.out.println(e.get(0).attr("content"));
html.setDesc(e.get(0).attr("content"));
}

return html;

}
public static void main(String[] args) throws IOException{
HtmlInfo info=HtmlTools.getHtmlInfo("http://news.qq.com/a/20111017/000091.htm");

}
}

分享到：

仿微博抓取视频网站，支持优酷/土豆/酷6/ ... | 博客导入及新闻订阅java实现（解析rss）

2011-10-28 13:45
浏览 1422
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

获取网站标题和描述及对相关信息进行分词处理: 对于"网站分类"，获取到的标题和描述信息可以作为特征，通过机器学习算法训练模型，实现自动化的网站类别识别。"数据挖掘"则涉及从大量网页信息中发现有价值的知识和模式，分词后的词汇可以作为挖掘的基础单元。而...

基于JAVA技术的网页内容智能抓取.doc: 本文档主要探讨了基于JAVA技术实现网页内容智能抓取的方法、架构以及核心技术和业务流程。一、架构该系统完全基于JAVA开发，体现了JAVA作为一种强大的后端开发语言的优势。其架构主要包括以下几个部分： 1. XML...

Java爬虫示例：实现信息抓取的完整源码+爬虫示例源码: 项目描述：本项目是一个基于Java编写的网络爬虫，旨在实现对指定网页的信息抓取。通过使用Jsoup库，我们可以轻松地连接到目标网页，并提取出感兴趣的内容，比如网页标题、链接等。该爬虫示例展示了如何获取网页的...

使用java的html解析器实现自动重复抓取任意网站页面.pdf: 【描述】：本文将介绍如何利用Java的HTML解析器Jsoup实现自动抓取和解析网页内容，特别是对于内容聚合类网站的开发非常有帮助。Jsoup提供了一种类似jQuery的API，能够方便地提取和处理HTML数据。【标签】：数据库 ...

java调用大华摄像头: 标题中的“java调用大华摄像头”指的是使用Java编程语言编写代码，通过网络或者直接连接方式与大华摄像头建立联系，执行如视频流获取、图像抓取等操作。这可能涉及到TCP/IP通信协议、RTSP（Real Time Streaming ...

java实现的Rss: 2. **RSS架构**：了解RSS的结构是必要的，包括RSS版本（如RSS 2.0）、频道（channel）、条目（item）、标题（title）、链接（link）、描述（description）等元素。每个RSS feed都有一个频道，频道下包含多个条目，每...

豆瓣美女图片抓取工具java版本: “java抓取图片”则强调了实现这一功能所采用的编程语言，即Java，这是一种广泛应用的、面向对象的编程语言，具有跨平台性和丰富的库支持，适合开发网络爬虫程序。【详细知识点】： 1. **网络爬虫技术**：网络...

抓取开发者头条分享的所有文章: 【标题】"抓取开发者头条分享的所有文章"指的是在互联网上使用特定的技术手段，自动收集开发者头条这个平台上的各类文章信息。开发者头条作为一个面向程序员和技术爱好者的资讯平台，提供了丰富的技术文章、博客和...

搜索源代码（JAVA实现): 标题中的“搜索源代码（JAVA实现)”指的是使用Java编程语言实现的搜索引擎的相关代码。这通常涉及到网络爬虫、数据抓取、索引构建、查询处理和结果排序等多个方面。网络爬虫是搜索引擎的重要组成部分，它负责自动...

抓取网上信息，抓取人人网院校: 标题中的“抓取网上信息，抓取人人网院校”指的是网络爬虫技术，特别是针对人人网院校信息的抓取。网络爬虫是一种自动化程序，它按照一定的规则在互联网上遍历网页，抓取所需的数据。在这个场景中，可能是为了获取...

百度贴吧java爬虫: 【标题】：“百度贴吧java爬虫” 在编程领域，网络爬虫是一种自动化程序，用于从互联网上抓取大量数据。本项目聚焦于使用Java语言编写一个针对百度贴吧的爬虫，目的是获取用户发布的内容、用户名以及楼层信息。百度...

网页抓取例子: 在本例中，我们关注的标题是“网页抓取例子”，这表明我们将探讨如何实现一个简单的网页抓取程序。描述部分虽然为空，但我们可以从提供的博文链接（https://guoyiqi.iteye.com/blog/735515）中获取更多信息，它可能...

图片抓取器: 标题中的“图片抓取器”指的是一个专门用于从网页中批量下载图片的软件或工具。这类工具通常能够帮助用户快速、高效地从互联网上获取所需的图片资源，尤其适用于需要大量图片素材的情况，如设计师、摄影师或者网站...

基于海康sdk的java程序摄像头实时抓拍图片保存到本地.zip: 标题中的“基于海康sdk的java程序摄像头实时抓拍图片保存到本地”表明这是一个使用海康威视（Hikvision）提供的SDK进行Java编程的项目，目的是实现通过摄像头实时捕获图像并将其保存到本地计算机的功能。这个项目是...

java获取网页主信息之五:测试: 标题“java获取网页主信息之五:测试”暗示了这是一个关于Java获取网页信息系列教程的第五部分，重点可能放在测试和验证已经实现的代码功能上。在这个阶段，开发者通常会编写单元测试或者集成测试，确保代码能够正确...

[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar: 【标题】中的“Java网络爬虫(蜘蛛)源码”是指使用Java编程语言实现的网络爬虫程序，这种程序能够自动地在互联网上抓取网页信息。网络爬虫，也称为网页蜘蛛或网络机器人，是互联网上的自动化程序，用于遍历网页并收集...

htmlparser实现从网页上抓取数据.pdf: HTMLParser是一个Java库...通过这份PDF文档的学习，读者应该能够掌握HTMLParser的基本用法，从而实现在Java环境中高效地从网页抓取数据。如果配合实践，理解并熟练运用这些知识，将极大地提升开发者的Web数据处理能力。

搜索链接Java网络爬虫(蜘蛛)源码-zhizhu: 【标题】"搜索链接Java网络爬虫(蜘蛛)源码-zhizhu"指的是一个使用Java编程语言编写的网络爬虫程序，其主要功能是抓取网页中的链接信息。网络爬虫，也常被称为“蜘蛛”或“机器人”，是自动化浏览互联网并提取信息的...

抓取网页信息程序，并下载下来: 标题中的“抓取网页信息程序”指的是一个软件或脚本，其主要功能是通过网络爬虫技术从互联网上获取特定的网页数据。这种程序通常由编程语言如Python、Java或JavaScript编写，它能够自动化地浏览网页，解析HTML或XML...

Java技术的搜索引擎研究与实现.pdf: 根据给定文件的标题、描述和部分内容，以下是关于Java技术的搜索引擎研究与实现的详细知识点。首先，搜索引擎本质上是数据库的一种，具备自动信息搜集和定期搜索这两种工作模式。搜索引擎通常利用所谓的“蜘蛛程序...

Global site tag (gtag.js) - Google Analytics