`
miaoge
  • 浏览: 109322 次
  • 性别: Icon_minigender_1
  • 来自: 嘉兴
社区版块
存档分类

【URL】检索baidu首页将包含超链接的<a ></a> 打印出来

阅读更多

1.检索baidu首页将包含超链接的<a ></a> 打印出来
(如<a href="
http://news.baidu.com">新&nbsp;闻</a>  这种形式打印)

 

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;

/**
 * @author $KangMiao$
 * 检索百度首页将包含超链接的行打印出来
 * 就是把包含"<a"的行打印出来
 */

public class PrintURLInfo01 {
	private String path;

	public PrintURLInfo01(String path) {
		super();
		this.path = path;
	}
	
	//打印有超链接的url方法
	public void printUrl() {
		try {
			URL url = new URL(path);
			BufferedReader br = new BufferedReader(new InputStreamReader(url
					.openStream()));
			String temp = "",str = "";
			int a = 0,b = 0;
			while ((temp = br.readLine()) != null) {
		//indexOf("",int)带两个参数的,后面参数是指从哪个索引处开始查;这里用while是因为读取的一行中可能包含多个超链接
			   while(temp.indexOf("<a href=",b)!=-1){
				 a = temp.indexOf("<a href=",b+1);
				 b = temp.indexOf("a>",a);
				 str = temp.substring(a, b+2);
				 System.out.println(str);
				}
			 //还原0,表示重新从0索引处开始查找
			   a = 0;  
			   b = 0;
			}
			br.close();
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	public static void main(String[] args) {
		PrintURLInfo01 print = new PrintURLInfo01("http://www.baidu.com");
		print.printUrl();

	}
}

 打印结果如下:

 

<a href="/gaoji/preferences.html">设置</a>
<a href="http://passport.baidu.com/?login&tpl=mn">登录</a>
<a href="http://news.baidu.com">新&nbsp;闻</a>
<a href="http://tieba.baidu.com">贴&nbsp;吧</a>
<a href="http://zhidao.baidu.com">知&nbsp;道</a>
<a href="http://mp3.baidu.com">MP3</a>
<a href="http://image.baidu.com">图&nbsp;片</a>
<a href="http://video.baidu.com">视&nbsp;频</a>
<a href="http://map.baidu.com">地&nbsp;图</a>
<a href="#" name="ime_hw">手写</a>
<a href="#" name="ime_py">拼音</a>
<a href="#" name="ime_cl">关闭</a>
<a href="http://hi.baidu.com">空间</a>
<a href="http://baike.baidu.com">百科</a>
<a href="http://www.hao123.com">hao123</a>
<a href="/more/">更多&gt;&gt;</a>
<a href="http://e.baidu.com/?refer=888">加入百度推广</a>
<a href="http://top.baidu.com">搜索风云榜</a>
<a href="http://home.baidu.com">关于百度</a>
<a href="http://ir.baidu.com">About Baidu</a>
<a href="/duty/">使用百度前必读</a>
<a href="http://www.miibeian.gov.cn" target="_blank">京ICP证030173号</a>

分享到:
评论

相关推荐

    计算机网络-应用层其他典型应用课件.pptx

    URL是万维网中每个资源的唯一标识,其格式为:&lt;协议&gt;://&lt;主机&gt;:&lt;端口&gt;/&lt;路径&gt;。例如,https://mooc.icve.com.cn/courseList.html,其中`https`代表协议,`mooc.icve.com.cn`是主机,`courseList.html`是路径。URL不...

    谈网站的优化与推广策略.pptx

    3. **&lt;Title&gt;标签优化**:&lt;Title&gt;应简洁明了,包含主要关键词,每个页面的&lt;Title&gt;应独特且相关。 4. **&lt;De***ion&gt;标签优化**:提供简洁、吸引人的网页描述,包含关键词,同时保证语言流畅。 此外,持续监控网站...

    IE Scan实验

    4. **查找信息**:在搜索引擎如百度中输入关键词(例如“电子商务”),点击搜索,获取相关结果,通过超链接跳转至相关网站。 5. **网上漫游**:通过超链接进行页面间的跳转,当鼠标指针变成手形时,表示当前位置有...

    2017山东省高中信息技术学业水平考试真题.pdf

    这些题目涵盖了信息技术的基础知识,包括网络架构、网络应用、搜索引擎类型、文件格式、网络协议、信息检索、数据编码、网页交互、文件传输协议(FTP)、网址结构以及办公软件的使用等多个方面。下面是针对每个问题...

    高职单招信息技术模拟考试题.doc

    包括信息的概念、信息的特征、信息载体、信息技术的组成部分、移动通信技术、现代通信技术的应用、数据采集、信息来源分类、URL路径、搜索引擎类型、网络信息检索工具、文件类型、网页保存方法、图片下载方式、文件...

    大数据爬虫大数据爬虫服务平台.pdf

    爬虫通过网页中的超链接信息遍历整个网络,其工作流程包括:选择种子URL,放入待抓取队列,依次下载网页,解析链接获取新URL,重复此过程,直至遍历完所有目标网页或达到预设条件。一般采用广度优先搜索算法,以避免...

    知识图谱 概念与技术 第5章:百科图谱构建.pdf

    知识图谱是现代信息技术中的一个重要概念,它是一种结构化的知识表示形式,用于存储、组织和检索大量信息。在第5章“百科图谱构建”中,我们深入探讨了如何从百科类网站中构建知识图谱。 百科图谱,顾名思义,是从...

    搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述

    搜索引擎是互联网上用于信息检索的重要工具,通过特定的算法和数据处理,帮助用户在海量的网页中找到所需的内容。搜索引擎的主要工作流程包括抓取网页、处理网页和提供检索服务。 1. 抓取网页:搜索引擎使用蜘蛛...

    网络爬虫技术

    网络爬虫通常由搜索器、检索器、索引器和用户接口等四部分组成,其中网络爬虫扮演搜索器的角色,负责从互联网上抓取网页。 1. 网络爬虫的基本概念 网络爬虫,又称网页蜘蛛、网络机器人或网页追逐者,是一个自动化...

    搜索引擎原理介绍与分析.pdf

    Crawler是一种自动化的程序,负责从预设的URL列表开始,自动访问网页并提取超链接信息,不断扩展URL列表以访问更多的网站。收集到的数据存储在数据库中,通过特定算法处理后,当用户输入查询词时,搜索引擎会快速...

    搜索引擎的工作流程和原理.pdf

    爬虫通过超链接发现新页面,形成一个URL集合,并不断更新和扩展。抓取策略有深度优先和宽度优先两种,大型搜索引擎如百度可能采用更复杂的方法,考虑域名权重和服务器分布等因素。 其次,预处理阶段是搜索引擎技术...

    网络学院计算机网络答案

    - **主页**:通常指的是网站的第一个展示页面,也称为首页。 - **DNS (Domain Name System)**:域名系统,用于将人类可读的域名转换成计算机可识别的IP地址。 - **HTTP (Hypertext Transfer Protocol)**:超文本传输...

    搜索引擎ppt及其在编程中的实现

    5. **倒排索引**:这是搜索引擎的核心数据结构,它将每个单词与包含该单词的文档关联起来,允许快速定位到包含特定查询词的文档。构建倒排索引涉及到分词、去除停用词、词干化等步骤。 6. **搜索算法**:查询处理...

    计算机网络基础及应用-Internet应用教案.pdf

    例如,使用`intitle`可以在网页标题中限定搜索范围,`site`可以限定在特定网站内搜索,`inurl`则用于在URL中寻找特定词汇。精确匹配可以通过双引号或书名号实现,这样可以确保搜索结果与输入的词组完全一致。 接...

    网络爬虫外文翻译参考文献.docx

    网络爬虫是一种自动化工具,用于从互联网上抓取和检索信息。随着互联网的快速发展,信息量呈爆炸性增长,网络爬虫成为了一种高效的数据采集手段。它不仅被广泛应用于搜索引擎,还在市场调研、数据分析等领域发挥着...

    龙蛛搜索引擎 v2.0

    网络蜘蛛是一种自动化程序,它从用户设定的起始URL出发,遵循超链接遍历互联网上的网页,抓取网页内容并存储到本地。在这个过程中,"龙蛛搜索引擎 v2.0" 利用了.NET框架的强大性能,能够处理大规模的网页数据,即使...

    UniGUI集合说明

    - **确保所有依赖项已包含**:在发布之前检查所有必要的库和资源文件均已包含在内。 - **编译程序**:确保程序已成功编译为EXE文件。 - **创建安装程序**:使用合适的安装程序制作工具来打包程序。 - **测试发布**:...

    基于关键词提炼的搜索引擎优化方案.pdf

    它们遵循网页间的超链接,发现新的网页并将其内容抓取到服务器。爬虫的效率和覆盖范围直接影响搜索引擎的索引质量和全面性。 2. **索引**:抓取的网页内容经过分析和处理,提取出关键词和其他重要信息,形成索引...

Global site tag (gtag.js) - Google Analytics