我要抓取的页面的完整路径为:http://www.google.cn/language_tools?hl=zh-CN
String strServer="www.google.cn";//这里同样可以用ip来访问:203.208.35.100
String strPage="/language_tools?hl=zh-CN";
try {
String hostname = strServer;
int port = 80;
InetAddress addr = InetAddress.getByName(hostname);
Socket socket = new Socket(addr, port);
BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF8"));
wr.write("GET " + strPage + " HTTP/1.0"r"n");
wr.write("HOST:" + strServer + ""r"n");
wr.write(""r"n");
wr.flush();
BufferedReader rd = new BufferedReader(new InputStreamReader(socket.getInputStream()));
String line;
while ((line = rd.readLine()) != null) {
System.out.println(line);
}
wr.close();
rd.close();
} catch (Exception e) {
System.out.println(e.toString());
}
分享到:
相关推荐
### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...
这段代码会抓取页面上所有链接的`href`属性。 接下来,我们转向**抓取网页JS返回数据**。许多现代网页使用Ajax技术动态加载数据,这些数据通常不会出现在原始HTML中,而是通过JavaScript执行后生成。为了抓取这类...
java抓取网页数据,主要用于抓取手机号和身份证查询网站的数据。
java抓取网页源码介绍 LDSpider项目为关联数据网络提供了一个网络爬行框架。 爬取关联数据网络的要求和挑战不同于常规的网络爬行,因此 LDSpider 项目提供了一个网络爬虫,适用于从关联数据网络中遍历和收集内容。 ...
这个"java网页抓取demo"项目提供了实现这一功能的实例代码。项目中的jar包是实现网页抓取的关键依赖库,包括Apache Commons Logging和HTTP Client。 Apache Commons Logging是Java的日志记录工具,它为应用程序提供...
【描述】"amazon上货抓取关键词的工具源代码,在淘宝上卖过的现在开源出来给需要的人"表明该工具曾作为商业产品在淘宝平台上出售,而现在开发者决定将其开源,为更多有需要的用户提供服务。开源软件通常促进了技术的...
Java中的`HttpURLConnection`或`HttpClient`库可以用来发送HTTP请求,获取网页的HTML源代码。接着,我们可以利用解析库,如Jsoup,来解析HTML,提取所需信息。 1. **发送HTTP请求**: - 使用`HttpURLConnection`:...
10. **网页结构分析**:理解HTML和DOM结构,学会使用开发者工具分析网页源码,定位目标数据所在的元素,这对于编写抓取规则至关重要。 以上是Java网页抓取数据的基本知识框架,实践中还需要根据具体需求和目标网站...
在提供的"WebCrawler"压缩包文件中,很可能包含了实现这些功能的源代码,包括使用HttpClient进行网络请求,用Jsoup解析HTML,以及可能的JDBC数据库操作。通过研究这个项目,你可以深入了解Java网络爬虫的实现细节,...
import java.io.DataInputStream; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; public class UrlHtml { @SuppressWarnings("deprecation") public ...
总结,"java 新浪网易搜狐新闻抓取源码"项目展示了如何使用Java和HTMLParser库来实现新闻数据的抓取和处理。通过学习和实践这样的项目,开发者不仅可以掌握网页抓取的基本技能,还能深入理解HTTP协议、HTML解析以及...
通过学习这个实例源码,开发者不仅可以掌握基础的网页抓取技术,还能了解到如何结合Java标准库和第三方库来提升效率和准确性。在实际应用中,还需要注意处理异常、设置超时、控制爬虫速度,以及可能需要的分布式爬虫...
java根据自定义json格式规则抓取新浪新闻、百度新闻、微博动态内容的网络爬虫源码 例子中的源码功能: 导入Hbase的jar包即可直接返回Put对象数据、可以返回map对象数据、支持自定义json格式抓取指定网页的内容、抓取...
标题 "java抓取网页源码gzip-phproxy" 暗示了我们正在讨论一个使用Java进行Web抓取,并处理GZIP压缩的项目,而“PHP中的代理”则可能指的是使用PHP构建的代理服务器。这个项目可能涉及到如何通过Java从通过PHP代理...
Java爬虫WebMagic是开发者常用来抓取网页数据的一个强大工具,尤其对于处理静态页面,它的易用性和灵活性使得在Java开发环境中非常受欢迎。WebMagic的设计理念是模块化,这使得我们可以灵活地组合各个组件来实现不同...
Java爬虫是一个强大的工具,用于自动化地从互联网上获取数据,尤其在大数据分析、网站监控和内容抓取等领域中有着广泛的应用。在这个Java爬虫实例中,我们将深入探讨其核心概念和技术,帮助你理解如何使用Java来编写...
Java语言在IT领域中广泛应用于各种场景,其中就包括网页数据的抓取。在这个项目中,我们使用Java来实现一个基于JSON规则的网页内容抓取器,这为应对网页结构变动提供了灵活性。JSON(JavaScript Object Notation)...
"jsp网页抓取天气预报源代码" 这个标题表明这是一个与Java Server Pages(JSP)相关的项目,目标是实现从网页上抓取天气预报信息的功能。JSP是一种动态网页技术,允许开发者在HTML页面中嵌入Java代码来处理服务器端...
[搜索链接]Java网页蜘蛛抓取系统源码