java 抓取页面源码 - 等着你的出现 - ITeye博客

`

yy_dan

浏览: 65291 次
性别:
来自: 湖南岳阳

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

samuel0818：您好,能请教个问题吗?
java 抓取页面源码
corejava2008： RMI和WebService就是两个不同的东西
RMI跟WebService区别
yinje2005：非常感谢楼主的奉献啊！
cvsnt 设置用户、修改密码
yy_dan：都是些基本的工具类，时间转换，字符串转换，MD5加密等等一些
一些常用的工具类，需要的朋友拿去吧
laorer：楼主该稍微介绍下的
一些常用的工具类，需要的朋友拿去吧

java 抓取页面源码

博客分类：

Java基础

Java Socket Google

阅读更多

我要抓取的页面的完整路径为：http://www.google.cn/language_tools?hl=zh-CN

       String strServer="www.google.cn";//这里同样可以用ip来访问:203.208.35.100

       String strPage="/language_tools?hl=zh-CN";

       try {

           String hostname = strServer;

           int port = 80;

           InetAddress addr = InetAddress.getByName(hostname);

           Socket socket = new Socket(addr, port);

           BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF8"));

           wr.write("GET " + strPage + " HTTP/1.0"r"n");

           wr.write("HOST:" + strServer + ""r"n");

           wr.write(""r"n");

           wr.flush();

           BufferedReader rd = new BufferedReader(new InputStreamReader(socket.getInputStream()));

           String line;

           while ((line = rd.readLine()) != null) {

              System.out.println(line);

           }

           wr.close();

           rd.close();

       } catch (Exception e) {

           System.out.println(e.toString());

       }

分享到：

cvsnt 设置用户、修改密码 | java 定时调用

2008-12-29 09:55
浏览 1685
评论(1)
查看更多

评论

1 楼 samuel0818 2013-05-14

您好,能请教个问题吗?

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java抓取网页内容源代码: ### Java抓取网页内容源代码解析与扩展在IT领域，网页抓取（或称网络爬虫）是一项关键技能，广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码，旨在帮助...

Java抓取网页数据Demo: 这段代码会抓取页面上所有链接的`href`属性。接下来，我们转向**抓取网页JS返回数据**。许多现代网页使用Ajax技术动态加载数据，这些数据通常不会出现在原始HTML中，而是通过JavaScript执行后生成。为了抓取这类...

java网页数据抓取源代码: java抓取网页数据，主要用于抓取手机号和身份证查询网站的数据。

java抓取网页源码-ldspider:链接数据网络的爬虫: java抓取网页源码介绍 LDSpider项目为关联数据网络提供了一个网络爬行框架。爬取关联数据网络的要求和挑战不同于常规的网络爬行，因此 LDSpider 项目提供了一个网络爬虫，适用于从关联数据网络中遍历和收集内容。 ...

java网页抓取demo: 这个"java网页抓取demo"项目提供了实现这一功能的实例代码。项目中的jar包是实现网页抓取的关键依赖库，包括Apache Commons Logging和HTTP Client。 Apache Commons Logging是Java的日志记录工具，它为应用程序提供...

amazon上货关键词抓取器源码 java版: 【描述】"amazon上货抓取关键词的工具源代码，在淘宝上卖过的现在开源出来给需要的人"表明该工具曾作为商业产品在淘宝平台上出售，而现在开发者决定将其开源，为更多有需要的用户提供服务。开源软件通常促进了技术的...

java简单抓取网页内容: Java中的`HttpURLConnection`或`HttpClient`库可以用来发送HTTP请求，获取网页的HTML源代码。接着，我们可以利用解析库，如Jsoup，来解析HTML，提取所需信息。 1. **发送HTTP请求**： - 使用`HttpURLConnection`：...

Java网页抓取数据: 10. **网页结构分析**：理解HTML和DOM结构，学会使用开发者工具分析网页源码，定位目标数据所在的元素，这对于编写抓取规则至关重要。以上是Java网页抓取数据的基本知识框架，实践中还需要根据具体需求和目标网站...

java网络爬虫抓取网页数据: 在提供的"WebCrawler"压缩包文件中，很可能包含了实现这些功能的源代码，包括使用HttpClient进行网络请求，用Jsoup解析HTML，以及可能的JDBC数据库操作。通过研究这个项目，你可以深入了解Java网络爬虫的实现细节，...

java网络编程抓取指定网页信息--UrlHtml(java源码): import java.io.DataInputStream; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; public class UrlHtml { @SuppressWarnings("deprecation") public ...

java 新浪网易搜狐新闻抓取源码: 总结，"java 新浪网易搜狐新闻抓取源码"项目展示了如何使用Java和HTMLParser库来实现新闻数据的抓取和处理。通过学习和实践这样的项目，开发者不仅可以掌握网页抓取的基本技能，还能深入理解HTTP协议、HTML解析以及...

Java抓取URL/Email实例源码: 通过学习这个实例源码，开发者不仅可以掌握基础的网页抓取技术，还能了解到如何结合Java标准库和第三方库来提升效率和准确性。在实际应用中，还需要注意处理异常、设置超时、控制爬虫速度，以及可能需要的分布式爬虫...

java根据json规则抓取(新浪新闻、百度新闻、微博动态)的网页内容源码: java根据自定义json格式规则抓取新浪新闻、百度新闻、微博动态内容的网络爬虫源码例子中的源码功能：导入Hbase的jar包即可直接返回Put对象数据、可以返回map对象数据、支持自定义json格式抓取指定网页的内容、抓取...

java抓取网页源码gzip-phproxy:PHP中的代理: 标题 "java抓取网页源码gzip-phproxy" 暗示了我们正在讨论一个使用Java进行Web抓取，并处理GZIP压缩的项目，而“PHP中的代理”则可能指的是使用PHP构建的代理服务器。这个项目可能涉及到如何通过Java从通过PHP代理...

java爬虫webmagic抓取静态页面demo: Java爬虫WebMagic是开发者常用来抓取网页数据的一个强大工具，尤其对于处理静态页面，它的易用性和灵活性使得在Java开发环境中非常受欢迎。WebMagic的设计理念是模块化，这使得我们可以灵活地组合各个组件来实现不同...

Java爬虫实例完整源码: Java爬虫是一个强大的工具，用于自动化地从互联网上获取数据，尤其在大数据分析、网站监控和内容抓取等领域中有着广泛的应用。在这个Java爬虫实例中，我们将深入探讨其核心概念和技术，帮助你理解如何使用Java来编写...

java利用json规则抓取网页内容源码（爬虫）: Java语言在IT领域中广泛应用于各种场景，其中就包括网页数据的抓取。在这个项目中，我们使用Java来实现一个基于JSON规则的网页内容抓取器，这为应对网页结构变动提供了灵活性。JSON（JavaScript Object Notation）...

jsp网页抓取天气预报源代码: "jsp网页抓取天气预报源代码" 这个标题表明这是一个与Java Server Pages（JSP）相关的项目，目标是实现从网页上抓取天气预报信息的功能。JSP是一种动态网页技术，允许开发者在HTML页面中嵌入Java代码来处理服务器端...

[搜索链接]Java网页蜘蛛抓取系统源码.zip: [搜索链接]Java网页蜘蛛抓取系统源码

Global site tag (gtag.js) - Google Analytics