Java抓取网页内容 - ITeye问答

问答首页 → Java企业应用

0 0

Java抓取网页内容100

Java抓取网页内容

现有一国外网站，需要从里面抓取必要的信息。
该网页的结构才有大量的Js生成的，每一次请求都包含大量的参数以及cookie、session信息
采用比较常见的方法，如HttpClient 来模拟cookie总是得不到其请求后响应的正确内容。

有这方面成功经验的请麻烦帮忙下

问题补充：你好麻烦你帮忙分析下这个网站
http://www.288-563.com/en/?affiliate=365_031965
进去后点击左侧的"Soccer" 数据会更新显示在中间栏
我就想得到中间栏生成的内容

麻烦帮我试试想想谢谢

wangqj 写道

这个我做过，用任何一个可以得到cookie的工具都可以的
很简单，你得不到正确的，说明你得到的cookie不对
用Firebug，获取cookie相当简单

ps：js生成页面结构没关系啊，你只要生成后的结构
用htmlparser，很容易分析页面结构

问题补充：哦不好意思
进去后要再点击下中间那个大图片(有显示SPORTS)

麻烦帮忙分析下

wangqj 写道

进去左侧没有Soccer啊

地址发错了吧

问题补充：试试看啊
我试过你说的方法了的

wangqj 写道

http://www.288-563.com/home/

我这没安firebug，应该不难抓，估计中间你点击soccer的时候执行了一个js函数

你用工具可以看到执行的哪个函数，中间带了什么参数，直接拼接成个url就ok了

OO

2011年1月18日 17:51

yangtao309
135
0 0 0

5个答案按时间排序按投票排序

0 0

http://www.288-563.com/home/

我这没安firebug，应该不难抓，估计中间你点击soccer的时候执行了一个js函数

你用工具可以看到执行的哪个函数，中间带了什么参数，直接拼接成个url就ok了

2011年1月19日 14:36

wangqj
1097
0 0 2

添加评论

0 0

进去左侧没有Soccer啊

地址发错了吧

2011年1月19日 10:37

wangqj
1097
0 0 2

添加评论

0 0

这个我做过，用任何一个可以得到cookie的工具都可以的
很简单，你得不到正确的，说明你得到的cookie不对
用Firebug，获取cookie相当简单

ps：js生成页面结构没关系啊，你只要生成后的结构
用htmlparser，很容易分析页面结构

2011年1月19日 10:22

wangqj
1097
0 0 2

添加评论

0 0

Google Chrome也不赖！先用浏览器登录，然后在Chrome浏览器中查看该网站的Cookie，Copy到程序中，在请求头中set cookie试试

2011年1月19日 08:53

johnson.lee
396
0 0 0

添加评论

0 0

借助Firefox来验证自己的 cookie模拟内容是否完整

2011年1月18日 23:37

aabcc
266
0 0 1

添加评论

相关推荐

Java抓取网页内容三种方式: Java 抓取网页内容三种方式 Java 抓取网页内容是指使用 Java 语言从互联网上抓取网页内容的过程。抓取网页内容是数据爬虫和网络爬虫的基础，它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java...

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

java抓取网页内容源代码: ### Java抓取网页内容源代码解析与扩展在IT领域，网页抓取（或称网络爬虫）是一项关键技能，广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码，旨在帮助...

JAVA通过url获取网页内容: 在网页抓取程序中，需要获取网页内容以存储到数据库中。在 web 服务中，需要获取网页内容以提供给用户。五、获取网页内容的注意事项在获取网页内容时，需要注意以下几点： * 需要检查 URL 是否正确，以免出现...

java简单的抓取网页内容的程序: java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java...

java抓取网页内容--生成静态页面: 在Java编程中，生成静态页面是一种常见的技术，它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容，并将其保存为一个HTML文件，即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

java简单抓取网页内容: 确保在尝试获取网页内容时加入适当的异常处理代码。 4. **异步与多线程**：对于大量网页抓取，考虑使用异步或多线程以提高效率。Java的`CompletableFuture`或`ExecutorService`可以帮助实现这一点。 5. **尊重...

java web网站常用抓取其他网站内容: Java Web网站抓取其他网站内容是一项常见的技术需求，主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。首先，我们需要了解的是网页抓取的基本...

java 获取json网页数据: 在Java编程中，获取JSON网页数据是常见的任务，特别是在处理Web API或者进行数据抓取时。JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，因其简洁和高效而广泛被采用。本实例将深入讲解如何使用...

Java抓取网页数据Demo: 抓取原网页适用于静态内容，而处理JavaScript返回数据则针对动态交互的网站。在实际项目中，根据目标网页的特点和需求，灵活运用这些方法是关键。在提供的`WebpageCaptureDemo`压缩包文件中，可能包含了实现以上...

java网页抓取数据: Java网页抓取数据是互联网数据挖掘的一个重要领域，它允许开发者通过编程方式获取网页上的信息，从而实现自动化分析、监控或构建智能应用。在Java中，我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...

java抓取网站数据: ### Java抓取网站数据知识点详解 #### 一、概述在现代互联网开发中，抓取网站数据是一项重要的技能。无论是进行市场调研、竞品分析还是数据挖掘，掌握如何使用Java来抓取数据都是十分必要的。本篇文章将详细介绍...

java抓取网页数据: 在“java抓取网页数据”这个主题中，我们将深入探讨如何利用Java来抓取并处理互联网上的信息。首先，我们要了解什么是网络爬虫。网络爬虫（Web Crawler）是自动遍历互联网的程序，通过抓取网页内容并存储在本地，...

java抓取网页-java工具类: java抓取网页java工具类java抓取网页java工具类

java爬虫抓取网页内容，下载网站图片: Java爬虫技术是一种用于自动化获取网页内容的程序，它能够模拟人类浏览器的行为，遍历互联网上的页面，提取所需的信息。在本场景中，我们将重点讨论如何利用Java编写爬虫来抓取网页内容并下载其中的图片。首先，...

Java实现网页抓取: 在这个Java实现网页抓取的项目中，我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**：首先，理解HTTP协议是必要的，它是互联网上应用最广泛的一种...

基于JAVA技术的网页内容智能抓取.doc: 3. 执行抓取任务：依据配置文件中的规则，发起HTTP请求获取网页内容。 4. 内容解析与处理：解析抓取到的HTML，根据预设规则提取目标内容并进行进一步的处理。四、目前缺陷功能描述尽管系统具有一定的实用性，但也...

基于JAVA技术的网页内容智能抓取: 【基于JAVA技术的网页内容智能抓取】是一个利用Java编程语言实现的网页内容抓取系统，它结合了XML解析、HTML解析以及多种开源组件来高效地获取和处理网络上的信息。核心技术和组件包括： 1. **XML解析**：DOM4J被...

java抓取与采集页面内容喜欢的拿去研究下: 关于Java抓取页面内容的知识点，首先，你需要理解HTTP协议，包括请求方法（GET、POST等）、请求头、状态码以及响应头等概念。其次，了解网络爬虫的基本原理，比如如何构造URL、如何模拟浏览器发送请求、如何解析HTML...

Java爬虫Jsoup+httpclient获取动态生成的数据: 在Web开发和数据抓取领域，Java爬虫技术是实现网页自动化信息提取的重要手段。本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据，特别是那些通过JavaScript动态加载的数据...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics