JAVA实现新浪微博页面抓取(非API) - soledede - ITeye博客

`

wbj0110

浏览: 1628125 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang5： web实时推送技术使用越来越广泛，但是自己开发又太麻烦了，我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用
秦时明月黑：
Jetty 服务器架构分析
chenghaitao111111：楼主什么时候把gecko源码分析一下呢，期待
MetaQ技术内幕——源码分析(转)
qqggcc：为什么还要写代码啊，如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote)
yongdi2：好厉害！求打包代码
Hadoop日志文件分析系统

JAVA实现新浪微博页面抓取(非API)

博客分类：

Data Mining

阅读更多

cookie用浏览器的开发者工具登陆微博后得到
只写了抓取下载页面部分抽取内容可用jsoup完成注意这是模拟浏览器登录的操作你在浏览器上完成不了的代码也不能完成(比如访问不是粉丝的人的第11页好友列表(新浪规定只能访问前10页非自己粉丝的微博用户))这个代码依赖JSOUP

package jsoupTest;
import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;
import org.jsoup.Connection.Method;import org.jsoup.Connection.Respe;import org.jsoup.Jsoup;
public class JsoupTest { public static void main(String[] args) throws IOException { Map<String, String> map = new HashMap<>(); //map.put请根据自己的微博cookie得到
Respe res = Jsoup.connect("http://weibo.com/u/别人的主页id") .cookies(map).method(Method.GET).execute(); String s = res.body(); System.out.println(s); String[] ss = s.split("<script>FM.view"); int i = 0; List<String> list = new ArrayList<>(); for (String x : ss) { if (x.contains("\"html\":\"")) { String value = getHtml(x); list.add(value); System.out.println(value); }
} }
public static String getHtml(String s) { String content = s.split("\"html\":\"")[1] .replaceAll("(\\\\t|\\\\n|\\\\r)", "") .replaceAll("\\\\\"", "\"") .replaceAll("\\\\/", "/"); content = content.substring(0, content.length() <= 13 ? content.length() : content.length() - 13); return Native2AsciiUtils.ascii2Native(content); }}

分享到：

Native2Ascii和Ascii2Native的Java实现 | Hadoop编程调用HDFS

2014-05-21 10:24
浏览 882
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

新浪微博粉丝抓取: 【描述】：“多线程实现新浪微博粉丝抓取，快速抓取fans，follow，代码很简单主要是思路”这句话点明了实现方法：通过多线程技术提高数据抓取速度，同时关注粉丝（fans）和关注者（follow）的信息。多线程是并发编程...

java sdk 新浪微博数据采集代码: 标题 "java sdk 新浪微博数据采集代码" 涉及的核心技术是利用Java SDK来实现对新浪微博数据的抓取和处理。在这个项目中，开发者可能使用了名为`weibo4j`的开源Java库，这是一个专门用于访问新浪微博API的工具。`...

微博内容抓取工具: ROST 新浪定时监控工具，基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据，支持实时（最少5秒钟抓取更新一次）抓取数据。数据包括微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、如果是转发...

新浪微博api调用实例 java 测试过: 在Java中调用新浪微博API，通常需要以下步骤： 1. **注册应用**：首先，你需要在新浪开放平台上注册一个开发者账号，创建应用并获取到API密钥（包括App Key和App Secret）。这些密钥是身份验证的关键，确保只有授权...

新浪微博爬数据: weibo4j是专为新浪微博设计的一个开源Java SDK，它封装了API接口，方便开发者调用。在文件名"weibo4j-oauth2"中，我们可以推断出源代码可能包含了使用OAuth2.0协议获取和使用token的逻辑。OAuth2.0是一种授权框架...

Java模拟登录新浪微博: 在本文中，我们将深入探讨如何使用Java来模拟登录新浪微博这一话题。模拟登录是网络爬虫或自动化测试中常见的技术，它允许程序以用户的身份与网站交互。对于Java开发者来说，理解这一过程对于构建自动化工具或者数据...

新浪微博话题爬虫: 本项目是关于“新浪微博话题爬虫”的实现，主要使用C#编程语言完成，开发者通过Visual Studio 2010（VS2010）进行开发。爬虫技术在大数据时代扮演着重要的角色，它能有效地抓取互联网上的信息，而新浪微博作为中国...

基于Java的新浪微博爬虫研究与实现.zip: 在本项目"基于Java的新浪微博爬虫研究与实现"中，我们将探讨如何使用Java语言构建一个功能完善的微博数据抓取工具。爬虫是网络数据挖掘的重要手段，它能自动化地从互联网上搜集信息，对于社交媒体分析、市场研究、...

最新新浪微博爬虫程序Java版 2015: 总结起来，这个"最新新浪微博爬虫程序Java版 2015"是使用Java和Jsoup库构建的一个初级但实用的网络爬虫，主要目的是从新浪微博抓取数据。对于想学习网络爬虫，特别是对Java和Jsoup感兴趣的开发者，这是一个有价值的...

java-sdk新浪微博数据采集工程内部代码: 对于“java-sdk新浪微博数据采集工程内部代码”这个项目，它提供了一个基于Java的SDK（Software Development Kit），专门用于从新浪微博平台提取数据。SDK通常包含了一系列工具、库、文档和示例代码，帮助开发者更...

python新浪微博数据分布式挖掘: 通过以上步骤，我们可以实现对新浪微博数据的全面、高效挖掘，为社交网络分析、用户行为研究等提供有价值的信息。在实际操作中，还应注意遵守网络爬虫的道德规范，尊重用户隐私，避免对目标网站造成过大负担。

新浪微博2模拟登陆: 在IT行业中，微博平台是社交媒体营销和信息传播的重要渠道，特别是在中国，新浪微博具有广泛的用户基础。今天我们将聚焦于“新浪微博2模拟登陆”这一主题，学习如何通过编程方式模拟登录并获取AccessToken，以便进行...

新浪微博项目源码: 【标题】：“新浪微博项目源码”这一主题涉及的是一个基于新浪微博API实现的项目，很可能是用某种编程语言（如Java、Python或Android）编写的。这个项目可能包含了用户登录、发送微博、查看时间线、评论互动等核心...

新浪微博接口: - **新浪微博API**：新浪微博提供的一系列接口服务，允许开发者通过API访问微博数据，进行数据抓取、发布、评论等操作。 - **OAuth2.0授权机制**：一种用于授权的开放标准协议，用于获取用户权限而不需泄露用户密码...

新浪微博应用测试粉丝质量源代码: 1. **新浪微博 API**：这是新浪提供的开放接口，允许开发者通过编程方式与微博平台进行交互，如获取用户信息、发布微博、抓取粉丝数据等。使用微博API是开发此类应用的基础，它提供了获取所需数据的途径。 2. **应用...

java使用post登陆新浪微博并保存登陆后网页程序: 在Java编程环境中，使用POST方法登录新浪微博并保存登录后的网页是一项常见的任务，这涉及到网络请求、数据解析以及文件操作等多个技术领域。以下是一些相关的知识点： 1. **HTTP POST请求**：POST是HTTP协议中的一...

新浪微博备份源代码2.5: 本资源是“新浪微博备份源代码2.5”，主要由纯JAVA语言编写，为开发者提供了一种可能的方式来理解和实现社交媒体数据的备份功能。这个项目对于那些希望深入学习JAVA编程，尤其是对网络爬虫、数据抓取以及微博平台API...

新浪微博备份工具————: "源码"意味着这篇文章可能会提供用于备份新浪微博的程序源代码，这可能是用Python、Java或其它编程语言编写的。源码分享对于开发者来说非常有价值，因为他们可以直接学习和修改代码以适应自己的需求。“工具”则暗示...

WebCrawler:网页爬取新浪微博内容: 在这个项目中，我们将关注如何用Java编程语言构建一个能够从新浪微博抓取信息的爬虫。【描述分析】描述部分简短地重申了主题，即WebCrawler用于抓取微博内容。这暗示我们将深入学习如何通过网络爬虫技术获取社交...

SinaWeiboCrawler:新浪微博爬虫系统: 本文将深入探讨“SinaWeiboCrawler”这一基于Java实现的新浪微博爬虫系统，旨在揭示其工作原理、主要功能以及如何绕过API限制，高效地获取微博数据。一、SinaWeiboCrawler简介 SinaWeiboCrawler是一款专门针对...

Global site tag (gtag.js) - Google Analytics