`

仿微博抓取视频网站,支持优酷/土豆/酷6/六间房/56网/音悦台/搜狐/奇艺的视频发布的java实现

 
阅读更多

视频分享效果为在站点内输入一视频网站某一视频链接,分享后即可类似微博或qq空间中那样直接点击播放,此代码赞只支持上述视频网站,6间房的视频有点问题,后面将继续扩展抓取其他视频网站。

图片

 

分享后效果图:

 

图片

实现代码如下:

package com;
/**
 * 视频实体
 * @author hanfei
 *
 */
public class Video {

private String title;
private String desc;
private String flash;

private String pic;

private String time;

public String getFlash() {

return flash;

}

public void setFlash(String flash) {

this.flash = flash;

}

public String getPic() {

return pic;

}

public void setPic(String pic) {

this.pic = pic;

}

public String getTime() {

return time;

}

public void setTime(String time) {

this.time = time;

}

public void setTitle(String title) {
this.title = title;
}

public String getTitle() {
return title;
}

public void setDesc(String desc) {
this.desc = desc;
}

public String getDesc() {
return desc;
}

}


视频工具类:

package com;

/**
 * 视频抓取工具类
 * @author hanfei
 *
 */
public class VideoUtil {

/**
* 
* 获取视频信息
* 
* @param url
* 
* @return
*/

public static Video getVideoInfo(String url) {

Video video = new Video();

if (url.indexOf("v.youku.com") != -1) {

try {

video = getYouKuVideo(url);

} catch (Exception e) {
System.out.println(e);
video = null;

}

} else if (url.indexOf("tudou.com") != -1) {

try {

video = getTudouVideo(url);

} catch (Exception e) {

System.out.println("视频为空。。。。。");
video = null;

}

} else if (url.indexOf("v.ku6.com") != -1) {

try {

video = getKu6Video(url);

} catch (Exception e) {

video = null;

}

} else if (url.indexOf("6.cn") != -1) {

try {

video = get6Video(url);

} catch (Exception e) {

video = null;

}

} else if (url.indexOf("56.com") != -1) {

try {

video = get56Video(url);

} catch (Exception e) {

video = null;

}

}

else if (url.indexOf("qiyi.com") != -1) {

try {
System.out.println("执行奇异网");
video = getQiyiVideo(url);

} catch (Exception e) {
System.out.println(e);
video = null;

}

}

return video;

}

/**
* 
* 获取优酷视频
* 
* @param url
*            视频URL
*/

public static Video getYouKuVideo(String url) throws Exception {

Document doc = getURLContent(url);

/**
* 
* 获取视频缩略图
*/

String pic = getElementAttrById(doc, "s_sina", "href");

int local = pic.indexOf("pic=");
System.out.println(pic);

pic = pic.substring(local + 4);

/**
* 
* 获取视频地址
*/

String flash = getElementAttrById(doc, "link2", "value");

/**
* 
* 获取视频时间
*/

String time = getElementAttrById(doc, "download", "_href");

String[] arrays = time.split("\\|");
System.out.println("time" + time);
System.out.println(arrays.length);

time = arrays[4];

Video video = new Video();

video.setPic(pic);

video.setFlash(flash);

video.setTime(time);

return video;

}

/**
* 
* 获取土豆视频
* 
* @param url
*            视频URL
*/

public static Video getTudouVideo(String url) throws Exception {
// http://www.tudou.com/v/102387574/v.swf
Document doc = getURLContent(url);

String content = doc.html();
if (url.endsWith(".html")) {

System.out.println("执行htmol");
int beginLocal = content.indexOf("<script>var");

int endLocal = content.indexOf("</script>");

content = content.substring(beginLocal, endLocal);

// System.out.println(content);
//
// ScriptEngineManager mgr = new ScriptEngineManager();
// ScriptEngine engine = mgr.getEngineByName("JavaScript");
// engine.eval(content);
// Invocable inv = (Invocable) engine;
// inv.

/**
* 
* 获取视频地址
*/

String flash = getScriptVarByName("defaultIid", content);

flash = "http://js.tudouui.com/bin/player2/opn_22.swf?iid=" + flash;
System.out.print("flashURL" + flash);
/**
* 
* 获取视频缩略图
*/

String pic = getScriptVarByName("thumbnail", content);

/**
* 
* 获取视频时间
*/

String time = getScriptVarByName("time", content);

Video video = new Video();

video.setPic(pic);

video.setFlash(flash);

video.setTime(time);

return video;
} else {

int beginLocal = content.indexOf("<script>document.domain");

int endLocal = content.indexOf("</script>");

content = content.substring(beginLocal, endLocal);

/**
* 
* 获取视频地址
*/

String flash = getScriptVarByName("iid", content);

flash = "http://js.tudouui.com/bin/player2/opn_22.swf?iid=" + flash;

/**
* 
* 获取视频缩略图
*/

String pic = getScriptVarByName("thumbnail", content);

/**
* 
* 获取视频时间
*/

String time = getScriptVarByName("time", content);

Video video = new Video();

video.setPic(pic);

video.setFlash(flash);

video.setTime(time);

return video;
}

}

/**
* 
* 获取酷6视频
* 
* @param url
*            视频URL
*/

public static Video getKu6Video(String url) throws Exception {

Document doc = getURLContent(url);

/**
* 
* 获取视频地址
*/

Element flashEt = doc.getElementById("outSideSwfCode");

String flash = flashEt.attr("value");

/**
* 
* 获取视频缩略图
*/

Element picEt = doc.getElementById("plVideosList");

String time = null;

String pic = null;

if (picEt != null) {

Elements pics = picEt.getElementsByTag("img");

pic = pics.get(0).attr("src");

/**
* 
* 获取视频时长
*/

Element timeEt = picEt.select("span.review>cite").first();

time = timeEt.text();

} else {

pic = doc.getElementsByClass("s_pic").first().text();

}

Video video = new Video();

video.setPic(pic);

video.setFlash(flash);

video.setTime(time);

return video;

}

/**
* 
* 获取6间房视频
* 
* @param url
*            视频URL
*/

public static Video get6Video(String url) throws Exception {

Document doc = getURLContent(url);

/**
* 
* 获取视频缩略图
*/

Element picEt = doc.getElementsByClass("summary").first();

String pic = picEt.getElementsByTag("img").first().attr("src");

/**
* 
* 获取视频时长
*/

String time = getVideoTime(doc, url, "watchUserVideo");

if (time == null) {

time = getVideoTime(doc, url, "watchRelVideo");

}

/**
* 
* 获取视频地址
*/

Element flashEt = doc.getElementById("video-share-code");

doc = Jsoup.parse(flashEt.attr("value"));

String flash = doc.select("embed").attr("src");

Video video = new Video();

video.setPic(pic);

video.setFlash(flash);

video.setTime(time);

return video;

}

/**
* 
* 获取56视频
* 
* @param url
*            视频URL
*/

public static Video get56Video(String url) throws Exception {

Document doc = getURLContent(url);

String content = doc.html();

/**
* 
* 获取视频缩略图
*/

int begin = content.indexOf("\"img\":\"");

content = content.substring(begin + 7, begin + 200);

int end = content.indexOf("\"};");

String pic = content.substring(0, end).trim();

pic = pic.replaceAll("\\\\", "");

/**
* 
* 获取视频地址
*/

String flash = "http://player.56.com"
+ url.substring(url.lastIndexOf("/"), url.lastIndexOf(".html"))
+ ".swf";

Video video = new Video();

video.setPic(pic);

video.setFlash(flash);

return video;

}

public static Video getQiyiVideo(String url) throws Exception {

Document doc = getURLContent(url);

String content = doc.html();

System.out.println("执行htmol");
int beginLocal = content.indexOf("<script");

int endLocal = content.indexOf("</script>");

content = content.substring(beginLocal, endLocal);

System.out.println(content);
String infoString = content.substring(content.indexOf("{"),
content.length());
System.out.println(infoString);
JSONObject infoOBJ = JSONObject.fromObject(infoString);
String videoId = infoOBJ.getString("videoId");
String title = infoOBJ.getString("title");
// http://www.qiyipic.com/thumb/20111013/v134588.jpg

String tvId = infoOBJ.getString("tvId");
String vurl = infoOBJ.getString("url");

vurl = vurl.replace("http://www.", "");
vurl = vurl.replace("http://", "");
// vurl=vurl.replace(":", "");

vurl = vurl.replace("/", ".");
vurl = vurl.replace(".", ",");

String[] urldata = vurl.split(",");
System.out.println(vurl);
String image = "http://www.qiyipic.com/thumb/" + urldata[3] + "/v"
+ tvId + ".jpg";
/**
* 
* 获取视频地址
*/
String flashUrl = "http://player.video.qiyi.com/" + videoId + "/0/600/"
+ urldata[0] + "/" + urldata[3] + "/" + urldata[4] + ".swf";

Video video = new Video();

video.setPic(image);

video.setFlash(flashUrl);

video.setTime("77");

return video;
}

/**
* 
* 获取6间房视频时长
*/

private static String getVideoTime(Document doc, String url, String id) {

String time = null;

Element timeEt = doc.getElementById(id);

Elements links = timeEt.select("dt > a");

for (Element link : links) {

String linkHref = link.attr("href");

if (linkHref.equalsIgnoreCase(url)) {

time = link.parent().getElementsByTag("em").first().text();

break;

}

}

return time;

}

/**
* 
* 获取script某个变量的值
* 
* @param name
*            变量名称
* 
* @return 返回获取的值
*/

private static String getScriptVarByName(String name, String content) {

String script = content;

int begin = script.indexOf(name);

script = script.substring(begin + name.length() + 2);

int end = script.indexOf(",");

script = script.substring(0, end);

String result = script.replaceAll("'", "");

result = result.trim();

return result;

}

/**
* 
* 根据HTML的ID键及属于名,获取属于值
* 
* @param id
*            HTML的ID键
* 
* @param attrName
*            属于名
* 
* @return 返回属性值
*/

private static String getElementAttrById(Document doc, String id,
String attrName) throws Exception {

Element et = doc.getElementById(id);

String attrValue = et.attr(attrName);

return attrValue;

}

/**
* 
* 获取网页的内容
*/

private static Document getURLContent(String url) throws Exception {

Document doc = Jsoup.connect(url)

.data("query", "Java")

.userAgent("Mozilla")

.cookie("auth", "token")

.timeout(6000)

.post();

return doc;

}

public static void main(String[] args) {

// String url = "http://v.youku.com/v_show/id_XMzExNzA1MDA4.html";

// String url = "http://www.tudou.com/programs/view/CHKM-8D5MmE/";

String url = "http://v.youku.com/v_playlist/f16343935o1p0.html";

// String url = "http://v.ku6.com/show/BpP5LeyVwvikbT1F.html";

// String url = "http://www.tudou.com/playlist/p/l10485826.html";

// String url = "http://www.56.com/u64/v_NTkzMDEzMTc.html";
// String url="http://www.tudou.com/playlist/p/l10485826i60175370.html";
url = "http://www.qiyi.com/dianshiju/20111008/23e2566d0ae56486.html";

// String[] s="yule,qiyi.com.20111011.c1837626ef2280a5.html".split(",");
// String a=s[1];
Video video = getVideoInfo(url);
if (video == null) {
System.out.println(url);
} else

{

System.out.println("视频缩略图:" + video.getPic());

System.out.println("视频地址:" + video.getFlash());

System.out.println("视频时长:" + video.getTime());

}
System.out.print(url.endsWith(".html"));

}

}
 

 

分享到:
评论

相关推荐

    新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频.zip

    在本资源中,我们主要探讨的是如何利用Python编程语言实现一个针对新浪微博的网络爬虫,以便获取微博数据,包括微博的文字内容、图片和视频。这是一个非常实用的技术,可以帮助数据分析人员、社交媒体研究人员或...

    微博内容抓取工具

    ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据。数据包括微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、如果是转发...

    网络爬虫新浪微博抓取

    《网络爬虫技术在新浪微博数据抓取中的应用》 网络爬虫,又称网页蜘蛛或自动索引程序,是互联网上一种自动浏览并提取信息的程序。在社交媒体领域,特别是像新浪微博这样的大型平台,网络爬虫的应用显得尤为重要。...

    新浪微博评论抓取

    在IT行业中,网络数据抓取是一项重要的技能,特别是在社交媒体分析和大数据研究中。本文将深入探讨如何使用Python等编程语言进行新浪微博评论的抓取。首先,我们要明确的是,抓取网页数据时需遵循网站的robots.txt...

    土豆网视频抓取

    在这个场景中,提到的是针对56网和土豆网这两个视频分享平台的视频下载。 土豆网是中国较早的视频分享网站之一,提供了大量的在线视频内容,包括教育、娱乐、生活等多个领域的教学视频。由于网络环境的不稳定或者...

    新浪微博抓取数据

    标题“新浪微博抓取数据”揭示了本项目的核心内容,即我们拥有从新浪微博平台获取的数据集。这类数据通常包含了用户发布的信息、互动行为(如点赞、评论、转发)、用户元数据等,是社会网络分析、舆情监测、情感分析...

    新浪微博粉丝抓取

    【标题】:“新浪微博粉丝抓取”这一主题涉及的是利用编程技术高效地获取新浪微博用户粉丝数据的过程。在互联网大数据时代,这种抓取技术对于社交媒体分析、市场研究和个人兴趣追踪都有重要作用。 【描述】:“多...

    仿新浪微博的网站源码

    4. **插件机制**:项目中包含了一个名为"Weibo.Plugin.Video.DefVideoCatch"的文件夹,这可能意味着该网站支持视频功能,并且可能有一个默认的视频抓取插件,用于处理或转换上传的视频内容。 5. **数据库访问**:...

    Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析

    ### Nutch 1.7 二次开发培训讲义之腾讯微博抓取分析 #### 一、概述 Nutch 是一个开源的网络爬虫项目,它提供了灵活的数据抓取能力,并支持二次开发定制功能。本篇培训讲义主要针对的是如何使用 Nutch 1.7 版本对...

    新浪微博 评论抓取v1.2

    新浪微博评论抓取 需要cookie和需要获取微博的评论的微博地址

    用asp现抓取土豆 优库 酷6 等网站 视频、缩略图、标题的程序

    用asp现抓取土豆 优库 酷6 等网站 视频、缩略图、标题的程序

    微博数据抓取代码

    微博抓取小工具源码看V型看坚持不看书的出现开心点V型苍实地考察快下班

    C#写的新浪微博批量抓取器

    微博批量抓取器是一款使用C#编程语言开发的应用程序,专为高效地从新浪微博平台上抓取大量数据而设计。在当前的社交媒体时代,微博作为中国极具影响力的社交网络平台,其用户活跃度高,信息传播速度快。因此,对于...

    java实现新浪微博抓取关注和粉丝的课程设计报告

    ### Java实现新浪微博抓取关注和粉丝的课程设计报告 #### 设计题目 新浪微博用户粉丝和关注用户抓取 #### 本组成员及任务分工 - 项目负责人:负责整体协调和进度安排; - Java开发人员:负责具体的技术实现,包括...

    微博数据抓取

    ### 微博数据抓取:理解与实现 在数字化时代,社交媒体平台如微博成为人们分享信息、表达观点的重要渠道。对于研究者、分析师乃至普通用户而言,能够抓取微博数据进行分析或个人兴趣探索,显得尤为重要。本文将深入...

    微博数据抓取以及数据分析

    微博数据抓取以及数据分析(已添加IP属地),包括: 用户ID,昵称,性别,认证信息,微博说明 用户的粉丝数量,关注...每条微博的微博链接,微博内容,发布时间,发布设备,发布地点,抓取时的转发数,评论数,点赞数

    AutoSignIn音悦台自动打卡小软件 轻松获得积分

    "AutoSignIn音悦台自动打卡小软件 轻松获得积分" 这个标题揭示了我们讨论的核心是一款名为“AutoSignIn”的自动化工具,专为音悦台设计,目的是帮助用户自动完成每日的签到任务,从而轻松积累积分。音悦台可能是一个...

    仿Twitter源代码/社交网络源码/基于脉聊二开版本/带详细安装视频

    仿Twitter源代码 社交网络源码 基于脉聊二开版本这是一款类似于Twitter网站的源代码。利用原代码,你可以快速搭建自己的社交网络平台。程序语言是PHP。数据库采用Mysql。与此同时系统带有注册,评论,转发等功能。...

    swift-WBDownloader抓取下载微博视频的iOS客户端

    **Swift开发-WBDownloader:抓取与下载微博视频的iOS客户端** Swift是一种强大的、类型安全的编程语言,被广泛用于构建iOS、macOS、watchOS和tvOS的应用程序。在这个项目中,`WBDownloader`是一个专门针对iOS平台的...

Global site tag (gtag.js) - Google Analytics