`
renyanwei
  • 浏览: 71109 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论

用于编写小偷程序的通用方法(更新中)

阅读更多

最近爱好编写一些个小偷程序,汗~~ 就是上别人网站上抓取些个数据回来进行分析筛选,总结出了几个常用的方法,希望对那些同样有此爱好的初学者有所帮助

页面抓取 最少不了的就是正则表达式,没必要死记,只要会调用就可以了,O(∩_∩)O哈哈~ 这里仅罗列几个,有的是自己写的,有的是收藏的,希望可以抛砖引玉,高人可以共享出更加好的方案

/*
	 *遍历字符串所有数据库生成的HTML容器(比如商品列表)
	 *str 要遍历的字符串
	 *start 共同的开始部分
	 *end 共同的结束部分
	 *返回一个ArrayList列表
	*/
	public static ArrayList getTables(String str,String start,String end)
	{
		ArrayList list=new ArrayList();
		String reg="(?is)"+start+".*?"+end;
		Pattern p=Pattern.compile(reg);
		Matcher m=p.matcher(str);
		while(m.find())
		{
			list.add(m.group());
		}
		return list;
	}
	/*
	 *获取字符串所有超链接方法
	 *返回超链接HashMap.Key 地址,Value 标题
	*/
	public static Map<String, String> getATags(String str)
	{
		Map<String, String> map = new HashMap<String, String>();
		String regex = "(?is)<a[^>]*?href\\s*=\\s*['\"]?([^'\">]+)['\"]?[^>]*>(.+?)</a>";
		Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        while(matcher.find()) {
            map.put(matcher.group(1), matcher.group(2));
        }
		return map;
	}
	/*
	 *去除HTML标签的方法
	*/
	public static String filterHTML(String str)
	{
		 if (str == null || str.trim().equals("")) {  
             return "";  
         }  
         // 去掉所有html元素,  
         String result = str.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(  
                 "<[^>]*>", "");  
         result = result.replaceAll("[(/>)<]", "");  
     
         return result;  
	}

 高手有什么好的程序赶快共享出来吧,藏着掖着又不能生孩子

6
0
分享到:
评论
2 楼 SunShineBoy 2008-10-31  
shanghui_12 写道

比较巧,哈哈,最近也在抓。以下抓取 iframe里面的链接:
Java代码 private&nbsp;static&nbsp;String&nbsp;parseUrl(String&nbsp;line)&nbsp;{&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Pattern&nbsp;p&nbsp;=&nbsp;Pattern.compile("&lt;iframe(.*?)src=\\\"(.*?)\\\"");&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Matcher&nbsp;m&nbsp;=&nbsp;p.matcher(line);&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;String&nbsp;url&nbsp;=&nbsp;"";&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;while&nbsp;(m.find())&nbsp;{&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;String&nbsp;s&nbsp;=&nbsp;m.group().toString();&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;url&nbsp;=&nbsp;s.substring(s.indexOf("src=")&nbsp;+&nbsp;5,&nbsp;s.length()&nbsp;-&nbsp;1);&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;}&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;url;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;}&nbsp;&nbsp;private static String parseUrl(String line) {
Pattern p = Pattern.compile("&lt;iframe(.*?)src=\\\"(.*?)\\\"");
Matcher m = p.matcher(line);
String url = "";
while (m.find()) {

String s = m.group().toString();
url = s.substring(s.indexOf("src=") + 5, s.length() - 1);
}
return url;

}

请问有没有做过JS来解析页面的例子?

我好像做过!
1 楼 shanghui_12 2008-10-31  
比较巧,哈哈,最近也在抓。以下抓取 iframe里面的链接:
private static String parseUrl(String line) {
		Pattern p = Pattern.compile("<iframe(.*?)src=\\\"(.*?)\\\"");
		Matcher m = p.matcher(line);
		String url = "";
		while (m.find()) {
			
			String s = m.group().toString();
			url = s.substring(s.indexOf("src=") + 5, s.length() - 1);
					}
		return url;

	}


请问有没有做过JS来解析页面的例子?

相关推荐

    PHP小偷程序,偷取百度搜索结果

    在IT领域,"PHP小偷程序"通常指的是使用PHP语言编写的脚本,它通过抓取并解析其他网站的数据来获取信息,这种行为在技术上称为网络爬虫。在这个特定的场景中,程序的目标是获取百度搜索引擎的搜索结果。虽然这个程序...

    陪她美女图片小偷程序 v1.0.rar

    【标题】"陪她美女图片小偷程序 v1.0.rar" 涉及的知识点主要集中在网页抓取和ASP编程技术上。该程序是一个用于自动化下载网络上美女图片的工具,采用ASP语言编写,这使得它能够在服务器端运行,通过HTTP协议与目标...

    北京酒店小偷

    【标题】:“北京酒店小偷”实际上是指一个用于收集酒店信息的ASP源码程序,它并非真正的犯罪行为,而是指一款编程工具。 【描述】:该程序是免费提供的,其特点是免维护,能够自动更新数据。这样的特性对于网站...

    【联网制作】单机游戏下载网小偷程序 v1.2.1.zip

    【联网制作】单机游戏下载网小偷程序 v1.2.1 是一款基于PHP编写的网站内容自动采集工具,主要用于快速抓取网络上的单机游戏资源并整合到自己的网站上。这款程序的版本号为v1.2.1,表明它已经经过了多次迭代和优化,...

    c++源代码 U盘小偷 可以偷偷复制你U盘里面的文件 有意思哦

    标题和描述中提到的"C++源代码 U盘小偷"实际上是指一个利用C++编程语言编写的程序,它可以悄悄地复制U盘内的文件。这个程序可能包含了一些底层的文件操作和事件监听技术,使得它能在用户不知情的情况下执行文件复制...

    FLASH小游戏程序小偷后台版 v2.5.rar

    【标题】"FLASH小游戏程序小偷后台版 v2.5.rar" 涉及到的知识点主要集中在ASP编程语言、网站后台管理系统以及网络资源的采集与整合。此压缩包文件包含了一个基于ASP的小游戏程序的后台版本,版本号为2.5。这种程序...

    新闻小偷cgi版

    【新闻小偷cgi版】是一种基于CGI(Common Gateway Interface,通用网关接口)技术的程序,用于自动化抓取和处理网络上的新闻信息。CGI是Web服务器与外部应用程序之间的一种接口标准,允许动态内容的生成,使得网页...

    wap国产软件小偷.rar

    标签“Asp源码-小偷采集”指出这些文件可能使用ASP(Active Server Pages)语言编写,并且涉及到数据采集,可能是一个网站或者服务器端的程序,用于自动抓取和处理网络上的信息。 从压缩包子文件的文件名称列表来看...

    陪她美女图片小偷 v1.0

    【标题】"陪她美女图片小偷 v1.0" 是一个特定的软件程序,主要设计用于下载和收集网络上的美女图片。这个程序的特点是它的体积小巧,只有33kb,这表明它在资源占用方面非常高效,适合那些对硬盘空间有限制或者希望...

    顺丰快递小偷PHP

    这可能涉及到设计良好的类结构,比如一个基类用于处理通用的快递查询逻辑,而各个快递公司的类则继承自这个基类,重写特定的方法来适应不同的API接口和验证码机制。 对于其他快递公司,如果验证码机制不同,可能...

    38搞笑网数据采集程序 v0.1.rar

    Asp源码-小偷采集标签表明这是一个用于自动抓取和更新网站内容的工具,通常被用来构建类似聚合站点或爬虫。然而,需要注意的是,未经授权的数据采集可能违反网站的使用条款,因此在实际应用中应确保遵循合法合规的...

    健康问答小偷天宇免费版 v1.0.zip

    "小偷采集"通常指的是程序自动从其他网站抓取数据,这可能包括问答、新闻等信息,然后发布到自己的网站上。但要注意,未经许可的采集可能侵犯他人的版权,因此在使用这类功能时,应确保遵循合法的数据获取和使用规则...

    [新闻文章]bob5笑话小偷贺岁版_bob5_joke(ASP.NET源码).rar

    "bob5笑话小偷"可能是该项目的名字,暗示它是一个用于收集、展示或者分享笑话的应用程序,而“贺岁版”则提示这可能是为庆祝新年或春节特别设计的一个版本。 【描述】:“[新闻文章]bob5笑话小偷贺岁版_bob5_joke...

    网易新闻小偷 v2.0

    在这款小偷程序中,PHP文件可能用于处理请求,解析抓取的HTML,以及将数据结构化存储或展示。 3. **前端组件**:`ad1.js`和`ad2.js`可能是JavaScript文件,用于实现网页的前端功能,如广告显示、动态加载或交互效果...

    wap军事图库 v1.0

    【描述】"wap小偷论坛第一次发布WAP小偷作品" 这句话中的“小偷”通常是指未经许可获取或复制网络资源的行为,这里可能指的是一个开发者或者团队在wap小偷论坛上首次分享了他们利用WAP技术制作的应用或服务。...

    Php获取金书网的书名的实现代码

    在IT行业中,网络爬虫(也称为“小偷”程序)是一种常见的技术,用于自动抓取网站上的数据。本示例中的代码展示了如何使用PHP语言编写一个简单的爬虫来从金书网获取书籍的名称。以下是对这段代码的详细解释: 首先...

Global site tag (gtag.js) - Google Analytics