最近爱好编写一些个小偷程序,汗~~ 就是上别人网站上抓取些个数据回来进行分析筛选,总结出了几个常用的方法,希望对那些同样有此爱好的初学者有所帮助
页面抓取 最少不了的就是正则表达式,没必要死记,只要会调用就可以了,O(∩_∩)O哈哈~ 这里仅罗列几个,有的是自己写的,有的是收藏的,希望可以抛砖引玉,高人可以共享出更加好的方案
/*
*遍历字符串所有数据库生成的HTML容器(比如商品列表)
*str 要遍历的字符串
*start 共同的开始部分
*end 共同的结束部分
*返回一个ArrayList列表
*/
public static ArrayList getTables(String str,String start,String end)
{
ArrayList list=new ArrayList();
String reg="(?is)"+start+".*?"+end;
Pattern p=Pattern.compile(reg);
Matcher m=p.matcher(str);
while(m.find())
{
list.add(m.group());
}
return list;
}
/*
*获取字符串所有超链接方法
*返回超链接HashMap.Key 地址,Value 标题
*/
public static Map<String, String> getATags(String str)
{
Map<String, String> map = new HashMap<String, String>();
String regex = "(?is)<a[^>]*?href\\s*=\\s*['\"]?([^'\">]+)['\"]?[^>]*>(.+?)</a>";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(str);
while(matcher.find()) {
map.put(matcher.group(1), matcher.group(2));
}
return map;
}
/*
*去除HTML标签的方法
*/
public static String filterHTML(String str)
{
if (str == null || str.trim().equals("")) {
return "";
}
// 去掉所有html元素,
String result = str.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(
"<[^>]*>", "");
result = result.replaceAll("[(/>)<]", "");
return result;
}
高手有什么好的程序赶快共享出来吧,藏着掖着又不能生孩子
分享到:
相关推荐
在IT领域,"PHP小偷程序"通常指的是使用PHP语言编写的脚本,它通过抓取并解析其他网站的数据来获取信息,这种行为在技术上称为网络爬虫。在这个特定的场景中,程序的目标是获取百度搜索引擎的搜索结果。虽然这个程序...
【标题】"陪她美女图片小偷程序 v1.0.rar" 涉及的知识点主要集中在网页抓取和ASP编程技术上。该程序是一个用于自动化下载网络上美女图片的工具,采用ASP语言编写,这使得它能够在服务器端运行,通过HTTP协议与目标...
【标题】:“北京酒店小偷”实际上是指一个用于收集酒店信息的ASP源码程序,它并非真正的犯罪行为,而是指一款编程工具。 【描述】:该程序是免费提供的,其特点是免维护,能够自动更新数据。这样的特性对于网站...
【联网制作】单机游戏下载网小偷程序 v1.2.1 是一款基于PHP编写的网站内容自动采集工具,主要用于快速抓取网络上的单机游戏资源并整合到自己的网站上。这款程序的版本号为v1.2.1,表明它已经经过了多次迭代和优化,...
标题和描述中提到的"C++源代码 U盘小偷"实际上是指一个利用C++编程语言编写的程序,它可以悄悄地复制U盘内的文件。这个程序可能包含了一些底层的文件操作和事件监听技术,使得它能在用户不知情的情况下执行文件复制...
【标题】"FLASH小游戏程序小偷后台版 v2.5.rar" 涉及到的知识点主要集中在ASP编程语言、网站后台管理系统以及网络资源的采集与整合。此压缩包文件包含了一个基于ASP的小游戏程序的后台版本,版本号为2.5。这种程序...
【新闻小偷cgi版】是一种基于CGI(Common Gateway Interface,通用网关接口)技术的程序,用于自动化抓取和处理网络上的新闻信息。CGI是Web服务器与外部应用程序之间的一种接口标准,允许动态内容的生成,使得网页...
标签“Asp源码-小偷采集”指出这些文件可能使用ASP(Active Server Pages)语言编写,并且涉及到数据采集,可能是一个网站或者服务器端的程序,用于自动抓取和处理网络上的信息。 从压缩包子文件的文件名称列表来看...
【标题】"陪她美女图片小偷 v1.0" 是一个特定的软件程序,主要设计用于下载和收集网络上的美女图片。这个程序的特点是它的体积小巧,只有33kb,这表明它在资源占用方面非常高效,适合那些对硬盘空间有限制或者希望...
这可能涉及到设计良好的类结构,比如一个基类用于处理通用的快递查询逻辑,而各个快递公司的类则继承自这个基类,重写特定的方法来适应不同的API接口和验证码机制。 对于其他快递公司,如果验证码机制不同,可能...
Asp源码-小偷采集标签表明这是一个用于自动抓取和更新网站内容的工具,通常被用来构建类似聚合站点或爬虫。然而,需要注意的是,未经授权的数据采集可能违反网站的使用条款,因此在实际应用中应确保遵循合法合规的...
"小偷采集"通常指的是程序自动从其他网站抓取数据,这可能包括问答、新闻等信息,然后发布到自己的网站上。但要注意,未经许可的采集可能侵犯他人的版权,因此在使用这类功能时,应确保遵循合法的数据获取和使用规则...
"bob5笑话小偷"可能是该项目的名字,暗示它是一个用于收集、展示或者分享笑话的应用程序,而“贺岁版”则提示这可能是为庆祝新年或春节特别设计的一个版本。 【描述】:“[新闻文章]bob5笑话小偷贺岁版_bob5_joke...
在这款小偷程序中,PHP文件可能用于处理请求,解析抓取的HTML,以及将数据结构化存储或展示。 3. **前端组件**:`ad1.js`和`ad2.js`可能是JavaScript文件,用于实现网页的前端功能,如广告显示、动态加载或交互效果...
【描述】"wap小偷论坛第一次发布WAP小偷作品" 这句话中的“小偷”通常是指未经许可获取或复制网络资源的行为,这里可能指的是一个开发者或者团队在wap小偷论坛上首次分享了他们利用WAP技术制作的应用或服务。...
在IT行业中,网络爬虫(也称为“小偷”程序)是一种常见的技术,用于自动抓取网站上的数据。本示例中的代码展示了如何使用PHP语言编写一个简单的爬虫来从金书网获取书籍的名称。以下是对这段代码的详细解释: 首先...