PHP之数据采集[抓取阿里巴巴上宁波企业的详细信息] - 非正则实现 - 过客阵营 -- 简单的就要最简单

vb2005xu

浏览: 1787042 次
性别:
来自: 北京

最近访客更多访客>>

秋之风245

lukeme

liugm1

SeerMi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

PHP之数据采集[抓取阿里巴巴上宁波企业的详细信息] - 非正则实现

博客分类：

FleaPHP/QEEPHP 资料

阿里巴巴企业应用 PHP 正则表达式 IOC

现在有很多人在做数据采集,个人感觉这个就类似于小偷程序.对于网页中的信息摘取说白了就是通过分析每页的静态HTML元素的值来提取个人需要的信息而已.说白了就是HTML文档分析.传统的做HTML采集大多是靠正则表达式来实现.

但是说出来不怕你笑话,正则一直就是俺最最拿不出手的东西,这里主要DOM解析的方式来实现的.

主要阐述的关键就是: 简单就是美! 怎么简单怎么来,一直喜欢Rebol语言的宗旨:简单的就要最简单,复杂的也能处理.

前今天看过使用htmlparser抓取阿里巴巴上宁波企业的详细资料这篇文章, 写得不错.但是个人认为实在太太繁琐了,对于

JAVA程序员来讲,要熟悉一个新类库可不是一件很容易的事,如果就为了达到一个小目的而要引进新的类库,那最后的工程是不是也太庞大了.就拿著名的JAVA开发三套件"SSH"来说,其实单纯做Web网站,Struts就已经够用了,如果能分出DOM层也是可以的,毕竟不同于企业应用.但是往往很多人都是三者同上,搞得相当复杂不说,就连调试时都要麻烦好几个级别.不同的配置文件,不同的异常处理.其实有什么必要啊?

对于Spring 很多人其实就只是用到了控制反转[IOC]而已,对于切面编程我想很多人没有用到吧.对于新手切记不要将做站和做企业应用混在一块,根本就不是一个层级的东西.所以做出来的东西往往又慢又无效率.在说如果使用企业级应用服务器,对于大多数的中小型公司来说可能真的拿不出这样一笔钱来购置.记得UNIX有个哲学:简单就是美.

本人在接JAVA网站任务的时候其实就仅仅用到Spring这一个框架[而且也只用到它的IOC和JDBC模板],其他的前台的设计个人还是喜欢JS+CSS来做,并未用到它的MVC框架,而是使用它的IOC来配合单一入口实现了一个小小的跳转机制.呵呵呵

不过感觉做站最好的其实是PHP这个语言,因为她是我赚老婆本的东西,动态的脚本语言.反正很好用.话不多说,见代码.这里的代码仅仅抓取了企业名称和网站,其他的尚未实现...完整版本见后续文章....

与以往一样,这里主要使用FleaPHP框架,其实无论哪种框架,原理差不多,何况我这个代码没有用到这个框架的什么东西,就只是smarty的加载而已这里没有使用到数据库,主要仅仅是一个测试,后期再加入....

本代码纯粹原创,转载请附上作者信息....

CompanyInfo.php

company.get.html

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>CompanyInfo List</title>
</head>
<body>
采集源路径: <a href="<% $res_url %>" target="_blank"><% $res_url %></a> 
<hr/>

<table border=1>
<thead>
	<tr>
		<%foreach from=$dataArr_head item=curr_field_title%>
			<th> <% $curr_field_title %> </th>
		<%/foreach%>
	</tr>
</thead>

<tbody>
<%section name=company loop=$dataArr %>
	<tr>
		<td><%$smarty.section.company.index%></td>
		<%foreach from=$dataArr[company] item=curr_id%>
			<td> <% $curr_id %> </td>
		<%/foreach%>	
	</tr>
<%/section%>
</tbody>	
</table>

</body>
</html>

查看图片附件

4
顶

2
踩

分享到：

J2SE5.0新特性之使用代理服务器 | 使用注释来显示PDT中的PHP代码助手 -- 郁 ...

2008-11-13 10:10
浏览 5164
评论(3)
分类:企业架构
查看更多

3 楼 dafei2009 2013-03-03

不会用。。。

2 楼 vb2005xu 2008-11-14

其实对于面向切面编程,个人最近在学习TurboGears中发现,它是采用注释的元数据来实现的,其实在JAVA5中对于注释已经提供了这个机制,对于初级JAVA程序员来讲大可以使用这种方式来实现自己的切面机制.这里仅仅提一下我自己的意见,也不知道对与不对,请大家点评:

这里以一个日志记录事件为例:

看过网上的一章实现代码[简单的切面介绍],基本是使用简单代理的方式来实现的.基本要掌握代理,反射等好几个东西.但是使用注释的元数据功能只需如此即可:

/**
 *
 * @doaction loginLogRecord
 */
public abstract boolean varityLogin(String user,String pass) ;

在这里仅仅需要实现注释中的 @doaction 即可....

至于具体实现,欢迎大家探讨....

1 楼 exceljava 2008-11-13

顶一个，楼主的分析很实在。对于ssh，好多人跟风，简直达到了顶礼膜拜的程度。相信看了楼主的见解对很多人多有启发。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lim_3ck_01b_0718.pdf: lim_3ck_01b_0718

C2Former: 解决RGB-红外物体检测中模态校准与融合不精确问题的标定互补变压器: 内容概要：本文介绍了一种新颖的变压器模型C2Former（Calibrated and Complementary Transformer），专门用于解决RGB图像和红外图像之间的物体检测难题。传统方法在进行多模态融合时面临两个主要问题——模态错位（Modality miscalibration）和融合不准确（fusion imprecision）。作者针对这两个问题提出采用互模交叉注意力模块（Inter-modality Cross-Attention, ICA）以及自适应特征采样模块（Adaptive Feature Sampling, AFS）来改善。具体来说，ICA可以获取对齐并且互补的特性，在特征层面进行更好的整合；而AFS则减少了计算成本。通过实验验证了基于C2Former的一阶段和二阶段检测器均能在现有公开数据集上达到最先进的表现。适合人群：计算机视觉领域的研究人员和技术人员，特别是从事跨模态目标检测的研究人员，对Transformer架构有一定了解的开发者。使用场景及目标：适用于需要将可见光和热成像传感器相结合的应用场合，例如全天候的视频监控系统、无人驾驶汽车、无人

pepeljugoski_01_0108.pdf: pepeljugoski_01_0108

[AB PLC例程源码][MMS_044696]ME Faceplates for 1797 Digital and Analog I-O.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

matlab程序代码项目案例模型预测控制(MPC)基准测试问题的开放集合.zip: matlab程序代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

lusted_3ck_02_1118.pdf: lusted_3ck_02_1118

虚拟同步发电机非对称电网故障下自适应低电压穿越方法的研究与应用: 内容概要：本文提出了用于虚拟同步发电机（VSG）在非对称电网故障期间的一种自适应低电压穿越（LVRT）方法。现有LVRT方法由于故障检测延迟可能导致逆变器损坏的问题以及新的电网标准（GCs）规定了逆变器基资源（IBRs）需要注入负序电流的需求。所提出的LVRT方法采用初始故障时刻电压控制环差补及有功功率环相角调整，使系统能够在正常运行时保持特性不受影响，并在出现不对称故障时立即限制输出电流。模拟结果显示，新方法不仅能迅速响应并抑制故障电流，在不同类型的不对称故障条件下亦能良好表现。此外，该方法不需要参数设计，且能够最大限度利用IBRs电流，同时维持IBRs电压源特性和符合新的GCs。适合人群：电力电子与能源系统的学术研究人员和技术人员，熟悉虚拟同步发电技术以及LVRT相关背景的工程师。使用场景及目标：主要适用于包含虚拟同步发电机的新能源系统中的故障穿越技术改进，以满足最新国际电气电子工程师协会(IEEE)的电气互连标准，并解决当前LVRT方法无法全面符合规范的问题，确保系统的安全可靠运行。该研究可用于改进新能源并网逆变器的设计。其他说明：文章通过对现有的LVRT控制方法进行改进来

AI工具DeepSeek的应用指南：从入门到高级提示词策略与实战案例: 内容概要：本导读书籍《DeepSeek从入门到精通》旨在为读者提供对AI工具DeepSeek全面的认识。书籍首先概述了DeepSeek作为一个国产、开源的多功能AI平台的功能和特点，接着详细介绍了如何入门操作，并通过实战演示来帮助用户掌握不同应用场景下的高级提示词策略和使用技巧，如针对不同类型的提示语的设计方法和实际应用。特别是在‘发散’部分，对提示语进行了深入剖析，不仅探讨了提示词的高级技术和策略，还包括AI幻觉、人机协作以及知识生成等方面的讨论，有助于用户深入理解和灵活应用提示词，在各种任务中提高效率并获得更好的效果。最后一章展望了AI与人类在未来内容创作中的角色转变和发展趋势。这本详细的指导手册能帮助读者形成系统的AI工具认知和技术体系，快速上手并在实践中不断加深对该领域的理解。适用人群：面向希望深入了解AI工具尤其是提示词设计的专业人士、开发者及所有有兴趣探索这一领域的个人；适合有一定技术背景的从业者。使用场景及目标：帮助初学者快速启动DeepSeek的日常使用，为中高级用户提供更深入的高级功能理解和实践，特别是涉及提示词构建的技术细节，助力于提升特定任务处理效率和结果品质

支持适用于PERC H330/H730/H730P/H830/H730P系列RAID卡MX/FD33xD/FD33xS控制器的驱动安装指南: 下载 1. 单击“立即下载”，以下载该文件。 2. 出现“文件下载”窗口后，单击“保存”，以将文件保存到硬盘。安装 1. 浏览至文件下载目标位置并双击新下载的文件。 2. 仔细阅读对话窗口中显示的发布信息。 3. 下载并安装对话窗口中标识的任何必备项，然后再继续。 4. 单击“Install”（安装）按钮。 5. 按照其余提示执行更新。安装 1. 将解压的文件复制到可访问Windows的介质。 2. 将系统重新引导至Windows操作系统。 3. 打开“服务器管理器”->“设备管理器”->“存储控制器”，然后单击“PERC控制器”。 5. 单击“更新驱动程序软件”，并按照提示更新驱动程序。 4. 重新引导系统以使更改生效。

Saxena_01_0107.pdf: Saxena_01_0107

[AB PLC例程源码][MMS_040317]DINT Conversion of INT data type and Arithmetic operations like Div, Mul.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_046353]using RSlogix v16 alarming instructions with RSViewSE-32 and.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

第8节模型预测控制在运动规划中的应用: 第8节模型预测控制在运动规划中的应用

2024年中国统计年鉴excel整理版.zip: 覆盖了人口统计、经济发展、教育体系、环境资源等多个关键领域，旨在为研究人员、政策规划者及相关各界提供全面洞察社会现状与趋势的窗口。 2024年修订内容如下：资源和环境–增加“倒塌房屋间数”。农业–增加“大豆”、“花生”、“油菜籽”、“芝麻”“甘蔗”“甜英”业及辅助性活动”产值和指数。工业–增加“智能手机”产量。卫生和社会服务–增加“分地区儿童健康情况`和“分地区孕产妇健康情况”。文化和体育–增加公共图书馆“少儿文献数”和国有博物馆“未成年人参观人次”情况。城市、农村和区域发展–增加“乡村办水电站”“农村水电装机容量”“农村水电年发电量”情况。科学技术–新增分行业新产品开发经费支出、新产品销售收入等指标。运输、邮电和软件业–公路营业性客运量包括班车包车客运量、公共汽电车城际城乡客运量、出租汽车(含巡游出租汽车、网络预约出租汽车)城际城多客运量运输、邮电和软件业–公路客运周转量包括班车包车客运周转量、公共汽电车城际城乡客运周转量、出租汽车(含巡游出租汽车、网络预约出租汽车)城际城乡客运周转量。就业和工资、固定资产投资、工业、建筑业、批发和零售业、房地产、科学计算等修订主要内容： (1)拓展适用范围为了更全面覆盖统计调查对象，新标准按照市场主体登记注册管理实际对分类范围作相应调整，从“企业”扩大至所有“市场主体”，增加了“农民专业合作社(联合社)”和“个体工户”等类别。 (2)取消相关类别由于《中华人民共和国私营企业暂行条例》已被废止，根据《中华人民共和国公司法》《中华人民共和国个人独资企业法》《中华人民共和国合作企业法》，将相关“私营有限责任公司”、“私营股份有限公司”分别列入“有限责任公司、“股分有限公司”范围类别。引国，“私营独资企业”调整为“个人独资企业”，“私营合伙企业”调整为“合伙企业”。 (3)调整分类结构一是关于“内资企业”。根据《中华人民共和国市场主体登记管理条例》规定，将原内资企业分类“国有企业”“集体企业”、“股份合作企业”、“联营企业”、“有限责任公司”、“股份有限公司”、“私营企业”和“其他企业”等8个类别调整为“有限责任公司”、“股份有限公司”、“非公司企业法人”、“个人独资企业”、合伙企业”和“其他内资企业”等6个类别。其中，原“国有企业”、“集体企业”、“股份合作企业”“联营企业”纳入新类别“非公司企业法人”下;原“私营企业”类别取消(上段已述)。二是关于“外商投资企业”和“港澳台投资企业”。根据《中华人民共和国外商投资法》规定，将原外商投资企业分类“中外合资经营企业”“中外合作经营企业”、“外资企业”、“外商投资股份有限公司”和“其他外商投资企业”等5个类别调整为“外商投资有限责任公司”、“外商投资股份有限公司”、“外商投资合伙企业”和“其他外商投资企业”等4个类别。港澳台投资企业参照外商投资企业分类方法调整。 (4)规范类别名称根据市场监管部门对登记注册管理的规范名称，分别将原“国有企业”、“集体企业”更名为“全民所有制企业(国有企业)”、“集体所有制企业(集体企业)” (5)统一内资范围根据《中华人民共和国外商投资法》和相关部门规定，将登记注册为内资公司的有限责任公司(外商投资企业投资)、登记注册为内资公司的股份有限公司(上市、外商投资企业投资)等市场主体，即外商投资企业市场主体在中国境内的再投资市场主体，由原标准中的“外商投资企业”调整为新标准中的“内资企业”相关类别。

[AB PLC例程源码][MMS_046682]ME Faceplates for 1734 Digital and Analog I-O with Descriptions.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_046233]Tank Volume AOI.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

基于COMSOL软件的PED单晶生长模型: 基于comsol 6.2软件，建立了单晶生长的二维模型，用的是数学模块的PDE方法，涵盖了温度场和浓度场。

Gaussian-Filter: Gaussian_Filter

lim_3ck_01_0519.pdf: lim_3ck_01_0519

[AB PLC例程源码][MMS_046318]Scale with Parameters Add-On Instruction.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

PHP之数据采集[抓取阿里巴巴上宁波企业的详细信息] - 非正则实现

评论

发表评论

相关推荐

ws-http 最简单轻量的PHP CURL工具库

Facade 包装类 -- 解决视图里面长长的命名空间调用问题

PHP单例模式面试注意事项

NGINX 配置 SSL 证书 搭建 HTTPS 网站

关于php cron任务管理的实现假想

修改一些PHP工具

sublime text linux上中文输入问题的终极解决方案

qeephp3.0 发布了

swiftmailer 的快捷助手 qser-mailer

PHP 中简单的伪造IP刷票实现

PHP5.5 htmlspecialchars 返回null的坑

PHP 5.5 empty + 魔术变量 的坑

Aert_Log: 设计一个精简易用的日志

创建一个简单的短链服务类

收集常用的PHP简单代码

简易PHP路由,支持正反向url解析支持

系统学习のCACHE 学习

YY 下 sql查询封装类 不知道好不好使

生成后台管理菜单 admin_menu 类

抽取个sql生成器工具 -- 摘自 fuelphp1.1 版本

最近访客更多访客>>

NGINX 配置 SSL 证书搭建 HTTPS 网站

PHP 5.5 empty + 魔术变量的坑

YY 下 sql查询封装类不知道好不好使