`
mj133233
  • 浏览: 1134 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

关于php抓取页面信息的简单代码

阅读更多
利用php DOM函数实现简单的单页信息抓取   (在这里尽抓取a标签,功能实现了,但是扩展页链接抓取没有实现,欢迎大家批评指导)
<?php
error_reporting(E_ERROR);
$pages = file_get_contents('http://www.php100.com');
//$pages = htmlspecialchars($pages);
$doc = new DOMDocument();
$new_doc = new DOMDocument('1.0', 'utf-8');
$doc->loadhtml($pages);
$dom = $doc->getElementsByTagName('a');
for ($i=0;$i<$dom->length;$i++){
$node = $new_doc->createElement('a',$dom->item($i)->nodeValue);
$newnode = $new_doc->appendChild($node);
$newnode->setAttribute('href',$dom->item($i)->getAttribute('href'));
$newnode->setAttribute('style','display:block;margin-left:30px;');//echo $dom->item($i)->getAttribute('src').'</br>';
}
echo $new_doc->saveHTML();
?>
1
0
分享到:
评论
1 楼 mj133233 2011-10-11  
自己做一楼

相关推荐

    php防恶意刷新,过度抓取页面脚本

    本文将详细讲解如何利用PHP实现防恶意刷新和过度抓取页面的脚本。 首先,我们需要理解恶意刷新和抓取的本质。恶意刷新通常是指用户短时间内连续点击页面按钮,导致服务器接收到大量的重复请求;过度抓取则常见于...

    PHP写的简单纸黄金实时报价抓取爬虫源代码

    在这个场景中,我们关注的是一个基于PHP编写的简单纸黄金实时报价抓取爬虫源代码。纸黄金,又称账户黄金或虚拟黄金,是一种投资产品,投资者可以通过银行等金融机构进行买卖,而无需实物交割。本项目的核心目标是...

    用PHP抓取页面并分析

    【标题】: "用PHP抓取页面并分析" 涉及的知识点 在Web开发中,有时我们需要从其他网站获取数据或者分析网页内容,这时就需要用到网页抓取(Web Scraping)技术。PHP是一种广泛应用的服务器端脚本语言,非常适合进行...

    分享下页面关键字抓取components.arrow.com站点代码

    页面关键字抓取,通常指在互联网上通过编程技术抓取特定网页中含有关键字的内容。这项技术广泛应用于SEO分析、网络爬虫、数据挖掘等领域。本篇文章主要介绍如何通过PHP脚本语言在***站点上抓取含有关键字的页面数据...

    php抓取页面与代码解析 推荐

    下面先简单说一下本文的主要内容: 一、 PHP抓取页面的主要方法: 1. file&#40;&#41;函数 2. file_get_contents&#40;&#41;函数 3. fopen&#40;&#41;-&gt;fread()-&gt;fclose()模式 4.curl方式 5. fsockopen&#40;&#41;函数 ...

    PHP实现采集抓取淘宝网单个商品信息

    本篇文章将探讨如何使用PHP语言实现从淘宝网抓取单个商品的基本信息,如商品图片、名称、价格以及商品属性。这种方法依赖于PHP内置的`file_get_contents`函数和正则表达式技术来解析HTML内容。 首先,我们要明确,...

    正则抓取页面

    在“Google”这个压缩包文件中,虽然没有具体的文件列表,但我们可以假设其中可能包含了一些关于如何使用正则表达式抓取Google搜索结果的教程或示例代码。通过学习这些资源,你可以进一步提升在网页抓取方面的能力,...

    php写的页面小偷 自动抓取页面并在本地重新生成HTML文件

    标题中的“php写的页面小偷 自动抓取页面并在本地重新生成HTML文件”是指一种使用PHP编程语言编写的网页爬虫程序。这种程序的主要功能是自动地从互联网上抓取指定网页的内容,并在本地计算机上生成对应的HTML文件,...

    php生成全国多城市分站静态页面代码

    本文将详细探讨如何使用PHP生成全国多城市分站的静态页面代码,这涉及到动态网站内容的静态化、多城市数据处理以及文件系统操作等多个方面。 一、静态页面的优势 生成静态页面的主要优点在于提高网站的加载速度和...

    php抓取页面

    在IT行业中,网页抓取(Web Scraping)是一种获取大量数据的技术,通常用于数据分析、市场研究或内容聚合。PHP作为一种广泛使用的服务器端脚本语言,虽然不像Python那样拥有丰富的专门库,但依然可以通过一些方法...

    PHP使用Curl实现模拟登录及抓取数据功能示例

    - 首先,你需要查看登录页面的HTML源代码,找出登录表单的相关信息: - 登录页面URL - 验证码URL(如果存在) - 表单字段名(如username、password) - 提交表单的URL - 目标数据所在的URL 2. **获取和存储...

    php自己写的获取页面的代码

    文件列表中的`getweb`可能是实现这些功能的具体代码文件,包含了一个简单的PHP网页抓取程序。如果要深入学习和理解这个代码,你可以打开这个文件查看其内部实现。 总结来说,PHP获取网页内容涉及`file_get_contents...

    PHP抓取网页数据插入数据库

    首先,我们要理解PHP抓取网页数据的基本原理。这通常涉及到HTTP请求和HTML解析。PHP可以使用cURL库发起HTTP请求,获取网页的HTML源代码。例如,可以创建一个cURL会话,设置URL,然后执行请求: ```php $ch = curl_...

    PHP抓取网页新闻函数(包含示例)

    以上就是关于“PHP抓取网页新闻函数”的主要知识点。实际应用中,我们需要根据具体需求和目标网站的结构,选择合适的方法和工具进行网页抓取。同时,不断学习和了解新的技术和库,可以提升我们的网页抓取能力。

    基于PHP的体育php抓取采集源码.zip

    【标题】"基于PHP的体育php抓取采集源码.zip" 涉及的主要知识点是PHP编程语言在数据抓取和采集方面的应用。这通常指的是使用PHP开发的脚本或工具,用于从体育相关的网站抓取实时数据,如比赛结果、赛程、运动员信息...

    58同城抓取字段

    "58同城抓取字段"这个标题暗示了我们正在探讨如何从58同城这个知名的分类信息网站上获取特定的数据字段。58同城是一个涵盖房产、招聘、二手物品等多个领域的平台,其中"二手房"数据是许多人关注的焦点,这可能涉及到...

    基于PHP的小抓取php留言板源码.zip

    【标题】"基于PHP的小抓取php留言板源码.zip"是一个包含PHP编程语言实现的简单网页抓取(web scraping)功能的留言板系统源代码。它可能是为了教学或实验目的而设计,让学生或开发者了解如何在PHP环境中实现网页数据...

    图片定时抓取代码

    - 抓取过程中可能会遇到网络问题、权限错误或页面结构变化等情况,因此良好的错误处理机制和日志记录非常重要。通过记录日志,可以追踪和分析程序运行中的问题。 7. **图片存储管理**: - 抓取下来的图片需要妥善...

    基于PHP的儿童故事php抓取程序源码.zip

    【描述】中提到的"基于PHP的儿童故事php抓取程序源码.zip"表明这个压缩包包含的是源代码,意味着用户可以查看并理解代码的工作原理,甚至对其进行修改和扩展。源码是程序的核心部分,通过分析源码,开发者可以学习到...

Global site tag (gtag.js) - Google Analytics