`
xitong
  • 浏览: 6439756 次
文章分类
社区版块
存档分类
最新评论

php采集csdn首页新闻

 
阅读更多

<?php

function csdn(){//$uid采集文章的分类
    $url="http://www.csdn.net";
    $ch = curl_init();
    curl_setopt ($ch, CURLOPT_URL,$url);
    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 5);    
    curl_setopt($ch,CURLOPT_ENCODING ,'utf8'); 
    $content = curl_exec($ch);
    preg_match_all("/http\:\/\/\w*\.csdn\.net\/a\/\d*\/\d*\.html/",$content,$match);
    $weburl=$match[0];
    $weburl=array_unique($weburl);
    $j=0;
    foreach($weburl as $i=>$vo){
        curl_setopt ($ch, CURLOPT_URL,$vo);
        $content = curl_exec($ch);
        preg_match_all("/\<h1\>(.*)\<\/h1\>|\<div\s*class\=\"blkCont.*([\s\S]*)\<div\s*class\=\"page\".*\>/",$content,$match);
        if(!empty ( $match[2][1])){
            $list[$j]['content']=$match[2][1];
            $list[$j]['title']=$match[1][0];
            $j++;
        }
    }
    print_r($list);
}
?>

很容易看出

$list就是收集到的新闻,形式是一个二维数组

如果要把他保存到你的数据库,我就不解释了...

其中注意判断是否与你数据库的文章重复

可以通过md5加密标题然后与你数据库的文章标题md5加密后比对,若真.,则表示你数据库有同样的文章

注意这里希望大家复制不要手工复制,请view plain查看源代码方法复制.....

因为表面的代码跟实际代码貌似有出入



如果你是thinkphp的话....那就跟我的一样了...下面贴出更方便的代码直接添加数据库,包括重复数据判断:

<?php
function csdn($uid){//$uid采集文章的分类
    $url="http://www.csdn.net";
    $ch = curl_init();
    curl_setopt ($ch, CURLOPT_URL,$url);
    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 5);    
    curl_setopt($ch,CURLOPT_ENCODING ,'utf8'); 
    $content = curl_exec($ch);
    preg_match_all("/http\:\/\/\w*\.csdn\.net\/a\/\d*\/\d*\.html/",$content,$match);
    $weburl=$match[0];
    $weburl=array_unique($weburl);
    $j=0;
    foreach($weburl as $i=>$vo){
        curl_setopt ($ch, CURLOPT_URL,$vo);
        $content = curl_exec($ch);
        preg_match_all("/\<h1\>(.*)\<\/h1\>|\<div\s*class\=\"blkCont.*([\s\S]*)\<div\s*class\=\"page\".*\>/",$content,$match);
        if(!empty($match[2][1])){
            $list[$j]['content']=$match[2][1];
            $list[$j]['title']=$match[1][0];
            $j++;
        }
    }
    $db=M('news');
    $news=$db->where("uid=".$uid)->select();
    $flag=true;
    foreach($list as $i=>$vo){
        foreach($news as $j=>$value){
            if(md5($value['title'])==md5($vo['title'])){
                $flag=false;
                break;
            }
        }
        if($flag){
            $vo['uid']=$uid;
            $vo['date']=date('Y-j-m H:i:s');
            $vo['author']=Session::get("admin");
            $vo['iscommand']=1;
            $rs=$db->add($vo);
        }
        $flag=true;
    }
}
?>


分享到:
评论

相关推荐

    百度知道自定义分类采集版php版v1.4.1X

    百度知道自定义分类采集版是采用php进行开发的百度知道问答采集网站源码。 软件特点: 1、可自定义采集分类 2、免人工录入信息,全自动系统采集 3、支持缓存 减少服务器资源。 (本程序需要安装伪静态插件...

    cj.zip_OK资源网_OK资源采集网_cj_ok资源采集_采集资源网

    【cj.zip】是一个压缩包文件,其名称包含了“OK资源网”、“OK资源采集网”、“cj”、“ok资源采集”以及“采集资源网”等关键词,这些标签暗示了该文件可能与网络资源的采集、分享和管理有关。在描述中提到,“采集...

    PHP100视频教程全集112集BT种子【PHP经典】

    PHP100视频教程63:PHP+Mysql新闻系统的开发三(上) PHP100视频教程64:PHP+Mysql新闻系统的开发四 PHP100视频教程65:PHP+Mysql新闻系统的开发五 PHP100视频教程66:PHP+Mysql新闻系统的开发六 PHP100视频教程...

    战刀API淘客自动采集系统 v6.0

    战刀API淘客自动采集系统是一个以php+MySQL进行开放的淘宝客网站程序。程序说明:1.老Y文章系统更改为php战刀API淘宝客系统。2.本程序就是基于"淘宝客基础API"开发出来的产品 。3.现在淘宝客API 重新开放申请 商品全...

    杨他他简约文章CMS带文章采集功能

    此版本为开源版,支持PHP5.4-7.0、mysql5.0以上,支持memcache缓存,支持rewrite伪静态。 程序内置一个文章采集器,可批量采集文章,采集时自动记录本次采集的页码,方便下次接着继续采集。 采集的文章入库时分别...

    蓝天采集器-PHP

    蓝天采集器是一款免费的数据采集发布软件,可部署在云端服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登陆实时发布数据,软件实现定时定量全自动采集发布,无需人工干预!是大数据、云时代网站...

    亲测自动采集在线电脑壁纸网站源码

    壁纸采集自 360壁纸库、必应首页的每日图片以及金山词霸开放平台。 可以直接上传到服务器使用,要修改标题或者其他的话直接在index.php文件下就该就行了。 环境的话最好使用php5.6,我测试的时候环境就行php5.6,...

    自动采集小说网(全网首发).zip

    2.修复采集https站点,转码阅读失败的问题 3.PC版信息页 新增滚动显示 小说简介以及站点列表 4.PC版信息页 新增 同作者的作品栏 5.PC版信息页 新增 全部章节目录 折叠展示的功能 6.WAP版修复 部分系统环境下 ...

    PHP 采集获取指定网址的内容

    根据提供的文件信息,我们可以深入探讨PHP采集技术相关的知识点,主要从以下几个方面: 1. PHP采集基本原理与方法 采集网页通常指的是从互联网上获取指定网页的内容,并将其存储下来以便后续分析或阅读。PHP作为...

    带自动采集小说网站源码 小说听书网站源码 小说网站源码 带教程.zip

    PTCMS可听书可下载的小说站源码 带自动采集和搭建视频教程 必装环境:Nginx(apache.iis也可),mysql,php5.6,memcached php5.6安装扩展memcache新建站点,注意新建时,PHP版本必须选择PHP5.6 安装教程 1.上传网站...

    X站源码,带采集,带教程,有数据

    "带采集"意味着这套源码内置了自动采集功能,可以自动化地从互联网上抓取视频资源,更新网站内容,提高网站的活跃度和用户体验。"带教程"表示源码中附带有详细的使用指南,帮助用户理解和安装源码,避免在搭建过程中...

    杰奇的连续采集小工具-自己制作

    免费设置软件采集规则(不包括后台采集规则)使采集器正常采集 实现功能 不间断采集,设置一个最大采集页数【最大页数】,就不停的从 第1页,刷到采集页数,有新内容就采,可设置3个网站,不断的循环。 首先点击...

    PHP版LIMS(开放实验室信息管理系统)

    LIMS,全称为Laboratory Information Management System,即实验室信息管理系统,主要用于实验室数据的采集、处理、存储、检索、管理和控制。在这个领域,PHP版的LIMS系统因其开源、可定制化强、成本低等优势,受到...

    疯子页面采集器源码

    疯子页面采集器是一款网页抓取工具,是用于网站信息采集,网站信息抓取,包括图片、文字等信息采集...买本程序送php采集器源码 //----------------------------------------------------------------------------------

    php电影网站源码

    php建站源码,美观大方带采集功能,可解压学习一下也可直接建站 1.环境要求:php7 支持伪静态 2.将源码上传到网站根目录 3.http://你的域名/install 安装 后台地址:http://你的域名/admin 账号密码:admin admin ...

    PHP开源团购导航程序源码 - PHP+MySQL团购导航源码 - 团购程序源码(看评论酌情下载)

    2.团购网站管理:进行团购网站增、册、改、排序、颜色,并可设置站点采集规则,采集网站团购商品。 3.团购网站会员管理:进行团购网站会员增、册、改操作,设置会员对应的团购网站。 4.提交网站审核:审核提交的团购...

    PHP采集:GitHub刷 【Star、Watch、Fork、Follow】源码教程

    背景 最近广大同学对行业上刷GitHub Star操作很是好奇,博主特此分享核心技术,以此解惑。 原理 ...

    WeCenter 神箭手云采集插件 v3.1.6

    神箭手云采集WeCenter框架插件,云端在线智能爬虫/采集器,基于分布式云计算平台,帮助需要从网页获取信息的客户快速轻松地获取大量规范化数据。操作简单,无需专业知识。降低数据获取成本,提高效率。任务完全...

    php百度贴吧小偷天宇版 v1.0

    4.添加缓存功能,采集不到不缓存 5.自定义二级目录功能 6.自定义模板(模板分离,自己可编写模板) 7.网站后台管理功能 8.伪静态规则在后台设置完成后自动生成 9.全站伪原创(更加有利于搜索引擎收录,可以...

Global site tag (gtag.js) - Google Analytics