`
imjl
  • 浏览: 156241 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

不懂正则,却写过爬虫

阅读更多
正则一大堆东西,我不知道。

但是写爬虫要用到正则,尤其我以前写过智能型爬虫

举例爬取:<a href="a.html" target=_blank>test</a>

php我通常会写成 $p = "/<a href="(.+?)".*?>(.+?)<\/a>/is";

.*? 理解成过滤信息

(.+?) 你要拿得信息


这样的写法 C# 也可以。。如果java可以,请回下。

分享到:
评论
4 楼 ivan.zhuang 2010-02-26  
试试把html转化成xml 然后用xpath,xquery解析
3 楼 illu 2010-02-10  
智能型爬虫。。 机器学习么。。
2 楼 imjl 2010-02-08  
看博客

大概意思可以见我回你的问题


1 楼 lzj0470 2010-02-08  
怎么智能法?方便解释一下吗?

相关推荐

    网页解析器,用于网络爬虫解析页面, 不懂网页解析也能写爬虫.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    Python-对懂球帝的文章进行有条件爬取

    3. **time库**:在爬虫过程中,为了防止过于频繁的请求导致服务器压力过大或被封IP,我们通常会使用time库中的函数来设置请求间隔,比如`time.sleep()`,让程序暂停一段时间后再继续执行。 4. **bs4库...

    正则使用经典

    在IT行业中,正则表达式(Regular Expression,简称regex)被广泛应用于数据验证、文本挖掘、爬虫开发等领域。本篇文章将深入探讨“正则使用经典”,特别是关于URL正则和图片正则的相关知识点。 首先,让我们来看看...

    《用python写网络爬虫》第二章,看不懂你打我。

    正则表达式 Xpath BeautifulSoup 1、本章学习路径:正则表达式–&gt;Xpath–&gt;BeautifulSoup 2、Requests最核心的两个类: request(对HTTP请求的封装) response(对HTTP返回结果的封装) 一次HTTP请求其实就是:(1)...

    简单但绝不简陋的 Python3 爬虫项目.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    学习爬虫推荐阅读的6本书籍.docx

    因此,学习爬虫需要懂的技术包括但不限于 Python 编程语言、HTTP 协议(TCP/IP 协议栈)、数据库、Linux 等知识。 以下是学习爬虫推荐的 6 本书籍: 1. 《用 Python 写网络爬虫》:本书使用 Python 创建了一个高级...

    Python爬虫知识点梳理

    爬虫涉及的技术包括但不限于熟练一门编程语言(这里以 Python 为例) HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识,常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫,还需要了解分布式的概念、...

    Python爬虫史上超详细讲解(零基础入门,老年人都看的懂)(附源码)

    【Python爬虫基础教程】本篇文章将带领零基础的读者,甚至是老年人也能理解的Python爬虫知识,通过实例解析如何使用CSS选择器抓取数据。文章以获取相亲网站上女嘉宾信息为例,深入浅出地介绍了相关技术。 首先,...

    零基础写python爬虫之抓取百度贴吧代码分享

    这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! 复制代码 代码如下: # -*- coding: utf-8 -*- #————————————— # 程序:百度贴吧爬虫 # 版本...

    易语言-福利美图爬虫下载器

    易语言是中国本土开发的一种编程语言,它以中文编程为特色,降低了编程的门槛,使得不懂英文的用户也能进行程序开发。 该下载器的核心技术是网络爬虫,网络爬虫是一种自动化浏览互联网并获取网页信息的程序。在本...

    国科大移动互联网技术第三章爬虫和nlp部分四次作业python源码+项目说明(高分期末大作业)

    不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的大作业,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 该资源内项目代码都经过测试运行成功,功能ok的情况下...

    国科大移动互联网技术第三章爬虫和nlp部分四次作业python源码+文档说明

    不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况...

    中关村的手机参数采集.rar

    易语言是一种简洁直观的中文编程语言,旨在降低编程难度,让不懂英文的人也能进行程序开发。在这个项目中,易语言源码很可能是用于编写爬虫程序,负责访问目标网站,解析HTML或其他格式的网页内容,从中提取出手机...

    Java、Python哪家强?十万条应聘数据告诉你(含源代码)——网络爬虫第三天

    如果大家没有看之前的requests课程,必须去看一下,不然看不懂今天的课程的! 点我查看requests课程:网络爬虫——实战项目2(爬取某社区所有论文,含代码) 一、课程介绍 今天我做的项目是利用requests模块爬取前途...

    MySpider.zip

    "50个字好难啊,不懂推销自己的程序员,连写个描述都难" 这句话表达了开发者在简短地概括项目内容时遇到的挑战,这在技术圈内是很常见的,因为技术人员往往更专注于技术实现而非营销语言。然而,这个项目的基本意图...

    易语言源码通过获取网页的源文件得到媒体地址.rar

    5. **易语言编程基础**:易语言是一种中文编程语言,它的设计目标是降低编程的难度,使不懂英文的人也能编程。了解易语言的基本语法、变量、控制结构、函数调用等是理解和修改此源码的前提。 6. **文件操作**:在...

    【课程代码】从零写Python练手项目:实用脚本,python编程从零基础到项目实战,Python源码.zip

    从标题和描述中我们可以推断,这个课程旨在帮助完全不懂编程的人逐步掌握Python语言,并通过实践项目来提升技能。 首先,从零基础开始,这意味着课程将从最基础的概念讲起,如Python的安装、基本语法、变量和数据...

    淘宝帮派成员批量提取器

    易语言是一种以中文作为编程语言的编程环境,它的设计目标是使不懂英文的用户也能进行计算机程序设计。易语言采用“易”字作为语法关键字,降低了编程的学习门槛,使得更多的人可以参与到编程中来。通过易语言,...

Global site tag (gtag.js) - Google Analytics