js完成的提取网页信息 - 墨尔本,晴 - ITeye博客

`

lz12366

浏览: 425515 次
性别:
来自: 济南

最近访客更多访客>>

rocex

hqb732

sunjor

oznyang

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

pmh905001：写的很详尽，感谢！
解析jvm.dll和java.exe
Bll：插得真深啊，我的是（eclipse_j2ee_juno）：F: ...
在eclipse里jsp编译后的java和class文件的位置
heming_way：谢谢，对我很有用，解答了我对多值依赖的疑问
关于多值依赖--范式！
JavaStudy2011：
java语言解析xml文件
vrussell： Thanks man, it helps me a lot!
获得IEditorPart和IDocument

js完成的提取网页信息

博客分类：

js

Java JavaScript

阅读更多

public static void pattern(){
		String str="<h1><a class='deal-today-link' href='  http://www.meituan.com/beijing/deal/shuangta.html'>今日团购：</a>仅售48元！价值160元的双塔采摘园葡萄节双人行（可带1名儿童），采摘+垂钓+烧烤，吃不了可以“兜”着走！</h1>";
		String part1;
		String part2;
		String pattern="<h1><a[^<>]*>(.*)</a>(.*)</h1>";
		
		Pattern p=Pattern.compile(pattern);   
		Matcher m = p.matcher(str); 
		while(m.find()){
			part1 = m.group(1).trim();   
            part2 = m.group(2).trim();   
            System.out.println(part1+","+part2);  
		}
	}

如果用js的话

script type="text/javascript">     
          function testjs()
          {
            var p=/<a[^<>]*>(.*?)<\/a>/;
            var str="<a class='deal-today-link' href='33'>大家好</a>";
           var str1=str.replace(p,"$1");
             //var str2=str.replace(p,"$1");
            alert(str1);
           }
        </script>

分享到：

正则匹配双字节文字 | 十个最争议的编程观点

2010-08-15 14:07
浏览 1301
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

网页爬虫，网页抓取，js加载后网页抓取，超简单。: 网页爬虫是获取互联网上公开信息的一种自动化工具，它能够模拟浏览器的行为，抓取网页的HTML源代码，甚至是JavaScript加载后生成的内容。在标题和描述中提到的"超简单网页爬虫"，主要针对的是对网页抓取技术的初级...

Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓: **Python网页信息抓取技术详解** 网页信息抓取，也称为网络爬虫或网页抓取，是通过自动化程序从互联网上获取大量数据的过程。在这个领域，Python语言因其强大的库支持和简洁的语法而成为首选工具。本教程将深入探讨...

Phantomjs抓取渲染JS后的网页（Python代码）: ### Phantomjs抓取渲染JS后的网页（Python代码） #### 一、Phantomjs简介 Phantomjs被定义为一个无头浏览器（headless browser），它实际上是一个基于WebKit引擎的脚本可控制的“浏览器”。虽然它无法显示网页内容...

Java抓取网页数据Demo: 接下来，我们转向**抓取网页JS返回数据**。许多现代网页使用Ajax技术动态加载数据，这些数据通常不会出现在原始HTML中，而是通过JavaScript执行后生成。为了抓取这类数据，我们需要模拟浏览器的行为。Java中有一款...

抓取网页生成chm帮助文档: 总的来说，“抓取网页生成CHM帮助文档”是一种实用的技术，它结合了网页抓取、内容解析和CHM编译，使得大量的网络信息能够以一种易于管理和阅读的方式存储，对于个人学习或团队协作都提供了极大的便利。

excel 提取网页数据 4种方法: 在Excel中提取网页数据是数据分析工作中的常见任务，特别是在处理大量网络信息时。本文将详细介绍四种有效的方法：XMLHttpRequest、QueryTable、WebBrowser控件以及Power Query（也称为Get & Transform）。这四种...

JavaScript_网页抓取与GPT4视觉API和木偶.zip: 在这个主题中，我们主要关注JavaScript在网页抓取以及与GPT-4视觉API和Puppeteer库结合使用的情况。网页抓取，也称为网络爬虫或数据抓取，是自动从互联网上收集信息的过程。JavaScript在网页抓取中的作用主要体现...

HTMLParser提取网页内容: `：清理完成后，返回处理过的HTML字符串，此时的HTML已经去除了JavaScript、CSS和XML声明，更适合进行文本内容的提取。 4. **提取正文和标题**：虽然上述代码主要关注的是清理HTML，但要提取网页的正文和标题，还...

运用正则抓取网页数据: "运用正则抓取网页数据"的主题聚焦于使用正则表达式（Regular Expression，简称Regex）来提取网页中的有用信息。下面将详细介绍正则表达式的基本概念、在网页数据抓取中的应用以及如何结合编程语言实现这一过程。 ...

Ajax网页源码抓取程序: 这种技术在数据分析、网站监控、信息提取等领域有着广泛的应用价值。通过深入理解`WebBrowser`控件的用法和Ajax的工作原理，开发者可以进一步优化和扩展此类工具，以适应更复杂的网页抓取需求。

提取网页标题.rar: 在处理大量网页数据时，能够有效地提取网页标题是一项基础且关键的任务，尤其对于SEO（搜索引擎优化）、信息抓取、数据分析等领域。本教程将深入探讨如何从HTML文档中提取网页标题。一、HTML结构与标题元素 HTML...

可以提取所有网页游戏的素材。设置好目录点提取就可以了。很简单: 这类工具通常具有用户友好的界面，允许用户指定目标文件夹，然后一键完成提取过程。例如，"WebGameExtractor" 或 "ResourceHacker" 这样的工具就具备这样的功能。二、素材类型与识别网页游戏的素材主要分为以下...

vb实例抓取网页: 本实例提供的代码示例是关于如何通过VB来抓取网页内容，并将网页中的图像保存为BMP格式，这对于初学者来说是一个很好的学习起点。首先，我们需要了解VB中用于网络操作的核心组件——MSXML (Microsoft XML)。MSXML...

httpClient+jsoup 抓取网页数据: 在IT领域，网络数据抓取是一项重要的技能，它允许我们从网页中提取所需的信息，用于数据分析、内容聚合或自动化任务。HttpClient和Jsoup是两个Java库，分别专注于HTTP通信和HTML解析，它们常被组合使用来高效地抓取...

抓取整站网页: 在本例中，"webreaper97.exe"可能是一个Web抓取工具，用于帮助用户方便地完成整站网页抓取。这类工具通常提供图形用户界面，简化了编程过程，但可能不如自定义爬虫灵活。而"PCHome_download.html"可能是一个下载记录...

网页动态抓取: 网页动态抓取是一种技术，主要用于从互联网上获取实时更新或交互式内容，这些内容在静态抓取时可能无法获取到。这项技术对于数据分析、搜索引擎优化（SEO）、内容监控以及网络研究等多个领域都至关重要。首先，...

抓取网页源代码: 总的来说，抓取网页源代码是一项基础但关键的网络编程任务，它涉及网络协议、数据编码和错误处理等多个方面。通过实践和理解这样的程序，开发者可以进一步掌握网络通信的原理，并将其应用到更复杂的网络应用中，如...

LabVIEW实现网页数据提取和交互: ### LabVIEW实现网页数据提取和交互的关键知识点 #### 一、背景与问题定义在现代软件开发中，从网页上提取数据以及与网页进行交互的需求日益增加。这不仅适用于数据分析领域，也广泛应用于自动化测试、内容抓取等...

抓取网页数据工具json提取示例.pdf: 该功能允许用户从网页数据中直接提取JSON格式的信息，这对于数据分析师和爬虫开发者来说非常实用。下面我们将详细讲解如何进行JSON的提取： 1. **对象**：在JSON中，对象以大括号`{}`表示，包含一系列键值对`key: ...

IE资源提取武器-用于网页资源提取: 4. **网页抓取**：网页抓取是自动化提取大量网页信息的技术，常用于数据挖掘、搜索引擎索引等。虽然“IE资源提取武器”可能不涉及复杂的爬虫技术，但它可能提供了简单的抓取功能，允许用户按需选择并下载网页资源。 ...

Global site tag (gtag.js) - Google Analytics