`
kong0itey
  • 浏览: 305865 次
社区版块
存档分类
最新评论

[原创]解析url的正则表达式

    博客分类:
  • java
阅读更多
String s = "<a href= http://www.ditan360.com/news/info-89344.html target=\"_blank\">测试</a>";
String reg = "<[aA].*?[hH][rR][eE][fF]\\s*=\\s*('|\")?(.+?)(/>|>|\\s|'|\")";
Pattern pattern = Pattern.compile(reg);
Matcher matcher = pattern.matcher(s);
if (matcher.find())
        System.out.println(s+"解析结果:\n"+matcher.group(2));

正则表达式是:<[aA].*?[hH][rR][eE][fF]\\s*=\\s*('|\")?(.+?)(/>|>|\\s|'|\")

就目前来看,这个正则几乎能解析任意不规范的url(浏览器能认识的),大家不妨拿去试试哇
分享到:
评论

相关推荐

    蜘蛛采集程序(源代码)

    在这个项目中,正则表达式被用于解析网页,抽取所需的信息。 压缩包中的"蜘蛛小项目"可能包含了以下内容: 1. 源代码文件:.cs文件,这是C#的源代码文件,其中包含了实现爬虫功能的类和方法。 2. 解析模块:可能...

    新闻小偷php版

    这涉及到HTML解析和正则表达式,理解HTML的结构以及如何使用正则表达式匹配和提取特定数据是使用此工具的关键。 在使用“新闻小偷php版”时,你需要配置目标网站的URL和要抓取的数据元素。这通常涉及到对目标网站的...

    DZ论坛图片采集器.rar

    总结起来,DZ论坛图片采集器是基于易语言开发的一款高效图片下载工具,它的工作流程包括数据抓取、URL解析和文件下载,涉及到网络编程、HTML解析、正则表达式等多个技术领域。通过研究其源码,不仅可以提升编程技能...

    ASP源码—发布站万能文章采集插件 v1.0.zip

    3. **数据解析**:使用DOM解析器或正则表达式从HTML源码中提取文章标题、内容、作者、日期等信息。 4. **内容处理**:可能包括去除广告代码、格式化文本、转换链接等。 5. **数据存储**:将采集到的文章数据存储到...

    代码.docx

    - **正则表达式**:利用正则表达式进行字符串匹配和提取,例如 `re.compile("(\t|\n| |*?&gt;|*?&gt;)")` 用于匹配并替换特定的 HTML 标签和字符。 - **HTML 标签处理**:通过定义不同的正则表达式来处理页面中的 `&lt;a&gt;`...

    apache win32 2_0_58 mod_rewrite exploit VC++代码

    `mod_rewrite`通过正则表达式匹配URL,然后根据匹配的结果重定向或改变请求。如果正则表达式处理不当,可能会导致内存溢出或其他类型的安全漏洞。 VC++是一种强大的C++集成开发环境,用于编写Windows平台上的应用...

    编程相关 原创字符串转换小工具

    5. **正则表达式操作**:通过正则表达式实现字符串的查找、替换、分割等高级操作,常用于数据清洗和验证。 6. **URL编码与解码**:在网络编程中,URL字符串需要特殊编码以确保其在HTTP请求中能正确传输。 7. **...

    小说精品屋.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    马克斯MAXCMS4.0 或 5.0的采集规则

    - **数据解析**:使用正则表达式、CSS选择器或XPath对网页内容进行解析,提取所需字段,如标题、内容、作者等。 - **内容过滤**:剔除无关信息,确保导入的内容符合网站规范。 - **定时任务**:设置定时采集,...

    Jquery实现浏览器嗅探器特效

    `电子书大全.url`、`视频教程大全.url`和`原创Jquery插件大全.url`可能是相关的学习资源链接,供进一步研究和参考。 总的来说,通过jQuery实现浏览器嗅探器特效是一个实用的技术,可以帮助开发者优化网站或应用的...

    苹果cms实现伪原创,为你网站seo增彩

    这可能包括使用正则表达式抓取关键词、替换文本、打乱段落顺序等技术。开发者可能需要编写自定义的PHP函数或者扩展插件来完成这些操作。 2. **关键词替换**:伪原创的核心在于生成与原文意思相近但文字不同的内容。...

    xiaotouchengxu万能小偷程序镜像网站程序.zip

    小偷程序的核心在于其数据抓取技术,主要包括HTML解析、正则表达式匹配、DOM树遍历等。开发者可能需要掌握如Python的BeautifulSoup、Scrapy框架,JavaScript的Puppeteer等工具来编写这样的程序。值得注意的是,使用...

    dede采集插件

    2. **内容过滤与处理**:通过正则表达式或其他方法,对抓取的数据进行清洗和格式化,去除广告、多余标签等。 3. **自动定时任务**:设置定时采集,确保网站内容始终保持最新。 4. **伪原创功能**:通过对内容进行...

    使用C#获取网页HTML源码的例子

    如果解码后字符串为空,或者正则表达式没有匹配到任何字符集声明,则假设编码为默认的GB2312。 值得一提的是,WebClient类在.NET Core中已被WebClient类替代,但在.NET Framework中仍可以使用。如果使用.NET Core...

    易语言截取网页文本模块源码.zip

    例如,使用“查找子串”和“替换子串”命令,配合正则表达式,可以找到并提取出特定格式的文本。如果需要更复杂的HTML解析,可能需要引入第三方库或者自行编写解析算法。 在实际应用中,我们可能需要处理JavaScript...

    php实现 data url的图片生成与保存 <font color=red>原创</font>

    DataURL的解析需要使用正则表达式来匹配DataURL的各个组成部分,从而获取到图片的MIME类型和base64编码的字符串。使用preg_match()函数和正则表达式可以实现这一点。然后,将base64编码的内容解码并保存到指定的文件...

    壁纸随机换

    这一过程通常涉及正则表达式或者HTML解析库(如HtmlAgilityPack),用于识别和提取图片链接。对于复杂的网页结构,可能还需要处理JavaScript动态加载的情况,这就需要用到像Selenium这样的自动化测试工具来模拟...

    爬虫模拟登录知乎1

    - `requests` 用于发起HTTP请求,`re` 用于正则表达式的匹配,而 `bs4`(BeautifulSoup)则用于解析HTML文档。 2. **关键函数说明**: - `login()` 函数:负责整个登录流程的执行。 - `get_xsrf(url)` 函数:...

    百度文库免积分下载工具

    - **网页抓取(Web Scraping)**:这是获取网页内容的关键技术,通过解析HTML、CSS选择器、正则表达式等手段,从网页源代码中提取所需信息。 - **HTTP/HTTPS协议**:理解这些网络通信协议是必备的基础,因为下载...

    [图片动画]ttcodes JSP图片小偷 v1.0_jsp_tupian.zip

    这通常涉及到网络请求、HTML解析(如使用Jsoup库)、正则表达式匹配等技术。 2. **用户界面**:JSP页面可能提供一个简单的Web界面,用户可以输入目标网站URL,设置抓取参数(如深度、大小限制等),并启动抓取任务...

Global site tag (gtag.js) - Google Analytics