`
starbhhc
  • 浏览: 660746 次
  • 性别: Icon_minigender_2
  • 来自: 深圳
社区版块
存档分类
最新评论

微信公众帐号开发教程第14篇-应用实例之历史上的今天

 
阅读更多

内容概要

本篇文章主要讲解如何在微信公众帐号上实现“历史上的今天”功能。这个例子本身并不复杂,但希望通过对它的学习,读者能够对正则表达式有一个新的认识,能够学会运用现有的网络资源丰富自己的公众账号。

 

何谓历史上的今天

回顾历史的长河,历史是生活的一面镜子;以史为鉴,可以知兴衰;历史上的每一天,都是喜忧参半;可以了解历史的这一天发生的事件,借古可以鉴今,历史是不能忘记的。查看历史上每天发生的重大事情,增长知识,开拓眼界,提高人文素养。

 

寻找接口(数据源)

要实现查询“历史上的今天”,首先我们要找到相关数据源。笔者经过搜索发现,网络上几乎没有现成的“历史上的今天”API可以使用,所以我们只能通过爬取、解析网页源代码的方式得到我们需要的数据。笔者发现网站http://www.rijiben.com/上包含“历史上的今天”功能,就用它做数据源了。

 

开发步骤

为了便于读者理解,我们需要清楚该应用实例的开发步骤,主要如下:

1)发起HTTP GET请求,获取网页源代码。

2)运用正则表达式从网页源代码中抽取我们需要的数据。

3)对抽取得到的数据进行加工(使内容呈现更加美观)。

4)将以上三步进行封装,供外部调用。

5)在公众账号后台调用封装好的“历史上的今天”查询方法。

 

代码实现

笔者将上述步骤1)、2)、3)中的代码实现封装成了TodayInHistoryService类,并对外提供了getTodayInHistory()方法来获取“历史上的今天”。实现代码如下:

 

[java] view plaincopy
 
  1. import java.io.BufferedReader;  
  2. import java.io.InputStream;  
  3. import java.io.InputStreamReader;  
  4. import java.net.HttpURLConnection;  
  5. import java.net.URL;  
  6. import java.text.DateFormat;  
  7. import java.text.SimpleDateFormat;  
  8. import java.util.Calendar;  
  9. import java.util.regex.Matcher;  
  10. import java.util.regex.Pattern;  
  11.   
  12. /** 
  13.  * 历史上的今天查询服务 
  14.  *  
  15.  * @author liufeng 
  16.  * @date 2013-10-16 
  17.  *  
  18.  */  
  19. public class TodayInHistoryService {  
  20.   
  21.     /** 
  22.      * 发起http get请求获取网页源代码 
  23.      *  
  24.      * @param requestUrl 
  25.      * @return 
  26.      */  
  27.     private static String httpRequest(String requestUrl) {  
  28.         StringBuffer buffer = null;  
  29.   
  30.         try {  
  31.             // 建立连接  
  32.             URL url = new URL(requestUrl);  
  33.             HttpURLConnection httpUrlConn = (HttpURLConnection) url.openConnection();  
  34.             httpUrlConn.setDoInput(true);  
  35.             httpUrlConn.setRequestMethod("GET");  
  36.   
  37.             // 获取输入流  
  38.             InputStream inputStream = httpUrlConn.getInputStream();  
  39.             InputStreamReader inputStreamReader = new InputStreamReader(inputStream, "utf-8");  
  40.             BufferedReader bufferedReader = new BufferedReader(inputStreamReader);  
  41.   
  42.             // 读取返回结果  
  43.             buffer = new StringBuffer();  
  44.             String str = null;  
  45.             while ((str = bufferedReader.readLine()) != null) {  
  46.                 buffer.append(str);  
  47.             }  
  48.   
  49.             // 释放资源  
  50.             bufferedReader.close();  
  51.             inputStreamReader.close();  
  52.             inputStream.close();  
  53.             httpUrlConn.disconnect();  
  54.         } catch (Exception e) {  
  55.             e.printStackTrace();  
  56.         }  
  57.         return buffer.toString();  
  58.     }  
  59.   
  60.     /** 
  61.      * 从html中抽取出历史上的今天信息 
  62.      *  
  63.      * @param html 
  64.      * @return 
  65.      */  
  66.     private static String extract(String html) {  
  67.         StringBuffer buffer = null;  
  68.         // 日期标签:区分是昨天还是今天  
  69.         String dateTag = getMonthDay(0);  
  70.   
  71.         Pattern p = Pattern.compile("(.*)(<div class=\"listren\">)(.*?)(</div>)(.*)");  
  72.         Matcher m = p.matcher(html);  
  73.         if (m.matches()) {  
  74.             buffer = new StringBuffer();  
  75.             if (m.group(3).contains(getMonthDay(-1)))  
  76.                 dateTag = getMonthDay(-1);  
  77.   
  78.             // 拼装标题  
  79.             buffer.append("≡≡ ").append("历史上的").append(dateTag).append(" ≡≡").append("\n\n");  
  80.   
  81.             // 抽取需要的数据  
  82.             for (String info : m.group(3).split("  ")) {  
  83.                 info = info.replace(dateTag, "").replace("(图)""").replaceAll("</?[^>]+>""").trim();  
  84.                 // 在每行末尾追加2个换行符  
  85.                 if (!"".equals(info)) {  
  86.                     buffer.append(info).append("\n\n");  
  87.                 }  
  88.             }  
  89.         }  
  90.         // 将buffer最后两个换行符移除并返回  
  91.         return (null == buffer) ? null : buffer.substring(0, buffer.lastIndexOf("\n\n"));  
  92.     }  
  93.   
  94.     /** 
  95.      * 获取前/后n天日期(M月d日) 
  96.      *  
  97.      * @return 
  98.      */  
  99.     private static String getMonthDay(int diff) {  
  100.         DateFormat df = new SimpleDateFormat("M月d日");  
  101.         Calendar c = Calendar.getInstance();  
  102.         c.add(Calendar.DAY_OF_YEAR, diff);  
  103.         return df.format(c.getTime());  
  104.     }  
  105.   
  106.     /** 
  107.      * 封装历史上的今天查询方法,供外部调用 
  108.      *  
  109.      * @return 
  110.      */  
  111.     public static String getTodayInHistoryInfo() {  
  112.         // 获取网页源代码  
  113.         String html = httpRequest("http://www.rijiben.com/");  
  114.         // 从网页中抽取信息  
  115.         String result = extract(html);  
  116.   
  117.         return result;  
  118.     }  
  119.   
  120.     /** 
  121.      * 通过main在本地测试 
  122.      *  
  123.      * @param args 
  124.      */  
  125.     public static void main(String[] args) {  
  126.         String info = getTodayInHistoryInfo();  
  127.         System.out.println(info);  
  128.     }  
  129. }  

代码解读:

 

1)27-58行代码是httpRequest()方法,用于发起http get请求,获取指定url的网页源代码。

2)66-92行代码是extract()方法,运用正则表达式从网页源代码中抽取“历史上的今天”数据。

3)111-118行代码是getTodayInHistory()方法,封装给外部调用查询“历史上的今天”。

4)125-128行代码是main方法,用于在本地的开发工具中测试。

5)75-76行代码的作用是判断获取到的“历史上的今天”数据是当天的还是前一天的(因为不能保证www.rijiben.com上的数据一定在凌晨零点准时更新,所以为了保证数据的准确性必须做此判断)。

6)第71行代码是本文的重点,笔者编写的正则表达式规则是“(.*)(<div class=\"listren\">)(.*?)(</div>)(.*)”。正则表达式规则需要根据网页源代码进行编写的,特别是包含“历史上的今天”数据的那部分HTML标签,所以我们先来查看网页源代码。通过httpRequest("http://www.rijiben.com/")方法获取到的网页源代码,与我们通过浏览器访问http://www.rijiben.com/页面再点击右键选择“查看网页源代码”所得到的结果完全一致。我们通过浏览器查看http://www.rijiben.com/的网页源代码,然后找到“历史上的今天”数据所在位置,如下图所示:

 

从上面的源代码截图中可以看到,我们需要的数据被包含在<div class="listren">标签内,这样就不难理解为什么正则表达式要这样写:

(.*)(<div class=\"listren\">)(.*?)(</div>)(.*)

我们使用括号()将正则表达式规则分成了5组,下面是这些分组的说明:

第1组:(.*)表示网页源代码中<div class="listren">标签之前还有任意多个字符。
第2组:(<div class=\"listren\">)中的反斜杠表示转义,所以该规则就是用于匹配<div class="listren">。
第3组:(.*?)表示在标签<div class="listren">和</div>之间的所有内容,这才是我们真正需要的数据所在。
第4组:(</div>)就是用于匹配<div class="listren">的结束标签。
第5组:(.*)表示在</div>标签之后还有任意多的字符。

掌握了正则表达式规则的含义,就不难理解为什么在extract()方法中全都是在使用m.group(3),因为m.group(3)就表示匹配到数据的第3个分组。m.group(3)的内容如下:

 

[html] view plaincopy
 
  1.        

可以看到,通过正则表达式抽取得到的m.group(3)中仍然有大量的html标签、空格、换行、无关字符等。我们要想办法把它们全部过滤掉,第83行代码的作用正是如此。

 

 

组装文本消息

 

[java] view plaincopy
 
  1. // 组装文本消息(历史上的今天)  
  2. TextMessage textMessage = new TextMessage();  
  3. textMessage.setToUserName(fromUserName);  
  4. textMessage.setFromUserName(toUserName);  
  5. textMessage.setCreateTime(new Date().getTime());  
  6. textMessage.setMsgType(WeixinUtil.RESP_MESSAGE_TYPE_TEXT);  
  7. textMessage.setFuncFlag(0);  
  8. textMessage.setContent(TodayInHistoryService.getTodayInHistoryInfo());  

 

对于公众帐号的消息回复在本系列教程的第5篇已经讲的很详细了,所以在这里笔者只是简单的组装了文本消息。最后,我们来看一下在微信公众帐号上的演示效果:

 

说明:与其说这是一篇关于公众帐号应用开发的教程,倒不如说这是一篇关于网页数据爬取的教程。本文旨在为读者开辟思路,介绍一种数据获取方式。当然,这种做法也是有弊端的,当网页改版源代码结构发生变化时,就需要重新改写数据抽取代码。没有做不到,只有想不到!

分享到:
评论

相关推荐

    分数阶低通滤波器的脉冲响应不变离散化Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    录音程序QZQ.zip

    录音程序QZQ

    expectk-5.45-14.el7-1.x64-86.rpm.tar.gz

    1、文件内容:expectk-5.45-14.el7_1.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/expectk-5.45-14.el7_1.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、安装指导:私信博主,全程指导安装

    高光谱 CARS 显微镜和光谱工具箱Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    用于求解具有狄利克雷边界条件的二维拉普拉斯方程的Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    2025最新第二批学习贯彻主题教育读书班学习体会.docx

    2025最新第二批学习贯彻主题教育读书班学习体会.docx

    festival-devel-1.96-28.el7.x64-86.rpm.tar.gz

    1、文件内容:festival-devel-1.96-28.el7.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/festival-devel-1.96-28.el7.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、安装指导:私信博主,全程指导安装

    采用金字塔法的 Lucas-Kanade 光流法实现三维图像Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    2025年最新乡村医生考试题库及答案(通用版).doc

    2025年最新乡村医生考试题库及答案(通用版).doc

    felix-framework-javadoc-4.2.1-5.el7.x64-86.rpm.tar.gz

    1、文件内容:felix-framework-javadoc-4.2.1-5.el7.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/felix-framework-javadoc-4.2.1-5.el7.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、安装指导:私信博主,全程指导安装

    [matlab程序系统设计]MATLAB答题卡识别[批量阅卷,GU界面,考生分数查询].zip

    这个程序可以完美运行,对于小白来说可以用于学习进阶,可以在这个基础上进行增加各种算法实现,对于大学生来说可以直接用于课设、大作业、毕设等,有答疑支持,大家一起学习共同进步,共同成长,欢迎大家下载,用于学习,谢谢。

    MASTG Mobile Application Security Testing Guide 中文版本 | 移动应用安全性与逆向工程技术的全面指南:深入探讨OWASP MASTG v1.7.0

    内容概要:本文深入解读了OWASP MASTG v1.7.0的移动应用安全测试指南,涵盖应用源代码完整性检查、文件存储完整性检查、反编译与逆向工程、权限管理和证书固定等多个方面。文章强调移动应用程序面临的常见威胁及应对措施,并详细介绍反汇编、文件完整性检测、调试技术和证书固定的绕过方法。这些主题旨在帮助安全研究人员深入了解并加强移动应用程序的安全防护。适用人群:从事信息安全和移动应用开发的专业人士,尤其是负责安全测试和审计的工程师。 使用场景及目标:该指南主要应用于移动应用安全性评估、开发和渗透测试等领域。帮助企业和团队识别、防范各类安全隐患,确保移动应用程序的安全性和合规性。其他说明:本文还涉及大量实战技巧和技术细节,如ADB命令、逆向工程工具(radare2、IDA Pro等)的具体应用方法、动态与静态分析工具的选择,为移动安全研究人员提供了详尽的实际操作参考资料。 适合人群:具备一定编程基础,工作1-3年的研发人员。对信息安全领域有兴趣的学习者也可从中受益匪浅。 适用场合及目标:适用于移动应用开发、测试、维护等全流程,特别是关注安全性评估、漏洞挖掘、逆向工程及防御对策的企业和个人开发者。 其他说明:文章内容丰富,覆盖广泛的主题,既包含了理论知识又包含了大量的实用技术,能够满足不同类型用户的需求。无论是希望提升自我技术水平的一般技术人员,还是需要进行专业安全测评的专业人士都可以从此份文档中获益。

    电机过调制算法模型升级:从线性调制到深度过调制,量产车验证经验分享与电子文件产品介绍,电机过调制算法模型从线性调制区到过调制区,算法已在量产车中验证过 电子文件产品 ,电机过调制算法模型; 线性调制区

    电机过调制算法模型升级:从线性调制到深度过调制,量产车验证经验分享与电子文件产品介绍,电机过调制算法模型从线性调制区到过调制区,算法已在量产车中验证过 电子文件产品 ,电机过调制算法模型; 线性调制区; 过调制区; 量产车验证; 电子文件产品,"电机过调制算法模型:从线性到过调制区的量产车验证电子文件产品"

    【雷达】非相干多视处理(CSA)Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    fence-agents-eps-4.2.1-41.el7-9.6.x64-86.rpm.tar.gz

    1、文件内容:fence-agents-eps-4.2.1-41.el7_9.6.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/fence-agents-eps-4.2.1-41.el7_9.6.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、安装指导:私信博主,全程指导安装

    2025最新手术室题库及答案.docx

    2025最新手术室题库及答案.docx

    evolution-data-server-tests-3.28.5-5.el7-9.1.x64-86.rpm.tar.gz

    1、文件内容:evolution-data-server-tests-3.28.5-5.el7_9.1.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/evolution-data-server-tests-3.28.5-5.el7_9.1.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、安装指导:私信博主,全程指导安装

    网站站长综合seo查询工具网站源码

    网站综合网查询工具源码,站长seo综合查询工具提供网站收录查询和站长查询以及百度权重值查询等多个站长工具,免费查询各种数据,包括收录量、反链、域名Whois查询、ping查询、子域名查询

    使用离散余弦变换技术的 JPEG 压缩Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    稳态误差和稳定性分析Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

Global site tag (gtag.js) - Google Analytics