如何判断一个网页是不是一个Blog的首页?
最近碰到一个问题,如何从一组链接中,判断链接是不是Blog的首页链接?
先从 Blog 存放的地点说起:
1、由BSP托管的Blog,一般采用开源或者BSP独立开发的Blog系统;
2、由个人空间存放的Blog,一般采用开源的Blog系统。而个人空间存放的Blog大都是 比较职业的 价值比较高的Blogger。
对于第一类,BSP的Blog链接地址都是固定的,加上成规模的BSP数量较少,其Blog的首页链接可以列举出来。
对于第二类,问题要复杂些,
有的 www 首页就是 blog 的主页,
有的是采用子域名的方式,
有的采用目录的方式;
但无论哪种链接方式,Blog 首页都有以下属性:
1、blog首页链接的长度短;可以在这个链接下面发现更多以此链接为开头层级更深的链接;
2、连接中一般包含blog字样;
3、blog的作者为方便他人订阅其Blog,都有类似:bloglines , rss feed 的链接。
不知道各位有没有更好的判断方法。
我现在正在以donews的 10 大金刚为起点,抓取其blogroll,收集blogge地址呢。
* 博客:飞雪残剑无间道http://www.donews.net/tycoo
*
* 博客:互联生活每一天http://www.donews.net/liuren
*
* 博客:对牛乱弹琴http://www.donews.net/keso
*
* 博客:胡一郎是谁http://blog.donews.com/fanggang/
*
* 博客:Xin观点http://blog.donews.com/panxin/
*
* 博客:温柔的人生http://www.donews.net/chinabright
*
* 博客:求缺草堂 伟大是熬出来的!http://blog.donews.com/zhongzhan/
*
* 博客:快马黑蹄SP踏乱,乐庭羌鼓IT迷离http://blog.donews.com/banly/
*
* 博客:努力谁不是历史怀胎的时代人物http://www.donews.net/chennian
*
* 博客:努力做一个最懂法律的IT人/最懂IT的律师http://blog.donews.com/yuguofu/
最终的目的是,学习page rank算法,根据blogroll的链接做一个blog rank 的donews数据库。
希望这个可以作为keso的
brand rank 的一个补充。
keso 现在的blog的回复量是:22063 ,可谓惊人。
keso的blog( include yesterday news )数量是:1986 , 平均每个blog 11个回复。
分享到:
相关推荐
综上所述,本项目“基于JSP技术的网页blog程序”是一个完整的Web应用,集成了JSP作为动态内容生成器,MySQL作为数据存储,以及Tomcat作为应用服务器。用户可以下载解压,使用Eclipse导入项目,执行`blog.sql`创建...
而`eblog`可能是另一个与博客相关的文件,它可能是一个配置文件、数据库备份或者是扩展模块,具体用途需要根据文件内容来判断。 综上所述,foxstray blog v2.0 英语版是一个基于ASP的博客平台,具有后台管理功能,...
【标题】"myblog+asp" 指的可能是一个基于ASP(Active Server Pages)技术构建的个人博客系统。ASP是微软在1990年代末推出的一种服务器端脚本环境,用于创建动态、交互式的网页。这个"myblog"项目可能是作者在高中...
本话题主要关注的是如何使用JavaScript(JS)这种广泛应用于网页开发的编程语言来实现一个围棋程序。 在JavaScript中编写围棋程序涉及到以下几个关键知识点: 1. **数据结构**:首先,你需要一个合适的数据结构来...
《网页版拳皇KOF-practice》是一款基于JavaScript技术实现的在线格斗游戏,它将经典街机游戏《拳皇》的部分功能移植到了...如果你对游戏开发感兴趣,或者想提升JavaScript技能,这个项目是一个很好的实践和学习案例。
PHP个人博客"blog1"是一个基于PHP、MySQL和HTML5技术构建的简单但功能完备的在线日志系统。这个博客系统实现了多项关键功能,包括栏目的管理和文章的发布,以及用户交互特性如评论、图片展示和IP地址显示,为用户...
标题中的“绿色导航精品网页模板_绿色大气博客灰色web20精品.rar”表明这是一个压缩文件,其中包含了设计用于网页制作的模板。这个模板的主题色是绿色,给人一种清新、自然的感觉,同时结合了大气的博客风格和灰色...
最近一直在研究爬虫和Lucene,虽然开始决定选用Heritrix来执行爬虫操作,但是后来发现用它来做还是存在一定的问题,比如需要程序生成相应的XML文件,对于同一个Job,怎样才能保证重复运行该Job时文件夹始终是同一个...
9. 创建一个按钮,当用户点击时,会跳转到“查看网页源代码”的功能,如:`查看网页源代码 onclick="window.location = 'view-source:'+ 'http://www.williamlong.info'">` 10. `confirm()`函数可以在删除操作前弹...
4. **判断内容是否更新**:在每次检查网页时,我们需要比较新获取的内容与之前存储的版本,以确定是否有变化。可以将上一次获取的HTML内容存储下来,然后与新内容进行差异比较。如果有新的或不同的内容,就进入下...
标题中的“用JS写了个日历,类似BLOG那种”指的是使用JavaScript编程语言实现的一个日历功能,这种日历通常用于博客或者网站中,提供日期选择或者日程管理的功能。JavaScript是前端开发的重要语言,它允许在用户...
提供一个按钮,让用户可以直接查看当前网页的源代码,适合于教学或示例网站。 ### 技巧12:删除操作确认 ```html (confirm('确实要删除吗?')) location='boos.asp?&areyou=删除&page=1'">删除 ``` 在执行删除操作前...
"Flv_find blog-code"是一个专为寻找和下载FLV文件而设计的源码例程,通过调用API函数实现网络上的FLV文件搜索。本文将深入探讨这个程序的工作原理、关键功能以及相关的技术知识点。 一、FLV文件格式基础 FLV文件...
这篇博客(博文链接:https://fanshuyao.iteye.com/blog/2312963)介绍的“jquery-browser.js”就是这样一个工具,它扩展了jQuery的核心功能,帮助开发者轻松地获取浏览器类型和版本信息。这个插件的出现,使得...
标题中的“js判断+ 键盘”指的是JavaScript中与键盘事件相关的编程知识,这通常涉及到用户在网页上按下键盘时的交互处理。JavaScript是网页开发中的主要脚本语言,用于实现客户端的动态功能,其中键盘事件是用户输入...
【标题】"安卓okhttp3模拟网页登录demo"是一个关于在Android平台上使用OkHttp3库进行网络请求,尤其是模拟登录的示例项目。这个标题暗示了我们将会学习如何利用OkHttp3来处理HTTP的POST请求,这对于任何需要与服务器...
标题中的“一个兼容ie 和firefox 的日历控件js”指的是一个JavaScript库,它被设计成能在Internet Explorer(IE)和Firefox这两个不同的浏览器上正常工作,提供日历功能。在Web开发中,由于不同浏览器对某些特性或...
"网站前端网页源码模板 (599).zip" 是一个压缩包,其中包含了创建一个完整网站所需的源代码文件。下面将详细解析这些文件及其在网站开发中的作用。 1. HTML文件: - blog_post.html: 这个文件代表博客文章的页面...
通过我们已经学过的知识,你可以编写一个最简单的程序输出一个也许是程序世界中最有名的词语: <? echo "Hello World!"; ?> First PHP page <? // Single line C++ style comment /* printing the message ...
标签中的“源码”指的是可能提供了一段实现此效果的代码,而“工具”可能意味着这个效果可以作为网页开发中的一个工具或者组件使用。 在压缩包中的两个文件“文字滚动效果.html”和“文字滚动效果.js”应该分别包含...