`
mmdev
  • 浏览: 13244642 次
  • 性别: Icon_minigender_1
  • 来自: 大连
文章分类
社区版块
存档分类
最新评论

Java版PageRank及网站收录情况查询代码

 
阅读更多

在Google这个由10的100次方得名的站点中,各种评估网站的算法层出不穷,而PageRank即是其中之一。

Google的PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。

通常情况下讲,原创内容越多的站点,PageRank越容易提升,反之则相对比较困难,PageRank最大上限值为10。在Google的评估中,能上10的网站真可谓凤毛麟角,即使算上Google,能成就PageRank 10这“伟业”者,望眼环球也不足40家。一般来说,个人站点评估值4即办的不错,商业网站到6以上便算步入正轨了。

网上虽然有不少现成的查询器及源码,但是光用别人的毕竟不符合程序员风格,所以今天自己用Java重造轮子又写了个PageRank查询实现,捎带着把一些常用搜索引擎的网站链接及反向链接查询也加上了。

源码如下:


GooglePageRank.java
  1. packageorg.loon.test;
  2. importjava.io.IOException;
  3. importjava.util.Random;
  4. importjava.util.regex.Matcher;
  5. importjava.util.regex.Pattern;
  6. /**
  7. *Copyright2008
  8. *
  9. *LicensedundertheApacheLicense,Version2.0(the"License");youmaynot
  10. *usethisfileexceptincompliancewiththeLicense.Youmayobtainacopyof
  11. *theLicenseat
  12. *
  13. *http://www.apache.org/licenses/LICENSE-2.0
  14. *
  15. *Unlessrequiredbyapplicablelaworagreedtoinwriting,software
  16. *distributedundertheLicenseisdistributedonan"ASIS"BASIS,WITHOUT
  17. *WARRANTIESORCONDITIONSOFANYKIND,eitherexpressorimplied.Seethe
  18. *Licenseforthespecificlanguagegoverningpermissionsandlimitationsunder
  19. *theLicense.
  20. *
  21. *@projectloonframework
  22. *@authorchenpeng
  23. *@email:ceponline@yahoo.com.cn
  24. *@version0.1
  25. */
  26. publicclassGooglePageRank{
  27. //googlepagerank服务器ip地址列表(最近google小气了很多,反复查询一个封ip)
  28. finalstaticString[]GoogleServiceIP=newString[]{"64.233.161.100",
  29. "64.233.161.101","64.233.183.91","64.233.189.44","66.102.1.103",
  30. "66.102.9.115","66.249.89.83","66.249.91.99","66.249.93.190"};
  31. //google用识别标记
  32. finalstaticprivateintGOOGLE_MAGIC=0xE6359A60;
  33. //ch数值混合器
  34. privateclassCHMix{
  35. inta;
  36. intb;
  37. intc;
  38. publicCHMix(){
  39. this(0,0,0);
  40. }
  41. publicCHMix(inta,intb,intc){
  42. this.a=a;
  43. this.b=b;
  44. this.c=c;
  45. }
  46. }
  47. /**
  48. *按google要求混合成ch数据
  49. *
  50. *@parammix
  51. */
  52. privatestaticvoidmix(finalCHMixmix){
  53. mix.a-=mix.b;
  54. mix.a-=mix.c;
  55. mix.a^=mix.c>>13;
  56. mix.b-=mix.c;
  57. mix.b-=mix.a;
  58. mix.b^=mix.a<<8;
  59. mix.c-=mix.a;
  60. mix.c-=mix.b;
  61. mix.c^=mix.b>>13;
  62. mix.a-=mix.b;
  63. mix.a-=mix.c;
  64. mix.a^=mix.c>>12;
  65. mix.b-=mix.c;
  66. mix.b-=mix.a;
  67. mix.b^=mix.a<<16;
  68. mix.c-=mix.a;
  69. mix.c-=mix.b;
  70. mix.c^=mix.b>>5;
  71. mix.a-=mix.b;
  72. mix.a-=mix.c;
  73. mix.a^=mix.c>>3;
  74. mix.b-=mix.c;
  75. mix.b-=mix.a;
  76. mix.b^=mix.a<<10;
  77. mix.c-=mix.a;
  78. mix.c-=mix.b;
  79. mix.c^=mix.b>>15;
  80. }
  81. /**
  82. *获得ch数值混合器
  83. *
  84. *@return
  85. */
  86. publicstaticCHMixgetInnerCHMix(){
  87. returnnewGooglePageRank().newCHMix();
  88. }
  89. /**
  90. *通过url获得googlech(google数据库针对页面的全球唯一标识)
  91. *
  92. *@paramurl
  93. *@return
  94. */
  95. publicstaticStringGoogleCH(finalStringurl){
  96. //格式化为google要求的info:url模式
  97. StringnUrl=String.format("info:%s",newObject[]{url});
  98. //获得新url字符串格式
  99. char[]urls=nUrl.toCharArray();
  100. //获得新url长度
  101. intlength=urls.length;
  102. //获得一个ch数值混合器
  103. CHMixchMix=GooglePageRank.getInnerCHMix();
  104. //为c注入google识别标识
  105. chMix.c=GOOGLE_MAGIC;
  106. //为a、b项注入google要求的初始标识
  107. chMix.a=chMix.b=0x9E3779B9;
  108. intk=0;
  109. intlen=length;
  110. while(len>=12){
  111. chMix.a+=(int)(urls[k+0]+(urls[k+1]<<8)
  112. +(urls[k+2]<<16)+(urls[k+3]<<24));
  113. chMix.b+=(int)(urls[k+4]+(urls[k+5]<<8)
  114. +(urls[k+6]<<16)+(urls[k+7]<<24));
  115. chMix.c+=(int)(urls[k+8]+(urls[k+9]<<8)
  116. +(urls[k+10]<<16)+(urls[k+11]<<24));
  117. //获得混合运算后的数据
  118. GooglePageRank.mix(chMix);
  119. k+=12;
  120. len-=12;
  121. }
  122. chMix.c+=length;
  123. //产生googlech的11位标识
  124. switch(len){
  125. case11:
  126. chMix.c+=(int)(urls[k+10]<<24);
  127. case10:
  128. chMix.c+=(int)(urls[k+9]<<16);
  129. case9:
  130. chMix.c+=(int)(urls[k+8]<<8);
  131. case8:
  132. chMix.b+=(int)(urls[k+7]<<24);
  133. case7:
  134. chMix.b+=(int)(urls[k+6]<<16);
  135. case6:
  136. chMix.b+=(int)(urls[k+5]<<8);
  137. case5:
  138. chMix.b+=(int)(urls[k+4]);
  139. case4:
  140. chMix.a+=(int)(urls[k+3]<<24);
  141. case3:
  142. chMix.a+=(int)(urls[k+2]<<16);
  143. case2:
  144. chMix.a+=(int)(urls[k+1]<<8);
  145. case1:
  146. chMix.a+=(int)(urls[k+0]);
  147. break;
  148. default:
  149. break;
  150. }
  151. //获得混合运算后的数据
  152. GooglePageRank.mix(chMix);
  153. //获得未修订的CH
  154. Stringtch=String.valueOf(chMix.c);
  155. //矫正差值后反馈正确CH
  156. returnString
  157. .format("6%s",newObject[]{tch.length()<10?("-"+tch)
  158. .intern():tch});
  159. }
  160. /**
  161. *正则匹配pagerank结果
  162. *
  163. *@paramvalue
  164. *@return
  165. */
  166. privatestaticStringMatchRank(finalStringvalue){
  167. Patternpattern=Pattern.compile("Rank_1:[0-9]:([0-9]+)");
  168. Matchermatcher=pattern.matcher(value);
  169. if(matcher.find()){
  170. returnmatcher.group(1);
  171. }
  172. return"0";
  173. }
  174. /**
  175. *获得指定页面的googlepagerank值
  176. *
  177. *@paramurl
  178. *@return
  179. */
  180. publicstaticStringGooglePR(finalStringurl){
  181. Stringrip=GoogleServiceIP[newRandom()
  182. .nextInt(GoogleServiceIP.length)];
  183. returnGooglePR(url,rip);
  184. }
  185. /**
  186. *以指定的google服务器获得指定页面的googlepagerank值
  187. *
  188. *@paramurl
  189. *@paramip
  190. *@return
  191. */
  192. publicstaticStringGooglePR(finalStringurl,finalStringip){
  193. //产生查询用唯一标识
  194. Stringchecksum=GoogleCH(url);
  195. //产生查询用url
  196. StringqueryUrl=String
  197. .format(
  198. "http://%s/search?client=navclient-auto&ch=%s&features=Rank&q=info:%s",
  199. newObject[]{ip,checksum,url});
  200. Stringresponse;
  201. try{
  202. response=SimpleWebClient.getRequestHttp(queryUrl);
  203. }catch(IOExceptione){
  204. response="";
  205. }
  206. if(response.length()==0){
  207. return"0";
  208. }else{
  209. returnGooglePageRank.MatchRank(response);
  210. }
  211. }
  212. }

SimpleWebClient.java


  1. packageorg.loon.test;
  2. importjava.io.BufferedInputStream;
  3. importjava.io.ByteArrayOutputStream;
  4. importjava.io.IOException;
  5. importjava.io.InputStream;
  6. importjava.io.InputStreamReader;
  7. importjava.io.OutputStreamWriter;
  8. importjava.net.HttpURLConnection;
  9. importjava.net.URL;
  10. importjava.util.HashMap;
  11. importjava.util.Iterator;
  12. importjava.util.Map;
  13. importjava.util.Set;
  14. importjava.util.Map.Entry;
  15. importsun.misc.BASE64Encoder;
  16. /**
  17. *Copyright2008
  18. *
  19. *LicensedundertheApacheLicense,Version2.0(the"License");youmaynot
  20. *usethisfileexceptincompliancewiththeLicense.Youmayobtainacopyof
  21. *theLicenseat
  22. *
  23. *http://www.apache.org/licenses/LICENSE-2.0
  24. *
  25. *Unlessrequiredbyapplicablelaworagreedtoinwriting,software
  26. *distributedundertheLicenseisdistributedonan"ASIS"BASIS,WITHOUT
  27. *WARRANTIESORCONDITIONSOFANYKIND,eitherexpressorimplied.Seethe
  28. *Licenseforthespecificlanguagegoverningpermissionsandlimitationsunder
  29. *theLicense.
  30. *
  31. *@projectloonframework
  32. *@authorchenpeng
  33. *@email:ceponline@yahoo.com.cn
  34. *@version0.1
  35. */
  36. publicclassSimpleWebClient{
  37. /**
  38. *向指定url发送请求并获得响应数据
  39. *
  40. *@paramurlString
  41. *@return
  42. *@throwsIOException
  43. */
  44. publicstaticStringgetRequestHttp(StringurlString)throwsIOException{
  45. returngetRequestHttp(urlString,"utf-8");
  46. }
  47. /**
  48. *向指定url发送请求并获得响应数据
  49. *
  50. *@paramurlString
  51. *@paramencoding
  52. *@return
  53. *@throwsIOException
  54. */
  55. publicstaticStringgetRequestHttp(StringurlString,Stringencoding)
  56. throwsIOException{
  57. returngetRequestHttp(urlString,encoding,null,5000);
  58. }
  59. /**
  60. *向指定url发送请求并获得响应数据
  61. *
  62. *@paramurlString
  63. *@paramencoding
  64. *@paramparameter
  65. *@return
  66. *@throwsIOException
  67. */
  68. publicstaticStringgetRequestHttp(finalStringurlString,
  69. finalStringencoding,finalMapparameter,finalinttimeout)
  70. throwsIOException{
  71. StringnURL=(urlString.startsWith("http://")||urlString
  72. .startsWith("https://"))?urlString:("http:"+urlString)
  73. .intern();
  74. Stringuser=null;
  75. Stringpassword=null;
  76. Stringmethod="GET";
  77. Stringpost=null;
  78. Stringdigest=null;
  79. StringresponseContent="ERROR";
  80. booleanfoundRedirect=false;
  81. Mapheaders=newHashMap();
  82. if(parameter!=null){
  83. SetentrySet=parameter.entrySet();
  84. for(Iteratorit=entrySet.iterator();it.hasNext();){
  85. Entryheader=(Entry)it.next();
  86. Stringkey=(String)header.getKey();
  87. Stringvalue=(String)header.getValue();
  88. if("user".equals(key)){
  89. user=value;
  90. }elseif("pass".equals(key)){
  91. password=value;
  92. }elseif("method".equals(key)){
  93. method=value;
  94. }elseif("post".equals(key)){
  95. post=value;
  96. }else{
  97. headers.put(key,value);
  98. }
  99. }
  100. }
  101. URLurl=newURL(nURL);
  102. if(user!=null&&password!=null){
  103. BASE64Encoderbase64=newBASE64Encoder();
  104. digest="Basic"
  105. +base64.encode((user+":"+password).getBytes());
  106. }
  107. do{
  108. HttpURLConnectionurlConnection=(HttpURLConnection)url
  109. .openConnection();
  110. //添加访问授权
  111. if(digest!=null){
  112. urlConnection.setRequestProperty("Authorization",digest);
  113. }
  114. urlConnection.setDoOutput(true);
  115. urlConnection.setDoInput(true);
  116. urlConnection.setUseCaches(false);
  117. urlConnection.setInstanceFollowRedirects(false);
  118. urlConnection.setRequestMethod(method);
  119. if(timeout>0){
  120. urlConnection.setConnectTimeout(timeout);
  121. }
  122. //模拟http头文件
  123. urlConnection.setRequestProperty("User-Agent","Mozilla/4.0(compatible;MSIE7.0;)");
  124. urlConnection.setRequestProperty("Accept","image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,application/x-shockwave-flash,application/msword,application/vnd.ms-excel,application/vnd.ms-powerpoint,*/*");
  125. //追加http头文件
  126. SetheadersSet=headers.entrySet();
  127. for(Iteratorit=headersSet.iterator();it.hasNext();){
  128. Entryentry=(Entry)it.next();
  129. urlConnection.setRequestProperty((String)entry.getKey(),
  130. (String)entry.getValue());
  131. }
  132. if(post!=null){
  133. OutputStreamWriteroutRemote=newOutputStreamWriter(
  134. urlConnection.getOutputStream());
  135. outRemote.write(post);
  136. outRemote.flush();
  137. }
  138. //获得响应状态
  139. intresponseCode=urlConnection.getResponseCode();
  140. //获得返回的数据长度
  141. intresponseLength=urlConnection.getContentLength();
  142. if(responseCode==302){
  143. //重定向
  144. Stringlocation=urlConnection.getHeaderField("Location");
  145. url=newURL(location);
  146. foundRedirect=true;
  147. }else{
  148. BufferedInputStreamin;
  149. if(responseCode==200||responseCode==201){
  150. in=newBufferedInputStream(urlConnection.getInputStream());
  151. }else{
  152. in=newBufferedInputStream(urlConnection.getErrorStream());
  153. }
  154. intsize=responseLength==-1?4096:responseLength;
  155. if(encoding!=null){
  156. responseContent=SimpleWebClient.read(in,size,encoding);
  157. }else{
  158. ByteArrayOutputStreamout=newByteArrayOutputStream();
  159. byte[]bytes=newbyte[size];
  160. intread;
  161. while((read=in.read(bytes))>=0){
  162. out.write(bytes,0,read);
  163. }
  164. responseContent=newString(out.toByteArray());
  165. in.close();
  166. out.close();
  167. }
  168. foundRedirect=false;
  169. }
  170. //如果重定向则继续
  171. }while(foundRedirect);
  172. returnresponseContent;
  173. }
  174. /**
  175. *转化InputStream为String
  176. *
  177. *@paramin
  178. *@paramsize
  179. *@return
  180. *@throwsIOException
  181. */
  182. privatestaticStringread(finalInputStreamin,finalintsize,
  183. finalStringencoding)throwsIOException{
  184. StringBuildersbr=newStringBuilder();
  185. intnSize=size;
  186. if(nSize==0){
  187. nSize=1;
  188. }
  189. char[]buffer=newchar[nSize];
  190. intoffset=0;
  191. InputStreamReaderisr=newInputStreamReader(in,encoding);
  192. while((offset=isr.read(buffer))!=-1){
  193. sbr.append(buffer,0,offset);
  194. }
  195. in.close();
  196. isr.close();
  197. returnsbr.toString();
  198. }
  199. }

WebAppraise.java
  1. packageorg.loon.test;
  2. importjava.io.IOException;
  3. /**
  4. *Copyright2008
  5. *
  6. *LicensedundertheApacheLicense,Version2.0(the"License");youmaynot
  7. *usethisfileexceptincompliancewiththeLicense.Youmayobtainacopyof
  8. *theLicenseat
  9. *
  10. *http://www.apache.org/licenses/LICENSE-2.0
  11. *
  12. *Unlessrequiredbyapplicablelaworagreedtoinwriting,software
  13. *distributedundertheLicenseisdistributedonan"ASIS"BASIS,WITHOUT
  14. *WARRANTIESORCONDITIONSOFANYKIND,eitherexpressorimplied.Seethe
  15. *Licenseforthespecificlanguagegoverningpermissionsandlimitationsunder
  16. *theLicense.
  17. *
  18. *@projectloonframework
  19. *@authorchenpeng
  20. *@email:ceponline@yahoo.com.cn
  21. *@version0.1
  22. */
  23. publicclassWebAppraise{
  24. privateStringgoogleSum;
  25. privateStringbaiduSum;
  26. privateStringmsnSum;
  27. privateStringaltaVistaSum;
  28. privateStringallTheWebSum;
  29. privateStringyahooSum;
  30. privateStringtestURL;
  31. publicWebAppraise(finalStringurl){
  32. if(url!=null&&!"".equals(url)){
  33. this.testURL=url.trim();
  34. if(this.testURL.startsWith("http://")){
  35. this.testURL=this.testURL.substring(7);
  36. }
  37. if(this.testURL.startsWith("https://")){
  38. this.testURL=this.testURL.substring(8);
  39. }
  40. }else{
  41. thrownewRuntimeException("urlisNULL!");
  42. }
  43. }
  44. /**
  45. *分析指定链接结果,并返回整型数值
  46. *
  47. *@paramsearchURL
  48. *@paramanchor
  49. *@paramtrail
  50. *@return
  51. */
  52. privatestaticintgetLinks(finalStringsearchURL,finalStringanchor,
  53. finalStringtrail){
  54. intcount=0;
  55. StringserverResponse;
  56. try{
  57. //我国特色……
  58. if(searchURL.startsWith("http://www.baidu.com")){
  59. //永不离休的gb2312同志(-_-||)
  60. serverResponse=SimpleWebClient.getRequestHttp(searchURL,
  61. "gb2312");
  62. }else{
  63. serverResponse=SimpleWebClient.getRequestHttp(searchURL);
  64. }
  65. }catch(IOExceptione){
  66. serverResponse=e.getMessage();
  67. }
  68. intpos=serverResponse.indexOf(anchor);
  69. if(pos>1){
  70. serverResponse=serverResponse.substring(pos+anchor.length());
  71. pos=serverResponse.indexOf(trail);
  72. Stringvalue=serverResponse.substring(0,pos).trim();
  73. value=value.replace(",","");
  74. value=value.replace(".","");
  75. count=Integer.parseInt(value);
  76. }
  77. returncount;
  78. }
  79. publicStringgetAllTheWebSite(){
  80. returngetAllTheWebSite(false);
  81. }
  82. publicStringgetAllTheWebSite(booleanisDomain){
  83. try{
  84. StringallTheWeb;
  85. if(isDomain){
  86. allTheWeb="http://www.alltheweb.com/search?cat=web&cs=utf8&rys=0&itag=crv&_sb_lang=any&q=linkdomain%3A"
  87. +this.testURL;
  88. }else{
  89. allTheWeb="http://www.alltheweb.com/search?cat=web&cs=utf-8&q=link%3Ahttp%3A%2F%2F"
  90. +this.testURL+"&_sb_lang=any";
  91. }
  92. allTheWebSum=""
  93. +getLinks(allTheWeb,"<spanclass=/"ofSoMany/">",
  94. "</span>");
  95. }catch(Exceptionex){
  96. allTheWebSum=ex.getMessage();
  97. }
  98. returnallTheWebSum;
  99. }
  100. publicStringgetAltaVistaSite(){
  101. returngetAltaVistaSite(false);
  102. }
  103. publicStringgetAltaVistaSite(booleanisDomain){
  104. try{
  105. StringaltaVista;
  106. if(isDomain){
  107. altaVista="http://www.altavista.com/web/results?itag=ody&q=link%3A"
  108. +this.testURL+"&kgs=0&kls=0";
  109. }else{
  110. altaVista="http://www.altavista.com/web/results?itag=ody&kgs=0&kls=0&q=site%3A"
  111. +this.testURL;
  112. }
  113. altaVistaSum=""+getLinks(altaVista,"AltaVistafound","");
  114. }catch(Exceptionex){
  115. altaVistaSum=ex.getMessage();
  116. }
  117. returnaltaVistaSum;
  118. }
  119. publicStringgetGooglePR(){
  120. returnGooglePageRank.GooglePR(this.testURL);
  121. }
  122. publicStringgetGoogleSite(){
  123. returngetGoogleSite(false);
  124. }
  125. publicStringgetGoogleSite(finalbooleanisDomian){
  126. try{
  127. Stringgoogle;
  128. //反向链接
  129. if(isDomian){
  130. google="http://www.google.com/search?hl=en&q=link%3A"
  131. +this.testURL;
  132. }else{
  133. google="http://www.google.com/search?hl=en&q=site%3A"
  134. +this.testURL+"&btnG=Google+Search&aq=f&oq=";
  135. }
  136. googleSum=""+getLinks(google,"about<b>","</b>");
  137. }catch(Exceptionex){
  138. googleSum=ex.getMessage();
  139. }
  140. returngoogleSum;
  141. }
  142. publicStringgetBaiduSite(){
  143. returngetBaiduSite(false);
  144. }
  145. publicStringgetBaiduSite(finalbooleanisDomian){
  146. try{
  147. Stringbaidu;
  148. if(isDomian){
  149. baidu="http://www.baidu.com/s?wd=domain%3A"+this.testURL
  150. +"&cl=3";
  151. }else{
  152. baidu="http://www.baidu.com/s?wd=site%3A"+this.testURL;
  153. }
  154. baiduSum=""+getLinks(baidu,"找到相关网页","篇");
  155. }catch(Exceptionex){
  156. Stringbaidu;
  157. if(isDomian){
  158. baidu="http://www.baidu.com/s?wd=domain%3A"+this.testURL
  159. +"&cl=3";
  160. }else{
  161. baidu="http://www.baidu.com/s?wd=site%3A"+this.testURL;
  162. }
  163. baiduSum=""+getLinks(baidu,"找到相关网页约","篇");
  164. }
  165. returnbaiduSum;
  166. }
  167. publicStringgetYahooSite(){
  168. returngetYahooSite(false);
  169. }
  170. publicStringgetYahooSite(finalbooleanisDomian){
  171. try{
  172. Stringyahoo;
  173. if(isDomian){
  174. yahoo="http://sitemap.cn.yahoo.com/search?p="+this.testURL
  175. +"&bwm=i";
  176. yahooSum=""+getLinks(yahoo,"<strong>","</strong>");
  177. }else{
  178. yahoo="http://www.yahoo.cn/s?p=site%3A"+this.testURL
  179. +"&pid=hp&v=web";
  180. yahooSum=""+getLinks(yahoo,"找到相关网页约","条");
  181. }
  182. }catch(Exceptionex){
  183. yahooSum=ex.getMessage();
  184. }
  185. returnyahooSum;
  186. }
  187. publicStringgetMsnSite(){
  188. returngetMsnSite(false);
  189. }
  190. publicStringgetMsnSite(booleanisDomain){
  191. try{
  192. Stringmsn;
  193. if(isDomain){
  194. msn="http://cnweb.search.live.com/results.aspx?q=link%3A"
  195. +this.testURL+"&mkt=zh-cn&scope=&FORM=LIVSO";
  196. }else{
  197. msn="http://cnweb.search.live.com/results.aspx?q=site%3A"
  198. +this.testURL+"&go=&form=QBRE";
  199. }
  200. msnSum=""+getLinks(msn,"共","条搜索结果");
  201. }catch(Exceptionex){
  202. msnSum=ex.getMessage();
  203. }
  204. returnmsnSum;
  205. }
  206. publicStringgetTestURL(){
  207. returntestURL;
  208. }
  209. }

Test.java
  1. packageorg.loon.test;
  2. /**
  3. *Copyright2008
  4. *
  5. *LicensedundertheApacheLicense,Version2.0(the"License");youmaynot
  6. *usethisfileexceptincompliancewiththeLicense.Youmayobtainacopyof
  7. *theLicenseat
  8. *
  9. *http://www.apache.org/licenses/LICENSE-2.0
  10. *
  11. *Unlessrequiredbyapplicablelaworagreedtoinwriting,software
  12. *distributedundertheLicenseisdistributedonan"ASIS"BASIS,WITHOUT
  13. *WARRANTIESORCONDITIONSOFANYKIND,eitherexpressorimplied.Seethe
  14. *Licenseforthespecificlanguagegoverningpermissionsandlimitationsunder
  15. *theLicense.
  16. *
  17. *@projectloonframework
  18. *@authorchenpeng
  19. *@email:ceponline@yahoo.com.cn
  20. *@version0.1
  21. */
  22. publicclassTest{
  23. publicstaticvoidmain(String[]args){
  24. WebAppraiseappraise=newWebAppraise("http://blog.csdn.net/cping1982");
  25. System.out.println("GooglePagerRank值:"+appraise.getGooglePR());
  26. System.out.println("google收录:"+appraise.getGoogleSite());
  27. System.out.println("google反向收录:"+appraise.getGoogleSite(true));
  28. System.out.println("yahoo收录:"+appraise.getYahooSite());
  29. System.out.println("yahoo反向收录:"+appraise.getYahooSite(true));
  30. System.out.println("baidu收录:"+appraise.getBaiduSite());
  31. System.out.println("baidu反向收录:"+appraise.getBaiduSite(true));
  32. System.out.println("msn收录:"+appraise.getMsnSite());
  33. System.out.println("msn反向收录:"+appraise.getMsnSite(true));
  34. System.out.println("AllTheWeb收录:"+appraise.getAllTheWebSite());
  35. System.out.println("AllTheWeb反向收录:"+appraise.getAllTheWebSite(true));
  36. System.out.println("AltaVista收录:"+appraise.getAltaVistaSite());
  37. System.out.println("AltaVista反向收录:"+appraise.getAltaVistaSite(true));
  38. }
  39. }

检测http://blog.csdn.net/cping1982运行结果如下图:




源码下载地址:http://download.csdn.net/source/929348

分享到:
评论

相关推荐

    Java版PageRank及网站收录情况查询源码

    Java版PageRank查询源码是实现这一算法的程序,可以帮助程序员理解PageRank的工作原理,并自定义查询功能。 首先,让我们详细了解一下`SimpleWebClient.java`。这是一个基础的网络客户端类,它负责发送HTTP请求并...

    pagerank-java实现查询

    在Java代码中,可能会使用到数据结构如ArrayList、HashMap等来存储网页和链接信息。同时,可能会使用到并发编程技术,因为大规模的PageRank计算可能需要分布式处理,利用多线程或分布式计算框架(如Hadoop)来提高...

    Java_PageRank.rar_pageRank_pagerank java

    在这个"Java_PageRank.rar_pageRank_pagerank java"压缩包中,包含了几个关键的Java源代码文件,用于实现PageRank算法以及查询网站的收录情况。 1. **SimpleWebClient.java**:这是一个简单的网络客户端类,用于...

    pagerank_大数据pagerank算法代码_pageRank_

    在这个南开大学的大数据课程大作业中,学生们被要求实现PageRank算法,通过Python代码来处理大规模数据。下面我们将深入探讨PageRank算法的核心原理、实现过程以及在大数据环境下的应用。 **PageRank原理** ...

    java实现和Matlab语言实现的pagerank算法

    在`PageRank.java`中,Java版的PageRank算法通常会涉及以下几个关键步骤: 1. **初始化矩阵**:创建一个表示网页链接关系的矩阵,矩阵元素表示一个网页指向另一个网页的链接权重。 2. **迭代计算**:进行多次迭代,...

    网站收录查询2013版.zip

    网站收录查询是一款专为站长开发的软件,旨在帮助站长快速查询网站的收录以及外链情况。 【使用说明】 在输入框中输入网址如:http://www.yingerbaobei.com 也可以输入内页如:...

    9大搜索引擎收录查询代码

    九大搜索引擎收录查询包括:百度,Google,Yahoo,有道,搜狗,搜搜,Altavista,Alltheweb,必应,可以查询这些搜索引擎的收录情况及反向链接数量;以及查询Sogou Rank,PageRank,Alexa Rank,有利于站长正确认识和优化...

    Java查询获取Google PageRank

    GooglePageRank.java文件很可能是实现PageRank算法的Java代码。这个类可能包含以下几个核心部分: 1. **网页链接结构的表示**:通常使用邻接矩阵或邻接表来存储网页间的链接关系。 2. **初始化PageRank值**:所有...

    PageRank 算法MATLAB代码

    为了确保每个网页的出度(出链数量)之和为1,代码中通过`for`循环对每行进行归一化处理,使得每一行元素之和为1,这一步骤是PageRank算法的关键预处理步骤。 接下来,定义了阻尼系数`d`,通常设置为0.85到0.95之间...

    PageRank-java.rar_pageRank_pagerank java

    这个"PageRank-java.rar_pageRank_pagerank java"压缩包包含的是PageRank算法的Java实现,对于理解该算法及其在网页排名中的应用具有实际价值。 在Java源码中,我们可以看到PageRank的基本思想和计算过程。PageRank...

    truncated-pagerank 计算源代码

    `truncated-pagerank`是一种优化的PageRank算法,它在大规模网络数据处理中非常有用,尤其是在图论和搜索引擎优化领域...通过学习这段源代码,我们可以深入了解如何在实际项目中优化PageRank计算,提高算法的运行效率。

    PageRank实现java代码(有图形操作文件操作界面)

    可读入文件,更可按你的要求生成随机的矩阵,全图形操作界面!...PageRank算法及Java代码实现,加入阻尼系数变量,可轻松修改迭代次数及阻尼变量,并且输出时提示是第几次的迭代输出. 对输入的格式要求有很详细的介绍!

    pageRank简单实现(Java)

    实现PageRank算法最为简单的代码,此代码使用java编写,适合与学习搜索引擎了解pageRank算法的初学者。

    无向图pagerank算法(Java)

    以下是一个简单的Java代码框架,展示了PageRank算法的实现: ```java import java.util.*; class PageRank { private int numPages; private double dampingFactor; private double tolerance; private double...

    pageRank算法实例加代码

    另一个是`pageRank.py`,这是一个实际的Python代码文件,用于演示如何实现PageRank算法。初学者可以通过阅读文档理解算法理论,然后结合代码实践,加深对算法的理解。 总结来说,PageRank算法是一种衡量网页重要性...

    站长工具箱、查询网站收录情况、网站排名情况

    站长工具箱 Webmaster Toolbox 是一个用Flash制作的站点综合信息查询工具,主要功能是查询某个站点的Google Pagerank、Alexa世界排名、Sogou指数、中国网站排名,以及在几大主要搜索引擎中的收录反向链接的情况,...

    仿webmasterhome 网站收录查询 v1.4.rar

    此网站收录查询工具以通过 IE5.5 IE6.0 IE7.0 Mozilla Firefox 浏览器测试无任何问题 各大搜索引擎收录查询 包括:百度,谷歌,雅虎,有道,Live,搜狗,搜搜,中国搜索,A9,Altavista,Alltheweb,以及PR查询,SogouRank查询...

    PageRank_pageRank_python_

    在`PageRank.py`文件中,我们可以预期代码会包含以下几个关键部分: 1. **数据结构**:使用字典或DataFrame存储网页和它们的出链。 2. **初始化**:根据网页数量初始化所有PageRank值。 3. **计算转移**:实现...

    全球网站搜索收录排名源代码

    【全球网站搜索收录排名源代码】是一个针对网站搜索引擎优化(SEO)的重要工具,主要用于查询网站在各大搜索引擎中的排名情况。这个源代码集成了对Google、百度、易搜(360搜索的前身)以及Alexa这四大主流搜索引擎...

    PageRank算法代码

    PageRank是Google创始人拉里·佩奇提出的一种评估网页重要性的数学算法,它在互联网的早期阶段对搜索引擎的排名机制产生了深远影响。Python是一种广泛应用于数据处理和科学计算的编程语言,非常适合实现PageRank这样...

Global site tag (gtag.js) - Google Analytics