做过SEO搜索引擎优化的朋友都知道要收集很多相关的数据,如页面的访问量、关键字为页面带来的访问量、页面在关键字下的排名、页面PR值等等,用来监控网站的这些数据的变化情况,为我们的优化工作提供依据。这里边很多的数据都需要从Web上抓取,Google 和Yahoo是数据的最重要来源。 下边这段小程序就是用来获取页面的外部链接数的,把我们需要抓取数据的URL存到一个文本文件中,一行一个。运行程序就生成一个文件,里边有对应的结果,前边是URL后边就是外链数。主要用到了open-uri库。
require 'open-uri'
def get_yahoo_inlink
open('yahoourl.txt','w') do |file|
open('url列表.txt').each do |line|
line=line.strip()
if line!=''
search_url=line.gsub(/:/,'%3A').gsub(/\//,'%2F').gsub(/,/,'%2C')
url="http://siteexplorer.search.yahoo.com/search?p=#{search_url}&bwm=i&bwmo=d"
page_content=Kernel.open(url).read()
result=page_content.scan(/Inlinks \(.*\)/)
if result.length==1
linknumber=result[0].delete('Inlinks (').delete(')')
file.puts "#{line} : #{linknumber}"
else
file.puts "#{line} :0"
end
end
end
end
end
def get_google_inlink
open('googleurl.txt','w') do |file|
open('url列表.txt').each do |line|
line=line.strip()
if line!=''
search_url=line.gsub(/:/,'%3A').gsub(/\//,'%2F').gsub(/,/,'%2C')
url="http://www.google.com/search?num=20&hl=en&q=link%3A#{search_url}&btnG=Search"
page_content=Kernel.open(url).read()
result=page_content.scan(/of about.* linking to/)
result2=page_content.scan(/of .* linking to/)
if result.length==1
linknumber=result[0].delete('of about').delete('linking to').delete('<b>').delete('</b>')
file.puts "#{line} : #{linknumber}"
else
if result2.length==1
linknumber=result2[0].delete('of').delete('linking to').delete('<b>').delete('</b>')
file.puts "#{line} : #{linknumber}"
else
file.puts "#{line} :0"
end
end
end
end
end
end
分享到:
相关推荐
在2013年的这个"中文SEO外链网站大全"中,列举了一系列当时主要的中文搜索引擎和目录站点,这些平台提供了网站提交入口,允许网站所有者将他们的网址添加到搜索引擎索引中,以便被爬虫抓取和收录。 1. **Google**:...
- **通过搜索引擎查询反链**:使用如`link:`的搜索指令可以找到竞争对手的反链来源,如`link:www.a.com`,这在雅虎和Google上都可进行。 - **使用在线工具**:一些在线工具,如`...
2. **百度收录页面数量**:百度是中国最大的搜索引擎,了解其收录一个网站的页面数量有助于判断该网站的活跃度和搜索引擎友好程度。友链网站在百度的收录页面多,意味着其内容丰富,对提升自己网站的搜索引擎排名有...
对比克朗斯股份有限公司、KHS公司和基伊埃集团的网站,可以发现他们在SEO方面做得相对较好,包括更高的外链数量、更合理的网站结构和更丰富的页面元信息。这为我们提供了优化的方向,需要借鉴并超越竞争对手,提升...
1. **基础数据对比**:比较竞争对手的首页快照更新频率、网站收录数量、雅虎外链数以及域名注册年限,找出自身网站需要改进的地方。 2. **Meta标签分析**:查看对手的Title和Description标签设置,学习其关键词布局...
标题中的“百度 谷歌 soso yahoo sogou网址收集器 收割器”指的是一个专门用于采集搜索引擎(如百度、谷歌、搜搜、雅虎和搜狗)中网站链接的工具。这样的工具通常被SEO(搜索引擎优化)从业者用来获取大量相关网站的...
- 百度、谷歌、雅虎、搜狗和Soso等搜索引擎的收录数量反映了网站被爬虫抓取的页面数。更高的收录量意味着更多的内容可供搜索,从而提高被搜索到的可能性。 - 淘鞋网在不同搜索引擎中的收录量差异可能源于各自的...
- 提供XML格式的网站地图(sitemap.xml),方便Google、Yahoo和Live等搜索引擎抓取。 - 提供HTML格式的网站地图,便于百度等搜索引擎抓取。 - 网站地图有助于提高搜索引擎抓取效率。 #### 五、外部链接建设 ...
10、友情链接检测:检测友情链接网址是否有自己网址的链接,同时检测对方网址的外链数量、GooglePR、百度收录情况及百度快照。 11、网页META检测:快速检测网页的META标签,分析标题、关键词、描述等是否有利于搜索...
3. site、domain、link数据:了解网站在搜索引擎的收录情况,以及外部链接的质量和数量,后者在SEO中至关重要。 4. 关键词排名与密度分析:评估关键词的竞争度,挖掘长尾关键词,确保关键词分布合理且不过于密集(2...
6.【排名检测】功能,可以依据网站或关键词检测排名情况、排名升降趋势,支持Google、AOL、Bing、Yahoo和Baidu等搜索引擎。 7.【文章伪原创】功能,批量文件TBS和批量伪原创,自动文字排版和语句友好性整理,手工发...
1. Google Webmaster Tools(谷歌网站管理员工具):谷歌提供的一款免费工具,允许管理员查看网站在谷歌搜索引擎中的表现,包括抓取频率、索引状态、搜索查询数据和可能的问题报告。它还提供了提交Sitemap和解决抓取...
6.【排名检测】功能,可以依据网站或关键词检测排名情况、排名升降趋势,支持Google、AOL、Bing、Yahoo和Baidu等搜索引擎。 7.【文章伪原创】功能,批量文件TBS和批量伪原创,自动文字排版和语句友好性整理,手工发...
3. **收录情况**:百度和谷歌均收录了CNCN的百万级页面,反映出网站规模大且优化效果良好。近期收录数据表明,百度在不同时间段内持续大量收录CNCN的新页面,显示出较高的搜索引擎权重和频繁的爬虫抓取。 4. **外链...
搜索引擎收录是指对网站的搜索引擎收录,包括网站提交到各大搜索引擎,例如百度、谷歌、搜狗、雅虎等。网站内容建设是指对网站内容的建设,包括长期对网站进行内容更新、丰富网站内容,提升网站在搜索引擎的收录量及...
外链(外部链接)对于SEO非常重要,可以通过雅虎等工具查询网站的外链数量。百度蜘蛛和Google机器人是搜索引擎用于抓取网页内容的程序。 了解网站是否被搜索引擎抓取,可查看网站日志,日志中包含搜索引擎爬虫的...
1. **理解搜索引擎工作原理**:SEO专员需要深入理解百度、Google、Yahoo等主流搜索引擎的索引、排名机制,掌握它们的优化原则,以便制定有效的优化策略。 2. **站内优化**:包括合理设置网站的title、keywords、...
- 外链数量与质量,如Yahoo查询 - SEO水平,如关键词密度、更新机制、用户参与度 **相关问题**: - 域名优势:edu、gov等特殊域名,关键词在域名中的体现 - 群发检测:通过Google查询工具查看链接来源 - 排名稳定性...
百度蜘蛛和Google机器人是搜索引擎用于抓取网页内容的程序,通过分析网站日志,我们可以得知这些程序的访问记录,从而了解网站被抓取的情况。 SEO的具体实施包括但不限于内容优化、关键词研究、外链建设、网站结构...