`
ccw5510
  • 浏览: 8093 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

微博缩短网址的实现

阅读更多

  随着类似Twitter的微型博客网站的出现,由于字符数的限制,网址缩短服务日渐增多。加上网址缩短服务提供商提供网址追踪等服务,这一业务日渐兴起。知名网址缩短服务商Bit.ly的主要业务便是为微博Twitter提供网址缩短服务。 比如sina微博的sinaurl.cn,腾讯微博的url.cn等。

  实现原理很简单,主要是将用户提交的 url 地址转化成一个唯一的字串,这个字串就对应着真实的 url,怎么样实现这种转换呢?

  url 的转换摘自:http://www.cnblogs.com/sunli/archive/2010/03/25/1696183.html

  数据库只有两个字段seq(自增长数字)和url(数字的url地址,建立索引)。

  用户输入一个url地址,查询表是否包含此url,如果存在,则返回seq的数字,

  如果不存在,则插入数据库,得到一个新增加的自增seq数字,为了缩短数字占用的字符数,我们可以把abc等字母的大小写用上。这样10个数字,26个小写字母,26个大小字母就组成了一个62进制了。比如数字10000000000(100亿)转换后就是aUKYOA,只有6位了,这样就能缩短很多的网址了。

<?php
//十进制转到其他制
function dec2any($num, $base=62, $index=false)
{
  if (!$base)
  {
    $base = strlen($index);
  }
  elseif(!$index) 
  {
    $index = substr("0123456789abcdefghijklmnopqrstuvwxyz
    ABCDEFGHIJKLMNOPQRSTUVWXYZ", 0, $base );
  }
  $out = "";
  for ($t = floor(log10($num) / log10($base )); $t >= 0; $t-- ) 
  {
    $a = floor( $num / pow( $base, $t ) );
    $out = $out . substr( $index, $a, 1 );
    $num = $num - ( $a * pow( $base, $t ) );
  }
  return $out;
}

function any2dec($num, $base=62, $index=false)
{ 
  if (!$base)
  {
    $base = strlen( $index );
  }
  elseif(!$index)
  {
    $index = substr("0123456789abcdefghijklmnopqrstuvwxyz
    ABCDEFGHIJKLMNOPQRSTUVWXYZ", 0, $base);
  }
  $out = 0;
  $len = strlen($num) - 1;
  for ($t = 0; $t <= $len; $t++)
  {
    $out = $out + strpos($index, substr($num, $t, 1 )) * pow($base, $len - $t);
  }
  return $out;
}
?>

 

  得到缩短的网址以后,怎样实现网址的转发呢?可以利用 ttserver,将缩短网缩字串当作key,真实的 url 地址当作 value,存入ttserver中。ttserver本身就提供 http 访问,只需要稍加修改就可以直接利用 ttserver 进行缩短网址的转发:

  在 ttserver 源码目录下找到 ttserver.c 这个文件,这里我用的是 tokyotyrant-1.1.39 ,跳到第 2981 行,将下面的几行改成图中所示:

微博缩短网址的实现

  保存退出,编译安装 ttserver,网上有很多安装教程,可以参考。

 

  启动 ttserver,并向里面写入一条 key 为 aaaaaa,value为 http://www.baidu.com 的值。

curl -X PUT http://127.0.0.10:11221/aaaaaa -d "http://www.baidu.com"

 

  主要目的是用 http 访问 ttserver 时直接取得到真实的 url 并做转发。这样做很方便,但不安全,ttserver 的 http 还支持删除、修改、插入数据(当然也可以修改 ttserver 的 http 访问入口,屏蔽掉这几种操作)。负载均衡方面,可以通过添加多条 A 记录随机转发到不同的 ttserver 机器上,但这样每台机器上存放的数据必须相同,网上也有说过ttserver  存过千万左右的数据以后不太稳定。

  利用 nginx 就能很好解决直接用 ttserver 的问题,用 nginx 过滤掉 http 访问 ttserver 的删除、修改、插入的操作,并为多台 ttserver 提供反向代理的功能。如下图所示:

微博缩短网址的实现

  安装 nginx,我这里采用的是 nginx-0.8.36.tar.gz。安装 nginx 请参考:http://blog.s135.com/nginx_php_v6

  打开 nginx.conf 配置文件:

#user  nobody;

#启动 8 个 nginx 进程
worker_processes  8;

#error_log  logs/error.log;
#error_log  logs/error.log  notice;
#error_log  logs/error.log  info;

#pid        logs/nginx.pid;

events {
    # 用 epoll,最大连接数
    use epoll;
    worker_connections 65535;
}

http {
    include       mime.types;
    default_type  application/octet-stream;

    #log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
    #                  '$status $body_bytes_sent "$http_referer" '
    #                  '"$http_user_agent" "$http_x_forwarded_for"';

    #access_log  logs/access.log  main;

    sendfile        on;
    #tcp_nopush     on;

    # 由于只做转发,将超时时间设为 0
    keepalive_timeout  0;

    #gzip  on;
    # 反向代理 ttserver 1 号机,这里我放在一台机器上开了三个不同端口
    upstream backend_1 {
        server 127.0.0.10:11221 weight=5 max_fails=3 fail_timeout=1s;
    }
    # 反向代理 ttserver 2 号机
    upstream backend_2 {
        server 127.0.0.10:11221 weight=5 max_fails=3 fail_timeout=1s;
    }
    # 反向代理 ttserver 3 号机
    upstream backend_3 {
        server 127.0.0.10:11221 weight=5 max_fails=3 fail_timeout=1s;
    }

    server {
        listen       80;
        server_name  url.cn;

        #charset koi8-r;

        #access_log  logs/host.access.log  main;
        #当路径包含/count的时候,则代理到ttserver后端进行请求数据。
	#请注意,这里屏蔽了PUT,DELETE,POST方法,只是使用了GET,主要目的是为了安全性,
    #因为DELETE,POST,PUT是可以修改数据的
	location ~* /count(.*) {
	    if ($request_method = PUT ) {
	        return 403;
	    }
	    if ($request_method = DELETE ) {
	        return 403;
	    }
	    if ($request_method = POST ) {
	        return 403;
	    }
	    proxy_method GET;
	}
        #将以 a-z 为第一个字符的 url 代理到 ttserver 1 号机
	location ~* "^/([a-z]{1})([a-zA-Z0-9]{5})" {
	    proxy_pass http://backend_1;
	}
        #将以 A-Z 为第一个字符的 url 代理到 ttserver 2 号机
	location ~* "^/([A-Z]{1})([a-zA-Z0-9]{5})" {
	    proxy_pass http://backend_2;
	}
        #将以 0-9 为第一个字符的 url 代理到 ttserver 3 号机
	location ~* "^/([0-9]{1})([a-zA-Z0-9]{5})" {
	    proxy_pass http://backend_3;
	}

        #error_page  404              /404.html;

        # redirect server error pages to the static page /50x.html
        #
        error_page   500 502 503 504  /50x.html;
        location = /50x.html {
            root   html;
        }
    }
} 

 

  保存 nginx.conf 退出,现在就可以启动 ttserver了,我这里做演示,为了方便就在一台机器的三个端口启动了三个 ttserver。如图:

点击查看大图

  这里用 /ttserver/url_1 存放 ttserver 1号机的数据,依此类推,分别在 11222、11223启动 ttserver。

  接着启动 nginx:

ulimit -SHn 65535
/usr/local/nginx/sbin/nginx

 

接着在服务器上用下面的命令插入测试数据:

curl -X PUT http://127.0.0.10:11221/aaaaaa -d "http://www.baidu.com"
curl -X PUT http://127.0.0.10:11222/Aaaaaa -d "http://www.soso.com"
curl -X PUT http://127.0.0.10:11223/1aaaaa -d "http://www.qq.com"

 

配置你机器的 hosts 指向 nginx 服务器:

127.0.0.10    url.cn

 

  现在我们就可以打开浏览器,输入 http://url.cn/aaaaaa 就可以跳转到 baidu 上了,http://url.cn/Aaaaaa 就可以跳转到 soso 了,http://url.cn/1aaaaa 就可以跳转到 qq 上。至此配置完成,nginx只做转发工作,应付大规模的访问应该没什么问题,这也正是 nginx 所擅长的。ttserver 数据的取值操作也是很快的,在后面可以多开几台 ttserver,分散大量访问时的负载。

  前台程序根据用户提交的 url 生成短的 url 后,根据前面的 nginx 分发规则写到某一台 ttserver 中,就可以了。nginx还支持一直 url hash 的均衡,但需要安装一个第三方模块ngx_http_upstream_hash_module,具体可以参考:http://blog.sina.com.cn/s/blog_5426e0180100dwsp.html

 

by xhttp.cn http://www.xhttp.cn/2010/07/22

0
0
分享到:
评论

相关推荐

    新浪微博短网址生成器 新浪短网址 微博短网址 短网址网站源码

    【标题】中的“新浪微博短网址生成器”是指一种工具或服务,它允许用户将较长的网址缩短成简短的形式,方便在社交媒体如新浪微博上分享。短网址的主要目的是节省字符空间,尤其是在有限的字符限制(如微博140字的...

    腾讯微博短网址生成器

    短网址的工作原理通常是通过URL重定向服务实现的。当你输入一个长链接,短网址生成器会将其发送到服务器,服务器将长链接与一个简短的、唯一的识别码(通常是一串字母或数字)对应起来,并将这个识别码返回给你。当...

    aspnet 仿新浪微博系统

    用户能够发布文本、图片、链接等形式的微博,这需要处理多媒体上传和URL缩短等功能。微博展示通常按照时间线排列,结合分页加载优化用户体验。 5. **评论与互动** 系统应支持对微博的评论和转发,这涉及到数据库...

    PHP大嶝开源微博系统

    微博发布功能涉及到文本处理、图片上传和URL缩短等功能。系统可能集成了Markdown或BBCode等轻量级标记语言,让用户可以轻松排版文本。图片上传可能通过PHP的GD库或Imagick扩展来处理,进行格式转换和尺寸调整。URL...

    新浪微博SDK for c++

    **正文** 微博SDK(Software ...使用这个SDK,C++开发者可以轻松地在他们的项目中集成新浪微博的功能,实现丰富的社交体验。不过,具体的功能和使用方法,开发者还需要参照SDK提供的文档进行详细学习和实践。

    微博应对突发热点事件的弹性调度实践 胡忠想 微博_myslide.cn_.pdf

    在这些事件中,用户对微博评论和搜索功能的使用量激增,微博通过智能化的弹性调度系统,实现了对这些功能模块的有效扩容,保证了服务的稳定性和用户的良好体验。 总结来说,微博在应对突发热点事件时,采用了人工扩...

    腾讯微博架构介绍

    - **运维快速响应**:提高运维团队的问题处理能力,缩短故障恢复时间。 - **数据挖掘**:利用大数据分析技术,从海量数据中提取有价值的信息,为用户提供更个性化的服务。 #### 三、具体技术实现 ##### 数据存储...

    微博原创表情包程序图标

    与传统的文字表达相比,表情包以其直观性和趣味性,有效地缩短了人们在交流中的心理距离。在微博这样的社交媒体平台上,用户可以轻松分享和创造属于自己的表情包,以此来展示个性、分享心情,甚至进行文化交流。这些...

    腾讯微博架构的成长过程

    - **功能实现**:初期阶段主要是实现基本功能,如发微博、关注、评论等。 - **平台化**:构建统一的服务平台,支持多终端接入,提供一致的用户体验。 - **基本安全**:初步建立安全机制,保护用户信息安全。 - **...

    dot新浪微博修正版

    这个小工具很可能是通过调用新浪提供的短链生成API来实现的,它能够快速将长链接缩短,方便在微博中进行传播。 总的来说,“dot新浪微博修正版”是一个基于.NET技术的微博客户端工具,它充分利用了新浪API,提供了...

    如何利用微博营销.pptx

    - 微博缩短了信息到消费的链条:通过直接发布与产品或活动相关的信息,可以实现广告和内容的融合,如李冰冰的世界杯竞猜活动,巧妙地将品牌与娱乐活动结合,提高用户参与度。 5. **找准目标群体**: - 定位与议题...

    微博推广工具详解.pdf

    新浪微博本身的短地址服务功能可以将长链接缩短,提升阅读体验。同时,还有“短地址生成器”和“站长工具”等第三方服务,生成短链接,尤其适用于展示提案和减少内容篇幅,同时清晰地标识出链接来源。 选择合适的...

    易语言微博批量发表源码.zip易语言项目例子源码下载

    对于小团队而言,易语言微博批量发表源码可以作为一个快速集成模块,大大缩短开发周期。团队成员可以在现有源码的基础上进行定制化修改,实现个性化的功能扩展,比如自定义微博内容模板、增加用户评论抓取、实时反馈...

    新浪微博数据库资源调度平台架构实践.pptx

    总的来说,Shanks平台是微博应对大数据时代挑战的一项重要创新,通过整合资源管理、监控、报警和服务恢复,实现了资源管理的自动化、智能化和弹性化,显著提升了资源管理效率和系统的稳定性与可靠性。

    微博商业应用分析_Pmcaff(深圳).pdf

    - **利用名人效应**:通过名人的影响力来推广产品,如蔡文胜猜世界杯送iPhone的活动,在短短72小时内实现了4至5万次转发和评论,创造了极高的曝光度。 #### 五、微博应用注意事项 - 在使用微博进行商业推广时,...

    小家电微博和短视频营销趋势报告.rar

    2. 社交电商:微博和短视频平台内嵌的购物功能,让品牌可以直接实现“种草拔草”,缩短销售链路,提升转化率。 3. 跨界合作:与不同领域的品牌或IP进行联名活动,扩大影响力,吸引更广泛的消费者群体。 总结,小...

    王利阳:Web2.0进程,商务微博专业化之路.docx

    商务微博提供了一个专业化的网络推广渠道,帮助中小企业以较低的成本实现精准营销。 - **信息透明化**:商务微博可以消除消费者与企业之间的信息不对称,使消费者能获取更多产品背后的信息,促进信任和购买决策。 ...

    微博在线机器学习平台的Kubernetes技术实践.pdf

    为应对这些挑战,微博构建了机器学习平台,以实现工作流的标准化、深度学习的优化以及在线学习的实时响应。 机器学习平台的工作流程主要包括模型部署、模型预测、原始数据处理、特征处理、模型训练、模型评估以及...

    新浪微博数据库资源调度平台架构实践.pdf

    服务自愈功能增强了系统的抗风险能力,通过预定义的策略支持不同资源类型的故障切换和自动恢复,减少人为干预,缩短服务中断时间。弹性调度机制则可根据资源指标自动调整容量,支持分钟级别的大规模弹性扩缩容,适应...

Global site tag (gtag.js) - Google Analytics