一淘网( www.etao.com )于2010年10月9日10:39正式上线,很多同学和同行对一淘的系统架构和面临的关键技术问题都很感兴趣,这篇短文希望能给予简要的介绍。
系统架构
一淘的系统架构如上图所示。可以看到,一淘有三个数据来源:互联网、外部合作方和淘宝主站。其中,互联网数据通过crawl的方式获得,而后两者则通过feed的方式提供。
抓取系统的功能包括:网页抓取、抓取调度、域名解析、死链检测、JavaScript执行等。目前,一淘的资讯、话题、问答combo中的大部分数据都是通过抓取系统从互联网获得的。它是一淘一个重要的“原料厂”。
离线处理系统是一个功能众多、可灵活定制的Pipeline,其主要功能有:网页编码识别与转换、网页解析与内容抽取、购物相关站点发现、列表页识别、网页分类与消重、链接提取与合并、关键词提取、众多网页静态feature的提取。它是一淘的“加工厂”。
存储系统负责存储抓取系统和离线处理系统的产出,同时向这两个“厂”提供高性能、大容量的存取服务。目前我们采用的是Hadoop+HBase的体系结构,将网页、链接、图片进行了分类存放。存储系统是一淘存放原料、半成品的“核心仓库”。
在线引擎负责对一淘前端搜索请求返回查询结果,它生成索引的数据来自存储系统。在线引擎是一淘面向用户的“成品生产车间”。值得一提的是,一淘采用了阿里集团新一代的HA2引擎技术,HA2结合了开源引擎和阿里上一代引擎技术的设计优点,在支持全文检索的同时,兼备了商品搜索的各种功能。它目前提供的主要特性有:
- 数据规模:支持的数据规模从一台机器(partition)到几百台机器;
- 更新速度:支持全量数据更新,以及最快支持分钟级的增量更新;
- 数据类型:允许用户定义各种的数据类型,从单字段到几十个字段。字段的类型可以是text, string, number等;
- 查询语法:支持简单的单一条件查询, 以及复杂的各种条件组合查询、过滤;
- 相关性计算:支持最多三阶段相关性计算,提供丰富的信息供用户自定义每一个阶段的算分方法;
- 统计导航:支持对检索到的结果做灵活的分组统计和智能导航。
一淘前端负责向终端用户展现搜索结果页,它是一淘的“门店”,设有各式各样橱窗:商品、淘吧、资讯、论坛、问答、图片、网页等。保证这个门店正常运转的机制包括:
- Bootstrap:负责查询词合法性检查、编码识别与转换、停止词和违禁词过滤。
- Query Planner:负责查询词重写(Query Rewrite)、主辅词识别、商品类目预测、Combo排序、大小写转换、同义词和多义词,等等。
- RMOD:负责向各类后端服务接口发起并发请求,并将返回结果进行整合用于页面展现。
- Cache:负责分布式缓存搜索结果数据,从而缩短响应时间,提高前端系统的吞吐量。
此外,为了一淘团队的运营效率,我们还在构建一套“从收集Query和Click日志开始,进行数据统计、关联分析、异常报警和人工调整等相关流程”的以Query为中心的运营工具。
一淘的小二们深知:如何使我们打造的这些橱窗所展现的内容具有越来越精准的 “导购相关性”,是一淘面向用户的核心价值。如何进入朝这个方向持续发展的正循环呢?我们目前的思路是:构建一套结合“Query分析”和“网页分析”的多层次排序模型,在保证相关性的前提下,灵活快速地调整模型结构以适应变化的业务需求。
Query分析的目的是理解用户的查询意图,并将此意图转化成排序时可用的信息影响最终排序结果,如:
-
浏览型:没有明确的购物对象和意图,边看边买,用户比较随意和感性。Query例如:”2010年10大香水排行”,”2010年流行毛衣”, “zippo有多少种类?”;
-
查询型:有一定的购物意图,体现在对属性的要求上。Query例如:”适合老人用的手机”,”500元 手表”;
-
对比型:已经缩小了购物意图,具体到了某几个产品。Query例如:”诺基亚E71 E63″,”akg k450 px200″;
-
确定型:已经做了基本决定,重点考察某个对象。Query例如:”诺基亚N97″,”IBM T60″。
随着一淘用户越来越多,我们也会进一步挖掘用户查询需求,拓展意图分析种类。
网页分析期望得到:网页质量、所在站点的权威度、内容的主题词、是否为购物类文章等。这些信息将和Query分析的产出合并,一起在不同层次参与搜索结果相关性的排序过程。
一淘正在建立一套“用户行为/模型提升”的自循环体系,这其中以用户行为为主、辅以完善模型改进流程和丰富相关平台工具,期望这样可以越来越自动化地、持续地提升相关性效果,更加智能地满足用户的搜索意图。
与淘宝的关系
就淘宝目前绝对领先的市场占用率而言,能充分利用好淘宝的站内数据,对一淘来说无疑是很重要、也很幸运的。
从系统架构上讲,一淘有很多大数据量的离线计算任务是在淘宝上千台基于Hadoop的分布式计算平台上完成的,在其上获取淘宝的商品、交易和用户数据是一件非常便捷的事情,平台强大的计算和存储能力也进一步激发了一淘工程师们的想象力和创造力。比如:一淘首次将淘宝用户的搜索查询词和直接购买的宝贝相关联,并实现了分钟级别的引擎更新,这为用户们提供了最及时导购风向标。此外,一淘还直接调用了很多线上服务的接口,例如:宝贝搜索、产品搜索、合并同款等。
从产品服务上讲,一淘是淘宝主站与全网电子商务网站联系的重要纽带。简单地讲,淘宝站内数据(如:产品库、类目体系)可以保障一淘的导购搜索相关性有非常正向的促进作用;一淘通过Open Search和外网商品信息抓取,也可以为其他电子商务网站带去更多高质量的商业流量;而互联网的商品、资讯、论坛等信息又有助于一淘的搜索结果更全面、信息更权威;一淘搜索质量的提高反过来可以帮助改善淘宝的用户体验(如:无结果页、购前调研),一淘的用户行为分析和趋势预测也可以作为淘宝运营收集反馈信息的重要通道。
结束语
通过上面的介绍,我们不难理解一淘对于所采用技术的实用性、高效性和扩展性方面都会有业界领先的要求。这其中主要涉及的领域包括:
- 海量网页的抓取和抽取
- 分布式存储和计算平台
- 大规模数据(网页/商品)处理与分析
- 购物搜索相关性体系
- 高性能可定制的全文检索引擎
- 快速响应业务需求的前端架构
这些技术方向,我们会在今后的Blog中进行进一步的展开、更深入的阐述。
转载收藏,原文链接:http://www.searchtb.com/2010/11/etao-tech-overview.html
分享到:
相关推荐
"仿一淘网.zip"是一个压缩包文件,其主要目的是为了提供一个类似一淘网的网站模板或示例。一淘网是中国知名的电子商务平台,它整合了淘宝、天猫等众多购物资源,提供比价、搜索、优惠券等功能,旨在为用户提供便捷的...
9. 一淘网的系统结构以及技术构成。 10. 一淘网内部各功能模块的介绍与分析。 详细知识点展开: 软件测试报告的编写与结构组成: 报告的编写需要遵循一定的格式,包括封面、目录、引言、测试概述、测试方法与记录...
在构建“仿一淘多页面购物网”时,我们需要运用多种技术来实现其核心功能,如用户登录、注册、购物车管理和下单流程。这个项目主要依赖JavaScript作为客户端的主要编程语言,因此JavaScript的知识点在此项目中至关...
5. **核心功能**:一淘网的核心功能在于其搜索引擎技术,能够根据用户需求,从海量商品中筛选出最适合的选项,并且通过与各电商平台的合作,实现直接购买,无需多次登录和注册。 【经营模式和技术模式】 1. **经营...
一淘网,作为阿里巴巴集团旗下的比价搜索引擎,其诞生初衷是为了提供给消费者便捷的购物体验,使得用户在选购商品时无需频繁浏览多个电商平台,只需在一站式的平台上对比各大网站的价格,从而快速决策。马云曾表示,...
【一淘Etao数据采集FEED插件】是一款专门针对一淘网(Etao)的商品信息进行数据采集的API工具。这款插件旨在简化开发者的工作流程,帮助他们快速有效地完成API接口的开发,从而能够方便地获取一淘网上丰富的商品数据。...
在本文中,我们将探讨如何在一淘网(etao)的首页实现对IE6到IE8的响应式兼容,以及在这个过程中涉及到的关键技术。 在旧版本的Internet Explorer(尤其是IE6、IE7和IE8)中,浏览器并不支持CSS3的媒体查询,这是...
作为阿里巴巴集团的一员,一淘网不仅拥有强大的品牌背书和技术支持,更在2011年推出了个性化团购搜索服务,旨在通过智能化技术为用户提供更为精准的团购信息推荐。 ##### 个性化团购搜索的特点 一淘网个性化团购...
一淘开放搜索平台通过提供明确的接口标准和技术文档,极大地简化了商家商品数据的接入流程。商家只需要遵循指南中的规定,制作符合要求的商品数据Feed文件,并设置好相应的采集地址,就能够轻松将自己的商品信息展示...
标题“一淘网试水跨境电子商务 接入韩国女装B2C网站”揭示了中国电商平台一淘网在跨境电商业务上的新举措,即与韩国的女装B2C网站进行合作,为国内消费者提供直接购买海外商品的服务。描述中提到了韩国女装购物网站...
总结来说,一淘自动抽红包工具V1.0是一款集自动化、智能化于一体的系统工具,其核心在于通过自动化技术优化用户在一淘平台的红包领取体验。在享受便利的同时,用户应关注账号安全和平台规则,合理使用此类工具,以...
用户只需要使用淘宝或支付宝账号登录一淘网,便可以在搜索结果中直接购买来自多家独立B2C网站的商品,极大地简化了购物流程。这意味着消费者不必在不同电商网站间重复注册和登录,大大提升了用户体验。 #### 账号通...
阿里巴巴集团向一淘网投资10亿元的决定,标志着对电子商务领域尤其是B2C市场的持续看好和支持。一淘网作为阿里巴巴旗下的独立购物搜索引擎,自2020年10月成立以来,已经积累了丰富的资源,收录了包括3C、家电、服装...
[使用说明] 【MYSQL】在数据库建立update_time表 具体表结构 update_id int(10) up_time int(10) 不需要索引 1.在你的网站根目录建立个open,再在里面建一个taobao文件夹(我只是建议,把对外的数据都分类用在...
### 一、一淘网的改版背景 一淘网作为全球最大的中文购物搜索引擎,在“七夕节”来临之际进行了重大改版,推出了全新的“韩份儿”风格界面,被网友亲切地称为“思密达”版。这次改版不仅提升了用户体验,还增强了其...
淘网搜索技术分享,干货满满,包括内容: • 引擎功能变得越来越复杂和臃肿 – 超过30个搜索应用 – 业务增长带来的更多对引擎的功能需求 – 搜索前端也面临逻辑冗余、复用度低的困难 • 集群运维变得越来越困难 – ...
亿推推商业版的核心理念在于整合各销售渠道,实现全网分销,将企业的商品信息推送至PC端、微信端、微博端、一淘平台,并结合CPS分销模式,为企业搭建全方位的营销网络。 首先,PC端分销是亿推推商业版的基础布局。...
### 一淘网iOS入门资料知识点总结 #### 1. Objective-C简介 - **Objective-C**(简称OC)是一种面向对象的编程语言,它是C语言的超集,并且结合了解释型语言的灵活性与编译型语言的高效执行能力。 - OC支持运行时...
非常好用,所有优惠信息全都有,只要下载下来鼠标拖到chrome浏览器上就...一淘网-最专业的购物搜索,提供互联网最新最全的精彩购物活动,打折促销信息。提供同类商品在不同商家的价格比较,让您购得精明,购得实惠。
一淘工具 手机 手机 安卓 好用的安卓软件