`
wbj0110
  • 浏览: 1591250 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

内容匹配广告投放技术1:网盟概述&工程架构(百度文库课程)

阅读更多
该文是百度文库课程《计算广告学之内容匹配广告&展示广告原理、技术和实践》的课程笔记,感谢百度!
课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第一章:内容匹配广告投放技术:网盟概述&工程架构
这章讲述内容匹配广告投放技术的概要,包括基本概念,系统框架,以及应用技术。
 
 
四大角色——互联网广告涉及的四大角色,其中网盟是用户看不到的。
 
网盟广告检索系统——这是一个从子系统角度看的网盟广告检索系统,主要包括页面特征子系统,用户特征子系统,广告特征子系统,检索子系统,CTR预估子系统
 
网盟广告检索系统所需要用到的技术,从底向上是从基础到高级应用。
 
应用技术——分层实验框架
广告系统优化是数据驱动,需要实验证明结论。
 
应用技术——用户识别
以下是应用技术层面的用户识别可以使用的技术,其中广告行业用到的最多的是HTTP COOKIE和FLASH COOKIE
 
用户识别技术新动向——CookieMatching
 
应用技术——高性能检索
细分为计算模型,网络模型,索引模型
触发策略将会通过query向量得到一批广告,然后通过交并进行归并(使用归并算法),过滤策略将会过滤一些网站主不允许投放的一些广告,初选策略会选出一些相关性从高到低的已排序广告(一般使用堆排序算法),精选策略将会精选出收益最高的广告。
********************************************************************************************************************
********************************************************************************************************************
********************************************************************************************************************
********************************************************************************************************************
********************************************************************************************************************
 
********************************************************************************************************************
索引的实现一般使用两种结构:树形结构和hash结构。
使用内存池的好处:1)分配内存的时候不用从用户态切换到系统态而消耗大量时间(操作系统用malloc申请内存的时候需要从用户态切换到系统态);2)内存碎片更少,使管理更加高效。
广告主操作广告的系统会在独立的服务上面,广告检索系统也在独立的服务上面,两者在物理上是隔离的,要将数据从广告主操作广告的系统传输到广告检索系统中,如果保证实时高效?一般采用如下基准加增量的形式,可能每天两次传一个100G的基准过来,然后后面广告主对广告的操作都会通过patch的形式增量的传输过来,最后进行合并形成最新的库。
无锁读写分离:采用COW,如果读的时候又有写操作,那么读的时候是读的旧版本,写的时候会将之前的版本复制出来进行修改变成新版本,这样就是读写分离,写完之后进行版本切换,版本切换就是一个指针的切换,是一个原子操作。延迟销毁:因为在多线程中,老版本的数据不能立即销毁,因此切换后可能使用老版本的线程并未结束,还需要访问这些老版本的数据,所以等待1到2秒等待线程结束后对老版本进行销毁。
需要使用普通的服务器承载大容量的广告库,当一台服务器内存不够用时,加一台机器进来就可以,但此时内存中的索引如何扩展呢?划分partition索引系统,既可以横向划分索引(将词划分成组,不同机器存储不同的组),也可以纵向划分索引(将拉链切开成组,可能一开始有20长度的链,划分成只有5个长度的链)。
partition划分,数据和计算的可扩展是基础,如果数据和计算不是可扩展的,那将不可能能进行划分。拿宽带增长为例,比如在一台机器上做top100的计算,如果数据划分到4台机器上做top100计算,那么每台机器上都要返回top100,将一共要返回400条数据,然后在400中做top100,此时宽带增长为4倍了。
下图是索引扩展的逻辑结构,用户请求过来之后做流量控制,将一个请求拆解成多个请求,分到不同的Cluster里面,每个cluster里面都会有很多的query节点去处理这个请求,每个cluster里面的数据和程序是一模一样的(完全同构),每个cluster里有一个索引节点Index Node,索引节点会定期的把广告的索引下载一个基准出来,当query节点要重启的时候,就可以用这个最新的基准加上最新的增量进行快速的启动。下部分的广告数据传输采用的是分布式的消息队列。整个集群的逻辑分布,哪个集群部署了哪些数据是通过资源定位服务来记录的,通过此服务就知道哪个请求该发到哪个集群里去才是正确的。
分享到:
评论

相关推荐

    百度文库-冰点文库.zip

    1. **百度文库**:百度文库是百度公司推出的一款在线文档分享平台,用户可以上传、分享和下载各种格式的文档,如PDF、DOC、PPT等。其内容涵盖教育、科技、艺术、经济等多个领域,是广大网民获取知识和信息的重要来源...

    百度文库内容获取

    本项目"百度文库内容获取"就是利用Python的爬虫技术来抓取并解析百度文库中的文本内容,这对于研究、学习或者资料整理非常有帮助。下面将详细介绍这个项目涉及的关键知识点。 1. **Python基础**:Python是这个项目...

    免费下载百度文库文档

    1. 百度文库的使用说明:百度文库是百度公司提供的一个文档分享平台,用户可以在该平台上上传、分享和查找各类文档资料。对于免费下载百度文库文档的方法,文件中给出了一个特定的网站地址 ***,暗示用户可以通过该...

    百度文库下载器

    【百度文库下载器】是一种专门用于从百度文库中获取文档的工具,尤其适用于2018年及以后的版本。它使用户能够免费下载百度文库中的各种文档资源,涵盖多种格式,如PDF、DOC、PPT、XLS等,解决了因平台限制无法直接...

    免费下载百度文库内容工具

    标题中的“免费下载百度文库内容工具”是指一种软件或技术方法,允许用户无需积分就能获取百度文库上的文档资源。通常,百度文库是一个在线文档分享平台,用户需要通过购买积分或者上传自己的文档来获得下载其他文档...

    教你复制百度文库中的内容.

    在互联网上,特别是对于学术研究、学习或者工作需求,百度文库是一个不可或缺的资源库,它包含了大量的文档和资料。然而,很多用户在尝试获取这些资料时会遇到障碍,因为部分文档需要购买金币或者需要注册账号才能...

    冰点文库(百度文库文档下载)

    这款软件以其独特的技术手段,突破了百度文库对于文档下载的限制,让用户能够便捷地保存所需的文档,无需支付额外费用。 在互联网知识分享日益普及的今天,百度文库作为国内最大的文档分享平台之一,汇聚了大量的...

    百度文库下载工具

    【百度文库下载工具】 百度文库是一款在线文档分享平台,拥有海量的学习资源,包括课件、报告、书籍等各类文档。然而,由于版权保护,直接下载这些文档并不容易,这就催生了各种百度文库下载工具的出现。这类工具的...

    6G网络架构愿景与关键技术展望白皮书(32页).pdf

    6G 网络架构愿景与关键技术展望白皮书 本白皮书对 6G 网络架构愿景与关键技术展望进行了详细的描述和分析。白皮书首先介绍了 6G 网络架构愿景,强调了 6G 网络架构的重要性,并对 6G 网络架构的未来发展进行了展望...

    百度文库下载BDDocDownloader

    标题“百度文库下载BDDocDownloader”指的是一个专门针对百度文库文档的下载工具,它的主要功能是帮助用户免费获取百度文库中的文档资源,避免因需购买下载券而产生的费用。通常,百度文库的文档需要用户支付一定的...

    百度文库免积分下载

    【百度文库免积分下载】是一种技术方法,用于在不消耗积分的情况下获取百度文库中的文档资源。在互联网上,用户通常需要通过积累积分或付费才能下载百度文库中的资料,这给许多需要资料但积分不足的用户带来不便。...

    冰点文库免费下载百度文库

    在IT行业中,我们经常需要获取和分享各种在线文档,如学术论文、教程、报告等,而百度文库作为中国一个大型的文档分享平台,提供了大量的资料。然而,有些文档是需要付费或者积分才能下载的,这给用户带来了一定的...

    百度文库免费下载 好用

    所谓“机会难得”,可能意味着这样的方法并不常见,可能是通过某种技术手段绕过了百度文库的付费机制,或者是利用了特定的软件或插件。作者称其为“我见过的最好用的”,进一步强调了该工具的实用性和高效性。 ...

    如何复制百度文库的内容

    在互联网上寻找学习资源时,百度文库是一个非常重要的平台,它汇集了大量的文档资料,涵盖了各个领域的知识。然而,有时用户在尝试复制或下载这些内容时会遇到障碍,比如需要购买下载券或是需要登录账号。本文将介绍...

    仿百度文库移动端模板源码.zip

    仿百度文库移动端模板 仿百度文库移动端模板 仿百度文库移动端模板 仿百度文库移动端模板 仿百度文库移动端模板 仿百度文库移动端模板 仿百度文库移动端模板 仿百度文库移动端模板 仿百度文库移动端...

    百度文库下载器10.0

    【百度文库下载器10.0】是一款专门针对百度文库中的文档资源设计的下载工具,它能够让用户无需通过付费或积分的方式,直接下载到原文档,避免了将文档内容截图转换为PDF的繁琐过程。这款软件尤其适用于需要大量查阅...

    如何复制百度文库中的文章

    ### 如何复制百度文库中的文章 在日常学习与工作中,我们经常需要查阅各种文档资料。百度文库作为中国互联网上一个重要的文档分享平台,拥有海量的文档资源,包括学术论文、研究报告、教学资料等。然而,对于部分...

    百度文库免积分下载 绝对可用

    - **加密与解密算法**:百度文库的文档被加密,下载器需要知道如何解密这些文件,可能涉及到逆向工程或找到公开的解密算法。 - **文件转换技术**:下载的原始文件可能不是常见的格式,下载器需要将它们转换为用户可...

    百度文库 免费下载

    1. **百度文库下载工具**:有些第三方软件如“冰点文库下载器”、“Wendu Downloader”等,它们能够解析百度文库的文档链接,将文档转换为PDF或DOC格式,用户无需积分即可下载。 2. **浏览器插件**:例如“IDM...

Global site tag (gtag.js) - Google Analytics