`

从PHP客户端看MongoDB通信协议

阅读更多

MongoDB 的 PHP 客户端有一个 MongoCursor 类,它是用于获取一次查询结果集的句柄(或者叫游标),这个简单的取数据操作,内部实现其实不是那么简单。本文就通过对 MongoCursor 类一些操作进行分析,向大家揭开 MongoDB 客户端服务器通信的一些内部细节。

getNext与网络请求

通常来说,每一次find操作都会返回一个MongoCursor对象,在这个对象上调用getNext方法,就能够获得一条结果数据。循环调用getNext方法就能获取多条数据。下面我们就来看看其内部取数据的具体逻辑。

首先我们用最简单的方法来生成一个MongoCursor对象:

$m = new Mongo();
$collection = $m->demoDb->demoCollection;
$cursor = $collection->find();

当我们调用 find 方法的时候,会生成一个 MongoCursor 对象,而这时候只是生成一个内存中的对象而已,并不会把我们的 find 查询发送到服务端,因为在生成 MongoCursor 对象后,我们还可能对它做一些其它操作,比如 sort,limit 等等。这就对查询条件进行了改变。

那什么时候 PHP 会对 MongoDB 发起 find 的网络请求呢,是在 MongoCursor 调用 getNext 方法的时候。比如我们在上面代码的基础上,再执行 sort 和 getNext 两个方法:

$cursor->sort( array( 'name' => 1 ) );
$result = $cursor->getNext();

这时候第二行代码就会触发 find 的网络请求,具体请求的内容如下图,下图是对这次请求的二进制协议进行解析后的数据结构展示:

从上面图中我们可以看到,Number to Return 字段是0,MongoDB 协议里0表示不做限制,获取全部数据。所以这一次的 find 操作会把所有这个 collection 中的所有数据都拿到。而我们调用一次 getNext 实际上只拿到一条数据。那是不是说我们每调一次 getNext,PHP 就会进行一次网络请求获取一条数据呢?结果当然是否定的,这样效率未免也太低了。那好,那是不是 PHP 在第一次调用 getNext 就把所有数据拿回来,存在内存中,然后后续的 getNext 调用都在本地内存里取就行了呢?结果还是否定的,这样数据量大点 PHP 就容易被暴菊了吧。

所以事实上是怎么做的呢?我们来看下面一张图:

图上的 Number Returned 的值是101,也就是说 MongoDB 给我们返回了101条数据,这个101实际上就是服务器默认的 batchSize 大小。也就是说在没有指定返回多少条的情况下,会默认返回101条数据。这101条数据会存在 PHP 的内存中,这样后续的100次 getNext 调用,都不会再进行网络请求,而是直接从内存中返回数据。

如果我们在上面的 getNext 后再进行下面的调用。

// skip the other 100 docs
for ($i = 0; $i < 100; $i++) { $cursor->getNext(); }
// request document 102:
$result = $cursor->getNext();

上面先循环调用了100次 getNext,内存中的101项数据就都已经被取光了,然后当我们再次调用 getNext 去获取第102条数据的时候,PHP 内存中已经没有数据可以提供了,这时候又会再发起一次向 MongoDB 服务器的请求,去获取更多的数据。客户端这次会发起如下请求:

这次我们看到,请求的码变成了 Get More。也就是在上次的基础上获取更多数据。这时候实际 MongoDB 不会再按一个特定的条数返回数据,而是按一个特定的大小,目前是4M,也就是说,这一次,MongoDB 会返回最多4M的数据。对上面的请求,MongoDB 的返回如下:

这次返回结果中,标识了是从第101条开始,共返回了34673条数据。大小是4194378,正好是4M。

设置batchSize

上面我们说了,MongoDB 默认的 batchSize 是101条,这个条数实际上我们可以通过客户端来设定的。在 PHP 中,通过 batchSize 函数来进行设置。比如我们用下面命令设定 batchSize 为25:

$cursor = $collection->find()->sort( array( 'name' => 1 ) );
$cursor->batchSize(25);
$result = $cursor->getNext();

上面代码调用了一次 getNext,按上面讲到的,会一次性批量取N条数据回客户端。上面代码运行时产生的网络请求如下:

我们可以看到,Number to Return被设置为了25。

如果我们再循环执行getNext函数25次,加上上面代码一共执行26次,那么因为第一次只返回了25条记录,所以第26次调用getNext函数时会再一次触发网络请求。请求体如下:

由于我们设定了 batchSize 为25,所以这一次要求返回的也只有25条。服务端返回的数据也就只有25条。

使用limit

除了 batchSize 函数以外,还有一个方法可以控制每次网络请求批量返回的记录条数,那就是在 MongoCursor 上调用 limit 函数,直接设置需要获取的记录条数。

比如下面代码,我们通过设置 limit 查询前50000条记录:

$cursor = $c->find()->sort( array( 'name' => 1 ) );
$cursor->limit( 50000 );
$res = $cursor->getNext();

上面代码会发出下面的请求

我们看到,要求返回的数目是50000条,那么MongoDB服务器是不是就乖乖返回50000条数据了呢。让我们直接来看一下具体的返回数据包

很遗憾,MongoDB 服务端只返回了34678条,而不是我们理想中的50000条,其实原因也很简单,从 Message Length 的值就能看出来,因为目前请求包已经达到4M大小了,这个上限无法逾越。所以只能返回34678条数据了。

而同时,客户端在收到返回的数据包时,发现只有34678条数据,不够自己要求的50000条,还差 50000 – 34678 = 15322 条,所以会再发起一次请求,要求服务器返回剩余的15322条记录。如下:

batchSize 和 limit 相组合

有时候我们可能会需要取很多条数据,比如上面的,通过设置limit为50000来获取50000条数据,而取这50000条数据的获取可能会超出我们设置的 MongoCursor 的 timeout 限制,抛出 Cursor 超时的异常。这时候我们可以在设置 limit 的同时,设置 batchSize 来控制每两次请求服务器的时间间隔。以免由于获取大量数据导致的 MongoCursor 超时。

比如下面的例子里,我们要获取128条数据,但是通过设置 batchSize 来控制每次只从服务器取回50条。这样在后续的 getNext 调用中,就会发生三次网络请求,分别请求数目是50条,50条,28条。

$cursor = $c->find()->sort( array( 'name' => 1 ) );
$cursor->limit( 128 )->batchSize( 50 );
$res = $cursor->getNext();
// retrieve the other 127 documents that we still want
for ($i = 0; $i < 127; $i++) { $cursor->getNext(); }

关于 batchSize 函数的小问题

上面我们说了通过设置 batchSiz e来控制客户端与 MongoDB 服务器的数据交换。但是这里有一个特例,当 batchSize 被设置为1,或者是负数时,MongoDB 只会返回第一次请求的数据包,然后直接关闭掉这个连接。也就是说,如果我们执行下面的命令:

$cursor = $c->find()->sort( array( 'name' => 1 ) );
$cursor->batchSize( 1 )->limit( 10 );
$cursor->getNext();
var_dump( $cursor->getNext() );

会发现最后一个 var_dump 打出来的总是 NULL。因为每一次按 batchSize 的设置只返回了1条数据,然后连接就关闭了。

而我们只需要稍做修改,将 batchSize 改成2,情况就大为不同

$cursor = $c->find()->sort( array( 'name' => 1 ) );
$cursor->batchSize( 2 )->limit( 10 );
$cursor->getNext(); // item 1
$cursor->getNext(); // item 2
var_dump( $cursor->getNext() ); // item 3

可以看到,虽然第一次网络返回包被设置只返回两条数据,但是每三次调 getNext 时还是返回数据了,也就是说还是从服务器第二次获取到数据了。

实际上,通过上面的实验结果,我们已经大致对 MongoDB 客户端服务器通信协议有了大致的了解,更详细的内容我们可以直接在 MongoDB 官方文档中找到(Mongo Wire Protocal

 

http://blog.nosqlfan.com/html/3996.html

分享到:
评论

相关推荐

    php_mongodb.dll php 7.0下载

    这个驱动是PHP与MongoDB通信的桥梁,实现了对MongoDB的PECL(PHP Extension Community Library)扩展支持。在Windows环境下,你需要将`php_mongodb.dll`添加到PHP的`ext`目录,并在php.ini配置文件中启用它,以便PHP...

    即时通讯PHP+UNIAPP+MYSQL+MONGODB.rar

    WebSocket是一种双向通信协议,允许客户端和服务器之间保持持久连接,从而实现即时通讯的低延迟特性。 UNIAPP是一个多端开发框架,它允许开发者用一套代码生成适应于iOS、Android、Web等多个平台的应用。在即时通讯...

    mongodb nginx php5集成开发环境

    同时,也需要安装PHP-FPM和PHP的MongoDB扩展,以使PHP能够与MongoDB通信。在Windows环境中,这些组件可能需要通过安装包或手动编译来安装。 一旦所有组件都安装并配置完毕,就可以通过Nginx服务器部署基于PHP5的...

    MongoDB副本集集群

    MongoDB传输协议用于数据库客户端与数据库服务器之间的通信。数据文件、命名空间和数据域则是MongoDB内部数据存储和检索的基础结构。内存映射存储引擎是MongoDB高效存储数据的关键技术,它通过将磁盘文件映射到内存...

    PHP高级工程师必知必会Nginx+keepalived+MongoDB+haproxy+Sphinx实现分布式集群部署实战视频

    ### PHP高级工程师必知必会:Nginx + keepalived + MongoDB + haproxy + Sphinx 实现分布式集群部署实战 #### 一、引言 随着互联网应用的不断发展,单体应用已经无法满足大规模高并发场景的需求。分布式系统通过将...

    若水新闻客户端和服务器端

    综上所述,"若水新闻客户端和服务器端"是一个结合了Android移动应用开发和服务器端服务的项目,涉及技术广泛,包括但不限于Android应用开发、网络通信协议(如HTTP/HTTPS)、数据库操作、用户认证、数据加密、性能...

    客户端服务器全套源码资源

    服务器端编程通常涉及后端语言,如Java、Python、Node.js、PHP等,以及数据库技术,如MySQL、Oracle、MongoDB等。 3. 网络通信:客户端与服务器之间的通信通常通过HTTP/HTTPS协议进行,这些协议定义了数据交换的...

    【千年】服务端+客户端-JuHeVip.Cn源码.zip

    【千年】服务端+客户端-JuHeVip.Cn源码.zip这个压缩包文件看起来包含了一个完整的游戏项目,特别是对于那些对游戏开发、服务器管理或客户端应用有兴趣的IT专业人士来说,这是一个宝贵的资源。源码是程序员的灵魂,...

    仿QQ聊天客户端

    这个客户端能够实现联网通信,意味着它不仅包含用户界面的设计,还涉及网络编程,使得用户可以发送和接收消息。然而,为了完整实现这样一个系统,仅仅有客户端是不够的,还需要一个网页后台管理系统来处理数据和...

    svul素质大客户端

    从“代码”这个标签来看,我们可以推测这个压缩包包含了该客户端的源代码文件,这对于开发者或者想要研究其内部工作原理的人来说非常有价值。 首先,客户端的开发通常涉及到多个技术栈。在这款苏职大客户端中,我们...

    ios移动社交app的客户端+webservice服务器端源码

    - **消息传递**:即时通讯(IM)功能需要实现实时通信,可能用到XMPP、WebSockets或自定义协议。 - **内容分享**:图片、视频、文字等内容的上传、展示和分享,涉及多媒体处理和存储。 - **社交网络**:关注、...

    php_ajax无刷新聊天室源码

    - **轮询或WebSocket**:为了实现即时通信,除了传统的AJAX长轮询,还可以使用WebSocket创建持久连接,使得服务器能够主动推送给客户端新的聊天信息,提高效率和用户体验。 **5. 安全考虑** - **防止XSS攻击**:对...

    php聊天源码

    WebSocket提供了一种全双工、低延迟的通信协议,允许客户端和服务器之间建立持久连接,从而实现双向通信。相较于传统的HTTP请求,WebSocket更适合实时聊天应用,因为它可以减少不必要的HTTP头部开销,提高数据传输...

    某视频聊天室源码-服务端+客户端+网站程序

    - **网络协议**:服务端通常基于TCP或UDP协议,可能使用WebSocket实现双向通信,确保实时性。 - **服务器架构**:可能是基于异步事件驱动的模型(如Node.js的Event Loop)或多线程/多进程模型(如Python的Gevent或...

    精品专题资料(2021-2022年收藏)基于Android平台的新闻客户端的设计与实现模板.doc

    总结,这个“精品专题资料”详细介绍了如何在Android平台上设计和实现一个新闻客户端,涵盖了从开发背景、工具选择、系统设计到具体实现的全过程,对于学习Android开发和了解移动应用构建流程的学生和开发者具有很高...

    基于php的直播项目

    1. **WebSocket**:WebSocket是一种在客户端和服务器之间建立长连接的协议,它允许双方进行全双工通信,即双向同时传输数据。在直播场景中,WebSocket极大地降低了延迟,提高了用户体验。服务器通过WebSocket推送...

    基于PHP的佳蓝即时通讯系统PHP开源版源码.zip

    3. **WebSocket协议**: WebSocket提供了一种双向通信机制,允许服务器和客户端在连接建立后进行持续的数据交换,大大减少了延迟,非常适合实时通讯应用。 4. **AJAX长轮询**: 在不支持WebSocket的环境中,可以使用...

    Python-使用swoole扩展和php开发的一个在线聊天室

    通常,在线聊天室的实现会涉及到WebSocket协议,这是一种允许服务器和客户端进行双向、全双工通信的协议,非常适合实时聊天应用。 在Python开发中,虽然主要标签是“Python开发-其它杂项”,但在这个特定场景下,...

Global site tag (gtag.js) - Google Analytics