Bloomfilter 持久化问题 - 脚印 - ITeye博客

`

Belinda407

浏览: 34741 次
性别:
来自: 北京

最近访客更多访客>>

darkranger

collen7788

north0808

zjy_369

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Bloomfilter 持久化问题

阅读更多

问题描述：使用org.apache.hadoop.util.bloom.BloomFilter，将Hdfs文件夹中的所有文件内容添加到BloomFilter，然后将其持久化到Hdfs。
直接从主函数运行正常
从web程序调用，发现文件总是0.0b

错误原因：
FSDataOutputStream输出流未flush，未close

正确代码：
public static boolean bloomFilterInit(Configuration config, int numbers,
String fromuri, String touri) throws IOException {
boolean isInit = false;
int vectorSize = HashUtil.getOptimalBloomFilterSize(numbers,
HashUtil.FALSEPOSRATE);
int hashCount = HashUtil.getOptimalK(numbers, vectorSize);
FileSystem fileSystem = FileSystem.get(config);
BloomFilter bf = readHdfsToBloom2(vectorSize, hashCount, fileSystem,
fromuri);
if (bf != null) {
FSDataOutputStream strm = fileSystem.create(new Path(touri));
bf.write(strm);
strm.flush();
strm.close();
isInit = true;
}
bf = null;
return isInit;
}

分享到：

运行mapreduce出现java heap space | 从远端集群拷贝HBase表到本地HBase

2015-05-19 13:25
浏览 911
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于redis的bloomfilter.zip: 通过Redis实现的布隆过滤器（RedisBloom Filter）不仅继承了布隆过滤器的基本特点，还能够借助Redis自身的特性，如持久化、分布式和高可用性等，为大规模分布式系统提供更加灵活和高效的布隆过滤器服务。基于Redis...

bloomclj：Clojure中的Bloom Filter实现: 此外，bloomclj支持将Bloom Filter序列化和反序列化，以便在不同程序之间共享或持久化存储。使用bloomclj库的步骤通常包括以下几个部分： 1. 导入库：首先需要在Clojure代码中导入bloomclj库，例如： ```clojure ...

布隆过滤器BloomFilters的一个简单Java库: 5. **序列化与反序列化**：布隆过滤器的数据可以被序列化存储，便于持久化和在网络间传输。在实际应用中，布隆过滤器常用于： - **缓存**：快速检查一个元素是否已经在缓存中，减少不必要的数据库查询。 - **垃圾...

RedisBloom v2.2.18: Redis 是一个高性能的键值数据库，广泛用于缓存、消息队列和数据持久化等多个场景。它支持多种数据结构，如字符串、哈希、列表、集合等，但默认并不提供布隆过滤器。布隆过滤器是一种空间效率极高的概率型数据结构，...

scrapy使用布隆过滤器实现增量爬取: 之前看了很多关于scrapy-redis使用bloomfilter进行持久化存储进行url去重的例子，可是发现没有一种适用于scrapy，于是萌生了基于现有scrapy-redis-bloomfilter库进行改写的想法。经过修改，此脚本可以做一个初步的...

DB leveldb实现解析: 当写入数据时，首先写入Memtable，达到一定大小后，将Memtable中的数据持久化到SSTable，并删除在Memtable中的数据。SSTables是有序的，通过合并较小的SSTable形成更大的文件，进一步减少随机读取，提升读取效率。 ...

Redis 40 道面试题及答案.docx: 如果你说还玩过Redis Module，像BloomFilter、RedisSearch、Redis-ML，面试官的眼睛就开始发亮了。使用Redis有哪些好处？ 1. 速度快，因为数据存在内存中，类似于HashMap，HashMap的优势就是查找和操作的时间...

redis高可用core: 可以利用`BGSAVE`命令生成RDB文件，或者启用AOF持久化记录每次写操作。 3. **监控与告警**：实时监控Redis集群的状态，设置合理的告警阈值，以便在出现问题时及时处理。 4. **资源优化**：根据业务需求合理配置...

100讲带你实战基于Redis的高并发.zip: 1. **066_案例实战：网站重复垃圾数据的快速去重和过滤** - 这一章节可能涉及Redis的数据结构如Set或Sorted Set，通过它们的唯一性特性进行数据去重，以及可能用到的布隆过滤器（Bloom Filter）进行高效过滤。...

10个常见的Redis面试"刁难"问题1: 此外，Redis Module扩展了更多功能，如BloomFilter、RedisSearch和Redis-ML。 2. 如何使用Redis实现分布式锁？分布式锁通常使用`SETNX`命令来尝试获取锁，并结合`EXPIRE`设置超时以防止锁未被释放。但这种方法...

基于python第三方库pybloom-live实现的redis布隆过滤器类: pybloom-live库为我们提供了一个简单易用的布隆过滤器实现，通过与Redis的结合，让布隆过滤器不仅能在内存中工作，还能持久化存储，非常适合分布式和大规模数据处理的应用场景。通过本文介绍的方法，读者将能够掌握...

Redis 45 道面试题及答案.docx: 在实际应用中，Redis还可以配合其他模块，如HyperLogLog、Geo、Pub/Sub，甚至一些第三方模块如BloomFilter、RedisSearch、Redis-ML等，提供更多的功能和服务。总结来说，Redis作为一个强大的键值数据库，以其高速...

Redis面试题 42道.pdf: 高级用户还会涉及Bloom Filter、RedisSearch和Redis-ML等模块。 3. **性能优势**：Redis运行在内存中，读写速度极快，接近O(1)的时间复杂度。同时，它支持事务，保证原子性操作，确保数据一致性。此外，Redis还支持...

17-Redis面试题（50题）.pdf: Redis模块进一步扩展了其功能，如BloomFilter、RedisSearch和Redis-ML，使得Redis成为一个功能强大的数据处理平台。使用Redis的好处主要包括： 1. 高速访问：由于数据驻留在内存中，查询和操作速度极快。 2. 多种...

pybloompython: 4. 序列化与反序列化：PyBloom支持将布隆过滤器序列化成字节，以便于持久化存储或在网络上传输，然后再反序列化回布隆过滤器对象。 ```python bf_bytes = bf.tobytes() new_bf = BloomFilter.frombytes(bf_bytes) ``...

Java面试题比较全的知识点总结.docx: Redis模块的扩展如BloomFilter、RedisSearch和Redis-ML进一步增强了其功能。 Redis的特点： 1. **多种数据结构**：支持string、list、hash、set、sorted set、hyperloglog等多种数据结构，方便存储各种类型的数据。...

Redis面试题 42道1: 此外，Redis 还支持HyperLogLog、Geo、Pub/Sub等高级数据结构，以及通过Redis Modules扩展的BloomFilter、RedisSearch、Redis-ML等功能。 Redis 的优势在于： 1. 速度极快：由于数据存储在内存中，Redis的读取速度...

Global site tag (gtag.js) - Google Analytics