`
isoloist
  • 浏览: 62769 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

python实现基于redis的搜索

阅读更多
之前用grails插件实现的版本跟grails耦合太强,不适合于单独运行。另外用python实现了一个版本。
项目地址 https://github.com/isoloist/redis-search-python。
redis_search_test.py  简单介绍了如何使用。

在这里先介绍下我遇到的场景。在Mysql中有大于一百万条记录需要初始化进redis,并提供前缀搜索。在grails的bootstrap中执行,这个过程太漫长了,需要4-5个小时,而且影响应用的正常启动。改为用python实现后,可以直接在服务器上单独运行python脚本来完成这件事情。由于python的多线程对多核CPU的利用率低下,在尝试多线程后又放弃了这种做法。如果你希望用python脚本为大量数据建立redis索引,建议开启多个python进程,可以充分利用多核CPU的运算能力。在我的测试环境6核32G内存的服务器上,5个进程只需要10分钟就能为40万条数据记录建立redis索引。PS:redis的pipeline对批量写入性能提升非常明显。
0
0
分享到:
评论

相关推荐

    Python-rgpRGP在Redis基础上提供了简单的向量图数据库

    `Python-rgpRGP` 是一个基于 Redis 的扩展库,它为用户提供了构建简单向量图数据库的能力。这个库的核心理念是利用 Redis 的高效存储和检索特性,来支持图数据结构的操作。向量图数据库在处理复杂网络关系、推荐系统...

    基于Python的在线教育平台的设计与实现1

    为了响应国家对教育信息化的号召,本文旨在构建一个基于Python的在线教育平台,以满足广大编程学习者的学习需求,提供高质量、便捷的在线编程课程。 在系统设计中,采用了B/S(浏览器/服务器)架构,这种架构使得...

    基于Python+scrapy+redis的分布式爬虫实现框架.zip

    这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本...

    基于Python 的信息采集系统的分析与设计.pdf

    本文将对基于Python的信息采集系统进行详细分析和设计,阐述如何实现数据高效获取的过程。 一、相关技术简介 1.1 网络爬虫 网络爬虫是一种按照一定匹配规则提取Web页面中特定内容的程序或脚本,通过搜索网页地址...

    Python网上商城源代码,基于Django+MySQL+Redis,支持支付宝付款

    Python网上商城源代码,基于Django+MySQL+Redis,支持支付宝付款,实现:用户登录注册,商品展示,商品详情界面,搜索商品,将不同尺寸颜色数量的商品加入购物车,购物车管理,地址管理,形成订单,支付宝支付。...

    基于python+SpringBoot+Mybatis+velocity仿知乎开发的sns+资讯web应用+redis+mysq

    基于python+SpringBoot+Mybatis+velocity仿知乎开发的sns+资讯web应用+redis+mysq,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 项目简介: 仿照知乎做的一个...

    一种基于Scrapy-Redis的分布式微博数据采集方案.pdf

    作者首先分析了微博站点的特征结构,设计了一种局部最佳搜索策略,采用Python开源框架Scrapy搭配Redis数据库,设计实现了一套抓取速度快、定制性强、扩展性高的分布式爬虫系统。该系统可以获取大量的微博数据,并且...

    基于Python对网络爬虫系统的设计与实现.pdf

    ### 基于Python对网络爬虫系统的设计与实现 #### 概述 随着网络信息技术的飞速发展,网络爬虫技术作为一种高效的数据获取手段,受到了越来越多的关注。它能够帮助用户快速定位并提取网络上的信息数据,从而节省...

    基于Redis实现的简单到爆的分布式爬虫.zip

    这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本...

    python、mongodb、redis.docx

    根据提供的文档信息,我们可以归纳和扩展出以下几个关键的知识点: ...以上是对 Python、MongoDB 和 Redis 相关文档中的基本信息和知识点的总结与扩展。希望这些内容能帮助你更好地理解和掌握这些技术和概念。

    基于Python的网络爬虫系统的设计与实现.pdf

    #### 基于Python的网络爬虫系统的设计与实现 - **Python编程语言**:一种高级编程语言,广泛应用于网络爬虫的开发。 - **网络爬虫系统**:指能够自动抓取网页信息的程序,是搜索引擎获取数据的重要手段。 - **系统...

    Python毕业设计 基于Django+scrapy-redis+ES的招聘岗位的搜索引擎系统+详细说明+全部数据资料 高分项目

    Python毕业设计 基于Django+scrapy-redis+ElasticSearch的招聘岗位的搜索引擎系统源码+详细说明+全部数据资料 高分项目 【备注】 1、该项目是高分毕业设计项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该...

    ‍ 基于知识图谱的学术信息搜索网站设计毕业设计Python.zip

    ‍ 基于知识图谱的学术信息搜索网站设计毕业设计Python.zip 本系统以知识图谱技术为基础,实现一个学术信息检索系统,主要实现学术信息定期爬取、学术信息更新、学术关联检索、知识化可视化界面等功能,分为服务器端...

    基于python3实现的网络爬虫和搜索引擎

    以下将详细介绍基于Python3实现的网络爬虫和搜索引擎的相关知识点。 **一、网络爬虫** 1. **基础概念**:网络爬虫是一种自动遍历互联网的程序,通过模拟浏览器行为抓取网页内容,并按照一定的规则存储到本地,以便...

    基于python3 + django3 + mysql8 + redis + uwsgi + nginx 实现的多主题博客系统

    Python: 3.8 Django: 3.2 Mysql: 8 Redis Docker 功能点 用户注册,登录,登出,注销,密码邮箱验证重置 markdown文章渲染,代码高亮,支持后台markdown编写文章等 文章分类,归档,快捷搜索,标签集 4 种皮肤...

    基于python的分布式网络爬虫

    这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现,r, 将其网站的书名,作者,书籍封面图片,书籍概要,原始网址链接,书籍下载信息和书籍爬取到本地:分布式使用redis实现,redis中存储了工程的request,...

    人工智能-项目实践-搜索引擎-基于scrapy-redis的分布式爬虫的搜索引擎

    在构建一个基于Scrapy-Redis的分布式爬虫搜索引擎项目中,我们需要深入了解以下几个核心知识点: 1. **人工智能**:虽然这个项目主要关注爬虫和搜索引擎,但人工智能在此领域扮演着重要角色。通过机器学习和自然...

    基于Python的分布式爬虫系统的设计与实现.pdf

    本系统通过Python实现了分布式爬虫,结合微信小程序,实现了小范围内高效、稳定的信息搜索。通过合理利用数据库技术和分布式爬虫架构,系统能够有效地处理大量数据,满足用户对特定领域信息的需求。 参考文献: 1. ...

    基于Python的博客系统设计

    基于 Python 的博客系统设计是指使用 Python 语言开发的博客系统,旨在实现信息获取和分享的功能。该系统主要实现在单用户支持,实现基本的博客功能,如文章管理、评论管理、搜索等。 知识点一:博客系统的重要性 ...

    基于python+sentence-transformers实现文本转向量的机器人

    【作品名称】:基于python+sentence-transformers实现文本转向量的机器人 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍...

Global site tag (gtag.js) - Google Analytics