- 浏览: 2653127 次
- 来自: 杭州
文章分类
- 全部博客 (1188)
- webwork (4)
- 网摘 (18)
- java (103)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (14)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (7)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
怎么样才算是精通 Python?
「精通」要满足如下条件:
- 熟知主流硬件体系(x86, x64)
- 熟知 CPython 的具体实现,如若可能至少通读源码三遍以上
- 熟知每条 Python bytecode 如何被解释执行
- 熟知每条 Python 语句如何 compile 成 bytecode
- 熟知 Python 主要数据结构所采用的优化手段
- 熟知 JIT 以及哪些场合下 PyPy 会比 CPython 有较大性能提高、以及有什么代价
所以我一直只敢称自己为 「中级 Pythonista」
@米嘉 引用的 StackOverflow 上列的那几项条件是作为将 Python 用于主要工作语言所需要的基本条件
,敢于因此而称自己「精通 Python」要让不少人笑掉大牙。况且那几项还有几个严重问题:
- 第
3点:如若可能,尽量避免 map/reduce/fitler,而用 list/generator/set
comprehension,代码要清晰得多,GvR 如此说。xrange 和 range 的区别在 Python 3
中马上就要滚蛋了,所以如非必要,不要大量使用 xrange。
- 第5点:敢于在 CPython 中大量使用递归是对 CPython 实现的公然侮辱。Python 的多个稳定实现都没有 TCO,递归会让性能迅速下降。记住一点:Python 中函数调用非常 昂贵,可读性、可维护性影响不大的情况下,能展开函数调用的时候尽量展开、递归能转化成循环的尽量转化。递归也不是人类自然的思考方式。
- 第 7点:看书是对的,但不要把 Python 当作一门经典函数式语言对待,因为它不是。你当它是,它会很痛苦(“为毛要这样滥用我!?”),你也会很痛苦(“为毛你不这样实现 blah blah!?”)。SICP 是本好书,但不要因此而教条。要清楚的知道什么时候用函数式,什么时候用面向对象,什么时候用面向过程,什么时候用面向任务,什么时候用面向结果。在一棵树上吊死是大多数非理性死忠的表现。
使用 Python 会降低程序员的编程能力吗?
编程不是为了写代码而编程, 而是为了解决问题而编程.
基本上语言有几个典型, 不完整, 随便一说
1. 机器语言, 汇编
2. 围绕机器设计, 给人用的语言, C
3. 围绕给人用设计的语言, Python, Ruby 等
你用 Python 之类的语言, 实际上是把更多时间花在了 "编写程序" 上, 而不是纠结跟 "机器对话" 上.
Python 自诩的 "效率", 是说他虽然运行的慢, 但是写得快, "编写+运行完成" 的时间少于 C 语言这种写得慢运行得快的程序的时间, 也是一种效率的提升. 这里不能体现能力吗? 我不认为.
Ruby 和 Python 相比有什么优势和缺陷?
Ruby 和 Python 太相似了,取舍大部分都是个人喜好上的原因。比如我就觉得 Python 的 “There is only one
way to do it.” 比 Ruby 的 “There are many ways to do it.”
要好,这不光是考虑团队协作的问题,更重要的是自己能很快明白自己三个月前写的没有任何注释的代码是在干什么。当然也有很多人觉得自由和灵活要比可读性来
的重要,所以我说这个是个人喜好的原因。
客观上的 Ruby 比 Python 的优势我想到的有这么几个:
Block 应该是语言层面上 Ruby 比 Python 更酷的地方,Python 的匿名函数(lambda function)制约太多,属于鸡肋(BFDL GvR 不认可函数式编程的许多方面)。
OS X 上的话,Ruby 比 Python 最重要的优势可能是 MacRuby (http://www.macruby.org/
)
的存在。我大胆猜测以后 MacRuby 将成为 Objective-C 之外(如果不是完全替代的话)的苹果官方语言。MacRuby
除了能更加方便快捷的创建 Cocoa 应用外,ruby block 使得利用 OS X 的 Grand Central Dispatch
变得容易,在以后的多核、混合核(CPU+GPU)应用上非常重要。
劣势:
Ruby 的硬伤之一在于性能。官方实现 Ruby 1.9 比 CPython 逊色不少。另外 Python 拥有诸如 Numpy, Psyco, PyPy, Cython 等多种性能倍增的途径,相比之下 Ruby 想要提高性能的途径则非常有限。
Ruby
的硬伤之二在于第三方包。Ruby 传入英语世界并大规模流行起来的时间不长,大部分的第三方包都和 Web 相关,Web 领域外的包数量远远不及
Python。特别是在科研等方面的区别非常明显,很多学科领域都有基于 Python 的成熟应用,而几乎找不到 Ruby
的相关包。这除了历史渊源,也和 Python 更加简洁的语法(很多用 Python 做研究的人不是计算机专业的)以及前述的性能倍增器(主要是
Numpy 和 Scipy)有密切的关系。
发表评论
-
python读取图片exif信息
2014-11-06 10:53 2400f = open("/home/admin/tlo ... -
Python程序的执行原理
2014-04-14 15:44 17231. 过程概述 Python先把代码(.py文件)编译成字 ... -
如何创建一个短链服务
2013-12-26 16:23 0参考: http://stackoverflow.com ... -
python 解析命令参数(argument)组件argparse
2013-12-11 17:35 1400参考: http://youngsterxyf.githu ... -
pyhon命令行工具optparse
2013-11-10 16:27 1028使用python optparse 可以创建命令行工具,下面 ... -
Python在豆瓣的应用
2013-10-21 10:46 1194Python在豆瓣的应用,hongqiangning分享 ... -
用python爬虫抓站的一些技巧总结
2013-10-10 14:12 1681学用python也有3个多月了,用得最多的还是各类爬虫 ... -
python小技巧
2013-10-10 11:50 7321. 声明长度256的数组 a=[0]*256 ... -
使用tesseract-ocr破解网站验证码
2013-10-09 10:25 1212原文:使用tesseract-ocr破解网站验证码 ... -
和豆瓣CMGS交流
2013-06-20 17:36 5838蒋云鹏: 在?CMGS: 在蒋 ... -
python乱码问题('ascii' codec can't encode character u'\u4e2d' in position 0)
2013-05-20 19:03 4245>>> k = u'中' >> ... -
python shell 交互模式
2013-04-28 22:17 1628python 通过code模块可以很容易的进入交互模式: ... -
jython和gunicorn性能测试对比
2013-04-13 13:03 1291helloworld,笔记本上: gunicorn ... -
python的mysql客户端-MySQLdb
2013-04-04 10:13 1153平时的主要编程语言是Java,开发时也主要用Mysql,经常 ... -
Python几种并发实现方案的性能比较
2013-03-18 21:14 2956原文:http://www.elias.cn/P ... -
python汉字和Unicode码(utf-8)之间的转换(Pack/Unpack)
2013-03-18 21:13 1642保证你要转换的字符串编码为UTF8,如果不是,请iconv ... -
python反序列化的坑
2013-01-06 18:06 1278今天遇到python一个坑,调用memcached的get_m ... -
sqlalchemy connection pool.py 源代码
2012-12-29 22:58 2235把 sqlalchemy pool源代码copy下来,有空看看 ... -
SQLAlchemy简单介绍
2012-12-28 22:41 0文档参考:http://docs.sqlalchemy.org ... -
pymysql简单使用
2012-12-28 12:38 2118import pymysql conn = pymysq ...
相关推荐
本示例中,我们关注的是"Python知乎爬虫代码",这是一个针对初学者的爬虫项目,旨在帮助他们理解如何使用Python进行网页数据抓取。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是程序或脚本,自动...
开源项目
python课程大作业项目-基于python实现知乎文章爬取项目源码.zippython课程大作业项目-基于python实现知乎文章爬取项目源码.zippython课程大作业项目-基于python实现知乎文章爬取项目源码.zippython课程大作业项目-...
**功能** 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的**相关问题**进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。 **bug** 由于知乎具有一定的反爬,所以在相似问题检索时最大...
Python知乎评论爬虫源代码是用于自动化抓取知乎网站上用户评论信息的一种程序。爬虫在信息技术领域中,特别是数据挖掘和Web开发中扮演着重要角色。它通过模拟人类浏览器行为,自动遍历网页,抓取所需数据。在这个...
本项目是基于Python的知乎用户数据爬虫与分析设计源码,共有24个文件,包括7个JavaScript文件、5个Pyc文件等。系统通过Python实现知乎用户的爬虫功能,收集用户数据并进行分析。项目的设计注重数据的可视化和分析,...
1)作者的谷歌版本使用的是88版本,最新版没有尝试 2)采用的是先打开一个谷歌浏览器,然后在代码里链接这个浏览器的方式进行解决问题的
在爬取知乎时,通常会通过问题ID来定位特定问题的页面。 接着,我们需要解析返回的网页内容。BeautifulSoup或lxml库是HTML解析的利器,它们可以解析HTML文档,提取我们需要的数据,比如回答的文本、用户信息以及...
在这个名为"Python-知乎爬虫验证码自动识别"的项目中,我们将深入探讨如何利用Python技术来应对网页上的验证码挑战,特别是在爬取知乎这类社交媒体平台时。验证码的识别是爬虫过程中的一大难点,因为它涉及到图像...
总之,Python爬虫实现对知乎问题回答的抓取,涉及到了HTTP请求、HTML解析、数据提取、异常处理等多个环节,是一个典型的网络数据获取和处理的过程。通过这个项目,你可以深入学习Python在网络爬虫领域的应用,并提升...
萌新入坑代码,大佬勿喷
在这个程序中,建议使用Anaconda来运行Python爬虫,因为这样可以确保所有必要的库和依赖都已经安装并且版本匹配,避免了可能的环境问题。 【颜值打分】 在完成人脸识别后,程序可能会利用某种算法对识别出的人脸...
在本项目中,我们探讨的主题是“Python知乎爬虫-断点续爬尝试”。这个标题暗示我们将讨论如何利用Python编写爬虫来抓取知乎网站上的信息,并且特别强调了断点续爬这一功能,这意味着我们的爬虫将具有在中断后从上次...
"Python爬虫实践" 基于给定的文件信息,我们可以总结出以下关键知识点: 一、爬虫工作原理 * 爬虫的基本流程:种子URL → 下载网页内容 → 解析网页内容 → 存储已抓取的URL * 抓取策略:深度优先策略、广度优先...
**功能** 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的**相关问题**进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。 **bug** 由于知乎具有一定的反爬,所以在相似问题检索时...
在本实践教程中,我们将深入探讨如何利用Python进行网络数据的爬取、采集与可视化,特别是在处理知乎问题的回答上。Python作为一门强大的编程语言,因其简洁的语法和丰富的库支持,成为了网络爬虫领域的首选工具。...
在这个案例中,我们将探讨如何使用Python来分析一个知乎大V的专栏文章。知乎作为一个知名的在线问答社区,提供了丰富的数据资源供我们进行研究。以下是一个详细的步骤指南,展示了如何利用Python进行这项任务。 ...
金融外行如何入门量化交易 - 用Python的交易员 - 知乎 Live.mhtml
python爬取知乎热榜内容实现时事了解
知乎热榜的爬虫,默认间隔一分钟爬一次,会接着爬热榜上问题的回答 进度用redis储存,结果存到mysql 启动 分布式的,先启动服务器端tw_spider_server,然后启动客户端zhihu_hot_spider即可 因为我只有一台电脑,...