首先可以参考这两篇文档:
http://code.google.com/p/libpyhdfs/source/browse/trunk/INSTALL
http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/04/2036665.html
然后补充两个细节:
1. 我在执行:
apt-get install libhdfs0-dev
的时候提示找不到包,改成:
apt-get install libhdf4-dev
之后安装成功。
2. 文档一中提到:
引用
You can copy your libhdfs.so into `lib' directory.
其中的libhdfs.so位于hadoop的目录下,在我这边是位于hadoop-1.0.3-bin/c++/Linux-i386-32/lib/下,编译pyhdfs时需要用到。
pyhdfs编译安装成功后,在python代码中
import pyhdfs
可能仍然会报错:
引用
ImportError: libhdfs.so.0: cannot open shared object file: No such file or directory
此时需要编辑/etc/ld.so.conf ,将上文提到的hadoop-1.0.3-bin/c++/Linux-i386-32/lib/目录地址添加进去,然后执行
sudo /sbin/ldconfig -v
使配置生效即可。
分享到:
相关推荐
在描述中,提到了Python在Linux环境下与HDFS交互的需求,以及使用Pandas进行数据处理的场景。从标签中我们可以进一步了解到涉及的技术包括Python、HDFS、上传下载、Pandas和CSV。 首先,Python连接HDFS主要依赖于`...
本文将详细介绍如何使用Python解析HDFS文件,并将其内容生成为本地文件,以及相关的插件包安装步骤。 首先,我们需要安装Python的HDFS客户端库,最常用的是`pyarrow`和`hdfs3`。`pyarrow`是Apache Arrow项目的一...
《HDFS——Hadoop分布式文件系统深度实践》这本书是针对Hadoop分布式文件系统(HDFS)的详尽指南,旨在帮助读者深入理解HDFS的工作原理、设计思想以及在实际应用中的最佳实践。HDFS是Apache Hadoop项目的核心组件之...
Python在HDFS文件系统上实现高效存储的过程不仅限于使用H5Py库,还可以借助其他工具和库,比如Pydoop,这是一个支持在Python中操作HDFS的库。Pydoop允许用户以Python的方式编写MapReduce任务,并与HDFS进行交互,...
总的来说,Python 中读取 HDFS 上的 Parquet 文件涉及到多个库的配合使用,包括 hdfs3 用于 HDFS 访问,fastparquet 或 pyarrow 用于处理 Parquet 格式。正确配置这些库并理解 HA 模式对于高效地处理分布式数据至关...
Python 访问 HDFS(Hadoop Distributed File System)主要依赖于第三方库,如 `hdfspython`(也称为 `snakebite`),它提供了一种简单的方法来与 HDFS 进行交互。以下是对如何使用 Python 访问 HDFS 的详细步骤和...
Python HDFS客户端 由于全球需求从Python的谈话HDFS。 用法 该库为提供了Python客户端。 通过传入两个NameNode来支持NameNode HA。 响应作为漂亮的Python类返回,并且任何失败的操作都将引发与Java异常匹配的...
- 在实际使用中,确保Hadoop HDFS服务已经启动,并且Python程序有权限访问HDFS。 - 如果HDFS集群不在本地,记得替换`hosts`参数为你集群的实际地址。 - 调用`delete`方法时,`recursive=True`表示递归删除目录及其...
`.whl`文件是一种预编译的Python分发格式,它允许用户在没有`setup.py`安装脚本的情况下直接安装库,简化了部署流程。 ### HDFS简介 HDFS是Hadoop生态系统的核心组件之一,它是一个分布式文件系统,设计目标是为了...
**Python库PyHDFS简介** PyHDFS是一个Python接口,用于与Hadoop分布式文件系统(HDFS)进行交互。这个库使得Python开发者能够方便地在HDFS上执行各种操作,如读取、写入、移动和删除文件。PyHDFS是基于libhdfs的,...
《高可用性的HDFS——Hadoop分布式文件系统深度实践》专注于Hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoop backup node方案、avatarnode解决方案以及最新...
为了方便地使用Python进行HDFS的操作,我们可以利用`hdfs`库,这是一个Python接口,允许我们通过Python脚本来读写HDFS中的文件。该文档主要介绍了如何使用Python将数据存储到HDFS中,下面将详细解释相关的知识点。 ...
这里以`hdfs`库为例,你可以通过pip安装: ```bash pip install hdfs ``` `HadoopClient.py`可能是实现HDFS操作的Python脚本,其中可能包含以下内容: 1. **连接HDFS**:使用`hdfs`库创建一个客户端实例,通常...
补充知识部分讲述了Python连接HDFS的其他方法,如使用`pyhdfs`库。`pyhdfs`库允许我们直接在HDFS上进行文件的读写操作。例如,要读取文件,可以创建`HdfsClient`对象,然后调用`open`方法打开文件。读取的内容默认为...
### Python使用hdfs3模块对HDFS进行操作详解 #### 概述 在大数据处理领域,Hadoop分布式文件系统(HDFS)是存储大规模数据集的重要工具之一。Python作为一种广泛使用的编程语言,在处理HDFS中的数据时也发挥着重要...
在分布式存储领域,Hadoop HDFS(Hadoop Distributed File System)是广泛使用的开源文件系统,它为大数据处理提供了高容错、高吞吐量的数据访问。为了与HDFS进行交互,开发者通常需要在本地环境中配置相应的Java库...
在C语言环境中操作HDFS,需要借助于libhdfs库,这是一个Java Native Interface (JNI) 库,允许C/C++代码访问HDFS。 描述提到“通过libhdfs操作HDFS,需要配置好开发环境,makefile中的文件路径根据实际路径修改。”...
hdfs3该项目未在开发中Pyarrow的JNI 是成熟且稳定的。 它还具有较少的配置和各种...旧的自述文件hdfs3是libhdfs3的轻量级Python包装器, 是与Hadoop File System(HDFS)进行交互的本机C / C ++库。 查看有关hdfs3的。