本地还是远程执行?
因为数据集通常是比较大的,所以你可以决定最适合你需要的执行机制。例如,如果你正在对大型训练数据集进行向量化,则可以在分布式spark集群中处理它。但是,如果需要进行实时推理,数据向量还提供不需要任何附加设置的本地执行器。
执行一个转换过程
一旦你已经用概要创建了你的转换过程,并且你已经加载你的数据到了一个 Apache Spark JavaRDD
或有一个记录读取器来加载你的数据集,你就可以执行一个转换了 。
本地执行如下:
import org.datavec.local.transforms.LocalTransformExecutor;
List<List<Writable>> transformed = LocalTransformExecutor.execute(recordReader, transformProcess)
List<List<List<Writable>>> transformedSeq = LocalTransformExecutor.executeToSequence(sequenceReader, transformProcess)
List<List<Writable>> joined = LocalTransformExecutor.executeJoin(join, leftReader, rightReader)
当使用Spark的时候看起来是这样子的:
import org.datavec.spark.transforms.SparkTransformExecutor;
JavaRDD<List<Writable>> transformed = SparkTransformExecutor.execute(inputRdd, transformProcess)
JavaRDD<List<List<Writable>>> transformedSeq = SparkTransformExecutor.executeToSequence(inputSequenceRdd, transformProcess)
JavaRDD<List<Writable>> joined = SparkTransformExecutor.executeJoin(join, leftRdd, rightRdd)
可用的执行器
LocalTransformExecutor 本地转换执行器
isTryCatch
public static boolean isTryCatch()
用给定的输入数据执行指定的转换过程
注意:这个方法仅在转换过程返回一个非序列数据的时候可以用。对于返回序列的转换过程,使用{- link #executeToSequence(List, TransformProcess)}
- 参数 inputWritables 是要处理的输入数据 Input data to process
- 参数 transformProcess 是要执行的转换过程
- 返回处理过的数据
SparkTransformExecutor Spark转换执行器
数spark的弹性数据集上执行一个数据向量转换过程
isTryCatch
public static boolean isTryCatch()
- 不赞成在SparkTransformExecutor用静态方法替代实例方法。
有任何问题请联系微信
如果您觉得我的文章给了您帮助,请为我买一杯饮料吧!以下是我的支付宝,意思一下我将非常感激!
相关推荐
赠送jar包:datavec-data-image-1.0.0-M1.1.jar; 赠送原API文档:datavec-data-image-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-data-image-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-data-...
赠送jar包:datavec-api-1.0.0-M1.1.jar; 赠送原API文档:datavec-api-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-api-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-api-1.0.0-M1.1.pom; 包含...
赠送jar包:datavec-api-1.0.0-M1.1.jar; 赠送原API文档:datavec-api-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-api-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-api-1.0.0-M1.1.pom; 包含...
赠送jar包:datavec-data-image-1.0.0-M1.1.jar; 赠送原API文档:datavec-data-image-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-data-image-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-data-...
数据载体DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0...
赠送jar包:deeplearning4j-datavec-iterators-1.0.0-M1.1.jar; 赠送原API文档:deeplearning4j-datavec-iterators-1.0.0-M1.1-javadoc.jar; 赠送源代码:deeplearning4j-datavec-iterators-1.0.0-M1.1-sources....
赠送jar包:deeplearning4j-datavec-iterators-1.0.0-M1.1.jar; 赠送原API文档:deeplearning4j-datavec-iterators-1.0.0-M1.1-javadoc.jar; 赠送源代码:deeplearning4j-datavec-iterators-1.0.0-M1.1-sources....
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
- **数据预处理**:DataVec是DL4J的一部分,专门用于数据清洗和转换,如归一化、标准化等。 3. **DL4J Spark**: - **分布式训练**:DL4J与Apache Spark结合,可以在大规模分布式环境中进行深度学习,利用Spark的...
(DL4J)生态系统是一组项目,旨在满足基于JVM的深度学习应用程序的所有需求。 这意味着从原始数据开始,从任何位置以任何格式加载和预处理原始数据,以构建和调整各种简单和复杂的深度学习网络。...
2. **datavec-hadoop-0.9.1.jar**:Datavec是DL4J的一部分,它是一个数据采集和转换工具,此版本支持Hadoop,允许大规模分布式数据处理,适合处理大型数据集。 3. **deeplearning4j-zoo-0.9.1.jar**:DL4J Zoo提供...
基于java+深度学习开发的农作物病虫害识别+APP软件+源码+项目解析+数据+模型训练+数据库,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 基于java+深度学习开发的...
- **特征提取**: 通过特征提取器将原始数据转换为模型可以处理的格式。 #### 实例分析 本部分将通过一个具体的例子来展示如何使用DL4J进行深度学习项目开发。例如,使用DL4J构建一个简单的图像分类模型: 1. **...
它允许开发者在CPU或GPU上执行大规模的矩阵运算,是构建深度学习模型的基础。在书中,读者将学习如何利用ND4J创建和操作多维数组,以及如何实现神经网络中的基本数学操作。 DL4J(Deep Learning for Java)是构建于...
dl4j-examples-0.9.1.jar 深度学习示例,其中包括: •deeplearning4j-core,包含神经网络实现方法 •nd4j-native-platform,ND4J库的CPU版本,驱动DL4J •datavec-api - Datavec是我们的数据向量化和加载库
Deeplearning4j 提供了多种预定义的网络结构,如卷积神经网络(CNN)、循环神经网络(RNN)以及多层感知器(MLP)。你可以根据具体任务选择合适的网络结构,并通过调整超参数来优化模型性能。这通常包括学习率、批...
for i in range(len(dataVec) - 3): # 非数值特征 for j in range(numList[i]): if dataVec[i] == featureDic[features[i]][j]: newData.append(j + 1) ``` 这段代码首先遍历每条记录中的非数值特征,然后查找该...