可用的降维
GeographicMidpointReduction (地理中点降维)
分割符是可配置的), 决定了地理位置的中点. 在: http://www.geomidpoint.com/methods.html 查看 “地理中点”实现算法, 查看: http://www.geomidpoint.com/calculation.html
转换
public Schema transform(Schema inputSchema)
- 参数delim是文本中坐标分割符. 例如, 如果格式是 “lat,long” 则使用 “,”
StringReducer
StringReducer用来获取一组实例并减少它们。
思路:假设你有很大的列数,并且你想要通过合并和减少每个列的值。
StringReducer允许你为不同的列指定不同的降维方法:min,max,sum,mean等
用途有:(1)通过键来减少实例(2)在时间段内减少操作(窗口操作)
转换
public Schema transform(Schema schema)
获取输出概要,得到输入概要。
输出列名称
public Builder outputColumnName(String outputColumnName)
创建一个StringReducer构建器,并设置默认的列减少操作。
对于任意一个没有显式指定的列,它们将使用默认的列减少操作。
如果一个列有一个显式指定的列减少操作,那么它将覆盖默认指定的。
- 参数 defaultOp 执行默认减少操作
追加列
public Builder appendColumns(String... columns)
通过取最小值来减少指定的列
追加列
public Builder prependColumns(String... columns)
通过取最大值来减少指定的列
合并列
public Builder mergeColumns(String... columns)
通过取列的和来减少指定的列
替换列
public Builder replaceColumn(String... columns)
通过取列的平均值来减少指定的列
定制的减列策略
public Builder customReduction(String column, ColumnReduction columnReduction)
- 通过使用定制的减列功能减少指定的列
- 参数column要执行定制的减列功能的列
- 参数columnReduction 为要在column上执行的定制的减列功能
设置忽略无效
public Builder setIgnoreInvalid(String... columns)
在减列的时候:设置指定的列来忽略任何无效的值。
无效:根据ColumnMetaData: {- link ColumnMetaData#isValid(Writable)}定义为无效的
对于数值列,这通常意味着无法解析Writable。
例如Writable.toLong() 对于一个长整型的列是失败的。如果列有任何约束(min/max 值, 字符匹配 等)这些也算。
- 参数 columns 为设为忽略无效的列
有任何问题请联系微信
如果您觉得我的文章给了您帮助,请为我买一杯饮料吧!以下是我的支付宝,意思一下我将非常感激!
相关推荐
赠送jar包:datavec-api-1.0.0-M1.1.jar; 赠送原API文档:datavec-api-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-api-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-api-1.0.0-M1.1.pom; 包含...
赠送jar包:datavec-data-image-1.0.0-M1.1.jar; 赠送原API文档:datavec-data-image-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-data-image-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-data-...
赠送jar包:datavec-api-1.0.0-M1.1.jar; 赠送原API文档:datavec-api-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-api-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-api-1.0.0-M1.1.pom; 包含...
赠送jar包:datavec-data-image-1.0.0-M1.1.jar; 赠送原API文档:datavec-data-image-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-data-image-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-data-...
赠送jar包:deeplearning4j-datavec-iterators-1.0.0-M1.1.jar; 赠送原API文档:deeplearning4j-datavec-iterators-1.0.0-M1.1-javadoc.jar; 赠送源代码:deeplearning4j-datavec-iterators-1.0.0-M1.1-sources....
赠送jar包:deeplearning4j-datavec-iterators-1.0.0-M1.1.jar; 赠送原API文档:deeplearning4j-datavec-iterators-1.0.0-M1.1-javadoc.jar; 赠送源代码:deeplearning4j-datavec-iterators-1.0.0-M1.1-sources....
数据载体DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
- **数据预处理**:DataVec是DL4J的一部分,专门用于数据清洗和转换,如归一化、标准化等。 3. **DL4J Spark**: - **分布式训练**:DL4J与Apache Spark结合,可以在大规模分布式环境中进行深度学习,利用Spark的...
2. **datavec-hadoop-0.9.1.jar**:Datavec是DL4J的一部分,它是一个数据采集和转换工具,此版本支持Hadoop,允许大规模分布式数据处理,适合处理大型数据集。 3. **deeplearning4j-zoo-0.9.1.jar**:DL4J Zoo提供...
(DL4J)生态系统是一组项目,旨在满足基于JVM的深度学习应用程序的所有需求。 这意味着从原始数据开始,从任何位置以任何格式加载和预处理原始数据,以构建和调整各种简单和复杂的深度学习网络。...
基于java+深度学习开发的农作物病虫害识别+APP软件+源码+项目解析+数据+模型训练+数据库,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 基于java+深度学习开发的...
- **DataVec**: 数据预处理库,用于将原始数据(如音频、图像、文本等)转换成适用于机器学习训练的张量形式。 - **rl4j**: Java/JVM环境下的深度强化学习库。 - **arbiter**: 超参数调优工具。 - **dl4j-examples**...
作者通过使用DL4J、ND4J和DataVec等Java生态系统中的关键库,为读者提供了一条在实际项目中应用深度学习的清晰路径。 深度学习是机器学习的一个子领域,它借鉴了人脑神经网络的结构,通过构建多层的非线性模型来...
dl4j-examples-0.9.1.jar 深度学习示例,其中包括: •deeplearning4j-core,包含神经网络实现方法 •nd4j-native-platform,ND4J库的CPU版本,驱动DL4J •datavec-api - Datavec是我们的数据向量化和加载库
DL4J还支持多种库,如ND4J,DataVec和Sklearn,提供了一整套数据预处理和模型评估功能。 18.2.3 Mahout Apache Mahout【3】是一个用于构建机器学习算法的库,最初设计为Hadoop上的分布式计算。尽管Mahout不再直接...
for i in range(len(dataVec) - 3): # 非数值特征 for j in range(numList[i]): if dataVec[i] == featureDic[features[i]][j]: newData.append(j + 1) ``` 这段代码首先遍历每条记录中的非数值特征,然后查找该...