`
zhc0822
  • 浏览: 230909 次
  • 性别: Icon_minigender_1
  • 来自: 宝仔的奇幻城堡
社区版块
存档分类
最新评论

BP神经网络的Java实现

阅读更多

课程作业要求实现一个BPNN。这次尝试使用Java实现了一个。现共享之。版权属于大家。关于BPNN的原理,就不赘述了。

下面是BPNN的实现代码。类名为BP。

 

package ml;

import java.util.Random;

/**
 * BPNN.
 * 
 * @author RenaQiu
 * 
 */
public class BP {
	/**
	 * input vector.
	 */
	private final double[] input;
	/**
	 * hidden layer.
	 */
	private final double[] hidden;
	/**
	 * output layer.
	 */
	private final double[] output;
	/**
	 * target.
	 */
	private final double[] target;

	/**
	 * delta vector of the hidden layer .
	 */
	private final double[] hidDelta;
	/**
	 * output layer of the output layer.
	 */
	private final double[] optDelta;

	/**
	 * learning rate.
	 */
	private final double eta;
	/**
	 * momentum.
	 */
	private final double momentum;

	/**
	 * weight matrix from input layer to hidden layer.
	 */
	private final double[][] iptHidWeights;
	/**
	 * weight matrix from hidden layer to output layer.
	 */
	private final double[][] hidOptWeights;

	/**
	 * previous weight update.
	 */
	private final double[][] iptHidPrevUptWeights;
	/**
	 * previous weight update.
	 */
	private final double[][] hidOptPrevUptWeights;

	public double optErrSum = 0d;

	public double hidErrSum = 0d;

	private final Random random;

	/**
	 * Constructor.
	 * <p>
	 * <strong>Note:</strong> The capacity of each layer will be the parameter
	 * plus 1. The additional unit is used for smoothness.
	 * </p>
	 * 
	 * @param inputSize
	 * @param hiddenSize
	 * @param outputSize
	 * @param eta
	 * @param momentum
	 * @param epoch
	 */
	public BP(int inputSize, int hiddenSize, int outputSize, double eta,
			double momentum) {

		input = new double[inputSize + 1];
		hidden = new double[hiddenSize + 1];
		output = new double[outputSize + 1];
		target = new double[outputSize + 1];

		hidDelta = new double[hiddenSize + 1];
		optDelta = new double[outputSize + 1];

		iptHidWeights = new double[inputSize + 1][hiddenSize + 1];
		hidOptWeights = new double[hiddenSize + 1][outputSize + 1];

		random = new Random(19881211);
		randomizeWeights(iptHidWeights);
		randomizeWeights(hidOptWeights);

		iptHidPrevUptWeights = new double[inputSize + 1][hiddenSize + 1];
		hidOptPrevUptWeights = new double[hiddenSize + 1][outputSize + 1];

		this.eta = eta;
		this.momentum = momentum;
	}

	private void randomizeWeights(double[][] matrix) {
		for (int i = 0, len = matrix.length; i != len; i++)
			for (int j = 0, len2 = matrix[i].length; j != len2; j++) {
				double real = random.nextDouble();
				matrix[i][j] = random.nextDouble() > 0.5 ? real : -real;
			}
	}

	/**
	 * Constructor with default eta = 0.25 and momentum = 0.3.
	 * 
	 * @param inputSize
	 * @param hiddenSize
	 * @param outputSize
	 * @param epoch
	 */
	public BP(int inputSize, int hiddenSize, int outputSize) {
		this(inputSize, hiddenSize, outputSize, 0.25, 0.9);
	}

	/**
	 * Entry method. The train data should be a one-dim vector.
	 * 
	 * @param trainData
	 * @param target
	 */
	public void train(double[] trainData, double[] target) {
		loadInput(trainData);
		loadTarget(target);
		forward();
		calculateDelta();
		adjustWeight();
	}

	/**
	 * Test the BPNN.
	 * 
	 * @param inData
	 * @return
	 */
	public double[] test(double[] inData) {
		if (inData.length != input.length - 1) {
			throw new IllegalArgumentException("Size Do Not Match.");
		}
		System.arraycopy(inData, 0, input, 1, inData.length);
		forward();
		return getNetworkOutput();
	}

	/**
	 * Return the output layer.
	 * 
	 * @return
	 */
	private double[] getNetworkOutput() {
		int len = output.length;
		double[] temp = new double[len - 1];
		for (int i = 1; i != len; i++)
			temp[i - 1] = output[i];
		return temp;
	}

	/**
	 * Load the target data.
	 * 
	 * @param arg
	 */
	private void loadTarget(double[] arg) {
		if (arg.length != target.length - 1) {
			throw new IllegalArgumentException("Size Do Not Match.");
		}
		System.arraycopy(arg, 0, target, 1, arg.length);
	}

	/**
	 * Load the training data.
	 * 
	 * @param inData
	 */
	private void loadInput(double[] inData) {
		if (inData.length != input.length - 1) {
			throw new IllegalArgumentException("Size Do Not Match.");
		}
		System.arraycopy(inData, 0, input, 1, inData.length);
	}

	/**
	 * Forward.
	 * 
	 * @param layer0
	 * @param layer1
	 * @param weight
	 */
	private void forward(double[] layer0, double[] layer1, double[][] weight) {
		// threshold unit.
		layer0[0] = 1.0;
		for (int j = 1, len = layer1.length; j != len; ++j) {
			double sum = 0;
			for (int i = 0, len2 = layer0.length; i != len2; ++i)
				sum += weight[i][j] * layer0[i];
			layer1[j] = sigmoid(sum);
		}
	}

	/**
	 * Forward.
	 */
	private void forward() {
		forward(input, hidden, iptHidWeights);
		forward(hidden, output, hidOptWeights);
	}

	/**
	 * Calculate output error.
	 */
	private void outputErr() {
		double errSum = 0;
		for (int idx = 1, len = optDelta.length; idx != len; ++idx) {
			double o = output[idx];
			optDelta[idx] = o * (1d - o) * (target[idx] - o);
			errSum += Math.abs(optDelta[idx]);
		}
		optErrSum = errSum;
	}

	/**
	 * Calculate hidden errors.
	 */
	private void hiddenErr() {
		double errSum = 0;
		for (int j = 1, len = hidDelta.length; j != len; ++j) {
			double o = hidden[j];
			double sum = 0;
			for (int k = 1, len2 = optDelta.length; k != len2; ++k)
				sum += hidOptWeights[j][k] * optDelta[k];
			hidDelta[j] = o * (1d - o) * sum;
			errSum += Math.abs(hidDelta[j]);
		}
		hidErrSum = errSum;
	}

	/**
	 * Calculate errors of all layers.
	 */
	private void calculateDelta() {
		outputErr();
		hiddenErr();
	}

	/**
	 * Adjust the weight matrix.
	 * 
	 * @param delta
	 * @param layer
	 * @param weight
	 * @param prevWeight
	 */
	private void adjustWeight(double[] delta, double[] layer,
			double[][] weight, double[][] prevWeight) {

		layer[0] = 1;
		for (int i = 1, len = delta.length; i != len; ++i) {
			for (int j = 0, len2 = layer.length; j != len2; ++j) {
				double newVal = momentum * prevWeight[j][i] + eta * delta[i]
						* layer[j];
				weight[j][i] += newVal;
				prevWeight[j][i] = newVal;
			}
		}
	}

	/**
	 * Adjust all weight matrices.
	 */
	private void adjustWeight() {
		adjustWeight(optDelta, hidden, hidOptWeights, hidOptPrevUptWeights);
		adjustWeight(hidDelta, input, iptHidWeights, iptHidPrevUptWeights);
	}

	/**
	 * Sigmoid.
	 * 
	 * @param val
	 * @return
	 */
	private double sigmoid(double val) {
		return 1d / (1d + Math.exp(-val));
	}
}

 为了验证正确性,我写了一个测试用例,目的是对于任意的整数(int型),BPNN在经过训练之后,能够准确地判断出它是奇数还是偶数,正数还是负数。首先对于训练的样本(是随机生成的数字),将它转化为一个32位的向量,向量的每个分量就是其二进制形式对应的位上的0或1。将目标输出视作一个4维的向量,[1,0,0,0]代表正奇数,[0,1,0,0]代表正偶数,[0,0,1,0]代表负奇数,[0,0,0,1]代表负偶数。

训练样本为1000个,学习200次。

 

package ml;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Random;

public class Test {

	/**
	 * @param args
	 * @throws IOException
	 */
	public static void main(String[] args) throws IOException {
		BP bp = new BP(32, 15, 4);

		Random random = new Random();
		List<Integer> list = new ArrayList<Integer>();
		for (int i = 0; i != 1000; i++) {
			int value = random.nextInt();
			list.add(value);
		}

		for (int i = 0; i != 200; i++) {
			for (int value : list) {
				double[] real = new double[4];
				if (value >= 0)
					if ((value & 1) == 1)
						real[0] = 1;
					else
						real[1] = 1;
				else if ((value & 1) == 1)
					real[2] = 1;
				else
					real[3] = 1;
				double[] binary = new double[32];
				int index = 31;
				do {
					binary[index--] = (value & 1);
					value >>>= 1;
				} while (value != 0);

				bp.train(binary, real);
			}
		}

		System.out.println("训练完毕,下面请输入一个任意数字,神经网络将自动判断它是正数还是复数,奇数还是偶数。");

		while (true) {
			byte[] input = new byte[10];
			System.in.read(input);
			Integer value = Integer.parseInt(new String(input).trim());
			int rawVal = value;
			double[] binary = new double[32];
			int index = 31;
			do {
				binary[index--] = (value & 1);
				value >>>= 1;
			} while (value != 0);

			double[] result = bp.test(binary);

			double max = -Integer.MIN_VALUE;
			int idx = -1;

			for (int i = 0; i != result.length; i++) {
				if (result[i] > max) {
					max = result[i];
					idx = i;
				}
			}

			switch (idx) {
			case 0:
				System.out.format("%d是一个正奇数\n", rawVal);
				break;
			case 1:
				System.out.format("%d是一个正偶数\n", rawVal);
				break;
			case 2:
				System.out.format("%d是一个负奇数\n", rawVal);
				break;
			case 3:
				System.out.format("%d是一个负偶数\n", rawVal);
				break;
			}
		}
	}

}

 运行结果截图如下:



 这个测试的例子非常简单。大家可以根据自己的需要去使用BP这个类。

  • 大小: 15.9 KB
4
0
分享到:
评论
57 楼 HiccupHiccup 2016-04-21  
请问楼主  误差计算用的什么方法呢?  
56 楼 cnmyh 2015-09-23  
按照动量算法公式Δx(k+1)=ηΔx(k)+α(1-η)∂E(k)/∂x(k),但是楼主的代码double newVal = momentum * prevWeight[j][i] + eta * delta[i]* layer[j];怎么少了(1-momentum)部分,能否解释下?
55 楼 zhc0822 2015-08-05  
Albert_ygy 写道
楼主你好,看完你的代码,我有两个疑问:1.成员变量momentum没太理解。它起什么作用?2.楼主采用的权值调整是通过每一层的输出误差来调整上一层的权值,而我查的资料是通过最后一层的输出层来逐层往前调整的。这种差异对结果是否有影响呢?求楼主解答,谢谢!

1. momentum 用于平滑weight的change
2. 请仔细看adjustWeight()方法
54 楼 Albert_ygy 2015-08-01  
楼主你好,看完你的代码,我有两个疑问:1.成员变量momentum没太理解。它起什么作用?2.楼主采用的权值调整是通过每一层的输出误差来调整上一层的权值,而我查的资料是通过最后一层的输出层来逐层往前调整的。这种差异对结果是否有影响呢?求楼主解答,谢谢!
53 楼 zhc0822 2015-05-18  
Thare_Lam 写道
Thare_Lam 写道
lz你好,首先非常感谢你的分享.
我认真研究了下你的代码,和书上的算法步骤是一样的,就是少了个阈值.我现在也在用java实现一个bp网络,但我的数据是6维的,一共有8类数据.我想请教下输出层改怎么设定?是8位,哪一位为1就代表哪一类还是3位,用二进制来表示各类?我感觉这两种方法都怪怪的.我自己按照你的代码敲了一遍,然后用自己的数据去算,算出的结果误差非常大(以上两种输出层设置方法都试了),经常是基本上全部都算成同一类了(我也是把输出最大的那个设为1).lz能帮我看看这应该怎么设计吗?

额 我发现改小了momentum和eta后准确率就到80%左右了 不知道这个准确率算不算高呢

多谢留言。momentum, eta, 隐层数目需要自己微调。80%的准确率高不高倒不好说,跟训练次数、训练集大小和测试集大小等有关系。尤其需要注意的是,训练次数并非越多越好,过多epoch会导致过拟合(overfitting)。
52 楼 Thare_Lam 2015-05-11  
Thare_Lam 写道
lz你好,首先非常感谢你的分享.
我认真研究了下你的代码,和书上的算法步骤是一样的,就是少了个阈值.我现在也在用java实现一个bp网络,但我的数据是6维的,一共有8类数据.我想请教下输出层改怎么设定?是8位,哪一位为1就代表哪一类还是3位,用二进制来表示各类?我感觉这两种方法都怪怪的.我自己按照你的代码敲了一遍,然后用自己的数据去算,算出的结果误差非常大(以上两种输出层设置方法都试了),经常是基本上全部都算成同一类了(我也是把输出最大的那个设为1).lz能帮我看看这应该怎么设计吗?

额 我发现改小了momentum和eta后准确率就到80%左右了 不知道这个准确率算不算高呢
51 楼 Thare_Lam 2015-05-11  
lz你好,首先非常感谢你的分享.
我认真研究了下你的代码,和书上的算法步骤是一样的,就是少了个阈值.我现在也在用java实现一个bp网络,但我的数据是6维的,一共有8类数据.我想请教下输出层改怎么设定?是8位,哪一位为1就代表哪一类还是3位,用二进制来表示各类?我感觉这两种方法都怪怪的.我自己按照你的代码敲了一遍,然后用自己的数据去算,算出的结果误差非常大(以上两种输出层设置方法都试了),经常是基本上全部都算成同一类了(我也是把输出最大的那个设为1).lz能帮我看看这应该怎么设计吗?
50 楼 zhc0822 2015-04-27  
qingqingzijin2014 写道
想知道楼主的代码的输出,是不可能是负数吗?训练了900组了,还是不出负数。。

可以输出负数(图里就有例子)
49 楼 qingqingzijin2014 2015-04-07  
想知道楼主的代码的输出,是不可能是负数吗?训练了900组了,还是不出负数。。
48 楼 qingqingzijin2014 2015-04-05  
特地注册了个号来赞楼主
47 楼 zhc0822 2015-03-30  
木叶纷飞 写道
double real = random.nextDouble();
matrix[i][j] = random.nextDouble() > 0.5 ? real : -real;
请问这两行代码中,为什么要将权值这样设定,而不是直接
matrix[i][j] = random.nextDouble(),我运行了一下,这个是错误的,不明白到底这个初始化到底为什么这样子

-1~1
46 楼 木叶纷飞 2015-03-17  
double real = random.nextDouble();
matrix[i][j] = random.nextDouble() > 0.5 ? real : -real;
请问这两行代码中,为什么要将权值这样设定,而不是直接
matrix[i][j] = random.nextDouble(),我运行了一下,这个是错误的,不明白到底这个初始化到底为什么这样子
45 楼 beaticesmile 2014-09-10  
您好,我想问一下,我是想利用BP神经网络实现时序预测,需要有3个数据输入,得出一个预测值的输出,需要修改哪几个地方呢?刚开始学习神经网络,继续使用该算法实现一个预测模型。所以,拜托拜托,帮帮我~楼主
44 楼 不注册 2014-08-07  
非常感谢分享!  

不过对其中有一个小细节不太理解,
即 "让所有数组大小加1", 并且在实际使用过程中给每层都加了一个输出值固定为1的神经元..
注释里提到的是"for smoothness", 以及另一处forward()里面标记了一个"threshold unit"

我个人的理解是这个算是一个常量, 和回归里用到的误差项类似?

请问可以稍微解释一下这个threashold unit的作用吗?
或者有没有什么paper是研究这个的

望不吝解惑
多谢
43 楼 lj745280746 2014-06-22  
你好,我照着使用js重写了一遍,能正常运行了,但还有些不理解。
optDelta[idx] = o * (1d - o) * (target[idx] - o); 

hidDelta[j] = o * (1d - o) * sum;

double newVal = momentum * prevWeight[j][i] + eta * delta[i]  
                        * layer[j];  

为什么要这样算,这三个公式有什么含义?
42 楼 zhc0822 2013-11-28  
766085346 写道
你好,我想问下,已知1到10  10个数字,我想预测第11个,第十二个  这个怎么实现?关于bp算法我是小白,还望楼主赐教


不好意思,我不明白你的问题。能举个例子否?
41 楼 zhc0822 2013-11-28  
公子芒 写道
还有个问题,你的forwar函数,里面都是采用的 layer1[j] = sigmoid(sum); 方法??
    输入层到隐藏层的传输函数是sigmoid是对的,但是你的隐藏层到输出层的传输函数难道也是sigmoid?

      private void forward() {
        forward(input, hidden, iptHidWeights);
        forward(hidden, output, hidOptWeights);
    }

??

对的,都是sigmoid函数。
40 楼 766085346 2013-11-13  
你好,我想问下,已知1到10  10个数字,我想预测第11个,第十二个  这个怎么实现?关于bp算法我是小白,还望楼主赐教
39 楼 公子芒 2013-05-01  
还有个问题,你的forwar函数,里面都是采用的 layer1[j] = sigmoid(sum); 方法??
    输入层到隐藏层的传输函数是sigmoid是对的,但是你的隐藏层到输出层的传输函数难道也是sigmoid?

      private void forward() {
        forward(input, hidden, iptHidWeights);
        forward(hidden, output, hidOptWeights);
    }

??
38 楼 公子芒 2013-05-01  
公子芒 写道
仔细看了,也运行测试了。不过感觉总有些地方不对。看你的程序应该是动量BP算法。(MOBP)
private void outputErr() {
........
[b]optDelta[idx] = o * (1d - o) * (target[idx] - o); [/b]
}[size=medium][/size]
如果按照书上的推导,这部分应该是 optDelta[idx] = -2* 1 * (target[idx] - o);(输出层的敏感度,按照线性函数来推的话应该是f(n)其导数为1)
同样的 下一个方法也有些问题:
private void hiddenErr() {
..............
hidDelta[j] = o * (1d - o) * sum;
}
应该写成: hidDelta[j] = o * (1d - o) * sum;(这个后面是否为sum还不确定)。(隐藏层的传输函数是Log-Sigmoid,其导数是f(n)=a(1-a) 。 同时其敏感度受前一层即第二层的敏感度影响,应该是如上所写的)
正好在学习BP神经网络,你的代码十分清爽优雅,学习了~
我也不知道自己说的是否正确,请指正

  


抱歉,第二个方法   private void hiddenErr() {......}是正确的,后面的也是sum。
sum代表了 输出权值和输出敏感度的内积和。

相关推荐

    BP神经网络JAVA实现

    在Java中实现BP神经网络,我们需要了解以下几个关键概念和技术: 1. **神经元模型**:神经元是神经网络的基本构建单元,它接收输入信号,通过加权求和并加上偏置后,通过激活函数转化为输出信号。在BP网络中,常用...

    BP.rar_BP_bp 神经网络 java 算法_bp 预测_java BP预测算法_预测算法java

    总的来说,这个BP神经网络Java实现为理解和实践预测算法提供了一个基础平台,对于学习和研究神经网络算法的开发者来说,是一个有价值的资源。通过深入研究源代码,我们可以更深入地理解BP算法的工作原理,以及如何在...

    BP神经网络JAVA实现源码(含两套训练测试数据)

    总的来说,这个资源为理解BP神经网络的JAVA实现提供了一个完整的实例,包括数据读取、预处理、网络训练、模型保存和测试等关键步骤。通过阅读和运行这些代码,开发者不仅可以掌握BP神经网络的基本工作原理,还能了解...

    BP神经网络的实现

    **Java实现BP神经网络** 在Java中实现BP神经网络,你需要创建以下组件: 1. **神经元类(Neuron)** 表示单个神经元,包括权重、偏置和激活函数。 2. **层类(Layer)** 代表输入层、隐藏层和输出层,包含多个...

    JAVA实现bp神经网络

    标题中的“JAVA实现bp神经网络”意味着我们将讨论如何使用Java编程语言来构建和应用一种称为反向传播(Backpropagation, BP)的神经网络模型。BP神经网络是一种经典的多层前馈神经网络,广泛用于非线性问题的建模和...

    BP神经网络的java实现

    总之,BP神经网络的Java实现涉及神经网络结构的构建、数据的前向传播、误差的反向传播以及权重的更新。理解和实现这个过程需要扎实的数学基础,特别是微积分和概率论。同时,良好的编程技巧和调试能力也是必不可少的...

    BP神经网络算法java实现.docx

    ### 二、BP神经网络Java实现关键步骤 #### 1. 初始化网络结构 在BP神经网络中,需要定义网络的结构,包括输入层节点数、隐藏层节点数、输出层节点数以及学习率等参数。例如,在给定代码片段中,定义了输入层节点数...

    Ann.rar_ANN java实现_BP神经网络_BP神经网络 java_ann java

    标题中的"Ann.rar_ANN java实现_BP神经网络_BP神经网络 java_ann java"表明这是一个关于使用Java编程语言实现人工神经网络(Artificial Neural Network,简称ANN)的项目,特别是BP(Backpropagation)神经网络的...

    java实现的bp神经网络算法,代码超级简单,里面有实际数据例子

    总的来说,Java实现的BP神经网络算法是一个将理论知识转化为代码的过程,通过理解网络的工作原理和训练机制,我们可以创建出能够处理各种复杂问题的模型。在实际应用中,我们还需要考虑网络的泛化能力、过拟合问题...

    BP神经网络算法的java实现

    ### BP神经网络算法的Java实现解析 #### 一、引言 BP(Back Propagation)神经网络是一种前馈型神经网络,它通过反向传播算法进行权重调整来优化网络性能。BP神经网络广泛应用于模式识别、分类、预测等多个领域。...

    43214040BP4444.rar_BP神经网络 java

    BP神经网络java实现,含有多个类文件,简单易懂

    Java写的BP神经网络实现(BP)

    Java编写的BP神经网络是一种基于反向传播算法的深度学习模型,主要用于解决非线性问题。BP,全称为Backpropagation,是人工神经网络中的一种训练方法,它通过不断调整权重来减小预测值与实际值之间的误差,从而提高...

    bpann_java.rar_BP神经网络 java_bp.rar java_神经网络 java_绁炵粡缃戠粶

    这个Java实现的BP神经网络项目旨在提供一个学习和实践神经网络算法的平台,尤其是在解决非线性问题时表现出强大的能力。通过BP算法,神经网络能够通过不断调整权重来优化其对输入数据的拟合,从而实现对复杂函数的...

    javaForManyLayerBp.zip_BP神经网络_BP神经网络 java_多层bp_识别_颜色神经网络

    这个压缩包提供了一个完整的Java实现的多层BP神经网络示例,对于学习神经网络理论以及Java编程实践都是非常有价值的资源。用户可以通过阅读和运行代码来理解BP神经网络的工作原理,并且可以根据需求调整网络结构和...

    BP算法的java实现

    BP算法的JAVA实现,BP神经网络的数学原理及其算法实现,实验使用IRIS数据集,BP神经网络,BP即Back Propagation的缩写,也就是反向传播的意思,顾名思义,将什么反向传播?文中将会解答。不仅如此,关于隐层的含义...

    随机层BP神经网络的Java实现——BP神经网络.zip

    随机层BP神经网络的Java实现——BP神经网络

    BP神经网络算法之JAVA实现.txt

    ### BP神经网络算法的Java实现解析 #### 一、引言 BP神经网络,全称为反向传播(Back Propagation)神经网络,是多层前馈网络的一种,通过梯度下降法进行权重调整来实现误差的最小化。本文将深入探讨BP神经网络的...

    bp神经网络对数据分类的实现(java代码,iris测试数据)

    在这个项目中,我们看到一个使用Java语言实现的BP神经网络,用于处理Iris数据集的分类问题。 Iris数据集是机器学习中的经典案例,由生物学家Ronald Fisher在1936年提出,包含了150个鸢尾花样本,每个样本有4个特征...

    基于BP神经网络的人脸识别(java源码).zip

    采用三层前馈BP神经网络实现标准人脸YALE数据库的识别,编程语言为C系列语言。 二、BP神经网络的结构和学习算法 实验中建议采用如下最简单的三层BP神经网络,输入层为 ,有n个神经元节点,输出层具有m个神经元,网络...

Global site tag (gtag.js) - Google Analytics