如何避免产生赋值语句

乡村里的一条土狗

浏览: 70954 次
性别:
来自: 北京

最近访客更多访客>>

cfyme

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (28)

社区版块

存档分类

编程数据结构单元测试 OO Haskell

我在之前的文章里谈论过赋值语句的危害性。使用赋值语句会使程序变的冗长，更难理解。但事实上，赋值语句对编程来说是一种基本语句，想限制它的使用几乎是不可能的。幸运的是，我们实际上是能做到的，下面我就会向你展示如何去做。

用正确的方式初始化

// 错误       |  // 正确
int x;        |
// ...        |  // ...
x = init();   |  int x = init();

“正确”方式的主要优点是你能很方便的浏览x 的定义的同时知道它的值。这样也能保证x 始终处在一个固定变量状态，大多数的编译器都能检测到这种状态。其次，这样可以使代码减少冗余。

“错误”方式之所以存在完全是因为很多老式的编程语言都强制要求在程序的开始处先声明变量。这样编译器好处理。但现在这已经不是问题了，即使在C语言里。

构造新数据

// 错误          |  // 正确
int x = init();  |  int x = init();
// ...           |  // ...
x = something(); |  int y = something();

这样做很重要。它能保证变量被定义后不会被改变。不留任何机会。x 的值我们可以保证它是通过init() 初始化的值。

人们使用“错误”方式一般有两个原因：高效和简洁。效率并不是个问题，现代编译器能够通过给变量重新分配地址来优化性能。而由于简洁而导致的语义模糊是得不偿失的。

用函数，不要用过程

// 错误                  |  // 正确
void to_utf8(string s);  |  string to_utf8(string s);
                         |
// ...                   |  // ...
                         |
string s1 = latin();     |  use_string(to_utf8(latin()))
to_utf8(s1);             |
use_string(s1);          |

“正确”方式使用的是一个普通的数字函数：它接受输入值，返回计算后的值。另一边，“错误”方式使用了过程。跟函数不一样，过程不仅会影响返回的结果，还能影响其它数据，例如，过程中可以修改它的参数值。这会使这些参数很容易被污染。

所以，当能够使用函数的时候，尽量不要使用过程。你的程序这样会变得更简单。这种技巧可以让你避免去思考如何去做 (变换一个字符串)，而是如何被做 (一个变换了的字符串)。要着眼于最终结果，而不是处理过程。

“错误”方式之所以存在完全是由于许多老的编程语言很难处理复杂的返回值。你只能返回单个数字。所以，当需要一个内容更丰富的返回值时，你只能在过程中达到这个目的。而真正的返回值通常是一些简单的错误标号代码。然而现在不同了，返回复杂的结果已经不再是个问题。即使是在C语言里你也可以返回复杂的结果。

固化你的对象

在很多的入门级的介绍面向对象编程的课程中，你能看到这样一个著名的二维坐标的例子：

// 非常非常错误
class Point
{
public:
  // constructor
  Point() { x = 0; y = 0; }

  float get_x() { return x; }
  float get_y() { return y; }

  void set_x(float new_x) { x = new_x; }
  void set_y(float new_y) { y = new_y; }

  move(Point p) {
    x = x + p.x;
    y = y + p.y;
  }
private:
  float x; float y;
};

这样设计的原因很简单：你可以通过构造函数创建一个新的坐标，然后通过set_x() 和 set_y() 进行初始化。内部数据是经过封装的(private )，只能通过get_x() 和 get_y() 来访问。还有个好处是，你可以通过move() 方法来移动这个坐标点。

然而，从代码本身看，却是没必要的复杂化了，而且有几个主要的错误：

构造函数直接把x 和 y 初始化成0了。如果你希望它是其它值，你还需要手工的设置。你不能初始时做到这些 。
操作一个点的缺省方法就是修改它。这是一种赋值操作。你被限制了创建一个新值 。
set_x() , set_y() , 和 move() 方法现场修改这个对象。这些是过程 , 不是函数。
x (和 y ) 是私有的，但你可以通过get_x() 和 set_x() 操作它们。所以，你认为你是封装了它们，而实际上没有。
move() 这个方法不需要放在Point 类里。放在类里使类的体积变大，影响理解和使用。

正确的设计更简单，而且不失功能：

// 正确的
class Point
{
public:
  // constructor
  Point (float x, float y) {
    _x = x; _y = y;
  }

  x() { return x; }
  y() { return y; }

private:
  float _x; float _y
}

Point move(Point p1, Point p2) {
  return Point(p1.x() + p2.x(),
               p1.y() + p2.y());
}

另外，如果你愿意，你可以把_x 和 _y 声明成public和常量。

使用纯功能性数据结构

从上面的介绍里我们说明了应该构建新数据 。这个建议即使是大数据结构也是有效的。意外吗，它并不是像你想象的那样失去作用。有时候你为了避免每次都拷贝整个数据结构，你可能要使用修改操作。而数组和hash table就是属于这种情况的。

这种情况下你应该是使用我们所谓的纯功能性数据结构。如果你想对这有所了解，Chris Okasaki’s thesis (也是同名著作)是个好的教材。这里，我只给大家简单的讲讲linked list。

一个链接表要么是个空表，要么是其中有个单元格存着一个指向另一个表的指针。

┌───┬───┐   ┌───┬───┐
│ x │  ───> │ y │  ───> empty
└───┴───┘   └───┴───┘

这样的数据结构如果在ML语言里是很好设计出来的，但在以类为基础的语言里会稍微有点复杂：

-- Haskell
-- A list is either the Empty list,
-- or it contains an Int and a List
data List = Empty
          | NotEmpty Int List

-- utility functions

is_empty Empty         = true
is_empty NotEmpty x xs = false

head Empty         = error
head NotEmpty x xs = x

tail Empty         = error
tail notEmpty x xs = xs

// Java(ish)
class List
{
public:
  // constructors
  List() { _is_empty = true; }
  List(int i, List next) {
    _i        = i;
    _next     = next;
    _is_empty = false;
  }

  bool is_empty() { return _is_empty; }

  int head() {
    if (_is_empty) error();
    return _i;
  }

  List tail() {
     if (_is_empty) error();
     return _next;
  }

private:
  int  _i;
  List _next;
  bool _is_empty;
}

你可以看到，现在这个List类是不可变的。我们不能修改List 对象。我们只能在现有的对象外新建新的List。 这很容易 。因为当你构建一个新List时，它会共享现有的大多数的单元。假设我们有个list l ，和一个整数i ：

    ┌───┬───┐   ┌───┬───┐
l = │ x │  ───> │ y │  ───> empty
    └───┴───┘   └───┴───┘

i = 42

此时，在l的顶部加入i ，这样就会产生一个新的list l2 ：

     ┌───┬───┐
l2 = │ i │   │
     └───┴─│─┘
           │
           │   ┌───┬───┐   ┌───┬───┐
l  =       └──>│ x │  ───> │ y │  ───> empty
               └───┴───┘   └───┴───┘

或者，在代码里：

List l  = List(x, List(y, List()));
int  i  = 42;

List l2 = List(i, l); // cheap

l 仍然存在，不可变，而新建的l2 只是多了一个新建的单元。类似的，删除顶部的元素也是不费任何资源的容易。

当我们不能这样做时

有时，你不能避免赋值操作，或者受其它因素限制。也许是你需要更高的效率，你必须修改数据状态来优化程序。或者由于一些外界因素影响，比如一个用户。或者由于你使用的语言不能自动处理内存使用，这些都会阻止你使用纯功能性的数据结构 。

这种情况下你所能做的最好的方式是隔离那些程序中不合规范的代码(那些使用赋值语句的代码)。比如说，你想给一个数组排序，你必须用quicksort。Quicksort严重的依赖于变换转移操作，但是你可以隐藏这些操作：

array pure_sort (array a)
{
  array a2 = copy(a);
  quicksort(a2); // modify a2, nothing else
  return a2;
}

于是，当pure_sort() 这个内部函数不能按照我的建议的去写时，影响并不大，因为它被限制在函数内了。最终，pure_sort()的 行为就像是个普通的函数了。

相反的，当你与其它业务有交互时，要小心的将交互部分的代码和运算部分的代码分隔开。比如你要写段在屏幕上画个点的程序，而且能根据鼠标的移动而移动。写出来可能会是这样：

// 错误

Point p(0, 0);
wile(true) // loop forever
{
  p = move(p, get_mouse_movement());

  if (p.x() < 0   ) p = Point(0    , p.y());
  if (p.x() > 1024) p = Point(1024 , p.y());
  if (p.y() < 0   ) p = Point(p.x(), 0    );
  if (p.y() > 768 ) p = Point(p.x(), 768  );

  draw(p);
}

这里有个错误，它在主程序里对越界坐标进行了检查。更好的方式是这样：

// 正确

point smart_move(point p, point mouse_movement)
{
  float x = p.x() < 0    ? 0
          : p.x() > 1024 ? 1024
          :                p.x();

  float y = p.y() < 0   ? 0
          : p.y() > 768 ? 768
          :               p.y();

  return Point(x, y);
}

// 主程序
Point p(0, 0);
wile(true) // loop forever
{
  p = smart_move(p, get_mouse_movement());
  draw(p);
}

现在，主程序变得更简单了。运算部分，smart_move() ，可以进行单独测试，甚至可以在其它地方重用。现在，如果你不喜欢这样的三元操作的语法，不想按我介绍的规则，不去构造新数据 ：

// 这样也不是很差

point smart_move(point p, point mouse_movement)
{
  float x = p.x();
  float y = p.y();

  if (x < 0   ) x = 0;
  if (x > 1024) x = 1024;
  if (y < 0   ) y = 0;
  if (y > 768 ) y = 768;

  return Point(x, y);
}

不管你怎么写，smart_move() 始终应该是个函数。

结论

我说的这些都是关于降低耦合的技巧。每个程序都应该有很清晰的内部边界。每个模块应暴露最少量的接口。这能使程序更易于理解和使用。避免使用赋值语句，坚持对象恒定的原则能使接口清晰明确。但这也不是银弹，这只是辅助手段。很有用的辅助手段。

译文来源：外刊IT评论

分享到：

【翻译】如此计算时间！ | 【翻译】为什么我不适合搞编程

2010-08-03 07:09
浏览 1057
评论(14)
论坛回复 / 浏览 (14 / 6643)
分类:编程语言
查看更多

14 楼 yecq 2010-08-21

减少变量被修改的机会，这种思想很好。函数式编程的很多概念值得学习借鉴

13 楼 lxs647 2010-08-04

个人理解下来觉得没有必要这样儿，有时候像楼主口中的赋值语句的定义是必须的、、、

12 楼 lyw985 2010-08-04

不是java，为什么发到这

11 楼 tllyf 2010-08-03

翻译文章理解很好！值得学习！！不过人的思路是活的不要禁锢

10 楼 xiaoyao312 2010-08-03

这可得研究的很深了

9 楼徐风子 2010-08-03

jslfl 写道

我有点疑问，既然变量不让它变了，还叫变量吗

那就叫常量。

其实都是炒的冷饭了，函数式编程里面早就这样了，完全的函数式编程不允许使用变量的，半截的函数式编程也是不推荐使用变量。

用习惯了就很舒服了，不用害怕多线程问题，一个名称 x，可以漫天放，反正他永远只会是那一个值。

8 楼 snake1987 2010-08-03

Crusader 写道

我怎么觉得这框框条条，一概而论的文章很傻？

+1
你可以说推荐如何如何去做
直接说这种做法那种做法错误，非常非常错误，偏偏写出的理由又只能说明该做法不太好

7 楼 IcyFenix 2010-08-03

曾经有一段时间我们公司的checkstyle开了变量要求final这条规则，巨烦人。

6 楼 jslfl 2010-08-03

我有点疑问，既然变量不让它变了，还叫变量吗

5 楼 hatedance 2010-08-03

总结起来，在java里，就是全部用final关键词。

4 楼 piao_bo_yi 2010-08-03

函数式编程的价值观，语言的副作用会导致错误的发生，所以小心的避开状态，和OO完全相反的思路。对大数据量做处理时，性能和易用的分布式，是其超级亮点。花一些时间，熟悉一下思路，编程水平的确就会提高很多。

3 楼 Crusader 2010-08-03

我怎么觉得这框框条条，一概而论的文章很傻？

2 楼 oneteams 2010-08-03

<p>按照你的说法，一个变量一旦定义，就不需要再修改，如果需要同样的变量，那么就重新定义一个。我可以这么理解吗？</p>

1 楼 czxiyj 2010-08-03

翻译的不错，希望这种译文能多一些。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论