Python深度学习框架PyTorch迎来重大更新

最近比较热门的PyTorch是使用GPU和CPU优化的深度学习框架。Theano、TensorFlow、Torch、MXNet 再到近日比较热门的 PyTorch 等等，深度学习框架之间的比较一直以来都是非常受人关注的热点话题。

2017 年初，Facebook 在机器学习和科学计算工具 Torch 的基础上，针对 Python 语言发布了一个全新的机器学习工具包 PyTorch。一经发布，这款开源工具包就受到广泛关注和讨论，经过几个月的发展，目前 PyTorch 已经成为从业者最重要的研发工具之一。

经过将近一年的发展，日前，迎来了 PyTorch 0.3.0 版本。

根据官方文档的介绍，此次增加了多个函数和功能，多方面的性能均实现提升。

重大变更

0.3 版本中删掉了 Variable.reinforce() 等随机函数，因为它们的功能有限，并且会影响到性能。设置随机函数的初衷是为了避免采样值的 book-keeping，在实际中，由于各种各样的原因，用户的代码中仍然会包括 book-keeping。他们引入了 torch.distributions 包来代替随机函数。

之前的代码如下：

probs = policy_network(state)
action = probs.multinomial()
next_state, reward = env.step(action)
action.reinforce(reward)
action.backward()

现在的代码如下：

probs = policy_network(state)
# NOTE: categorical is equivalent to what used to be called multinomial
m = torch.distributions.Categorical(probs)
action = m.sample()
next_state, reward = env.step(action)
loss = -m.log_prob(action) * reward
loss.backward()

新的功能

1、目前，有些损失函数能直接计算 mini-batch 中每个 sample 的损失值。

2、构建了一个 in-built Profiler，能对模型进行瓶颈分析，这个 Profiler 同时支持 CPU 和 CUDA 模型。

3、增加 Higher order gradients 模块

支持如下层：

ConvTranspose, AvgPool1d, AvgPool2d, LPPool2d, AvgPool3d, MaxPool1d, MaxPool2d, AdaptiveMaxPool, AdaptiveAvgPool, FractionalMaxPool2d, MaxUnpool1d, MaxUnpool2d, nn.Upsample, ReplicationPad2d, ReplicationPad3d, ReflectionPad2d

PReLU, HardTanh, L1Loss, SoftSign, ELU, RReLU, Hardshrink, Softplus, SoftShrink, LogSigmoid, Softmin, GLU

MSELoss, SmoothL1Loss, KLDivLoss, HingeEmbeddingLoss, SoftMarginLoss, MarginRankingLoss, CrossEntropyLoss

DataParallel

4、优化器

optim.SparseAdam：能实现适用于稀疏张量的简单亚当算法

优化器中增加了 add_param_group 函数，能在构建好的优化器中增加新的参数组。

除此之外，还增加了新的张量函数和功能，在新版本中，能通过 ONNX 将模型迁移到其他框架上。另外，在加速方面，重写 gpu kernel 之后，softmax 和 log_softmax 的速度能实现 4-256 倍的提升；在分布式 AllReduce 中，能实现 2.5-3 倍的性能提升；torch.norm 函数的 backward 能实现 1.5 倍的加速；pack_padded_sequence 的性能也有提升。

PyTorch优缺点

优势：

它属于轻量级；

它目前位于 Python 中；

它使你能够明确地控制计算。没有编译器能自己妄图变聪明来「帮助你」，或是将你的代码加速；事实上大多编译器在调试中会产生大量麻烦；

它使 GPU 内核调用之上仅有少量（可解释的）抽象层，而这恰恰是高性能的保证；

也许这是个人偏好，但我得到了与抽象有关的特定 OCD。每当我要做艰巨的工作时都会很紧张，因为一旦我的未来被泄漏，我便能感觉到它那些无法摆脱且难以忍受的痛苦。相对简单的事情理应在引擎盖之下发生的大多数情况下，这种感觉尤为强烈；

调试更容易，因为特定代码中会是特定行（而不是在距离使用大型或生成的 Graph 对象的 sess.run（）很远的地方）失败。你的堆栈跟踪不会填满三个屏幕来让你玩「找找错误在哪里！」的竖版卷轴游戏；

不存在编译时间。我无法理解 Theano 用户是如何处理的，他们一定更有耐心；

你可以直接操作渐变，显然，做一些事情时可以更容易，也更自然（如在反向传播过程中的渐变剪辑，或各种「破碎的反向传播」的有关想法，就像最近的 Shake Shake reg 命令一样；的确，我认为你可以用 stop_gradient 破解一个解决方案）；

它对动态图的支持从一开始就是自上而下的设计原则，而非随之而至的事后想法。并且我们会看到更多的动态图表，如做成一大块 NLP，或是神经模块网；

它没有缩进或膨胀你的代码的显式会话对象；

它获得的抽象是正确的：raw numpy - > Tensors（但 GPU 上的 raw numpy 可能对深度学习一无所知！）- >变量（它们了解深度学习），并且 Modules 或 Optim 等等会稍有益处。

动态计算使很多事情更加容易，如 seq2seq + attention 的神经翻译很难通过 keras + tf 来实现，但使用 PyTorch 便会很容易；

更容易调试，因为你可以只使用标准的 PyThon 工具；

PyTorch 让自定义的实现更加容易，所以你得以将更多时间专注于算法中，这样往往能够改进主要性能；

使 Multi-gpu 简单易懂；

Torch-vision 使加载和变换图像变得容易。

PyTorch 提供了一个强化功能。增强功能基本上不会在实现中产生过多资源消耗，能有一些内置函数来调用 RL 的感觉真棒。

我遇到的错误或问题得到PyTorch 团队及时的反映，通常会在当天修复，或者得到解决方法或得到问题跟踪。

PyTorch 是可以立即使用的，在我当前的项目的单 GPU 的训练时间比 theano+lasagne 快 100%。我测试过，100% 逐字地在 CIFAR100 上从（在最简单的情况下）5 分/历元到 2.5 分/历元，并且在某些情况下降到 2 分钟/历元（即，快两倍）

缺点：

PyTorch 的 API感觉有些粗糙，但对它有一些限定词。如果你只是做一些标准的任务（实现 ResNet 或者 VGG）我认为你不会有问题，但我一直都有一些分歧因为我所做的一切都有些奇怪。

对于 PyTorch 我最大的「抱怨」基本上是在神经网络 API 方面「事情并未按照我让他们组合的方式进行放置」。具体来说，我非常喜欢 Lasagne 的「层次（layers）」范式—但是一点点批判性的思维就会让你得出这个结论，这个范式尤其不适合动态图框架。

PyTorch 没有为部署设计，开发团队它看上去并没有把重心放在 PyTorch 上（虽然在这方面，我可能看错了，我模糊的记得我在论坛的帖子上看到过这个）。我想要练习将一些东西放置在网站或者 droid app 上我不确定其他的框架能很好地支持这种方式。

上一篇：Python核心团队:在2020年停止支持Python2
下一篇：Python语言被列入全国计算机等级考试科目

PythonTab微信公众号:

Python技术交流互助群 ( 请勿加多个群 ):

群1: 87464755

群2: 333646237

群3: 318130924

群4: 385100854

Python深度学习框架PyTorch迎来重大更新

重大变更

新的功能

PyTorch优缺点

优势：

缺点：

频道总排行

频道本月排行

最新文章

相关文章

Python深度学习框架PyTorch迎来重大更新

重大变更

新的功能

PyTorch优缺点

优势：

缺点：

相关文章推荐

频道总排行

频道本月排行

最新文章

相关文章