欢迎访问本站!

首页快讯正文

usdt不用实名交易(www.caibao.it):面向计算机架构的机械学习

admin2021-02-2473

USDT第三方支付平台

菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

原题目:面向盘算机架构的机械学习

机械学习 (ML) 近期取得了长足提高,而促成这一提高的关键因素即是自界说加速器的研发(例如 和 Edge TPU)。自界说加速器能够显著提高可用算力,从而解锁种种功效,如 、RankBrain、WaveNets 和 对话署理 。

为维持提高的势头,硬件加速器生态系统必须继续在架构设计上举行创新,并顺应快速生长的 ML 模子和应用。要实现这一点,我们需要评估许多差别的加速器设计点,而每个点不仅可以提高盘算能力,还可以解锁新的能力。这些设计点通常可凭据种种软硬件因素(如内存容量、差别级别的盘算单元数目、并行性、互连 *** 、流水线、软件映射等)来参数化。这是一项艰难的优化义务,由于搜索空间会呈指数级增进 ,而目的函数(例如,更低的延迟和/或更高的能效)需要花费大量的盘算能力以通过模拟或合成来举行评估,这使得找到可行的加速器设置具有一定的挑战性。

在 “ (Apollo: Transferable Architecture Exploration) ” 一文中,我们先容了我们在 ML 驱动的自界说加速器设计方面的研究进展。虽然 已经证实行使 ML 可以加速低阶结构计划历程(在这一历程中,硬件组件的空间结构和毗邻将在硅中举行),但在此研究中,我们会专注于将 ML 融合到高阶系统规范和架构设计阶段,该阶段是影响芯片整体性能的关键因素,而在此阶段确立的设计元素将能够控制高阶的功效。我们的研究解释 ML 算法能够促进对架构的探索,辅助在一系列深度神经 *** 中找出高性能架构,而且领域涵盖图像分类、目的检测、OCR 和语义支解。

  • 近期的研究 https://ai.googleblog.com/2020/04/chip-design-with-deep-reinforcement.html

架构搜索空间和事情负载

在举行架构探索时,我们的目的是为一组事情负载找到一组可行的加速器参数,从而在一组可选的用户界说约束条件下使所需的目的函数(例如,运行时的加权平均值)的值最小化。然而,架构搜索的流形决议了搜索历程通常会包罗许多无法从软件映射到硬件的设计点。其中一些是 先验已知的设计点,可以通过用户将其制订为优化约束条件来绕过(例如,在面积预算 约束的情形下,总内存巨细不能超过预界说的限制)。然则,由于架构和编译器的相互影响以及搜索空间的复杂性,有些约束条件可能无法正确地制订到优化中,因此编译器可能无法为目的硬件找到可行的软件映射。在优化问题中,这些不可行的设计点难以制订,而且一样平常在整个编译器通过之前始终为未知。因此, 架构探索的主要挑战之一是若何有用地避开不可行的设计点,以最少次数的周期正确架构模拟对搜索空间举行有用探索

下图显示了目的 ML 加速器的整体架构搜索空间。该加速器包罗一个二维的处置元件 (Processing Elements, PE) 阵列,每个处置元件以单指令流多数据流 (SIMD) 的方式执行一组算术盘算。每个 PE 的主要架构组件是处置焦点,这些焦点包罗多个用于 SIMD 操作的盘算通道。每个 PE 中都有供其所有盘算焦点共享的共享内存(PE 内存),主要用于存储模子激活、部门效果和输出,而供单个焦点使用的内存则主要用于存储模子参数。每个焦点都有多条具有多路乘法累加 (MAC) 单元的盘算通道。而模子每个盘算周期的效果要么回存到 PE 内存中以用于进一步盘算,要么卸载回 DRAM 中。

优化计谋

在这项研究中,我们针对架构探索,探讨了四种优化计谋:

  • 随机:对架构搜索空间举行平均的随机采样。

  • Vizier :将贝叶斯优化用于目的函数评估时间较长(例如硬件模拟,可能需要几个小时才气完成)的搜索空间的探索。行使来自搜索空间的采样点聚集,贝叶斯优化可形成一个替换函数(通常用高斯历程来示意),该函数可用于模拟搜索空间的流形。在替换函数值的指导下,贝叶斯优化算法会在探索和行使中举行权衡,决议是对流形中有希望的区域举行更多的采样(即行使),照样对搜索空间中未见的区域举行更多的采样(即探索)。然后,优化算法会使用这些新采样的点进一步更新替换函数,以更好地模拟目的搜索空间。Vizier 使用 预期的改善 (Expected Improvement) 作为其焦点采集函数。
  • Vizier https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/46180.pdf
  • :使用具有 k 个个体的群体举行进化搜索,其中每个个体的基因组对应一个离散的加速器设置序列。新个体的发生方式为:行使 (联赛选择)方式从群体中为每个个体选择两个亲本,以一定的交织率重组其基因组,并以一定的概率对重组后的基因组举行突变。

  • 进化 https://arxiv.org/pdf/2006.03227.pdf
  • tournament selecting https://wpmedia.wolfram.com/uploads/sites/13/2018/02/09-3-2.pdf
  • (P3BO):使用已被证实可以提高样本效率和稳健性的优化方式聚集,包罗进化和基于模子的方式。采样获得的数据在聚集中的优化方式之间举行交流,而优化器则凭据其性能历史记录举行加权以天生新的设置。我们在研究中使用的是 P3BO 的一个变体,该变体中优化器的超参数使用进化搜索动态更新。

  • 基于群体的黑盒优化 https://arxiv.org/pdf/2006.03227.pdf

加速器搜索空间嵌入向量

为更好地出现每个优化计谋在导航加速器搜索空间中的有用性,我们使用 t-漫衍式随机邻域嵌入 (t-SNE) 将探索的设置映射到整个优化范围内的二维空间中。我们将所有实验的目的(回报)界说为每个加速器区域的吞吐量(推理/秒)。在下图中, x 和 y 轴示意嵌入空间的 t-SNE 组件(嵌入向量 1 和嵌入向量 2)。星形和圆形符号划分示意不可行(零回报)和可行的设计点,可行设计点的巨细与其回报相对应。

果不其然,随机计谋以平均漫衍的方式搜索该空间,最终在设计空间中找到了少少的可行设计点。

与随机采样方式相比, 默认的优化计谋在探索搜索空间和寻找更高回报(1.14 对比 0.96)的设计点之间取得了优越的平衡。然而,这种方式往往会卡在不可行的区域,虽然确实找到了几个具有更高回报的设计点(用红色十字符号示意),但在探索的最后一次迭代中,该方式找到的可行设计点很少。

,

Usdt第三方支付接口

菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

,

而进化计谋则是在优化的很早的时刻就找到了可行的解,并在其周围形成了可行设计点的集群。因此,这种方式主要做的是浏览可行区域(绿圈),并有用避开不可行的设计点。此外,进化搜索也能够找到更多具有更高回报的设计方案(用红色十字示意)。该方式能够提供多种具有高回报的解决方案,可以让设计者天真探索种种具有差别设计权衡的架构。

最后,基于群体的优化方式 (P3BO) 以更有针对性的方式(具有高回报点的区域)对设计空间举行探索,以找到更优解。P3BO 计谋在约束条件较严(如不可行的设计点较多的情形)的搜索空间中找到了具有更高回报的设计点,显示出了其在浏览大量不可行点的搜索空间中的有用性。

差别设计约束条件下的架构探索

我们还研究了差别面积预算约束条件下(6.8 mm 2 、5.8 mm 2 和 4.8 mm 2 )各优化计谋的效益。下面的小提琴图 (Violin plots) 显示了在优化结束时(经由 10 次运行,每次 4000 次试验后),在所研究的优化计谋中,更高可实现回报的完整漫衍。较宽的部门代表了有较高概率在特定的给定回报下考察到可行的架构设置。这意味着我们倾向于能够增添回报较高(性能较高)点的宽度的优化算法。

架构探索中显示更好的两种优化计谋划分是“进化”和 P3BO,这两种计谋都能在多次运行中提供具有高回报和稳健性的解决方案。通过研究差别的设计约束条件,我们考察到,当面积预算约束条件收紧时,P3BO 优化计谋会发生更多具有高性能的解。例如,当面积预算约束条件设置为 5.8 mm 2 时,P3BO 找到的设计点的回报(吞吐量/加速器面积)为 1.25,优于其他所有优化计谋。当面积预算约束条件设置为 4.8mm 2 时,我们也考察到了同样的趋势,在多次运行中,该计谋找到的点的回报略高,且稳健性更好(变异性更小)。

结论

虽然 “Apollo” 一文朝更好明白加速器设计空间和构建更高效的硬件迈出了第一步,但发现具有新功效的硬件加速器仍然是一个充满未知的领域,同时也是新的前沿趋势。我们信赖,这项研究会是一条令人振奋的前进之路,可以进一步探索由 ML 驱动,且适用于跨盘算栈架构设计和协同优化(如编译器、映射和调剂)的手艺,以发现出能够适用于下一代应用的高效加速器。

致谢

这项研究由 Amir Yazdanbakhsh、Christof Angermueller 和 Berkin Akin 互助完成。我们还要谢谢 Milad Hashemi、Kevin Swersky、James Laudon、Herman Schmit、Cliff Young、Yanqi Zhou、Albin Jones、Satrajit Chatterjee、Ravi Narayanaswami、Ray (I-Jui) Sung、Suyog Gupta、Kiran Seshadri、Suvinay Subramanian、Matthew Denton,以及 Vizier 团队的辅助和支持。

网友评论