【那6张也行。】
两三周以内也能接受哇。
【还也行?滚!】
【老赵,你知不知道你现在冰冷的话语正扼杀一个跨时代的造物!】
苏飞发了一张痛心疾首.jpg。
对面直接发了一张滚.jpg。
最终,二人沟通协商数次,老赵敲定了一个方案。
老赵会用管理员权限把所有其他账号冻结一个月,只保留苏飞的账号,这样给苏飞的那台服务器的四张显卡就只能由苏飞使用,也不需要担心其他人一不小心占用了资源导致程序崩溃,因为压根没其他人了。
当然,想要使用这台服务器的其他同学会被安排到其他服务器去,老赵顺便会帮他们把数据也一起转移过去。
这样一来,苏飞用四张卡同时训练,十几天应该就能搞定。
老赵,还是靠谱儿,苏飞决定之后这篇论文发表成功,一定要好好报答报答老赵。
在得到老赵的全力支持后,苏飞也是起飞了,把训练程序往四张显卡上一扔,他就完全撒手不管了。
有句话怎么说来着,要让你的钱比你更努力地工作?
在深度学习领域,要让的显卡比你更努力地工作!
…
…
既然训练程序的问题已经解决了,苏飞便直接开始动笔写论文了。
虽然训练结果还没出来,但苏飞相信这个模型的性能绝对不会差,到时候结果出来了直接把数据填上去,就能直接发表了。
什么?万一性能很差?
这是看不起系统的灵感激发卡吗?
狗系统虽然很狗,经常发布一些奇奇怪怪的任务,但灵感激发卡的功效也是实打实的。
在撰写论文题目的时候,苏飞一字一顿地打上标题。
【注意力即所有(Attention is all you need)】
这种有些狂妄的论文标题很像是一些初出茅庐的小子,不知天高地厚而一时中二取的标题。
苏飞的确是初出茅庐的小子,但他坚信,以注意力机制构建的模型单元担得起这个论文题目。
【目前的主流模型结构都是基于复杂的循环神经网络或者卷积神经网络而构造的编码器-解码器架构。如果在编码器-解码器架构中再加一层注意力机制,那么这个模型的性能就会变得更好。】
【但是,迄今为止从没有人仅用注意力机制构建出一个编码器-解码器架构的模型。本文提出一个新的模型,其舍弃主流的模型架构,单纯采用注意力机制,并引入多头注意力机制与位置向量的概念解决目前注意力机制中的两个难点,其具体的模型构造为……】
【……基于上述的理论,此模型并不局限于自然语言处理领域,其独特的并行运算结构能适用于人工智能领域的任何问题,并且大大提升训练速度,因此,本文将该模型命名为变压器(Transformer)。】
这也算苏飞的一个小趣味,Transformer在英文中不止是变压器,更有变形金刚的意思,而这个模型的确就如同变形金刚一样,非常灵活多变,能适应各种任务。
最新网址:xiashukan.com