中间阶段有一个非常著名的工作,那个时候有人第一次实现了实时化。 年,一篇叫《神经算法的艺术风格》的论文由 n Gty 领导发表。他们展示了将现实世界的照片转换为梵高风格的图片。 我们现在可能习以为常,但那是在  年,那篇论文突然出现在 rXiv 上,震惊了我。我感觉大脑中被注入了一种“生成  的病毒”。我心想:“天哪,我需要理解这个算法,玩一玩,试着把自己的图片变成梵高风格。” 于是,我花了一个长周末重新实现了这个算法,让它能够正常运行。其实它是一个非常简单的算法,我的实现大概只有  行代码,当时是用u写的,因为那时候还没有 PyTor,我们用的是 u Tor。不过尽管算法简单,它的速度很慢。每生成一张图片,你都需要运行优化循环,耗费很多时间。生成的图片很漂亮,但我就是希望它能更快一点。最后,我们确实让它变快了。

还有一点我非常自豪的是,在生成  真正走向世界之前,他在博士研究的最后一部分做了一个非常前沿的工作。这个项目是通过输入自然语言来生成完整的图像,这可以说是最早的生成  工作之一。我们使用的是GN,但当时它非常难用。问题是,我们还没有准备好用自然语言来描述一幅完整的图像。 于是,他采用了一个场景图结构输入方式,输入内容是“羊群”、“草地”、“天空”等,并用这种方式生成了一幅完整的图像。 从数据匹配到风格转换,再到生成图像,我们逐渐看到了一个完整的转变。你问这是否是一个巨大的变化,对于像我们这样的人来说,这是一个持续的过程,但对于大众而言,成果确实显得突然且具有冲击力。  我读了你的书,真是一本很棒的书,我强烈推荐大家去读。

而且,Fei-Fei,我想说的是,长期以来,你的很多研究和方向都聚焦于空间智能、像素处理等领域。现在你在做的 Word b 也和空间智能相关。能谈谈这是你长期旅程的一部分吗?你为什么现在决定去做这个?这是否是某种技术突破或个人原因?你能否带我们从  研究的背景过渡到 Word b?  对于我来说,这既是个人的追求,也是智力上的旅程。你提到了我的书,我的整个智力旅程实际上是一种对“北极星”的追寻,同时也坚信这些北极星对于我们领域的进步至关重要。 在一开始的时候,我还记得研究生毕业后,我认为我的北极星是“为图像讲故事

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注