原标题:人工智能研究项目的经验教训:前三年
作者:Eric Jang
译者:尹肖贻
我已经在谷歌机器人组(Google Brain robotics,现在叫“Robotics @ Google”)工作了近3年。 前世之事,后事之师。在这篇文章里,我整理了这几年中在大型研究项目中学习的科学、工程知识,以及个人成果。 研究人员的个人经验和实验经历,可能成为其个性化思考方式的来源,乃至竞争优势。这是到目前为止,我的工作历程。对于每个工作,我在下方写几句话作为小结或点评。
下图是按时间顺序排列的大事件,以便读者一览我的经历如何塑造目前的见解和信仰。一些论文我没有全程参与,却激发了我的创意,我会在后续文章中提到它们。这篇文章的范围,仅限于整理我自己的研究项目。
Categorical Reparameterization with Gumbel-Softmax
- 谷歌公司鼓励员工捕捉灵感,允许20%时间从事个人喜欢的项目,这种环境对员工很有益处。Gumbel-Softmax的灵感来自我与Shane Gu在茶水间的闲聊中。
- 基础研究(例如生成建模的技术)的推进,可能产生下游应用的巨大进步。
- 实现最简单的方法,也是引用数最多的方法。
End-to-End Learning of Semantic Grasping
- “分类标签”的概念毫无意义,是解决目标条件概率的错误方法。
- 机器学习可以帮助机器人进步,机器人也可以反过来帮助机器学习算法迭代(即通过当前姿势追溯标记)。
- 不涉及机器人实操,而用快速部署、实践的可视化、分析工具,是很重要的。
- 训好模型所需要的,不过是高质量的数据和对比度损失。 Pierre Sermanet对两要素津津乐道,甚至可能凭此迎来强人工智能技术。
- 人当有远大的梦想。
Deep Reinforcement Learning for Vision-Based Robotic Grasping
- 快速原型,快速迭代很重要性。
- Q-Learning的可用性和扩展性非常好。
QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation
- 大多数人并不关心QT-Opt是如何训练的; 他们只对训练有素的QT-Opt系统能做什么很兴奋。
- QT-Opt只需要缩放,算力和数据。
Generative Ensembles for Robust Anomaly Detection
- 深入思考OoD问题(超出正常的数据分布)的性质和不同类型的不确定性。
- OoD问题是病态问题,但对实际应用仍然有用。
- OoD和泛化是同一枚硬币的两面。
Grasp2Vec: Learning Object Representations from Self-Supervised Grasping
- 训好模型,只需要高质量的数据和对比度损失。
- 类标签毫无意义。 “(与强调类标签)相反,我们只应当关注图像的真实表现......没有‘勺子’这种东西。有了这样的认识,你就会意识到,图中的东西不是弯曲的‘勺子’,它只是你的一厢情愿”。 摆脱引入明确的人为定义的语义,可以(有些自相矛盾地)让我们解决一个严格的难题。【译者按:类似于佛教徒强调的“破相”。如果你能够意识到类别这样人为标记的概念,仅仅是为了语言上的方便,而非实质,就能获得更多原始信息了】
- 定义良好的损失函数,可以类比为好的“软件2.0”设备:具有模块化功能、能够快速验证正确性、不对上游或下游计算强加假设(与RL算法相反)。