大发快三官网-大发快三计划软件

大发快三官网 > 完全数据 >

谷歌AI遭猛怼!发布数据集论文和挑战赛却公开数

2019-01-28 21:47:30 完全数据139℃

  可重复性是科学的标志。没有这些数据,这个结果是不可复制的,所以科学会很糟糕。

  发布开源软件和创建新的公共数据集是我们为研究和软件工程社区做出贡献的两种主要方式。

  一篇数据集论文对于复现结果非常重要,如果存在阻碍数据集共享的法律问题,那么发表私人数据集论文就好了(有些领域不公开Alt-text),但基于一个不公开预训练模型、不完全共享的数据集举办挑战赛,我认为这就不太酷了。

  谷歌AI又成了话题。Reddit网友找到了谷歌AI一个名叫Conceptual Captions的数据集,发现该数据集并不完善,于是乎联系谷歌AI相关人员,却三连拒。

  Deepmind的一些论文也是这样,仅仅根据他们发表的论文,完全不可能把结果复现出来。我花了一段时间才意识到Arxiv或他们网站上的一篇“论文”并不是真正的出版物,因此它的主要目标是展示公司已经开发了某种能力。这与其他人能够或否认他们在科学过程中所做的事情关系不大。我并不是说大公司在网上发布的所有论文都是这样,但正如你刚刚发现的,其中一些论文确实如此。

  昨天谷歌AI大佬Jeff Dean刚刚发表长文总结了2018年的主要研究,其中包括“开源软件和数据集”:

  人们不分享他们的模型、代码或数据集,这本身并不困扰我。令我困扰的是,这种情况发生了,而这些论文仍然被接受。这是同行评审过程的绝对失败,凤凰彩票app它的责任完全落在审查员(和我们)的肩上。这些论文是在信任的基础上被接受的,在某些情况下甚至是权威(我们都知道,尽管存在着双盲的本质,但不难推断出某些论文可能来自哪个群体),这是绝对不可接受的。

  在GitHub中对此数据集的描述为:一种包含330万张图像的大规模图像数据集,专门用于机器学习图像字幕系统的训练和评估。

  这位网友发现了谷歌AI一个叫Conceptual Captions数据集相关的比赛,以及描述这个数据集的论文(ACL 2018):

  这位网友表示:虽然我同意存在法律问题,但数据集中缺少数百张图像,其他研究人员要想比较模型变得超级困难。

  这就使得基准测试和论文里的结果数字变得非常难以复现。毕竟,不是每个人都有1k的TPU。

  这是ML论文最大的问题。我一直在尝试实现一个股票预测的LSTM,你可以找到数百篇论文都在做同样的概念。但它们都没有数据集,也不会谈论它们如何清理或标准化它们的数据。

  然而,当这位网友跃跃欲试想要拿这个数据集一番时却发现了一些问题:这个数据集全部图像都是托管的,一些链接现在已经失效。

  然而细心的Reddit网友却发现,谷歌AI并没有那么“开源”,反而还共享数据:

  问:是否会发布与每个图像关联的 Alt-text? 用于生成字幕的代码也会公开吗?

  答:谢谢你的关注!不幸的是,由于版权/法律问题,我们无法提供通过url从tsv文件下载图像的代码。

  我不知道为什么有这么多谷歌的者。这对科学和机器学习都不利。是的,我们都明白为什么,但这仍然很糟糕。北京pk10走势图特别是像这样的论文,如果不能从数据中分离出来的话,再现性常困难的。有机会的组织和个人应该以一个好榜样来领导这个领域,而不是反过来。

搜索
网站分类