穿越:2014

猪熊

首页 >> 穿越:2014 >> 穿越:2014最新章节(目录)
大家在看山村草垛三人转陆天龙女总裁的贴身兵王免费阅读超级潇洒人生叶辰夏若雪孙怡医婿叶凡天医神尊在都市鞋乡之小镇崛起顾少的老婆重生了重生1980:开局迎娶姐姐闺蜜霸婿崛起
穿越:2014 猪熊 - 穿越:2014全文阅读 - 穿越:2014txt下载 - 穿越:2014最新章节 - 好看的都市言情小说

第273章 巨额的隐形财富

上一章目录下一章阅读记录

就像诺奖级成果不一定真的能获得诺奖一样。

就算林灰在生成式文本摘要方面鼓捣出的东西对于这个时空能称得上是博士级甚至更高级别的成果。

但想藉此一步到位获得博士毕业论文也是很有难度的。

毕竟此前林灰搞得学术内容其主要呈现形式都是围绕着生成式文本摘要这样一个算法专利的。

这个时空西方对于专利形式的学术成果更倾向于将之视作偏向于实践的东西,亦即工程上的成果。

而仅仅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻烦的。

虽然涉及到生成式文本摘要在学术上的收益这个稍微低于林灰的预期,不过问题不大。

林灰觉得学术上步子太大也不完全是好事情。)

既然短时间不搬运生成式对抗网路。

那刚才关于生成式对抗网路的思考岂不是等同于白白浪费脑细胞?

当然不是。

很多时候思维大概就是在一些漫不经心的思考中获得新的启发的。

关于生成式对抗网路这方面的思考,林灰突然意识到他还有一笔巨额的隐形财富。

那就是前世的人工标注数据。

虽然没太认真翻看前世一同携带来的信息。

但人工标注的数据林灰不可能是没有的。

尤其是前世那些企业级硬盘里面绝对不可能没有人工标注数据。

就算没啥图像的人工标注,涉及到一些文本的人工标注,绝对是不可能少了的。

毕竟这种东西相当实用,而且文本标注其实也不是很占地方。

要知道涉及到神经网路学习训练或者说深度学习训练在模型构建的时候可是需要大量的人工标注数据的。

尤其是监督学习和半监督学习更是需要大量的人工标注数据。

通常一个模型在架构的时候需要很多的人工标注的数据。

在调整的时候也需要很多的人工标注数据。

举这样一个例子:

在图象识别里面,经常我们可能需要上百万的人工标注的数据,

在语音识别里面,我们可能需要成千上万小时的人工标注的数据。

涉及到机器翻译更是需要数千万语句标注数据。

说实话作为一个来自前世往后几年的技术人员。

此前涉及到人工标注数据的价值林灰还真没太当回事。

但现在看来,这玩意的价值此前明显被林灰忽视了。

林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。

一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词。

如果需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。

可以看到数据标注的费用是非常非常高的。

而这仅仅是2017年的数据标注成本。

在现在的话标注成本岂不是意味着更高的数据标注费用?

要知道现在几乎不怎么注重无监督学习。

在无监督学习方面更是几乎没啥可堪一用的模型。

在主流的机器学习依旧是靠监督学习和半监督学习。

而举凡是监督学习和半监督学习基本就离不开人工标注的数据。

以这个角度来衡量的话林灰所拥有的一大批现成的人工标注数据岂不是一笔巨额的隐形财富?

如果说在前世2017年,1000万条双语数据标注就要耗资两千多万美元。

那么在机器学习整体比较滞后的这个时空的2014年。

同样的1000万条双语数据标注需要多少钱呢?

林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。

“两三亿美元”这个数据似乎有点吓人。

但其实也不夸张。

之所以说不夸张有两方面的原因:

一、即便是在前世,数据标注也是在对偶学习之类的特殊学习技巧问世后成本才大幅下降。

而在此之前,涉及到数据标注从来就跟“便宜”两个字不沾边。

同样拿此前林灰所列出的例子作为援引:

在前世2017年1000万条双语互译标注的成本约为2200万美元;

注意这仅仅是双语互译的标注。

“双语互译”只是某两种语言之间的互译标注。

只是两种语言之间的互译标注就需要两千多万美元?

那涉及到上百种语言的互译需要多少钱呢?

这个问题并不复杂,简单的排列组合问题:

c(100,2)== 4950; 4950*0.22亿美元==1089亿美元;

不难看出若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。

而这仅仅是理想情况下的估算,如果真要按部就班进行这样的标注实际成本远不止于此。

毕竟很多小语种之间的互译成本显然相比于主流语言之间的互译价格还要更高。

虽然实际操作中不会真的有大怨种按部就班进行上百种语言互译的数据标注。

但这个估算也充分说明了数据标注在相当长的一段时间内都很昂贵。

同样的道理,在现在这个时空数据标注方面的成本也依然是昂贵的。

而且因为这个时空机器学习方面研究进展的滞后,现在涉及到数据标注这方面的成本甚至还要高于前世同一时期的。

二、时代是在飞速发展的,要知道现在随便一个文体店就能很方便买到的科学计算器其实际效率、可靠程度、易用性甚至可以全方位吊打上个世纪五六十年代花费上千万美元搞出来的占地几百甚至是上千平方米的计算机。

这种情况下后世很便宜的计算器拿到几十年前纵然是要价上百万美元同样是有市场的,而且可能还会相当有竞争力。

举这个例子并不是说林灰要再往前几十年去卖计算器。

林灰只是想藉此说明时代的车轮是向前的,科技也是在飞快发展的。

尤其是在中后互联网时代,科技的发展说是日新月异也丝毫不为过。

在这种情况下,往后几年一些不怎么被人过分重视的技术在几年前能够换取大额的财富是很正常的。

更何况还是利用数据标注这个相当长一段历史时期内都只能是土豪公司才玩得转的东西去换取财富?

喜欢穿越:2014请大家收藏:(m.315zwwxs.com)穿越:2014315中文网更新速度全网最快。

上一章目录下一章存书签
站内强推魅惑能力满级,仙女姐姐都是我的重建鬼域!我,带领百万鬼差降临人间!从校园废柴到玄幻至尊穿越综武之肆意江湖英雄无敌之世界新篇读书潜修十年,只手镇压黑暗动乱斗罗之野猪凶猛韩娱之kpopstar重生成慕容复:这次我是主角玩家凶猛斗罗2:唐舞桐她姐靠凶名成神从艾克斯开始的路基艾尔王错绑仇家系统,要不直接崩了吧慢穿之引魂灯从外卖员逆转人生成就仙帝重生继承千亿家产,真千金杀疯了督军原神:从摸鱼开始快穿:炮灰女配和黑化男主是绝配在民国拜师九叔
经典收藏华娱从2002开始四番队的三席迷失禁岛被暴君强宠的金丝雀翅膀硬了久婚成瘾:陆少情有独钟都市之逆天大反派童养媳之桃李满天下妙手医春稼穑人生萌宝当家,我帮妈咪钓总裁快穿之气运剥夺系统小京官之女养家日常天命可期最强小村医南荒统帅陈河图唐莹奉旨抢亲,纨绔太子喜当娘浅浅系统:至高无上话语权全民:开局觉醒sss级召唤天赋穿到八零后我成了锦鲤都市之科技王
最近更新那是科研大佬,你管他叫无能赘婿三界诡运录风雨真情反向归来,世界还是那个世界外出钓鱼,捡了个公主回家书海之外的眷恋圣徒子言传说神豪从打赏女团,奔现十倍返还!港片:制霸江湖与商界我被病娇女财阀包养了田野的变迁花一元返一万,神豪生活快哉快哉反派小弟:各路女主爱上我媳妇儿不是从小养的吗?AI之后重生港岛缔造东方硅谷完美空间系:我即天灾乡间盗墓秘事从零开始建设神界医道天眼:透视苍生
穿越:2014 猪熊 - 穿越:2014txt下载 - 穿越:2014最新章节 - 穿越:2014全文阅读 - 好看的都市言情小说