铁血网帮助添加收藏

手机版

铁血读书>现实题材>启示录:天工京作>第二十六章 《清明上河图》与数据偏见
背景颜色:
绿
字体大小:
← →实现上下章节查看,鼠标右键激活快捷菜单

第二十六章 《清明上河图》与数据偏见

小说:启示录:天工京作 作者:花清袂 更新时间:2024/9/26 18:08:32

关妍灵机一动,想到一个办法,“妈,可以先以这样的方式进行。等后续大家学得差不多了再分班,基础是必须要了解的。”

“嗯,我觉得也是,其实前期的了解是枯燥的,很多人都是奔着动手来的,就不知道到最后还剩下多少人。”

“咱们就按照咱们的课程计划做就行。”

眼下关妍不去考虑那么多,在非遗所有的门类中,了解远比动手重要。试课成功,关妍这回也可以放心地去寻找其他的机会了。

所有人都在努力着……

自打上回毛父来天工坊之后,父子俩的关系更不如从前,母亲知道此事后不止一次打电话过来劝毛磊,想要父子俩好好聊聊,可毛磊拒绝了。天工坊那一次,毛父确实没有给儿子面子,而且知道此事的赵天也觉得不好意思,亏欠毛磊,还好两人哥们情谊深,化亏欠为动力。

赵天的手指飞快地在键盘上敲击,一行行的代码显示出来,毛磊在一旁盯着,时不时指点一二,做着同样动作的,还有天工坊的整个技术部。手机铃声又响了起来,打破了房间里键盘的声音。

毛磊看了一眼手机,直接将手机扣在桌上。

赵天目不转睛地盯着电脑,随口道,“又是阿姨?你就接呗。”

“接什么!一接就劝我跟我爸和好,我可不接。”

“你来这样也不是事儿……”赵天停下了手中的动作,重新预览了一遍代码,抬头问大家,“你们好了没?”

“差不多了,还得几分钟。”

“不急,慢慢来,可不能出错啊。”赵天盯着电脑,长长的呼了一口气,“这都是第12次了,改了代码之后,不知道咱们生成的东西如何?代码就是参数,整体的调整一下没问题,就是细微的地方,总有数据偏见。”

“数据偏见,一直存在的弊端,这是整个行业需要解决的问题,可要真的解决,这几年怕是难了。”毛磊了解,几天以来,天工坊所有人都在做一个项目,便是AI生成《清明上河图》的局部展示,这个项目也是为了测试开源产品的效果,测试了十二次,每一次都以失败告终。赵天所说的数据偏见,简单来说就是AI在训练的时候,代码数据中存在的偏差或倾向,在AI生成中,在收集数据、素材、处理和分析上,所产生的错误偏差,而这也会导致AI生成结果出错。

“赵老师,好啦!”

“好!都汇总过来了吧?”

“所有数据都过去了!”

赵天看了看毛磊,激动的手再一次按下回车键。

传世名画《清明上河图》正由AI缓缓生出,色泽艳丽,其中的人物更是栩栩如生。

可这还没完,天工坊最终的目的是想生成如《云游京脊》那样的效果。生出的图没有任何问题,在复原多人物上,AI已经做得很好了。

下一步,才是最关键的。

机房的服务器发出“嗡嗡”的声音,全功率运转,服务器上的指示灯就像天空闪烁的繁星,明亮且未知。

《清明上河图》正在进行重新渲染环节,便是图生视频的进阶化。这一步骤到目前已经是第十三次了,前十二次的失败,都是因为数据参数,赵天也不知道这次的参数如何,他只明白有些东西,根本无法从参数上突破。

进度条28%

进度条52%

进度条89%

100%

赵天按下空格键,这刚刚出炉的《清明上河图》开始播放,虽然只有短短的十秒。赵天凑近屏幕,所有人都围了过来,想看看这版之后还需要调整什么?

画上的虹桥慢慢显现了出来,桥下流水涓涓。人物也动了起来,赵天仔细的盯着这些人物看。在单场景下生成的复杂多人物,他们是在动,他们在虹桥上慢慢地走着,可走着走着,后面的人“步伐”快了,直接叠加到前面的人身影中。

大家默不作声,这是AI出现的普遍问题,数据偏见依旧没有消除。赵天很冷静,他思索了半晌,说道,“如果不出问题的话,可能只有减少人物了。但如果减少了人物,这幅《清明上河图》就不完整了。看样子,AI对于多人物并存还是存在数据偏见。”

毛磊对技术不是很明白,但也略知一二,便道,“这些偏见算法,在技术层面也是数据的逻辑本性。这也是没办法避免的产物,我们生成了十几次,这十几次中,它已经有了第一版的记忆,而后都出现同样的问题,也只能说明,《清明上河图》已经不是要继续生成的对象了。”

赵天同意毛磊的观点,直言道,“主要是原因应该是出现在样本误差上,从而导致了数据偏见,《清明上河图》的人物将近1000人,我们的样本也并非是超高清的,AI不可能识别出每个人物的特性,这也是导致了数据偏差的原因。”

“咱们的技术上,应该是没问题的。”人群中一位技术员说道,“目前咱们的步骤还停留在准备部署阶段,对于AI来讲,是第一阶段。《清明上河图》人物太多,我们没办法逐一对每个人进行标注,所以咱们的数据进行开源模型之前,是不干净的,是有偏差的。”

“不干净?”毛磊并不明白这深层的意义

技术员接着说道,“也就是说,我们的数据并不是完整的,标注受限,从而导致进行模型后偷工减料,咱们的数据太多,但实际信息少,可留在AI记忆中的印象是存在的,可它输出的数据确实不准确,我们不能确定它输出的数据哪里是噪声,就比如说人物叠合,我们分不清是两个人叠合,还是三个人。”

“过拟合。”赵天一语中的,“这就是我们常说的过拟合,在训练数据上表现的很优质,它生成的图是没问题的;可在测试产出这块,表现的较差。咱们这模型是过度的学习了训练数据的特征,才会导致这样啊。”

“目前来看,不管是哪种形式的AI开源,它是支撑不起来多人物、多元素的。模型我们还需要继续训练,只不过我们也明白了它的受限在哪里。”

这一场激烈的讨论,经常在天工坊发生。毛磊有时候听得云里雾里,他有时候自嘲:少壮不努力。可有赵天和这一屋子的技术人员,让天工坊走到现在,对他来说也是件骄傲的事儿,可如今《清明上河图》怕是要告一段落了,如今开源出现了数据偏见,那么在多模态生成上,再继续下去怕是会浪费时间了。

0
QQ客服 书友交流 在线提问