短视频推得好,能够大大增加用户的逗留时长,观看时长;商品推荐则能够总体提升用户的消费总额,都是非常致命的关键技术。
算法做得好,短期就涨个三五成完全不是难题,长期叠加下来,创造的价值简直无法估量。
这个部分的东西正是孟繁岐最擅长的,不依靠这些算法,他也不可能从人工智能跨界过来,第一战就拿下了短视频平台的大把流量和用户。
这么大的用户量和数据,马芸当然清楚它对推荐算法的价值。
毕竟TB做这个也做很多,马芸当然不信孟繁岐会不用。
在他看来,孟繁岐就是为了自己能有数据才来的互联网,怎可能舍本逐末?
“这部分数据当然是要做训练的,但我觉得并没有必要读取到公司的服务器上。”
“从个人的角度上,我其实基本赞同李彦弘的说法。互联网公司手里的数据实在太多了,没有人会仔细去看某一个人的数据,某一个人的情况。”
“等再过个几年,面对日益恐怖的数据量级,一个人可能一辈子也看不完有些公司一天产生的数据。人们最担心的隐私问题,将不是因为没人能够查看他们而解决,而是因为...根本看不完而解决。”
这着实有些荒谬,就像是小偷不偷你家的钱,不是因为你的保险柜足够强,而是因为...他的钱已经太多了,用不完了。
“既然互联网公司本身就不需要,也不会去查看这部分信息,那为何又要在服务器上面存放它们呢?我正是本着这种思路,这才尽可能地少存放了用户的数据。”
“至于大家关心的那部分问题...”孟繁岐笑了一下,也没有绕弯子,直接摊牌了:“我也只是做了一些分布式的专门处理罢了。我派发了模型的一小部分在App中,在用户的本地做了一部分运算,这样回传过来的就是人类已经无法解读的隐藏层状态。”
“虽然这部分状态已经不可逆,无法反推用户的数据本身了,但我们在状态回传的过程当中,还是有二次保险。相同区域或者相同时间段的回传数据,会一同添加一些微量的噪声。这部分内容在我们的服务器上会继续运算下去,得到最终的结果,计算梯度,并反向用于更新我们的算法模型。”
“一个庞大的算法模型,并不一定需要训练所有的部分,因此我们只更新绝大部分存留在视界公司本部的即可。切分到用户端的那一小部分,一直维持不变,这样我们就不需要频繁地使用客户端的计算资源,或者持续更新那部分内容了。”
“当然了,这样做的话,每隔几周可能会使用用户几分钟计算资源。如果用户信任我们的话,也可以在设置里将隐私计算默认的开启状态关闭掉,这样你的数据就会上传到服务器,我们也就不再会偶尔使用你的终端算力。”
孟繁岐简要地解释完了这一套操作的流程,看向将球踢过来的马芸,有些不怀好意地说:“想学吗?我教你啊!”
喜欢重生之AI教父请大家收藏:(www.17xs.net)重生之AI教父17小说更新速度全网最快。