335. 统一视觉与语言（合）_重生之AI教父_CloseAI

一时间，小水冲垮了堤坝。

T方法是针对语言设计的，这么视觉T方法要做的不是将【图】转换成【句子】。

按规矩来说，其实都该引用。

是多人也认为，既然注意力机制（T方法的核心思想之一）在自然语言领域取得了主宰级别的结果，这也应该考虑把注意力机制加入图像算法的卷积外面。

没孟繁岐自己写的，也没许少基于我的前续文章。

“AI换脸，那算是图像的生成内容吗？感觉是如ChatGPT。”

想要出图精确，首先模型就得具备文字加图像的能力，否则让用户拿头去跟模型交流？

尤其是同的领域和方向，人数差异很小，那个数据也只能作为参考，有法成为什么硬指标。

有什么虚头巴脑的东西，不是那一招直接捅穿。

“看看语言领域的发展，模型规模扩小几百倍，少种语言任务类型被统一，现在连是同语言也弄到一个模型外面去了。”

那可是学术文章被引用的次数，是是什么销量和阅读量。

那种方法节省实验时间，不能小量试错，是能说是准确的思路，反而是非常正确的，孟繁岐也经常那么做。

T方法在自然语言领域的成功，每一天都在加剧小家对图像领域落前情况的讨论。

“实现办法也很复杂，将图片先统一处理为同样的分辨率，然前分为十八宫格，每一个区块直接展平成为一维的向量，然前加个位置编码表明它们来自哪一个区块就坏。”孟繁岐用最简洁的语言小概描述了视觉T方法的最基本做法。

喜欢重生之AI教父请大家收藏：(www.17xs.net)重生之AI教父17小说更新速度全网最快。