范冰冰女同 Meta 研发新要道：整合言语和扩散 AI 模子

栏目分类

你的位置：姐妹花 > 性爱照片 > 范冰冰女同 Meta 研发新要道：整合言语和扩散 AI 模子

发布日期：2024-08-26 18:09 点击次数：163

范冰冰女同 Meta 研发新要道：整合言语和扩散 AI 模子

IT之家 8 月 24 日音信范冰冰女同，Meta AI 公司最新推出了 Transfusion 新要道，不错结伴言语模子和图像生成模子，将其整合到妥洽的 AI 系统中。

IT之家征引团队先容，Transfusion 结伴了言语模子在措置文本等闹翻数据方面的上风，以及扩散模子在生成图像等一语气数据方面的才智。

Meta 解说说，现在的图像生成系统频频使用事先锻练好的文本编码器来措置输入的教唆词，然后将其与单独的扩散模子结伴起来生成图像。

好多多模态言语模子的责任旨趣与此雷同，它们将事先锻练好的文本模子与用于其他模态的专用编码器持续起来。

不外 Transfusion 接受单一、妥洽的 Transformer 架构，适用于通盘格式，对文本和图像数据进行端到端锻练。文本和图像使用不同的吃亏函数：文本使用下一个记号量度，图像使用扩散。

为了同期措置文本和图像，图像被退换成图相片断序列。这么，模子就能在一个序列中同期措置文本记号和图相片断，畸形的预防力掩码（attention mask）还能让模子捕捉图像里面的关连。

有别于 Meta 现存的 Chameleon（将图像退换成闹翻的记号，然后用措置文本的边幅措置）等要道，Transfusion 保留了图像的一语气示意法，幸免了量化形成的信息吃亏。

本质还标明，与同类要道比拟，"交融" 的推广效果更高。在图像生成方面，它得回了与有益模子雷同的适度，但洽推敲却大大减少，令东说念主惊诧的是，整合图像数据还耕种了文本措置才智。

征询东说念主员在 2 万亿个文本和图像记号上锻练了一个 70 亿参数的模子。该模子在图像生成方面得回了与 DALL-E 2 等熟谙系统雷同的适度，同期还能措置文本。

IT之家附上参考地址

Meta's "Transfusion" blends language models and image generation into one unified model

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model范冰冰女同