您当前的位置:首页 >> 设计观点

Diffusion+目标检测,华人团队提出GLIGEN完美控制对象的三维空间位置

2024-01-19 12:17:33

的grounding转化成。

2. 检查统计数据 Detection data

术语也就是说是可不先定义的close-set一般来说(例如COCO之中的80个观察者一般来说),考虑采用classifier-free引导之中的空书名token作为书名。

检查统计数据的数量(百万级)大于基本统计数据(千级),因此可以大大增高上都培训统计数据。

3. 检查和书名统计数据 Detection and Caption data

术语也就是说与检查统计数据之中的术语也就是说相同,而图表是单独用注释书名阐述的,显然存在术语也就是说与书名之中的也就是说不完全一致的情况。

比如书名只给出了对客厅的一个大阐述,没有提及场景之中的观察者,而检查标有则提供者了格外细密的观察者层次的细节。

离子通道肯定力新功能

分析职员的目标是为原先的大型口语-图表转化成框架象征性原先的空间基本灵活性,

大型传播框架早已在网路规模的图表评注上开展了可不培训,以拿到基于多样化和复杂的口语指令合开销质图表所需的经验,由于可不培训的开销较高,耐用性也很好,在引入原先灵活性的同时,在框架权重之中存留这些经验是很重要的,可以通过相应该原先的子系统来逐步适应该原先灵活性。

在培训全过程之中,采用离子通道新功能日益将原先的grounding个人信息融汇到可不培训的框架之中,这种结构设计使转化成全过程之中的频域全过程不具备灵活性,以提高质量和都从性。

科学研究之中也展示出,在频域必需的前半外采用原始的框架(所有层),在后半外只采用原始层(没有离子通道Transformer层),转化成的结果并不需要格外确切总结grounding状况,同时不具备较高的图表质量。

科学研究外

在闭馆集合grounded评注到图表转化成执行之中,首先要用COCO(COCO2014CD)的基本标有开展培训,并指标GLIGEN是否能转化成COCO一般来说以外的基本也就是说。

可以看到,GLIGEN可以学术委员会原先的定义如「蓝鸦」、「牛角零食」,或原先的观察者并不一定如「紫色木桌」,而这些个人信息没有再次出现在培训一般来说之中。

分析职员忽视这是因为GLIGEN的离子通道自肯定力学术委员会了为接下来的交叉肯定力层重原先出发点与书名之中的线圈也就是说相对应该的视觉特性,并且由于这两层之中的共享评注空间而拿到了众所周知灵活性。

科学研究之中还表征指标了该框架在LVIS上的zero-shot转化成耐用性,该框架举例来说1203个长尾观察者一般来说。采用GLIP从转化成的图表之中可不测国界板并推算AP,并将其重新命名为GLIP得分;将其与为layout2img执行结构设计的最先进的框架开展比较,

可以推断出,尽管GLIGEN框架只在COCO标有上开展了培训,但它比有委派的基线要众所周知,显然因为才对培训的基线很难从局限的标有之中自学,而GLIGEN框架可以借助可不培训框架的大量定义经验。

总的来说,这篇学术论文:

1. 明确提出了一种原先的text2img转化成工具,象征性了原先text2img传播框架原先的grounding都从性;

2. 通过存留可不培训的权重和自学日益整合原先的出发点层,该框架借助于了闭馆全球的grounded text2img转化成与国界板可用,即总合了培训之中未辨别到的原先的出发点定义;

3. 该框架在layout2img执行上的zero-shot耐用性轻微胜过之前的最先进水平,展示出大型可不培训转化成框架可以提高下游执行的耐用性

概要资料:

治疗干眼症最好方法是什么
思密达治拉肚子吗
类风湿关节痛手指僵硬有什么药吃
产后腰酸
肠炎宁和益生菌能同吃吗
相关阅读
友情链接