返回
新闻中心detailTitleIcon新闻详情

解放双手,一句话 P 图,TeleAI 打造图像理解编辑修复模型 SmartFreeEdit

2025-06-17 15:29中国电信天翼AI

端午假期的戒断反应是否还没褪去?旅行的照片也没来得及整理?


出游前,你以为的景点是左图那样的;出游后,你拍摄的照片是右图这样的:

newsPicUrl

图片来自网络


虽然现在各种美图应用都有“AI 修图”功能,但大多需要用户手动勾选编辑区域,且稍一手抖,就可能被 AI “自作主张”地任意发挥。

为了解决这些用户痛点,中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领团队创新打造“图像理解编辑修复模型 SmartFreeEdit”。该模型通过强大的空间推理与复杂指令理解能力,可实现无需手动掩膜(Mask-Free)的图像精准编辑与修复,彻底解放用户双手,让“一句话 P 图”高效好用。


准确理解指令,修图“刀法”精准


SmartFreeEdit 作为一种扩散模型,结合了多模态大语言模型超图增强修复架构,形成全新架构,能够实现更强的空间推理能力、语言指令精细化解析能力及高质量图像编辑修复能力。

newsPicUrl

SmartFreeEdit 整体框架



多模态大语言模型驱动指令解析


SmartFreeEdit 依托多模态大语言模型,将自然语言指令结构化为图像编辑任务及精细化的 Prompt 优化流程,精准转译,实现更准确的任务理解与解析。

第一步:指令解析

利用多模态大语言模型理解指令的上下文语义,进而识别编辑目标对象。同时判断任务类型(如添加、移除、替换、背景更改、全局修改)并提取任务逻辑。例如“替换维生素含量最高的食物”会被解析为“维生素含量最高的食物”+“执行替换操作”。

第二步:Prompt 优化

对于结构化任务生成精炼和上下文对齐的目标提示。并且引入局部 Prompt,提升指令对编辑目标的聚焦度,尤其适用“Remove”(移除)、“Replace”(替换)等任务,确保编辑范围与语义一致。


推理分割(ReSeg)技术 


该模块实现了从自然语言自动生成掩膜,不依赖手动掩码。关键在于引入 <seg> 标记作为语义占位符,并将 MLLM 输出的语义嵌入与视觉特征对齐,以实现推理级分割。

首先将自然语言任务转化为结构化查询,如“找出维生素含量最高的食物”转化为 “Please segment the food that contains the most vitamin in the image”(将图片中维生素含量最高的食物分割出来)。

其次将引入的 <seg> 经 MLP 映射为语义嵌入向量,与视觉编码器输出联合输入至分割解码器生成掩膜。


超图修复(HyPConv)模块


该模块针对传统修复方法局部性强、结构一致性差的问题,提出基于超图卷积的图神经机制,从图结构角度增强图像整体语义一致性和结构保真。

首先将图像像素或区域作为节点,利用特征距离建立超边,实现多区域间的信息共享。随后在特征传播过程中,HyPConv 采用两轮“节点到超边(v2e)”与“超边到节点(e2v)”的信息流交换,使得各区域在重建过程中能够共享上下文信息。例如,在复杂场景“湖边的女孩”中,可有效同步水中倒影与主体的视觉一致性。

此模块被嵌入至 VAE 编码器与解码器的中间层,对中间特征进行结构感知增强,从而提升图像重建的细节质量与整体连贯性。


模型效果惊艳,性能达标 SOTA 

newsPicUrl

模型效果


在 Reason-Edit 和 BrushBench 两项权威评测中,SmartFreeEdit 表现惊艳:


编辑成功率(Ins-align)


在复杂场景理解中 SmartFreeEdit 的编辑成功率达到 86%,远超 Gemini 2.0 Flash(55%)和 SmartEdit-13B(77%)。


空间推理(如“替换中间的狗”)


准确率较 BrushEdit 提升 48%,复杂指令推理错误率仅为 BrushEdit的 1/3。


图像质量指标(PSNR、SSIM、CLIPSim)


SmartFreeEdit 均达到 SOTA,修复区域自然度评分最高,PSNR 和SSIM 指标的高分数,也代表原图保持能力强。对比 GPT-4o 图像编辑,SmartFreeEdit 更能保持图像原始内容的一致性(GPT-4o在纹理、颜色 或细微细节等全局属性上出现意外的变化,甚至出现了自行裁剪的动作)。


newsPicUrl
newsPicUrl

实验数据



SmartFreeEdit 的 “无手动掩膜” 特性将彻底颠覆大众的修图习惯。用户只需对手机说出“去掉照片里的人”“把狗变成猫”,模型就能通过多模态大语言模型精准解析指令,结合推理分割技术自动定位编辑区域,再利用超图修复模块保持画面结构一致性。这意味着社交媒体上的 UGC 内容生产将进入“语言驱动时代”。

不仅如此,电商领域也将是直接受益者。商家无需手动标注即可批量处理商品图片,自动完成背景替换、瑕疵修复,甚至根据营销需求生成“添加促销标签”“增强产品光泽” 等定制化图像,商品上架效率将得到大幅提升。


在工业场景中,面对复杂电路板的缺陷检测,模型能基于自然语言指令“标记第三排电容的鼓包区域”,自动生成精确掩膜并修复异常像素,相比传统人工标注检测效率将大幅提升,并辅助运维人员降低误判率。


SmartFreeEdit 所代表的 “指令驱动型图像编辑” 正成为 AI 视觉领域的新风口。随着多模态大语言模型与超图神经机制持续进化,这种“以语言为画笔”的创作模式,不仅会重塑内容生产链条,更将推动 AI 从工具层面向创意决策层跃迁,在数字经济与智能制造中开辟更广阔的应用蓝海。


相关研究论文地址:

SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding

https://arxiv.org/abs/2504.12704


开源代码地址:

https://github.com/smileformylove/SmartFreeEdit