解放双手，一句话 P 图，TeleAI 打造图像理解编辑修复模型 SmartFreeEdit

2025-06-17 15:29中国电信天翼AI

端午假期的戒断反应是否还没褪去？旅行的照片也没来得及整理？

出游前，你以为的景点是左图那样的；出游后，你拍摄的照片是右图这样的：

图片来自网络

虽然现在各种美图应用都有“AI 修图”功能，但大多需要用户手动勾选编辑区域，且稍一手抖，就可能被 AI “自作主张”地任意发挥。

为了解决这些用户痛点，中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授带领团队创新打造“图像理解编辑修复模型 SmartFreeEdit”。该模型通过强大的空间推理与复杂指令理解能力，可实现无需手动掩膜（Mask-Free）的图像精准编辑与修复，彻底解放用户双手，让“一句话 P 图”高效好用。

准确理解指令，修图“刀法”精准

SmartFreeEdit 作为一种扩散模型，结合了多模态大语言模型和超图增强修复架构，形成全新架构，能够实现更强的空间推理能力、语言指令精细化解析能力及高质量图像编辑修复能力。

SmartFreeEdit 整体框架

多模态大语言模型驱动指令解析

SmartFreeEdit 依托多模态大语言模型，将自然语言指令结构化为图像编辑任务及精细化的 Prompt 优化流程，精准转译，实现更准确的任务理解与解析。

第一步：指令解析

利用多模态大语言模型理解指令的上下文语义，进而识别编辑目标对象。同时判断任务类型（如添加、移除、替换、背景更改、全局修改）并提取任务逻辑。例如“替换维生素含量最高的食物”会被解析为“维生素含量最高的食物”+“执行替换操作”。

第二步：Prompt 优化

对于结构化任务生成精炼和上下文对齐的目标提示。并且引入局部 Prompt，提升指令对编辑目标的聚焦度，尤其适用“Remove”（移除）、“Replace”（替换）等任务，确保编辑范围与语义一致。

推理分割（ReSeg）技术

该模块实现了从自然语言自动生成掩膜，不依赖手动掩码。关键在于引入 <seg> 标记作为语义占位符，并将 MLLM 输出的语义嵌入与视觉特征对齐，以实现推理级分割。

首先将自然语言任务转化为结构化查询，如“找出维生素含量最高的食物”转化为 “Please segment the food that contains the most vitamin in the image”（将图片中维生素含量最高的食物分割出来）。

其次将引入的 <seg> 经 MLP 映射为语义嵌入向量，与视觉编码器输出联合输入至分割解码器生成掩膜。

超图修复（HyPConv）模块

该模块针对传统修复方法局部性强、结构一致性差的问题，提出基于超图卷积的图神经机制，从图结构角度增强图像整体语义一致性和结构保真。

首先将图像像素或区域作为节点，利用特征距离建立超边，实现多区域间的信息共享。随后在特征传播过程中，HyPConv 采用两轮“节点到超边（v2e）”与“超边到节点（e2v）”的信息流交换，使得各区域在重建过程中能够共享上下文信息。例如，在复杂场景“湖边的女孩”中，可有效同步水中倒影与主体的视觉一致性。

此模块被嵌入至 VAE 编码器与解码器的中间层，对中间特征进行结构感知增强，从而提升图像重建的细节质量与整体连贯性。

模型效果惊艳，性能达标 SOTA

模型效果

在 Reason-Edit 和 BrushBench 两项权威评测中，SmartFreeEdit 表现惊艳：

编辑成功率（Ins-align）

在复杂场景理解中 SmartFreeEdit 的编辑成功率达到 86%，远超 Gemini 2.0 Flash（55%）和 SmartEdit-13B（77%）。

空间推理（如“替换中间的狗”）

准确率较 BrushEdit 提升 48%，复杂指令推理错误率仅为 BrushEdit的 1/3。

图像质量指标（PSNR、SSIM、CLIPSim）

SmartFreeEdit 均达到 SOTA，修复区域自然度评分最高，PSNR 和SSIM 指标的高分数，也代表原图保持能力强。对比 GPT-4o 图像编辑，SmartFreeEdit 更能保持图像原始内容的一致性（GPT-4o在纹理、颜色或细微细节等全局属性上出现意外的变化，甚至出现了自行裁剪的动作）。

实验数据

SmartFreeEdit 的 “无手动掩膜” 特性将彻底颠覆大众的修图习惯。用户只需对手机说出“去掉照片里的人”“把狗变成猫”，模型就能通过多模态大语言模型精准解析指令，结合推理分割技术自动定位编辑区域，再利用超图修复模块保持画面结构一致性。这意味着社交媒体上的 UGC 内容生产将进入“语言驱动时代”。

不仅如此，电商领域也将是直接受益者。商家无需手动标注即可批量处理商品图片，自动完成背景替换、瑕疵修复，甚至根据营销需求生成“添加促销标签”“增强产品光泽” 等定制化图像，商品上架效率将得到大幅提升。

在工业场景中，面对复杂电路板的缺陷检测，模型能基于自然语言指令“标记第三排电容的鼓包区域”，自动生成精确掩膜并修复异常像素，相比传统人工标注检测效率将大幅提升，并辅助运维人员降低误判率。

SmartFreeEdit 所代表的 “指令驱动型图像编辑” 正成为 AI 视觉领域的新风口。随着多模态大语言模型与超图神经机制持续进化，这种“以语言为画笔”的创作模式，不仅会重塑内容生产链条，更将推动 AI 从工具层面向创意决策层跃迁，在数字经济与智能制造中开辟更广阔的应用蓝海。

相关研究论文地址：

SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding

https://arxiv.org/abs/2504.12704

开源代码地址：

https://github.com/smileformylove/SmartFreeEdit

大模型体验中心

开放能力

开发平台

应用产品

解决方案

关于天翼AI

热门搜索

解放双手，一句话 P 图，TeleAI 打造图像理解编辑修复模型 SmartFreeEdit