我开发过一款开源的数据可视化编辑器,在编辑完成后他会产生一个 json 格式的项目数据结构。这两年 AI 识图的效果快速发展。我就在想,如果我随手丢一个可视化面板的效果图,AI 就可以识别这个效果图中的元素,并且按照我项目的数据格式要求生成最终的 JSON 文件。这样一来岂不就完成了 AI 直接生成可视化面板的效果吗?
摸索了一两天之后有一条可实践的路径,大概流程为
1. 让 AI 识别图片中的可视化元素。
2. 根据识别的元素选择我编辑器中可以使用的组件
3. 结合上面两点让 AI 输出一个简化版的数据结构,其中包括使用的组件类型、组件的尺寸、组件的位置等信息
4. 然后再自己编写一套逻辑解析上面的简化版数据结构,确保生成的最终数据结构是编辑器可以识别的
上面的流程确实能够走通,但是生成的效果图实在惨不忍睹(如下图)。

最根本的原因在于不管提示词写得多么详细,AI 反馈过来的简化的数据结构始终都是非常潦草的。比如我从肉眼上看这个设计稿可能至少需要一百个可视化元素,但实际上它返回给我的结果可能就包含十几二十个元素。我以为是 AI 上下文大小限制的问题。但我切换过高级模型 200K 的上下文长度完全是足够的。但是 AI 输出结果依然没有提升多少。
想问问各位 V 友。这个想法是现阶段可以实现的吗? AI 识图的能力有没有到可以支撑这个想法的地步?
V2EX问与答