视觉问答、图片理解和截图分析等场景,尚未看到图像生成、视频理解或跨模态生成能力上线。 这意味着现阶段识图模式更接近视觉语言模型(VLM)的范畴,而非完整的多模态生成工具。 &n
当前文章:http://wy780j.ruocenqi.cn/hf7sp8p/9tc.html
发布时间:16:21:11