阿里云开源多模态视觉模型 Qwen-VL声称超同等规模模型表现

发布时间：2023-08-26 12:52:38 所属栏目：动态来源：

导读：阿里云今天宣布推出了一种大型图像识别语义模型——Qwen-VL。此款模型已在ModeScope开源使用，早前曾报道，阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。

据悉，Qw

阿里云今天宣布推出了一种大型图像识别语义模型——Qwen-VL。此款模型已在ModeScope开源使用，早前曾报道，阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。

据悉，Qwen-VL 是一款支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的 VL 模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

Qwen-VL 以 Qwen-7B 为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为 448，此前开源的 LVLM 模型通常仅支持 224 分辨率。

官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在国内外主流的多模态通用语言任务评测和国际标准的多模态聊天能力平台评测中，取得了远超同等数量级规模智能家居通用模型的表现。

此外，在 Qwen-VL 的基础上，通义千问团队使用对齐机制，打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat，可让开发者快速搭建具备多模态能力的对话应用。

通义千问团队同时表示，为了测试模型的多模态对话能力，他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”，对 Qwen-VL-Chat 及其他模型进行对比测试，Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。均取得了开源lvlm最好结果。这一成果的发布标志着我们在开源领域取得了重大突破，也为后续研究奠定了坚实基础。

（编辑：聊城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!