阿里巴巴云发布两款开源AI模型,实现图像与文本双重理解。
这两款模型分别是Qwen-VL和Qwen-VL-Chat,它们基于阿里巴巴云的大型语言模型Qwen-7B进行训练。
据这家云计算公司在8月25日的新闻稿中表示,与其他开源大型视觉语言模型相比,这两款模型在图像识别和理解性能上有显著提升。
这一新模型的推出凸显了阿里巴巴云在拓展其大型语言模型的多模态能力方面的承诺。新闻稿指出,通过将图像和音频等感知输入整合到其中,阿里巴巴云旨在为研究人员和商业机构开发出新的应用领域。
这些模型具备改变用户与视觉内容互动方式的潜力。新闻稿中提到,这两款模型的一个关键优势是,它们能够为新闻机构生成图片标题,或者协助非中文用户阅读中文街道标志。
此外,这些模型还支持视觉问答,使盲人和部分视力受损的用户更便捷地进行购物。
阿里巴巴集团旗下在线市场淘宝已经成功整合了光学字符识别(OCR)技术,以帮助视力受损的人士阅读文本。
通过允许视力受损用户通过多轮对话从图像中获取答案,这些新发布的大型视觉语言模型进一步简化了这一过程。
据新闻稿中所述,阿里巴巴云之前发布的大型语言模型Qwen-7B和Qwen-7B-Chat自一个月前发布以来,已经受到了极大的欢迎,下载量超过40万次。
这些模型已经提供给开发者、研究人员和商业机构使用,以成本效益的方式促进他们开发自己的生成型AI模型。
8月10日,阿里巴巴报告称其云业务的营收增长了4%,并且对培训AI模型及相关服务有“强劲需求”。
“云对所有行业都很相关,”阿里巴巴CEO张勇在公司的财报电话会议上表示。
其他科技行业领导者也在持续加强对生成型AI和机器学习领域的创新。Meta、微软和谷歌母公司Alphabet在春季的财报电话会议中,超过200次地提到了“AI”。
亚马逊也表示正在研发一种改进的大型语言模型,以增强其智能助手Alexa的功能。这显示了科技领域领导者们在生成型AI和机器学习方面的持续努力和重要布局。
发布者:5840,转转请注明出处:https://www.5840.cn/lives/911.html
评论列表(0条)