Qwen2.5系列14B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。
Qwen2.5系列32B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。
Qwen2.5系列72B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。
通义千问VL-OCR(qwen-vl-ocr),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。本模型为2024年10月28日的快照版本。
通义千问VL-OCR(qwen-vl-ocr-2025-04-13),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。模型内置六种识别任务分别是:通用识别、文档解析、表格解析、信息抽取、多语言识别、公式识别。本模型为2025年04月13日的快照版本。
通义千问VL-OCR(qwen-vl-ocr),即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。
通义实验室基于预训练多模态大模型构建的多模态向量模型。该模型根据用户的输入生成高维连续向量,这些输入可以是文本、图片或视频。多模态向量在可应用于图片搜索、文搜图、视频搜索、图片分类和视频内容审核等下游任务中。
通义千问Audio是阿里云研发的大规模音频语言模型,能够接受多种音频(包括说话人语音、自然声音、音乐、歌声)和文本作为输入,并输出文本。通义千问Audio不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。本模型为2024年12月04日快照版本。
关注公众号
立刻获取最新消息及人工咨询