全部
多模态
文本
图片
视频
语音
推理模型
排序模型
向量模型
行业模型
其他
全部
<=8k
<=32k
<=64k
<=128k
>128k
全部
DeepSeek
GPT
Llama
通义千问
GLM
DeepSeek-R1-Distill-Llama-70B
向量表示
16K

本模型是在开源模型的基础上,通过微调训练得到的。训练过程中使用了由DeepSeek-R1生成的样本数据。

DeepSeek-R1-Distill-Qwen-14B
向量表示
16K

本模型是在开源模型的基础上,通过微调训练得到的。训练过程中使用了由DeepSeek-R1生成的样本数据。

DeepSeek-R1-Distill-Qwen-32B
向量表示
16K

本模型由开源模型的基础上,通过微调训练得到。训练过程中使用了由DeepSeek-R1生成的样本数据。

DeepSeek-R1-Distill-Qianfan-70B
向量表示
16K

DeepSeek-R1-Distill-Qianfan-70B是由百度千帆团队推出的文本推理模型,基于千帆系列模型的基础上采用高质量的合成推理数据进行蒸馏训练,该模型为通用模型,在中文、英文、数学、代码等方面的表现强于同尺寸参数量的蒸馏模型。

Qwen3-0.6B
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。通用能力显著超过Qwen2.5小规模系列。

Qwen3-1.7B
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。通用能力显著超过Qwen2.5小规模系列,模型人类偏好能力显著增强,创意写作、角色扮演、多轮对话、指令遵循能力均有明显提升,用户体验预期明显更佳。

Qwen3-4B
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、模型人类偏好能力显著增强,创意写作、角色扮演、多轮对话、指令遵循能力均有明显提升,用户体验预期明显更佳。

Qwen3-8B
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-7B。

Qwen3-14B
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-14B。

Qwen3-32B
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。

Qwen3-30B-A3B
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-14B,达到同规模业界SOTA水平。

Qwen3-30B-A3B-Instruct-2507
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-14B,达到同规模业界SOTA水平。

Qwen3-30B-A3B-Thinking-2507
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-14B,达到同规模业界SOTA水平。

Qwen3-235B-A22B
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct,达到同规模业界SOTA水平。

Qwen3-235B-A22B-Instruct-2507
多模态
16K

实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct,达到同规模业界SOTA水平。

人工导购
咨询服务