AI 模型介绍:零基础、全中文、免费教程!
gemma3 - gemma3 是当前,在单个 GPU 上运行的功能最强大的模型。 |
command-a - command-a 是针对需要快速、安全和高质量 AI 的苛刻企业优化的 1110 亿参数模型。
|
deepseek-r1 - deepseek-r1 是 DeepSeek 第一代推理模型,性能与 OpenAI-o1 相当,其中包括基于 Llama 和 Qwen 从 DeepSeek-R1 蒸馏提炼出的六个密集模型。 |
QwQ - QwQ 是 Qwen 系列的推理模型。扩展强化学习 RL - Scaling Reinforcement Learning 有潜力提升模型性能,超越传统的预训练和后训练方法。最近的研究表明,RL 可以显著提高模型的推理能力。例如,DeepSeek R1 通过整合冷启动数据和多阶段训练实现了最先进的性能,实现了深度思考和复杂推理。 |
nomic-embed-text - nomic-embed-text 是具有大型标记上下文窗口的高性能开放嵌入模型。 |
granite3.2-vision - granite3.2-vision 是一种紧凑而高效的视觉语言模型,专为视觉文档理解而设计,能够从表格、图表、信息图、绘图、图解等中自动提取内容。
|
llama3.3 - llama3.3 最新型 70B 型号。Llama 3.3 70B 的性能与 Llama 3.1 405B 型号类似。 |
phi4-mini - Phi-4-mini 在多语言支持、推理和数学方面带来了显著的增强,现在,期待已久的函数调用功能终于得到支持。 |
mistral - mistral 是 Mistral AI 发布的 7B 模型已更新至版本。 |
reader-lm - JinaAI 推出的 reader-lm 模型,将 HTML 内容转换为 Markdown 内容的一系列模型,对于内容转换任务很有用。 |
tulu3 - Tülu 3 是领先的指令跟踪模型系列,由艾伦人工智能研究所提供完全开源的数据、代码和配方。Tülu 3 将语言模型后训练开放给更多任务和更多人。 |
qwen2.5 - Qwen2.5 模型在阿里巴巴最新的大规模数据集上进行了预训练,涵盖高达 18 万亿个 token。该模型最多支持 128K 个 token,并支持多语言。 |
llava - LLaVA 是一种新颖的端到端训练大型多模态模型,它结合了视觉编码器和 Vicuna ,用于通用视觉和语言理解。已更新至版本 V1.6。
|
exaone-deep - 韩国首个开源推理 AI EXAONE Deep 数学考试斩获 94.5 分,博士级测试达 66.1 分..EXAONE Deep 在包括数学和编码基准在内的各种推理任务中展现出卓越的能力,范围从 LG AI Research 开发和发布的 2.4B 到 32B 个参数。
|
command-r7b-arabic - command-r7b-arabic 是轻量级 Command R7B 型号的全新先进版本,具有出色的高级阿拉伯语功能,适合中东和北非的企业使用。 |
everythinglm - everythinglm 是基于未认证的 Llama2 模型,支持 16K 上下文的 AI 模型。 |
codeup - codeup 是基于 基于 Llama2 的出色的代码生成模型。 |
llama2-chinese - llama2-chinese 基于 Llama 2 的模型经过微调,提高了中文对话能力。 |
llama3-chinese-8b-instruct - Llama3-Chinese-8B-Instruct 基于 Llama3-8B 中文微调对话模型,由 Llama 中文社区和 AtomEcho(原子回声)联合研发。模型详细见 https://llama.family
|
nous-hermes - nous-hermes 是基于 Nous Research 的 Llama 和 Llama 2 的通用模型。 |
medllama2 - medllama2 是基于开源医疗数据集对 Llama 2 模型进行微调,以回答医疗问题。 |
stable-beluga - stable-beluga 是基于 Llama 2 的模型根据 Orca 风格的数据集进行了微调。最初称为 Free Willy。 |
open-orca-platypus2 - open-orca-platypus2 是 Open Orca OpenChat 模型与 Garage-bAInd Platypus 2 模型的合并,专为聊天和代码生成而设计。
|
orca-mini - orca-mini 是 30 亿到 700 亿个参数的通用模型,适合入门级硬件。 |
vicuna - vicuna 是基于 Llama 和 Llama 2 的通用聊天模型,上下文大小为 2K 到 16K。 |
bakllava - BakLLaVA 是一个多模态模型,由 Mistral 7B 基础模型和 LLaVA 架构组成。 |
mixtral - Mistral AI 的一组具有开放权重的专家混合 MoE 模型,参数大小为 8x7b 和 8x22b。
|
moondream - moondream2 是一个小型视觉语言模型,旨在在边缘设备上高效运行。 |
llama3.2-vision - Llama 3.2 Vision 是 11B 和 90B 大小的指令调整图像推理生成模型的集合。 |
wizard-math - wizard-math 模型,专注侧重于数学和逻辑问题。WizardMath:通过强化 Evol-Instruct RLEIF 增强大型语言模型的数学推理能力。
|
firefunction-v2 - FireFunction 是基于 Llama 3 的开放权重函数调用模型,与 GPT-4o 函数调用能力相媲美。 |
wizardlm-uncensored - wizardlm-uncensored 是 Wizard LM 模型的未删节版本。 |
llama2 - Llama 2 是一个基础语言模型的集合,参数范围从 7B 到 70B。 |
glm4 - glm4 是一种强大的多语言通用语言模型,其性能可与 Llama 3 相媲美:采用自回归填空目标进行预训练,可针对各种自然语言理解和生成任务进行微调。 |
cogito - Cogito v1 Preview 是 Deep Cogito 开发的一系列混合推理模型,在大多数标准基准测试中,其表现优于同等规模的最佳开放模型,包括 LLaMA、DeepSeek 和 Qwen 的同类模型。 |
falcon - Falcon 是由技术创新研究所 TII 构建的大型语言模型,用于摘要、文本生成和聊天机器人。 |
mistral-small3.1 - Mistral Small 3.1 (2503) 在 Mistral Small 3 的基础上增加了最先进的视觉理解功能,并将长上下文能力增强至 128k 个标记,同时不影响文本性能。 |
zephyr - Zephyr 是 Mistral 和 Mixtral 模型的一系列精细调整版本,经过训练可以充当有用的助手。 |
deepcoder - DeepCoder 是一个完全开源的 O3-mini 级别的 14B 编码器模型,同时还提供 1.5B 版本。
|
goliath - Goliath 是通过将两个经过精细调整的 Llama 2 70B 模型合并为一个而创建的语言模型。 |
wizard-vicuna - Wizard Vicuna 是一个基于 Llama 2 的 13B 参数模型,由 MelodysDreamj 训练。 |
wizardlm - 基于 Llama 2 的通用模型。
|
nexusraven - Nexus Raven 是一个针对函数调用任务的 13B 指令调整模型。 |
granite3.3 - IBM Granite 2B 和 8B 模型是 128K 上下文长度语言模型,经过微调以提高推理和指令跟踪能力。
|
alfred - alfred 是一种强大的对话模型,旨在用于聊天和指导用例。
|
openthinker - Open Thoughts 是由 Bespoke Labs 和来自斯坦福大学、加州大学伯克利分校、德克萨斯大学奥斯汀分校、华盛顿大学、加州大学洛杉矶分校、北卡罗来纳大学、印第安纳州立大学和洛杉矶县立学院 (LAION) 的 DataComp 社区共同领导的合作项目:openthinker 是通过提炼 DeepSeek-R1 得到的数据集构建的完全开源的推理模型系列。 |
mistrallite - MistralLite 是 Amazon 在 HuggingFace 发布的基于 Mistral 的微调模型,增强了处理长上下文的能力。 |
qwen3 - Qwen3 是 Qwen 系列中最新一代大型语言模型,提供了一套全面的密集和混合专家 MoE 模型。
|
phi4-reasoning - Phi 4 推理和推理 plus 是 140 亿参数开放权重推理模型,在复杂推理任务上可与更大的模型相媲美。
|
phi4-mini-reasoning - Phi 4 mini 推理是一种轻量级的开放模型,在效率和高级推理能力之间取得平衡。 |
mathstral - MathΣtral:Mistral AI 为数学推理和科学发现设计的 7B 模型。Mathstral 可以通过增加推理时间计算量来取得显著更好的结果:Mathstral 7B 在 MATH 测试中,多数投票得分为 68.37%,强奖励模型得分为 74.59%(64 个候选测试)。 |
qwen2.5vl - Qwen 的旗舰视觉语言模型,也是比上一代 Qwen2-VL 有了显著的飞跃。 |
devstral - Devstral:编码代理的最佳开源模型
|
codebooga - codebooga 是通过合并两个现有代码模型创建的高性能代码指导模型。
|
wizardcoder - wizardcoder 是最先进的代码生成模型。 |
phind-codellama - phind-codellama 是基于 Code Llama 的代码生成模型。 |
codellama - codellama 是一个可以使用文本提示来生成和讨论代码的大型语言模型。 |
sqlcoder - SQLCoder 是一个在 StarCoder 上针对 SQL 生成任务进行微调的代码完成模型 |
magistral - Magistral 是一个小型、高效的推理模型,具有 24B 个参数。 |
llama4 - Llama4 是 Meta 目前最新的多模式模型集合。 |