Skip to main content

人工智能简介

相关概念:

人工智能 (AI)

├── 机器学习 (Machine Learning, ML)
│ ├── 深度学习 (Deep Learning, DL)(基于神经网络)
│ │ │── 卷积神经网络(CNN)
│ │ │── 递归神经网络(RNN)
│ │ │── 长短期记忆网络(LSTM)
│ │ └── Transformer
│ └── 传统机器学习 (Traditional ML)

└── 自然语言处理 (Natural Language Processing, NLP)
├── LLM (Large Language Models)(基于DL.Transformer)
│ ├── GPT系列(Generative Pre-trained Transformer)
│ ├── BERT(Bidirectional Encoder Representations from Transformers)
│ ├── T5(Text-to-Text Transfer Transformer)
│ ├── PaLM(Pathways Language Model)
│ └── LLaMA(Large Language Model Meta AI)
└── 其他NLP方法(如规则、统计方法等)

大模型相关的100个词

AI 基础概念 11 个

【函数】万物皆函数。
【符号主义】早期人们用符号主义思想找到精确函数试图解释一切原理,但遇到了瓶颈。
【联结主义】后来人们转用联结主义思想,啥都不管先弄一个非常复杂的函数,然后根据计算出的预测值与真实值的误差,不断调整里面的未知参数。
【模型】这个函数叫做模型。
【权重】模型里的参数叫做权重。
【大模型】如果模型中的参数量特别大就叫做大模型。
【大语言模型】用于自然语言处理的大模型就叫做大语言模型 LLM。
【训练】调整参数的过程就是模型的训练。
【预训练】事先训练好一个基础模型的方式叫做预训练。
【微调】基于预训练的模型继续训练让模型学会具体的任务的方式叫做微调。
【推理】参数调整好后根据函数的输入计算输出结果的过程就叫做推理。

产品 10

【涌现】这些概念在大模型时代到来之后逐渐火热了起来,当模型参数量足够大的时候,对话能力有了质的提升,产生了一定程度的推理能力。这种量变引起质变而突然出现的之前没有的能力的现象,叫做涌现。
【ChatGPT】大语言模型爆火的产品是 2023 年的 ChatGPT,但其实它就是一款用于聊天的产品而已
【GPT】而它背后使用的的大语言模型是 GPT,是个系列
【OpenAI】开发这个模型的公司是 OpenAI
这也是一开始挺多人搞混淆的概念
【CloseAI】而由于这家公司推出的产品一直保持不开放源代码也就是闭源,所以也正式更名为 CloseAI(开个玩笑)
一个模型需要有训练它的代码,有了代码就可以训练出一组权重,有了权重就可以进行推理,也就是可以对外提供服务了。
【闭源模型】不开放代码和权重,只对外提供服务并收钱的模型叫作闭源模型,如 ChatGPT,Claude,Gemini 等。
【开放权重】开放模型结构和权重,可以直接下载到自己电脑上部署的模型叫作开源模型,但实际上大部分现在说的开源模型只是开放了权重,而不开放训练代码和训练数据,所以准确说叫开放权重模型。如最近爆火的 deepseek,以及 meta 的 llama 等。
【完全开源】而不但开放了模型结构和权重,还开放了训练代码的模型叫做完全开源模型,比较有名的是 Mistral。
【私有化部署】当然,有了模型权重其实就可以下载到本地进行部署并使用了,很少有人需要重新训练它。这个不依赖于他人的服务而是把模型下载到本地进行使用的过程叫做私有化部署。
【云桌面】私有化部署依赖很多复杂的环境配置,就是要装很多依赖的软件和工具包,且需要性能较为强劲的 GPU 支持,对于仅仅想尝鲜的个人专门为此去买一台电脑不太合适,因此就有了云桌面的概念。
比如青椒云就是一款高性能的云桌面,你只需要一个能上网的电脑,就可以用几秒钟时间花费几毛钱体验众多需要极高电脑配置的大模型应用。
【镜像】下载一个应用程序,根据配置购买一款云电脑,这里有很多别人打包好的环境和软件,免去了我们自己配置的烦恼,这个打包好的东西叫做镜像。
接下来选择一个合适的计费方式,如果只是想偶尔体验一下就选择计时机,开机后按分钟计费,不开机不要钱。如果你的电脑也是大部分时间都在关机限制着,这种方式和你真正持有一台电脑的区别就不大了。

大模型基础 15

【生成式 AI】回到 ChatGPT,大语言模型的本质就是个大函数,根据前面的一句话持续不断地计算下一个词是什么。这种基于输入内容,自动“生成”新内容的人工智能系统叫做生成式 AI,当然除了文本也包含图像、声音、视频等。
【token】这里的每一个分割成最小粒度的词叫做一个 token。
【上下文】前面的所有喂给大模型的话叫做上下文,不同的模型有不同的上下文长度限制,越大就越能记住前面的信息。
【提示词】上下文从另一个角度理解也叫提示词 prompt,可以指导模型的回答流程和风格,但其实就是个上下文而已。
【提示词工程师】早期出现很多提示词工程师和提示词教程其实本质就是教你怎么跟大模型说话而已。
现在 AI 对话越来越贴近人的方式了,所以你和人沟通起来有啥毛病那么跟 AI 沟通也有啥毛病,你真正缺的是怎么表达清楚自己的意思,而不是 prompt 技巧。
【随机性】刚刚说了大模型就是个大函数,函数是死的,所以根据前面的词输出的下一个词是固定的。但我们可以一定程度调整模型输出的随机性,让下一个词的生成并不总是取概率最高的那个词。
【温度】控制输出的随机性的参数叫做温度。
【Top-K】控制范围从概率最高的 K 个词中选择,叫做 Top-K。
【幻觉】随机性太高模型容易胡说八道,太低又会过于保守也可能说错。这种在语言上说得通但是在事实上狗屁不通甚至是虚假信息的现象,叫做大模型的幻觉。
【联网】为了解决幻觉问题,大模型或一些套壳产品提供了联网能力,其实就是在大模型回答问题前,先去互联网上查找一下相关信息,把这些信息和你的问题拼接在一起,共同发给大模型回答,相当于带着答案回答问题了。
【炸裂体】之前很多震惊体,在 AI 时代升级为了炸裂体、天塌体的文章说大模型拥有联网能力了是重大突破,人类要完蛋了,实际上就这玩意儿。
【RAG】有些数据可能网络上查找不到,或者企业级的数据不方便放在公开的互联网上,希望大模型去这些私有的数据库中查找答案,这种方式叫做检索增强生成 RAG,和联网一样的思路,也是先查资料再回答问题。
【知识库】只不过查询的内容不在互联网上,而在一个私有的数据库中,我们通常叫它知识库。
【向量数据库】为了让模型和知识库中的语义进行匹配,知识通常会以向量的形式存储在向量数据库中。
【词嵌入 Embedding】把文字转换成词向量的方式叫做词嵌入。
【向量检索】对比词向量之间的相似度以在知识库中找到和问题相关内容的方式叫做向量检索。

大模型应用 15

解决了大模型幻觉问题后,AI 就可以介入真正的生产和生活中了。
【PGC】在内容创作领域,传统的由专业机构如影视公司、媒体机构、权威专家等创作的内容叫做 PGC
【UGC】随着移动互联网时代和自媒体时代的到来,由普通用户比如说我创作的内容叫做 UGC
【AIGC】而在 AI 时代由 AI 创作或辅助创作的内容叫做 AIGC,比较正向的案例就是内容公司通过 AI 加快产出速度和提升内容质量,而比较反面的案例就是很多人用 AI 洗稿并疯狂产出内容污染互联网内容生态。
【AGI】插一嘴这里有个比较容易混淆的词叫 AGI,它的意思是人们对于人工智能最终形态的畅享,即通用人工智能。
【多模态】大模型渐渐发展,不单单能处理文本内容,也能处理图片、声音、视频等多种形式的内容,这种处理多种模式内容的能力叫做多模态。
【工作流】有的时候我们需要多次使用大模型的能力,比如第一步将口播稿分段,第二步给每个段落写一个文生图提示词,第三步生成一张合适的图片。这种把很多步骤编排成一个流程的能力叫做工作流。
【扣子】包括可以在页面上进行傻瓜操作编排工作流的工具如扣子
【LangChain】以及用代码的方式编排工作流的框架如 LangChain
【智能体】按照工作流封装大模型和一套工具集用于自动完成某一类复杂任务的程序,叫做一个智能体。
【多智能体】多个智能体互相协作完成更复杂任务的程序叫做多智能体。
【插件】ChatGPT 的插件系统。
【AutoGPT】早期昙花一现的 AutoGPT
【Manus】以及最近又昙花一现的 Manus 都属于智能体。
【MCP】智能体需要操作各种应用,比如打开浏览器上网,打开计算器进行算术,或者操作手机上的微信发送一条消息等实现托管。为了更方便的操作外部数据源和工具,Anthropic 于 2024 年底为 AI 系统提供了一个标准化的接口或者说协议,叫做 MCP,给了 AI 一个操作外部世界的统一标准。
【A2A】而 Google 于 2025 年 4 月推出的另一个协议,用于 Agent 和 Agent 之间的通信,叫做 A2A 协议。
至此,大模型的生态开始百花齐放,未来想象空间无限。

大模型卷的新方向 11

别看这么多工作流呀、智能体呀、MCP 等概念兴起,但其实都是老一套的工程方面的事而已,大模型本身能力的发展已经快到极限了。
一方面模型的大小到了极限,一个顶级大语言模型的训练成本已经超过一亿美元。另一方面模型能力也到达了极限,前十名模型能力的差距已经从两年前的 12% 缩小到了 2025 年初的 5.4%,前两名更是从 4.9% 缩小到了 0.7%,模型之间已经快拉不开差距了。
正所谓边际收益递减,所以就开始卷其他方向,寻找出路。
【模型压缩】比如让模型更小以便减少成本和方便个人使用的模型压缩方法。
【量化】包括把模型中的浮点数用低精度(如 INT8、FP4)表示以减少显存和计算的量化。
【蒸馏】用参数量较大的大模型指导参数量小的小模型的蒸馏。
【剪枝】删除模型中不重要的神经元让模型更稀疏以提高速度的剪枝。
还有增加模型的推理速度让模型更快的 FlashAttention、vLLM、Speculative Decoding 等。
还有让部署方式更灵活以方便普通人使用,包括刚刚说的私有化部署工具,以及浏览器内运行、手机移动端部署、云桌面运行等。
【LoRA】用更低成本改善微调方式的方法如 LoRA、QLoRA、Adapter 等。
【思维链】从推理能力方向增强模型能力的方式,如思维链。
【RLHF】通过人类反馈强化学习让模型说的话更合人的心意的方法,叫做 RLHF。
【套壳】当然,啥方向都卷不动的时候,你还可以封装现有的大模型接口并对外提供服务,通俗说法就是套壳。
【铲子】或者提供 AI 工具、AI 服务、AI 课程、AI 社区等帮助别人开发和使用 AI 能力的周边产品,这种在 AI 淘金热里帮助别人淘金来赚取金币的方式叫做卖铲子。
可别看不上卖铲子,这可是要对 AI 各领域的产品和生态都了如指掌才行。

和文字相关的是自然语言处理,有名的包括刚刚说过的 ChatGPT,以及 Claude Gemini DeepSeek 豆包 通义千问 腾讯元宝等。
和图片相关的是计算机视觉,包括很多 AI 绘画的应用,比如闭源 Midjourney,开源的 Stable Diffusion,绘画工作流软件 ComfyUI 等。
和语音相关的包括文字转语音的 TTS 和语音转文字的 ASR。
和视频相关的包括 Sora 可灵 即梦等 AI 视频生成应用,以及各种数字人应用等。
除了帮助普通用户外,你还可以帮助开发者更好地使用 AI。包括像英伟达一样提供好的显卡也就是 GPU,以及配套的开发框架 CUDA。
或者提供专门针对人工智能的处理器,如专门用于大规模神经网络训练与推理的 TPU,和专门用于终端设备推理的 AI 加速芯片 NPU 等。
软件方面你可以提供适合 AI 的编程语言 Python,提供针对 AI 的库 PyTorch、Tensorflow,建设 AI 开源平台和社区 HuggingFace,方便开发者本地运行大模型的工具 ollama,提升大语言模型推理速度的推理引擎 vLLM,AI 编程助手 Cursor、GitHub Copilot 等等等等

AI 时代瞬息万变,产品工具层出不穷,但它的技术底座依然保持不变。
从最底层的线性代数、微积分、概率论、最优化等数学知识,到深度学习中用神经网络表示函数,用损失函数最小化为目标,通过反向传播训练参数,再到后面的经典神经网络结构 MLP,用于图像数据处理的卷积神经网络 CNN,用于序列数据处理的循环神经网络 RNN,以及引爆整个大模型时代的 Attention 机制和基于 Attention 发明的 Transformer 架构,他们共同撑起了现代 AI 技术的大厦。