GPT-4大模型硬核解读看完成半个专家

Estimated read time 2 min read

▲OpenAI的相关信息

 

本文将通过OpenAI和其他AI巨头已发表的大语言模型或多模态论文来详细阐述和分析与GPT-4相关核心技术要点、技术架构、训练流程、算力、局限与产业未来,告诉大家为何我们的下一代会从“内卷”过渡到“人机互卷”。

01.

GPT-4核心技术有哪些?

1.1 理论基础——多模态涌现能力

讲到大语言模型的优势,一般首先要提到这类模型的涌现能力和思维链。这两者是大语言模型不断接近人类的关键特征。

我们之所以认为GPT-4会是具有里程碑意义的一代,正是因为多模态的GPT-4会从视觉角度和视觉-文字语义融合方面涌现出更多的能力。2022-2023年,我们可以认为AI是第一次睁开双眼理解这个世界。

在大型语言模型(LLM)中,涌现能力(Emergent Abilities)是指模型具有从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力。就中文释义而言,涌现能力也指大语言模型涌现出来的新能力。这有点类似于去超市遇到买二赠一,赠品的质量居然还出乎意料。

与大语言模型(LLM)相比,多模态大语言模型(Multi-modal Large Language Model,MLLM)可实现更好的常识推理性能,跨模态迁移更有利于知识获取,产生更多新的能力,加速了能力的涌现。这些独立模态或跨模态新特征、能力或模式通常不是通过目的明确的编程或训练获得的,而是模型在大量多模态数据中自然而然的学习到的。

▲当模型尺寸增加到一定大小后,新能力涌现(来源:Google/Deepmind)

我们在研究GPT-4时,发现GPT-4具备了OpenAI在预训练时和发表的技术报告中并未明确的能力。这些能力都属于涌现出来的能力。

涌现能力是基于深度学习模型的分层结构和权重学习机制实现的。涌现出来的能力可以是基于文本的,也可以是多模态的。我们可以将GPT-4这类大模型的训练视为解方程,每一层神经元(可视为变量组合)的输出都作为下一层神经元的输入,并且模型的每个权重(Weight)都通过强化学习算法进行学习和更新。这种分层的结构和权重学习机制使得深度学习模型能够自动的学习到从原始数据中提取隐含的特征和模式,从而实现涌现能力。

当大语言模型被训练时,通过学习大量的多模态训练数据,并且根据数据中的统计规律和模式自适应的调整其内部参数和结构,从而表现出一些新的能力和特性。这类似于咱们常说的量变引发质变。

涌现能力是大语言模型的重要特性,也是现在火爆的大模型各种能力的理论基础。涌现能力使得GPT-4能够在无需人工干预的情况下,从原始的多模态数据中自动学习到复杂的特征和模式,从而实现更准确和更高效的预测和决策。

涌现能力的另一个重要表现是模型的泛化能力。在没有专门训练过的情况,GPT-4也可以泛化到新的、未知的多模态数据样本上。这种泛化能力取决于模型的结构和训练过程,以及数据的数量和多样性。如果模型具有足够的复杂性和泛化能力,就可以从原始数据中发现新的、未知的特征和模式。

当然,GPT-4涌现出的新能力可能仍有局限性,例如:模型可能产生错误的回答,对某些问题缺乏理解,容易受到输入干扰等。目前认为GPT-4的幻觉与其涌现能力具有相关性。

1.2 核心优势——多模态思维链

思维链(Chain of Thought)可视为大语言模型涌现出来的核心能力之一。之所以现在各类GPT研究火爆,也与模型训练出的思维链可进入实用有密切关系。

思维链形成机制可以解释为模型通过学习大量的语言数据来构建一个关于语言结构和意义的内在表示,通过一系列中间自然语言推理步骤来完成最终输出。思维链是ChatGPT和GPT-4能让大众感觉到语言模型“像人”的关键特性。

虽然GPT-4这些模型并非具备真正的意识或思考能力,但用类似于人的推理方式的思维链来提示语言模型,极大的提高了GPT-4在推理任务上的表现,打破了精调(Fine-tune)的平坦曲线。具备了多模态思维链能力的GPT-4模型具有一定逻辑分析能力,已经不是传统意义上的词汇概率逼近模型。

当然思维链的训练可能并不容易。尽管现在有大量团队进入大语言模型训练领域,但若干年内能找到训练诀窍并完成思维链训练的团队可能不多。对创企来说,完成思维链的训练,才算真正拿到了这波大模型AI竞技的入场券。

▲TAMER架构在强化学习中的应用

这里以TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架为例。该框架将人类标记员引入到模型代理(Agents)的学习循环中,可以通过人类向代理提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。

GPT-4的多模态奖励模型(RM)是小号的有监督精调模型(SFT),但在顶部添加了一个新的线性层来预测奖励。奖励模型的输入是原始输入加上SFT模型生成的输出。

在具体实现上,人类标记员扮演对话的用户和人工智能助手,提供多模态对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中。代理(Agents)同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。

▲PPO算法与同类其他算法的比较(来源:OpenAI)

PPO算法衍生于早期的策略梯度(Policy Gradient)算法,但通过一些技巧改进了其性能和稳定性,能够处理连续动作空间的问题。PPO在策略更新时限制新策略与旧策略之间的差异,从而确保策略改进的稳定性。这通过在目标函数中引入一个“代理”目标函数来实现,该代理目标函数限制了新策略和旧策略之间的KL散度。

PPO算法的核心思想是在每次迭代中,通过一种称为近端策略优化(Proximal Policy Optimization)的方法来更新策略参数,以最大化预期收益。具体来说,PPO算法采用两个神经网络来表示模型的策略:一个执行动作(Actor),另一个处理奖励(Critic)。在每次迭代中,PPO算从环境中采样一批经验数据,并使用这些数据来更新策略参数和价值参数。更新的策略将被ε-clip到一个小区域,以防止可能具有不可恢复危害的巨大更新。换句话说,优化的步伐不能太大也不能过小。

PPO算法的主要特点如下:

1)裁剪的目标函数:PPO通过裁剪策略比率(新策略概率与旧策略概率之比)来限制更新幅度。这种裁剪保证了新策略在旧策略的附近,使得更新更加稳定。

2)重要度采样:PPO利用重要度采样来估计策略梯度,从而可以重复使用之前的经验来更新策略。这使得PPO在数据效率上更具优势。

3)多次更新:PPO算法在每次收集一批数据后,对策略进行多次更新。这可以提高算法的收敛速度和稳定性。

4)简化的优化问题:相比于其他方法,如TRPO,PPO算法将优化问题简化为一阶优化问题,这大大减少了计算复杂性。

1.7 安全技术——多模态幻觉检测

大型语言模型(Large Language Model,LLM)的幻觉(Hallucination)指的是模型生成的输出包含一些与输入不符合的信息,这些信息可能是错误的、无关的或者荒谬的。与人类直觉相反,随着模型变得更加以假乱真,幻觉会变得更加危险。GPT-4等模型的这种幻觉可能会出现在各种类型的任务中,比如文本生成、图文分析和问答系统等。

由于大模型(包括GPT-4)本质上可以视为训练集(人类知识/语言)的有损压缩,因此在模型运行时无法完整复现或者应答原始知识,从而模型的幻觉来自于信息压缩的偏差。多模态幻觉的本质是这种有损压缩偏差的体现,也是通过数学逼近人类语言的必然代价。(类似于压缩后的图像边缘出现不正常的条纹)。

▲通过幻觉单词检测器减少幻觉(来源:Meta AI)

幻觉是GPT-4等大型语言模型中一个重要的问题,通过不断的优化模型和改进训练方法,或增加多模态幻觉语义检测器,研究人员可以逐步提高模型的准确性和稳定性,从而更好地满足各种自然语言处理任务的需求。

1.8 模型信息——关于模型大小

目前OpenAI还没有发布GPT-4模型大小和结构的具体信息。GPT-4的技术报告也没有透露这些技术细节,训练数据或训练方法也没有相关信息释放出来。大模型的商业化竞争正愈演愈烈。

▲GPT-1模型的Transformer结构

2018年6月,OpenAI发表了GPT-1,GPT家族首次登上历史舞台。GPT-1模型训练使用了BooksCorpus数据集。训练主要包含两个阶段:第一个阶段,先利用大量无标注的语料预训练一个语言模型,接着,在第二个阶段对预训练好的语言模型进行精调,将其迁移到各种有监督的NLP任务。也就是前面提到过的“预训练 精调”模式。

GPT-1的核心是Transformer。Transformer在数学上是大矩阵的计算,通过计算不同语义之间的关联度(概率)来生成具有最高概率的语义反馈。

GPT-1着重解决两个问题:

1)通过无监督训练解决需要大量高质量标注数据的问题。

2)通过大量语料训练解决训练任务的泛化问题。

▲多模态模型的5种典型结构(来源:深圳鹏城实验室)

根据鹏城实验室新发出的论文归纳,目前常见的多模态模型架构主要包括以下几种:

1)合并注意力架构(Merge-attention):如上图(a),多个输入模态调整为同一的特征表示,多个模态的特征在自注意力之前被合并,共同进入Transformer。

2)共同注意力架构(Co-attention):如上图(b),每个输入模态都具备私有自注意力通道,用于模态独立特征的导入,然后再使用共同的交叉注意力层融合多模态特征。

3)交叉注意力架构(Cross-attention):对于多模态任务,将图像与语言分别结合,实现图文信息的相互嵌入与问答。

4)三角Transformer架构(Tangled-transformer):使用三组Transformer模块同时处理动作、图形对象和语言特征,通过特定的三角连接关系,注入其他模态的Transformer网络,以不同模态的信息融合。

5)模态间对比学习架构(Inter-Modality Contrastive Learning):不同模态的信息被分解,通过矩阵结构建立多模态对比学习关联。

目前评估OpenAI采用该种交叉注意力架构的研发GPT-4的代价最小,可以大幅度使用ChatGPT中已经构建的语言模块。从笔者团队的分析看,GPT-4很有可能正是采用这类架构。

2.3 GPT-4的独特性

GPT-4是最新且最先进的OpenAI多模态大模型。并在多个基准任务上取得了非常好的成绩,包括图像字幕、图文问答、代码生成和法律推理。优秀的图文分析和逻辑推理能力铸就了GPT-4的护城河。

▲GPT-4在大部分任务上优于人类水平平均值(来源:LifeArchitect)

GPT-4能够生成比GPT-3.5或其他语言模型更符合事实的准确陈述,确保更高的可靠性和可信度。GPT-4也可接受图文信息作为输入并生成说明、分类和分析。

尽管GPT-4已经投入商业使用,但大多数用户仍需要等待图文能力的正式开放。

▲GPT-4训练过程(基于GPT-4技术报告绘制)

第二阶段:训练奖励模型(RRM)和基于规则的奖励模型(RBRM)

这一阶段包括基于规则的奖励模型(Rule-Based Reward Model,RBRM)和奖励模型(Reward Mode,RM)

首先基于安全规则设计基于规则的奖励模型并完成验证。这一模型与传统NLP领域的规则模型设计方法一致。

然后在数据集中抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。(有点像互联网企业的审图师)

接下来,使用这个排序结果数据来训练GPT-4的奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。这一过程类似于教练或老师辅导。

▲较小算力模型准确的预测了GPT-4的训练精度(来源:OpenAI)

4 GPT-4的算力基座

由GPT-4/ChatGPT及其下游需求,带动了大量的模型设计与产业应用需求,带动了从服务器集群到大算力芯片的海量计算需求。这一需求业导致了A100 GPU的价格在近几个月内暴涨。那么,在多模态大模型逐渐火热之后,GPU会是唯一的算力选择吗?GPU会不会导致模型企业同质化竞争的加剧?

根据IDC预计,到2026年AI推理的负载比例将进一步提升至62.2%,特别是大模型将成为AI开发的新范式。

对于GPT-4等大模型设计或应用企业,算力的需求体现在如下三个细分阶段。

1)GPT-4预训练与应用微调阶段。这一阶段从无到有建立预训练模型,通过大量通用数据训练和验证预训练模型。(形成模型的“通识”)然后针对具体的商用或应用场景的特定数据,对预训练进行针对性的微调,加强对场景的应答准确度。在这一阶段,一般需要超算级别或数十台服务器来进行一个大模型的训练计算,计算以大量矩阵计算和求解为主。这一阶段的算力可通过上述的缩放定律来进行预测和缩减不必要的训练参数集合所需的算力(非必要参数集分支大概可缩减到千分之一)。

2)GPT-4推理与部署阶段。根据场景微调后的大模型,就可部署到实际生产环境中应用。相对训练来说,部署要求的算力较低,但是基数很大。对于大量在线交互来说,部署阶段的服务器/芯片成本要远远超过训练阶段。在这一阶段,每台AI服务器可以部署一个GPT-4模型,集群上会有大量服务器进行并行的网络服务,计算以大量矩阵计算和存储调度为主。同时,在这些场景下,特别是端侧应用场景,也会有硬件性价比和反应延迟的特定要求,目前的GPU就不一定适合。

3)GPT-4模型迭代的微调阶段。每使用一段时间,就会根据使用者或者客户反馈,对模型进行调整,以提高客户满意度,特别是提升模型的安全度以确保合规。这个过程就是模型迭代的过程,一般相当于小规模的训练,训练所用的数据规模不大,计算以大量矩阵计算和求解为主。

04.

GPT-4的算力基座

4.1 GPT-4计算服务器架构

▲计算服务器架构对比

针对GPT-4这类大模型的计算架构,按照计算芯片的组合方式,一般可以分为:“CPU GPGPU”,“CPU DSA”,和“CPU DSA GPGPU”三种类型。这三种类型目前都已在云计算场景广泛应用和部署。

DSA即领域专用加速器,是用于一些特定场景或算法族计算的芯片级加速。最早的GPU也属于DSA,也就是图形加速的DSA。随着GPU逐渐演化,将非常小的CPU核心加入GPU形成GPGPU架构后,才具备了通用化的计算能力。

1)CPU GPGPU是较早且部署众多的一种。由于这种架构的计算灵活度高,也可用于模型训练和非AI类计算。适合任务种类繁多且差异化大的云计算场景。

2)CPU DSA是目前Google云计算(GCP)应用较多的方式。例如Google去年发布的Pathways计算系统(包含6144块TPU)就是这类架构的典型代表。这类架构计算灵活性稍低一点,但是计算性能和成本都非常明显优于CPU GPGPU模式,非常用于GPT-4或其他算法部署场景。例如早些年的AlphaGo的性能突破很大程度上来自于Google自研的TPU。当时如果用GPU,估计超过人类棋手的集群成本恐是当年的Google也难以承受的。

▲CPU、GPU和存算一体芯片的架构对比

从目前GPT-4的部署需求来看,GPT-4大模型具有数据量大、数据带宽要求高、算力要求高的计算特点,且算法相对单一。如果要提高计算效率和性价比,就应该像超算那样选择更高计算密度的算力芯片。从这个角度上看,具备存算一体结构的DSA可以很好的满足这些要求,并且具备比GPGPU更高的计算性能,未来很有可能与CPU或GPU组合,形成GPT-4这类算法的主要部署芯片。

在GPT-4这类大模型训练中,一般需要使用Infiniband进行大算力芯片间的协同工作,整合海量芯片的算力。Infiniband摒弃了传统网络和应用程序之间消息传递的复杂结构,使应用程序之间直接进行通信,绕过了操作系统,大大提高了效率。

05.

GPT-4的局限与未来改进方向

5.1 GPT-4局限

尽管GPT-4表现出出色的上下文对话能力甚至编程能力,以及能看懂图梗和分析数据图。我们也要看到,GPT-4技术仍然有一些局限性,还在不断的进步。

1)GPT-4在其未经大量语料训练的某些领域缺乏“人类常识”和引申能力”。GPT-4在很多领域可以“创造答案”,但当用户寻求正确答案时,GPT-4也有可能给出有误导的回答。大预言模型的安全性问题仍是横亘在其大规模商用上的拉路虎。如果遇到关系重大利益的抉择时,我们是该相信GPT-4的结果还是不相信呢?

▲CAI与RLHF技术对比(来源:Anthropic)

5.2.2 数理能力的增强

GPT-4虽然已经具备解物理题的能力,但毕竟不是专门的解题算法,一些复杂的数理问题对话中仍会出现一本正经胡说八道的情况。

计算机学家Stephen Wolfram为这一问题提出了解决方案。Stephen Wolfram创造了的Wolfram语言和计算知识搜索引擎WolframAlpha,其后台通过Mathematica实现。

▲ChatGPT与WolframAlpha结合处理梳理问题(来源:Wolfram)

目前Woflframe已经可以通过ChatGPT调用(通过插件),未来也会实现GPT-4的集成。在这一结合体系中,GPT-4可以像人类使用WolframAlpha一样,与WolframAlpha“对话”,WolframAlpha则会用其符号翻译能力将从GPT-4获得的自然语言表达“翻译”为对应的符号化计算语言。在过去,学术界在GPT-4使用的这类“统计方法”和WolframAlpha的“符号方法”上一直存在路线分歧。但如今GPT-4和WolframAlpha的互补,给NLP领域提供了更上一层楼的可能。

▲ChatGPT调用Wolfram(来源:Wolfram)

GPT-4不必生成这样的计算代码,只需生成常规自然语言,然后使用WolframAlpha翻译成精确的Wolfram Language,再由底层的Mathematica进行计算。

5.2.3 GPT-4的本地化与小型化

虽然GPT-4很强大,但其模型大小和使用成本也让很多人望而却步。

有三类模型压缩(model compression)技术可以降低模型的大小和成本。

第一种方法是量化(quantization),即降低单个权重的数值表示的精度。比如Transformer从FP32降到INT8对其精度影响不大,但是会显著提升计算效率。笔者团队已研发出INT4量级的Transformer高精度量化算法,无需再次训练或更改模型,即可部署到GPT-4算力平台上,大大提升计算效率并降低成本。

第二种模型压缩方法是剪枝(pruning),即删除GPT-4的网络元素,包括从单个权重(非结构化剪枝)到更高粒度的组件如权重矩阵的通道。这种方法在视觉和较小规模的语言模型中有效,也是很多框架(Framework)上自带的功能。

第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT可以将GPT系列模型单次剪枝到50%的稀疏性,而无需任何重新训练。当然这种稀疏结构目前还仅仅是基于GPU架构实现的,在其他硬件平台上并不兼容,而且GPT-4的稀疏化是否在综合成本上优于压缩还有待观察。

▲SparseGPT压缩流程(来源:ISTA)

06.

GPT-4的产业未来与投资机会

6.1 大模型的技术栈

GPT-4这类大模型的用户量巨大,算力需求巨大,连接的设备和软件众多。其技术栈具有更多组件,可包括用于容器化、性能监控、商业智能、事件处理、云服务、微服务和分析的工具。

GPT-4/ChatGPT等大模型的技术栈可以分为5层:

1)应用层:将生成的AI模型(可通过接口)集成到面向用户的应用程序,运行私有模型或通过第三方接口运行模型。这一层的应用企业最多。大量企业无需研发自有的大模型,即可使用GPT-4带来的人工智能协作能力和生成能力,形成各类应用。

2)接口层:包括各种调用API和数据中心调用工具,同时提供对应的提示工程接口和模型精调接口。接口层将应用层和模型层衔接,方便应用层调用,使得开发者和用户能够以编程方式与模型进行交互。这可以简化GPT-4在实际应用中的部署和调用,从而降低使用门槛。

3)模型层:包括各类开源或非开源模型,以及各种模型的共享平台。这一层提供了不同的模型数据和功能,通过接口层为应用层提供大模型的功能支持。

4)框架层:提供训练或云部署的深度学习框架和中间件等,包括PyTorch、TensorFlow等知名深度学习框架和中间件。

5)计算层:为模型层提供模型计算和调度的各种算力支持,为训练AI模型运行训练和运行推理任务提供基础设施。计算层包括了各种云计算平台和计算芯片。在这一层,AI芯片会是核心瓶颈。

▲GPT-4等大模型的技术栈

目前GPT-4的几乎所有内容都通过云计算GPU或TPU来运行,使用者包括运行训练工作的模型提供商/研究实验室、进行模型部署或精调的应用企业。在GPU替代CPU成为主要的AI算力芯片之后,AI界10多年来再一次受到大规模计算能力的限制。

截至目前,GPT-4这个领域目前还未看到非常明确的技术或产品护城河。由于使用相似的模型,应用层企业在早期可能会缺乏很强的产品差异化;由于大部分云服务提供方目前只能使用同一FAB生产的GPU作为主力算力芯片,普通云提供商实质上也难以提供成本或性价比的差异化。

GPT-4等大模型目前以同质化的模式进行构建,具备统一的“图像 自然语言”接口,因此短期内,除了模型参数本身不易训练好的壁垒外,暂时还未明确通过软件生态或数据管道建立自家独有竞争壁垒的路线。

就目前来说,我们还无法判断GPT-4这类多模态大模型领域是否会像互联网那样出现少数几家独大的情况。也许大模型的时代会是一个无中心的状态,每个团队都有可能成为英雄。

6.2 GPT-4的产业应用

AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比,代表人工智能构思内容的AIGC,是新一轮内容生产方式变革,而且AIGC内容在Web3.0时代也将出现指数级增长。

GPT-4模型的出现对于图像/文字/语音多模态的AIGC应用具有重要意义,会对AI产业上下游产生重大影响。

▲GPT-4的应用领域(修改自OpenAI)

GPT-4对依赖人类智能处理和生成的各个领域和行业具有许多潜在的应用和影响。与其考虑哪些细分领域可以使用GPT-4这类技术辅助人工,不如考虑哪些领域还不能用GPT-4辅助,后者的名单或许更短一些。

可以快速使用GPT-4的一些行业包括(可视为会快速变革的行业的预测):

1)教育行业:GPT-4可以作为想要学习新技能或学科的学生的辅导员或指导者。GPT-4还可以根据学生的学习目标和进度,为他们提供个性化的反馈和指导。

2)文娱行业:GPT-4作为讲故事的人或作曲家,为观众和平台输出原创且引人入胜的内容。GPT-4还可以用作游戏设计师或角色,为游戏玩家创造身临其境的互动体验。

3)商业:GPT-4可用作营销人员或销售人员,为顾客和客户创建有效且有说服力的话术。GPT-4还可以用作客户服务代理或聊天机器人,以快速准确地响应查询和投诉。

4)新闻:GPT-4可用作记者或编辑,以生成有关各种主题和事件的高质量和真实的新闻文章。GPT-4还可以用作新闻检查器或验证器,用于检测和纠正错误信息和假新闻。

5)医疗大健康:医生或可以使用GPT-4作为助手诊断和治疗患有各种疾病的患者。GPT-4也可以用作治疗师或健康顾问,提供心理健康支持和建议。

6)法律:GPT-4可以作为律师或法官助理起草和审查法律文件和合同。

7)生命科学:GPT-4及其模型的生物分支可用于从用于临床试验的合成数据创建到基于蛋白质折叠模型的生成式蛋白质设计以加速药物发现,再到学术论文的研究总结。虽然采用还处于早期阶段,但加速药物发现和批准、改善患者疗效和节省医疗成本的潜力是巨大的。

8)供应链和物流:借助GPT-4的思维链能力来进行自动化产品开发,包括设计和组件替换,从而以更低的成本生产出具有更高性能和可持续性的新产品。GPT-4还可支持文档自动化和合同生成,以更好的简化工作流程。

随着算法技术和算力技术的不断进步,GPT-4也会进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。

6.3 GPT-4对我们和未来的影响

GPT-4这类多模态大模型技术会对我们每个人的生活和工作产生一系列的影响。例如:

1)GPT-4会极大的影响宣传和社交。以后GPT-4这类技术会在互联网上横行,我们会很难分辨到底是“大众的声音”还是“中心服务器的声音”,大量没有主见的人可能会盲从于GPT-4这类技术生成的观点,人类会变成机器的复读机。同时GPT-4工具会大量渗透入普通人的社交,“唯有套路得人心”的场景会遍地开花。

2)AI大量替代低端重复性沟通和多模态工作。GPT-4会与机器人技术结合,从云渗透到端,进入每个人的日常生活。操作系统和办公软件的交互UI会大量被大模型主宰化。也许开始会有很多人因为AI技术的替代而失业,逐渐更多的人借助GPT-4这类技术获得更高的效率并成为自然语言程序员,人类开始剥削机器,创造力和自然情感成为人类能坚守的宝贵特质。

3)各种考核将从知识型考核转向综合能力考核。知道多少或者会什么外语已经不重要,工作经验或技术经验也只是看是否拥有更先进的GPT模型或算力。一些曾经的热门专业可能会逐渐凋落。人类下一代从人类“内卷”过渡到“人机互卷”,高层次能力竞争会更加激烈。

GPT-4这类多模态大模型到底会给我们每个人带来什么样的具体影响,也许是现在的我们还不能完全想象的。但这影响一定是巨大和深远的。毕竟“圣杯”的语义不仅仅代表贵重,也代表了神奇和不可思议,甚至是独一无二。

You May Also Like

More From Author