百度发布文心一言ERNIE 4.5和X1模型 成本仅为GPT-4.5的1%

文心一言

中国在人工智能模型方面又一次取得了成功,而且这次的打击更大、更好!百度最近发布了两个大型语言模型(LLM)–文心一言 ERNIE 4.5 和 X1。这些模型声称比 OpenAI 迄今为止最新、最伟大的模型 GPT-4.5 性能更好,比 DeepSeek-R1 更划算!这些模型似乎好得不像真的–以极低的价格提供高品质。在本文中,我们将探讨 ERNIE 4.5 和 X1 型号,评估它们的基准测试结果,并了解它们在实际应用中的表现。

什么是ERNIE 4.5和X1?

ERNIE 4.5 和 X1 是两款最新的多模态 LLM,由中国领先的科技公司百度开发,百度专注于互联网服务、人工智能和自动驾驶。百度因其在中国占据主导地位的搜索引擎和人工智能驱动的创新而闻名。早在 2021 年 12 月,百度就推出了第一款 LLM,即 ERNIE 3.0 Titan。之后,百度又发布了几个模型,同时致力于构建更强大的 LLM。ERNIE4.5和X1就是所有研究和持续努力的成果。

ERNIE 4.5

ERNIE 4.5 是一个多模式基础模型,能够理解和整合各种数据类型,包括文本、图像、音频和视频。这种多样化的建模方法增强了它理解和生成不同类型内容的能力。

以下是ERNIE 4.5的一些主要特点:

  • ERNIE4.5在理解、生成、推理和记忆方面比上一代ERNIE4.0有了全面的改进。
  • 它在防止幻觉、逻辑推理和编码方面显示出强大的能力,使其能够以更高的准确性处理复杂的任务。
  • 该模型在多个基准测试中的表现甚至优于 OpenAI 的 GPT-4.5,而其成本仅为 GPT-4.5 的 1%!

ERNIE X1

ERNIE X1 被设计为具有多模态能力的深度思维推理模型。它是百度发布的首个深度思维模型。以下是它的一些主要特点:

  • ERNIE X1 在理解上下文、规划思维过程、反思反应和随时间演变方面表现出色。
  • 它能够自主利用各种工具完成高级搜索、图像理解和复杂计算等任务。
  • 该模型的性能与 DeepSeek-R1 不相上下,但价格仅为后者的一半,为寻求高级人工智能功能的企业提供了一种经济高效的解决方案。

如何访问ERNIE 4.5和X1?

您可以通过人工智能聊天机器人(ERNIE Bot)或API访问ERNIE 4.5和X1。

通过机器人访问:

在百度的 ERNIE Bot 平台上,个人用户可以自由访问这两种模型。不过,ERNIE Bot 目前仅限中国公民注册。

通过 API 访问:

  • 前往百度 AI 云的 MaaS 平台千帆
  • 在平台上创建账户,即可开始使用。

目前,所有用户都无法访问该平台。此外,只有 ERNIE 4.5 可以通过 API 访问,而 ERNIE X1 将很快在平台上推出。

ERNIE 4.5 和 X1 性能检测

在本节中,我们将了解这些模型在多媒体、推理、文档分析等任务中的表现。由于模型界面仅支持中文,且账户创建仅限于中国公民,我们将通过一些实例来了解人们是如何使用这两个模型的,以及他们所获得的输出结果。我们将介绍一些我们在网上发现的 ERNIE 4.5 和 X1 最常见的使用案例,包括

  1. 图像分析推理
  2. 文档分析与总结
  3. 音频分析
  4. 创意和图像生成

任务 1:推理 + 图像分析

在这项任务中,要求模型解决以图像形式给出的数学问题。

使用的模型:ERNIE 4.5

输出:

与其他大多数多模态 LLM 一样,ERNIE 4.5 可快速分析视频并解决图像中的问题。它对图像中的所有问题逐一进行分析,最后将所有问题汇总。ERNIE4.5的速度和准确性使其成为学生、教育工作者、研究人员和需要快速准确解决问题的专业人员的有用工具。

任务 2:文档分析与总结

在这项任务中,该模型得到了一份文档,它必须总结出该文档中关于特定主题的信息。

使用的模型:ERNIE 4.5

输出:

该模型允许您同时上传多个不同类型的文件。它能够处理不同类型的文件,包括文档、PDF、PPT、Excel 表等。您可以从上传的文件中选择一个(或多个)要询问聊天机器人的文件,然后聊天机器人会快速总结主题。它能快速处理多个文件,对研究分析、法律文件审查、财务数据提取和公司报告等任务非常有用。

任务 3:音频分析

在这项任务中,模型必须分析给定的音频并找到其来源。

使用的模型:ERNIE 4.5

输出:

音频分析功能是所有流行的人工智能聊天机器人都没有在其界面中加入的功能,ERNIE 4.5 是第一个。该模型能快速分析片段,确定其来源,甚至还能继续描述片段的意义。它的快速分析和详细描述,使其成为媒体、客户服务、教育和执法部门进行实时转录、语音搜索、深度伪造检测和情感分析等任务的重要工具。

任务 4:创意+图像生成

在这项任务中,模型必须对房间进行分析,并提出可能的装饰建议,以增强房间的整体吸引力。然后,它还必须生成房间的最新图像。

使用的模型:ERNIE X1

输出:

模型快速处理图像。然后,它对房间的装饰提出可能的改进建议,以增强整体吸引力。最后,它会生成包含所有改进建议的房间图像。这项功能是室内设计、房屋装修规划、房地产分期和虚拟装饰可视化等任务的重要补充。

百度ERNIE 4.5和X1:价格

与 OpenAI、DeepSeek、Grok、Claude 等公司的顶级模型相比,ERNIE 4.5 和 X1 拥有所有甚至更多功能。以下是两种模型的价格明细:

模型 输入价格(每百tokens) 输出价格(每百tokens) 可用性
ERNIE 4.5 $0.55 $2.20 可用
ERNIE X1 $0.28 $1.10 暂未

与其他顶级模型相比,ERNIE 4.5 和 X1 的价格要低得多,这使它们成为促进生成式人工智能发展的宝贵资产。

ERNIE 4.5 和 X1 的价格要低得多

ERNIE 4.5 & x1:标准基准测试结果

我们已经了解了 ERNIE 最新模型的特性、功能和价格。现在让我们看看这些型号与 GPT-4.5、GPT-4o、DeepSeek-R1 等顶级型号的性能对比。

下图比较了 ERNIE 4.5 和 GPT-4o 在多个测试多模态 AI 性能的基准测试中的表现。

比较 ERNIE 4.5 和 GPT-4o

图表显示:

  • 在大多数多模式任务中,ERNIE 4.5 的表现都优于 GPT-4o。
  • ERNIE 4.5 的平均得分是 77.77,高于 GPT-4o 的 73.92。
  • ERNIE 4.5 在 MathVista 和 DocVQA 中优势明显,显示出更好的数学推理和基于文档的问题解答能力。
  • 两个模型在OCRBench和MMMU中的表现相似,但ERNIE 4.5仍略胜一筹。

下图比较了 ERNIE 4.5、DeepSeek V3 – Chat、GPT-4o 和 GPT-4.5 在基于文本的推理和问题解决的多个基准测试中的表现。

基于文本的推理和问题解决的多个基准测试

以下是从图表中得出的一些主要结论:

  • ERNIE 4.5 以 79.6 的平均分遥遥领先,以 79.14 的微弱优势超过 DeepSeek V3 – Chat。
  • 它在常识、推理和编程基准测试(如 MMLU-Pro、GSM8K 和 HumanEval+)中表现出色。
  • GPT-4o 和 DeepSeek V3 也取得了优异成绩,DeepSeek V3 在 CMMLU 等中文基准测试中表现出色。
  • ERNIE 4.5在GSM8K(数学)和C-Eval(一般推理)中表现出色,尽管DeepSeek V3的性能非常接近。

未来影响

顶级 LLM 的竞争日趋白热化,百度的 ERNIE 4.5 和 X1 为 OpenAI、DeepSeek、Anthropic 和 Meta 带来了激烈的竞争。随着中国人工乐虎国际手机版下载实验室以极低的成本提供可与西方人工乐虎国际手机版下载相媲美甚至超越西方人工乐虎国际手机版下载的模型,企业将被迫加快创新,降低成本,以保持竞争力。

所有这些进步最终将导致

  • 所有主要人工智能研究中心的人工智能进步更快。
  • 为企业和开发人员提供更实惠的人工智能。
  • 多模态人工智能应用的新时代,超越传统的基于文本的人工智能。

小结

百度的 ERNIE 4.5 和 X1 模型不仅仅是另一套人工智能模型,它们还是行业的颠覆者。它们卓越的多模态和推理能力、低廉的价格以及与中国数字生态系统的深度融合,预示着全球人工智能市场的力量转移。

如果这一趋势继续下去,我们将看到更大规模的人工智能民主化和在各行各业的推广。这也将推动许多西方公司推出更便宜的模型。这不仅会增加市场竞争力,还能确保用户获得最高性价比。

评论留言