谷歌掀桌子!开源Gemma:可商用,性能超过Llama 2!

news/2024/9/8 9:40:11

2月22日,谷歌在官网宣布,开源大语言模型Gemma。

Gemma与谷歌最新发布的Gemini 使用了同一架构,有20亿、70亿两种参数,每种参数都有预训练和指令调优两个版本。

根据谷歌公布的测试显示,在MMLU、BBH、GSM8K等主流测试平台中,其70亿模型在数学、推理、代码的能力超过Llama-2的70亿和130亿,成为最强小参数的类ChatGPT模型。

目前,Gemma可以商用,并且普通笔记本、台式机就能跑,无需耗费巨大的AI算力矩阵。

Kaggle地址:https://www.kaggle.com/models/google/gemma/code/

huggingface地址:https://huggingface.co/models?search=google/gemma

技术报告:https://goo.gle/GemmaReport

图片

谷歌作为贡献出Transformers、TensorFlow、BERT、T5、JAX、AlphaFold等一系列改变世界AI发展的宗师级大师,在生成式AI领域却一直落后于OpenAI。

不仅如此,开源领域还打不过类ChatGPT开源鼻祖Meta的Llama系列。痛定思痛之后,谷歌决定重新加入开源阵营,以抢夺开发者和用户。

Gemma简单介绍

谷歌表示,Gemma之所以性能如此强悍,主要是使用了与Gemini相同的技术架构。

更详细的开发者指南:https://ai.google.dev/gemma/docs?utm_source=agd&utm_medium=referral&utm_campaign=quickstart-docu

Gemini的基础架构建立在Transformer编码器结构之上,通过多层自注意力和前馈神经网络来建模序列依赖性。不同的是Gemini采用了多查询注意力机制,可处理超复杂长文本。

图片

具体来说,模型首先将输入序列的每个位置编码成多组查询向量。然后,将这些查询向量并行地与键值对进行批量注意力运算,得到多个注意力结果。

除了开源模型权重,谷歌还推出Responsible Generative AI Toolkit等一系列工具,为使用Gemma提供更安全的AI应用程序提供指导。

目前,Gemma开放了两个版本:预训练,该版本未针对 Gemma 核心数据训练集以外的任何特定任务或指令进行训练;指令微调,通过人类语言互动进行训练,可以响应对话输入,类似ChatGPT聊天机器人。

跨框架、工具和硬件,对Gemma进行优化

开发者可以根据自己的数据微调 Gemma 模型,以适应特定的应用程序需求,例如,生成摘要/文本或检索增强生成 (RAG)等。Gemma 支持以下多种工具和系统:

多框架工具:可跨多框架 Keras 3.0、本机 PyTorch、JAX 和 Hugging Face Transformers 进行推理和微调。

跨设备兼容性:Gemma可以跨多种设备类型运行,包括笔记本电脑、台式机、物联网、移动设备和云,从而实现广泛的 AI 功能。

图片

高级硬件平台:谷歌与NVIDIA合作,针对 NVIDIA GPU 优化 Gemma模型,从数据中心到云端再到本地RTX AI PC,提供行业领先的性能并与尖端AI技术集成。

针对 Google Cloud 进行了优化:Vertex AI 提供广泛的 MLOps 工具集,具有一系列调整选项,并可使用内置推理优化功能进行一键式部署。

高级定制功能可通过完全管理的顶点人工智能工具或自我管理的GKE 实现,包括部署到 GPU、TPU 和 CPU 平台上具有成本效益的基础设施。

Gemma性能测试

谷歌在MMLU、BBH、GSM8K等主流测试平台中,用Gemma 70亿模型与Llama-2、Mistral在数学、推理、代码等方面进行了深度测试。

Gemma的标准学术基准测试平均分数都高于同规模的Llama 2和Mistral模型。甚至在一些关键能力方面,高于Llama-2 130亿参数模型。

图片

也就是说,Gemma是一款参数很小,性能却异常强悍的大模型。

本文素材来源谷歌官网,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.cpky.cn/p/9749.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

掌握ChatGPT润色绝技:什么是人工智能写作以及如何使用它来完成写作任务

如对AI写论文感兴趣,欢迎添加作者wx讨论 : ryan_2982 人工智能 (AI) 的出现开创了技术进步的新时代,彻底改变了包括写作和内容创作在内的各个行业。人工智能写作和人工智能提示已成为可以简化和增强写作任务的强大工具。在这篇博文中,我们将…

stm32——hal库学习笔记(DAC)

这里写目录标题 一、DAC简介(了解)1.1,什么是DAC?1.2,DAC的特性参数1.3,STM32各系列DAC的主要特性 二、DAC工作原理(掌握)2.1,DAC框图简介(F1)2.2…

小程序应用、页面、组件生命周期

引言 微信小程序生命周期是指在小程序运行过程中,不同阶段触发的一系列事件和函数。这一概念对于理解小程序的整体架构和开发流程非常重要。本文将介绍小程序生命周期的概念以及在不同阶段触发的关键事件,帮助开发者更好地理解和利用小程序的生命周期。 …

Doris实战——美联物业数仓

目录 一、背景 1.1 企业背景 1.2 面临的问题 1.3 需求 1.4 首期目标 二、早期架构 三、新的架构及方案 3.1 业务架构 3.2 数据模型 3.2.1 纵向分域 3.2.2 横向分层 3.2.3 增量策略 3.2.4 全量策略 四、实践经验 原文大佬的这篇Doris数仓的实战文章写的挺全面&…

Linux---权限管理(ACL权限、特殊位和隐藏属性)

目录 1.ACT权限 1.1什么是ACT权限 1.2ACT图解 2.操作步骤 2.1添加测试目录、用户、组,并将用户添加到组 2.2修改目录的所有者和所属组 2.3设定权限 2.4为临时用户分配权限 2.4.1添加临时用户 2.4.2为临时用户分配特定权限 2.4.3查看目录权限,注…

【进程创建】

目录 进程创建的方式查看进程pid 调用系统调用创建子进程fock函数做了的工作子进程刚开始创建的状态 一个变量,两个不同的值创建子进程的作用 进程创建的方式 1.在操作系统上输入的指令。 2.已经启动的软件。 3.程序员在代码层面上调用系统调用创建进程。 linux中第…