首页 科技周边 人工智能 微调Google Gemma:使用自定义说明增强LLM

微调Google Gemma:使用自定义说明增强LLM

Mar 07, 2025 am 10:01 AM

Google Deepmind的Gemma:深入研究开源LLMS

> AI景观正在嗡嗡作响,尤其是关于开源大语模型(LLM)的活动。 诸如Google,Meta和Twitter之类的科技巨头越来越拥抱开源开发。 Google DeepMind最近揭露了Gemma,这是一个使用与Google的Gemini Models相同的基础研究和技术建造的轻巧的开源LLM家族。本文探讨了Gemma模型,通过Cloud GPU和TPU的可访问性,并提供了一个逐步指南,以在角色扮演数据集上微调Gemma 7b-it模型。

>

了解Google的Gemma

gemma(拉丁语中的“珍贵石头”)是一个主要由Google DeepMind开发的仅是解码的,文本到文本开放的模型。 受双子座模型的启发,Gemma设计用于轻巧的操作和广泛的框架兼容性。 Google已发布了两个Gemma尺寸的模型权重:2B和7B,每个型号都有预训练和指导调节的变体(例如Gemma 2b-it和Gemma 7b-it)。 Gemma的性能与其他开放模型相媲美,特别是在各种LLM基准测试中胜过Meta的Llama-2。

Fine Tuning Google Gemma: Enhancing LLMs with Customized Instructions 图像源

Gemma的多功能性扩展到对多个框架(Keras 3.0,Pytorch,Jax,Hugging Face Transformers)和多样的硬件(笔记本电脑,台式机,物联网设备,移动和云)的支持。 使用流行的机器学习框架可以在自由云TPU上进行推理和监督微调(SFT)。 此外,Google与Gemma一起提供了一个负责任的生成AI工具包,为开发人员提供了创建更安全的AI应用程序的指导和工具。 鼓励AI和LLM的初学者探索基础知识的AI基础知识技能。

>访问Google的Gemma模型

访问Gemma很简单。 可以通过Huggingchat和Poe获得免费访问。 通过从拥抱面孔下载模型权重并利用GPT4ALL或LMSTUDIO来下载模型权重,也可以使用本地用法。 本指南重点是使用Kaggle的Free GPU和TPU进行推理。

>在TPU上运行Gemma推断

>使用keras在TPU上运行gemma推断,请按照以下步骤:
  1. >导航到keras/gemma,选择“ gemma_instruct_2b_en”模型变体,然后单击“新笔记本”。
  2. 在右面板中,选择“ TPU VM VM V3-8”作为加速器。
  3. >
  4. 安装必要的python库:
!pip install -q tensorflow-cpu
!pip install -q -U keras-nlp tensorflow-hub
!pip install -q -U keras>=3
!pip install -q -U tensorflow-text
登录后复制
    使用
  1. > jax.devices()验证tpu可用性
  2. set
  3. 作为keras后端:jaxos.environ["KERAS_BACKEND"] = "jax">
  4. >使用
  5. 加载模型,并使用keras_nlp>函数生成文本。generate>

Fine Tuning Google Gemma: Enhancing LLMs with Customized Instructions 图像源

在GPU上运行Gemma推断

用于使用变压器的GPU推断,请按照以下步骤:

>导航到Google/gemma,选择“变形金刚”,选择“ 7b-it”变体,然后创建一个新笔记本。
  1. 选择GPT T4 X2作为加速器。
  2. >
  3. >安装所需软件包:
%%capture
%pip install -U bitsandbytes
%pip install -U transformers
%pip install -U accelerate
登录后复制
>使用用于VRAM管理的bitsandbytes使用4位量化的模型。>
    加载令牌。
  1. >创建一个提示,将其传递给模型,解码输出并显示结果。
图像源

Fine Tuning Google Gemma: Enhancing LLMs with Customized Instructions >微调Google的Gemma:逐步指南>

本节使用Kaggle P100 GPU。

>设置

hieunguyenminh/roleplay安装必要的软件包:

  1. 导入所需的库。
>定义基本模型,数据集和微调模型名称的变量。
%%capture 
%pip install -U bitsandbytes 
%pip install -U transformers 
%pip install -U peft 
%pip install -U accelerate 
%pip install -U trl
%pip install -U datasets
登录后复制
    >使用您的API键登录以拥抱Face CLI。
  1. >
  2. 初始化重量和偏见(W&B)工作区。>
  3. 加载数据集
  4. >加载角色扮演数据集的前1000行。
  5. 加载模型和令牌
>使用带有bitsandbytes的4位精度加载Gemma 7b-It模型。加载令牌仪并配置垫子令牌。

添加适配器层

>添加一个Lora适配器层以有效微调模型。

训练模型

定义培训参数(超参数)并创建一个sfttrainer。 使用

训练模型

保存模型

>在本地保存微调模型,然后将其推到拥抱的脸上轮毂。

模型推理

使用微调模型生成响应。.train()

gemma 7b与角色扮演适配器的推断

本节演示了如何加载基本模型和训练有素的适配器,将其合并并生成响应。

最终想法

Google发布的Gemma的发布表示向AI开源协作的转变。 本教程提供了使用和微调Gemma模型的综合指南,突出了开源开发和云计算资源的力量。 下一步是使用Langchain等框架构建您自己的基于LLM的应用程序。

>

以上是微调Google Gemma:使用自定义说明增强LLM的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1663
14
CakePHP 教程
1420
52
Laravel 教程
1313
25
PHP教程
1266
29
C# 教程
1239
24
开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

10个生成AI编码扩展,在VS代码中,您必须探索 10个生成AI编码扩展,在VS代码中,您必须探索 Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

AV字节:Meta' llama 3.2,Google的双子座1.5等 AV字节:Meta' llama 3.2,Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

视觉语言模型(VLMS)的综合指南 视觉语言模型(VLMS)的综合指南 Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

最新的最佳及时工程技术的年度汇编 最新的最佳及时工程技术的年度汇编 Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题

3种运行Llama 3.2的方法-Analytics Vidhya 3种运行Llama 3.2的方法-Analytics Vidhya Apr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式联运AI强力 Meta的最新多模式模型Llama 3.2代表了AI的重大进步,具有增强的语言理解力,提高的准确性和出色的文本生成能力。 它的能力t

See all articles