Chitrarth-1:Krutrim AI实验室的多语言VLM
印度的AI景观正在迅速发展,并有重大的进步和创新。 OLA集团公司Krutrim AI Labs是这一增长的关键参与者,最近揭示了Chitrarth-1,这是一种开创性的视觉语言模型(VLM)。 Chitrarth-1专为印度多样化的语言和文化背景而设计,支持十种主要的印度语言以及英语,这是针对多语言AI解决方案的关键需求。本文深入研究了Chitrarth-1及其对印度不断扩展的AI功能的影响。 目录的
表什么是chitrarth-1?
- > chitrarth-1体系结构和规格
- 培训数据和方法
- 阶段1:适配器预训练
- >阶段2:指令调整
- >访问Chitrarth-1
- > Chitrarth-1在Action
中 结论 - 什么是chitrarth-1?
> chitrarth-1(结合“ chitra” - 图像和“ artha” - 含义)是一个7.5亿个参数VLM,集成了先进的语言和视觉处理。 它为满足印度多种语言需求而建造的支持印地语,孟加拉语,泰卢固语,泰米尔语,马拉地语,古吉拉特语,卡纳达语,马拉雅拉姆语,奥迪亚,阿萨姆语和英语。 该模型体现了克鲁特里姆(Krutrim)对“为我们的国家,国家和我们的公民开发AI的承诺”。 它使用丰富的多语言数据集可以最大程度地减少偏见,并确保跨指示语言和英语的稳健性能,从而促进公平的AI访问。 Chitrarth-1的研究发表在领先的学术期刊上,包括Neurips和第九次机器翻译会议。
>
> chitrarth-1利用krutrim-7b llm作为基础,通过基于siglip(siglip-so400m-patch14-384)模型的视觉编码器增强。 关键建筑组件包括:
>用于图像特征提取的预训练的siglip视觉编码器。>可训练的线性映射层,以将项目图像特征到LLM的令牌空间中。
- 培训数据和方法 Chitrarth-1的培训涉及两个阶段,使用了庞大的多语言数据集:
阶段1:适配器预训练
- 在使用开源模型转换为多种指示语言的不同数据集上进行了预先训练。
- 维持英语和指示语言的平衡表示,以确保公平的表现。 旨在避免对任何单一语言的偏见,优化效率和鲁棒性。
- >
阶段2:指令调整
在复杂的指令数据集上进行了微调,以增强多模式推理功能。- >利用了基于英语的指令调查数据集及其多语言翻译。 >
- 包括一个视觉语言数据集,其中包含不同的印度图像(个性,纪念碑,艺术品,美食)。
- 合并平衡域表示的高质量专有英语文本数据。
- 性能和基准测试
Chitrarth-1对IdeFics 2(7b)和Palo 7b等领先的VLM进行了严格的测试,在各种基准上表现不佳,同时在诸如TextVQA和Vizwiz等任务上保持竞争力。它还超过了关键指标中的Llama 3.2 11B视觉指导。 克鲁特里姆(Krutrim)推出了Bharatbench,这是一个新的评估套件,用于在三个任务中使用十种资源不足的指示语言,为将来的研究建立了基线,并突出了Chitrarth-1有效地处理这些语言的能力。 样本Bharatbench结果如下所示:
有关更多详细信息,请单击此处。
>访问Chitrarth-1
> Chitrarth-1可以通过以下方式访问:
- >拥抱面:直接使用或微调。 (单击此处访问)
- github:(原始文章中提供的代码) >
- krutrim云:(单击此处探索) >
> Chitrarth-1在Action
结论
OLA集团的一个部门> krutrim AI实验室致力于建立AI计算的未来。 以Chitrarth-1以及其他产品(例如GPU)作为服务,AI工作室等等,他们正在建立一个新的包容性,具有文化敏感的AI的标准,从而促进了更公平的技术景观。
以上是Chitrarth-1:Krutrim AI实验室的多语言VLM的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

本文比较了诸如Chatgpt,Gemini和Claude之类的顶级AI聊天机器人,重点介绍了其独特功能,自定义选项以及自然语言处理和可靠性的性能。

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

文章讨论了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的写作助手,重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色,而AI工具有助于保持音调的组成

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

介绍 想象一下,穿过美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?
