七个很酷的GenAI & LLM技术性面试问题
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/
译者 | 晶颜
审校 | 重楼
不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。
大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。 LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本和回答问题,与人类进行对话,并提供准确和有价值的信息。 GenAI依赖于LLM的算法和模型,可以生成各种具有创造
然而,尽管GenAI和LLM越来越常见,但我们依然缺少能深入理解其复杂性的详细资源。职场新人在进行GenAI和LLM功能以及实际应用的面试时,往往会觉得自己像是陷入了未知领域。
为此,我们编写了这份指导手册,记录了有关GenAI & LLM的技术性面试问题。这份指南配有深入的答案,旨在帮助您更好地迎接面试,以充足的信心来应对挑战,并更深层次地理解GenAI & LLM在塑造人工智能和数据科学未来方面的影响和潜力。
1. 如何在Python中使用嵌入式字典构建知识图谱?
一种方法是使用哈希(Python中的字典,也称为键-值表),其中键(key)是单词、令牌、概念或类别,例如“数学”(mathematics)。每个键(key)对应一个值(value),这个值本身就是一个哈希:嵌套哈希(nested hash)。嵌套哈希中的键也是一个与父哈希中的父键相关的单词,例如“微积分”(calculus)之类的单词。该值是一个权重:“微积分”的值高,因为“微积分”和“数学”是相关的,并且经常出现在一起;相反地,“餐馆”(restaurants)的值低,因为“餐馆”和“数学”很少出现在一起。
在LLM中,嵌套哈希可能是embedding(一种将高维数据映射到低维空间的方法,通常用于将离散的、非连续的数据转换为连续的向量表示,以便于计算机进行处理)。由于嵌套哈希没有固定数量的元素,因此它处理离散图谱的效果远远好于矢量数据库或矩阵。它带来了更快的算法,且只需要很少的内存。
2. 当数据包含1亿个关键字时,如何进行分层聚类?
如果想要聚类关键字,那么对于每一对关键字{A, B},你可以计算A和B之间的相似度,获悉这两个词有多相似。目标是生成相似关键字的集群。
Sklearn等标准Python库提供凝聚聚类(agglomerative clustering),也称为分层聚类(hierarchical clustering)。然而,在这个例子中,它们通常需要一个1亿x 1亿的距离矩阵。这显然行不通。在实践中,随机单词A和B很少同时出现,因此距离矩阵是非常离散的。解决方案包括使用适合离散图谱的方法,例如使用问题1中讨论的嵌套哈希。其中一种方法是基于检测底层图中的连接组件的聚类。
3. 如何抓取像Wikipedia这样的大型存储库,以检索底层结构,而不仅仅是单独的条目?
这些存储库都将结构化元素嵌入到网页中,使内容比乍一看更加结构化。有些结构元素是肉眼看不见的,比如元数据。有些是可见的,并且也出现在抓取的数据中,例如索引、相关项、面包屑或分类。您可以单独检索这些元素,以构建良好的知识图谱或分类法。但是您可能需要从头开始编写自己的爬虫程序,而不是依赖Beautiful Soup之类的工具。富含结构信息的LLM(如xLLM)提供了更好的结果。此外,如果您的存储库确实缺乏任何结构,您可以使用从外部源检索的结构来扩展您的抓取数据。这一过程称为“结构增强”(structure augmentation)。
4. 如何用上下文令牌增强LLM embeddings?
Embeddings由令牌组成;这些是您可以在任何文档中找到的最小的文本元素。你不一定要有两个令牌,比如“数据”和“科学”,你可以有四个令牌:“数据^科学”、“数据”、“科学”和“数据~科学”。最后一个表示发现了“数据科学”这个词。第一个意思是“数据”和“科学”都被发现了,但是在一个给定段落的随机位置,而不是在相邻的位置。这样的令牌称为多令牌(multi-tokens)或上下文令牌。它们提供了一些很好的冗余,但如果不小心,您可能会得到巨大的embeddings。解决方案包括清除无用的令牌(保留最长的一个)和使用可变大小的embeddings。上下文内容可以帮助减少LLM幻觉。
5. 如何实现自校正(self-tuning)以消除与模型评估和训练相关的许多问题?
这适用于基于可解释人工智能的系统,而不是神经网络黑匣子。允许应用程序的用户选择超参数并标记他喜欢的那些。使用该信息查找理想的超参数并将其设置为默认值。这是基于用户输入的自动强化学习。它还允许用户根据期望的结果选择他最喜欢的套装,使您的应用程序可定制。在LLM中,允许用户选择特定的子LLM(例如基于搜索类型或类别),可以进一步提高性能。为输出结果中的每个项目添加相关性评分,也有助于微调您的系统。
6. 如何将矢量搜索的速度提高几个数量级?
在LLM中,使用可变长度(variable-length)embeddings极大地减少了embeddings的大小。因此,它可以加速搜索,以查找与前端提示符中捕获到的相似的后端embeddings。但是,它可能需要不同类型的数据库,例如键-值表(key-value tables)。减少令牌的大小和embeddings表是另一个解决方案:在一个万亿令牌系统中,95%的令牌永远不会被提取来回答提示。它们只是噪音,因此可以摆脱它们。使用上下文令牌(参见问题4)是另一种以更紧凑的方式存储信息的方法。最后,在压缩embeddings上使用近似最近邻搜索(approximate nearest neighbor,ANN)来进行搜索。概率版本(pANN)可以运行得快得多,见下图。最后,使用缓存机制来存储访问最频繁的embeddings 或查询,以获得更好的实时性能。
概率近似最近邻搜索(pANN)
根据经验来看,将训练集的大小减少50%会得到更好的结果,过度拟合效果也会大打折扣。在LLM中,选择几个好的输入源比搜索整个互联网要好。对于每个顶级类别都有一个专门的LLM,而不是一刀切,这进一步减少了embeddings的数量:每个提示针对特定的子LLM,而非整个数据库。
7. 从你的模型中获得最佳结果的理想损失函数是什么?
最好的解决方案是使用模型评估指标作为损失函数。之所以很少这样做,是因为您需要一个损失函数,它可以在神经网络中每次神经元被激活时非常快地更新。在神经网络环境下,另一种解决方案是在每个epoch之后计算评估指标,并保持在具有最佳评估分数的epoch生成解决方案上,而不是在具有最小损失的epoch生成解决方案上。
我目前正在研究一个系统,其中的评价指标和损失函数是相同的。不是基于神经网络的。最初,我的评估指标是多元Kolmogorov-Smirnov距离(KS)。但如果没有大量的计算,在大数据上对KS进行原子更新(atomic update)是极其困难的。这使得KS不适合作为损失函数,因为你需要数十亿次原子更新。但是通过将累积分布函数(cumulative distribution)改变为具有数百万个bins参数的概率密度函数(probability density function),我能够想出一个很好的评估指标,它也可以作为损失函数。
原文标题:7 Cool Technical GenAI & LLM Job Interview Questions,作者:Vincent Granville
链接:https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/。
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/
以上是七个很酷的GenAI & LLM技术性面试问题的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

译者|布加迪审校|重楼本文介绍了如何使用GroqLPU推理引擎在JanAI和VSCode中生成超快速响应。每个人都致力于构建更好的大语言模型(LLM),例如Groq专注于AI的基础设施方面。这些大模型的快速响应是确保这些大模型更快捷地响应的关键。本教程将介绍GroqLPU解析引擎以及如何在笔记本电脑上使用API和JanAI本地访问它。本文还将把它整合到VSCode中,以帮助我们生成代码、重构代码、输入文档并生成测试单元。本文将免费创建我们自己的人工智能编程助手。GroqLPU推理引擎简介Groq

通过将检索增强生成和语义记忆纳入AI编码助手,提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。虽然基本AI编程助手自然有帮助,但由于依赖对软件语言和编写软件最常见模式的总体理解,因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题,但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议,以便将代码接受到应

Plaud Note AI 录音机(亚马逊有售,售价 159 美元)背后的公司 Plaud 宣布推出一款新产品。该设备被称为 NotePin,被描述为人工智能记忆胶囊,与 Humane AI Pin 一样,它是可穿戴的。 NotePin 是

想了解更多AIGC的内容,请访问:51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本

大型语言模型(LLM)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合

图检索增强生成(GraphRAG)正逐渐流行起来,成为传统向量搜索方法的有力补充。这种方法利用图数据库的结构化特性,将数据以节点和关系的形式组织起来,从而增强检索信息的深度和上下文关联性。图在表示和存储多样化且相互关联的信息方面具有天然优势,能够轻松捕捉不同数据类型间的复杂关系和属性。而向量数据库则处理这类结构化信息时则显得力不从心,它们更专注于处理高维向量表示的非结构化数据。在RAG应用中,结合结构化化的图数据和非结构化的文本向量搜索,可以让我们同时享受两者的优势,这也是本文将要探讨的内容。构

从 Gemini 1.5 Pro 大语言模型 (LLM) 开始,Google AI 已开始为开发人员提供扩展上下文窗口和节省成本的功能。以前可通过等候名单获得完整的 200 万个代币上下文窗口
