目录
学习成果
目录
为什么熊猫描述()还不够?
默认关注数字数据
非数字数据的摘要有限
没有有关丢失数据的信息
缺乏高级指标
数据可视化不佳
轻薄开始
为什么轻弹更好?
所有数据类型的统一摘要
内置处理丢失的数据
高级统计见解
文本列的丰富摘要
紧凑和直观的视觉效果
对分类变量的内置支持
使用轻薄的数据摘要
步骤1:简易导入并准备数据集
步骤2:应用Skim()函数
步骤3:解释简易的摘要
步骤4:专注于关键见解
步骤5:自定义简易输出
使用轻薄的优点
结论
关键要点
常见问题
首页 科技周边 人工智能 轻薄:pandas替代数据摘要()

轻薄:pandas替代数据摘要()

Mar 17, 2025 am 10:18 AM

数据摘要是任何数据分析工作流程中必不可少的第一步。尽管Pandas的Drescrip()函数一直是许多人的首选工具,但其功能仅限于数字数据,仅提供基本统计信息。输入Skimpy,这是一个python库,旨在为所有列类型提供详细,视觉吸引力和全面的数据摘要。

在本文中,我们将探讨为什么轻弹是Pandas描述的值得替代的()。您将学习如何安装和使用轻薄的功能,探索其功能,并通过示例将其输出与Decording()进行比较。到最后,您将完全了解微薄的增强探索性数据分析(EDA)。

学习成果

  • 了解熊猫的描述函数的局限性。
  • 了解如何在Python中安装和实现轻薄的。
  • 通过示例探索轻薄的详细输出和见解。
  • 比较Skimpy和Pandas的输出()。
  • 了解如何将轻薄的数据集成到您的数据分析工作流程中。

目录

  • 为什么熊猫描述()还不够?
  • 轻薄开始
  • 为什么轻弹更好?
  • 使用轻薄的数据摘要
  • 使用轻薄的优点
  • 结论
  • 常见问题

为什么熊猫描述()还不够?

PANDAS中的Drescrive()函数被广泛用于快速总结数据。尽管它是探索性数据分析(EDA)的强大工具,但其效用在几个方面受到限制。这是其缺点以及用户经常寻求诸如Skimpy之类的替代方案的详细细分:

默认关注数字数据

默认情况下,descript()仅在数字列上工作,除非另有明确配置。

例子:

导入大熊猫作为pd  

数据= {  
    “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”],  
    “年龄”:[25,30,35,40],  
    “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”],  
    “薪金”:[70000,80000,120000,90000],  
}  

df = pd.dataframe(数据)  
打印(df.describe())
登录后复制

输出:

 年龄薪水  
计数4.000000 4.000000  
平均32.500000 90000.000000  
STD 6.454972 20000.000000  
最小25.000000 70000.000000  
25%28.750000 77500.000000  
50%32.500000 85000.000000  
75%36.250000 97500.000000  
最大40.000000 120000.000000
登录后复制

关键问题:

除非您明确调用描述(包括='all'),否则非数字列(名称和城市)将被忽略。即使那样,对于非数字列的输出范围仍然有限。

非数字数据的摘要有限

当使用非数字列使用include ='all'时,摘要是最小的。它仅显示:

  • 计数:非错失值的数量。
  • 唯一:唯一价值的计数。
  • 顶部:最常见的值。
  • FREQ:最高值的频率。

例子:

打印(df.describe(include =“ all”))
登录后复制

输出:

 名称城市工资  
计数4 4.0 4 4.000000  
独特的4 nan 4 nan  
顶级爱丽丝宁纽约南  
弗雷克1 nan 1 nan  
平均NAN 32.5 NAN 90000.000000  
STD NAN 6.5 NAN 20000.000000  
Min Nan 25.0 Nan 70000.000000  
25%NAN 28.8 NAN 77500.000000  
50%NAN 32.5 NAN 85000.000000  
75%NAN 36.2 NAN 97500.000000  
MAX NAN 40.0 NAN 120000.000000
登录后复制

关键问题:

  • 使用过于基本的指标(例如,TOP,FREQ)总结了字符串列(名称和城市)。
  • 对字符串长度,模式或缺少数据比例没有见解。

没有有关丢失数据的信息

熊猫的描述()并未明确显示每列缺少数据的百分比。识别丢失的数据需要单独的命令:

打印(df.isnull()。sum())
登录后复制

缺乏高级指标

describ()提供的默认指标是基本的。对于数字数据,它显示:

  • 计数,平均值和标准偏差。
  • 最小,最大和四分位数(25%,50%和75%)。

但是,它缺乏高级统计细节,例如:

  • 峰度和偏度:数据分布的指标。
  • 异常检测:没有典型范围以外的极值的指示。
  • 自定义聚合:应用用户定义的功能的灵活性有限。

数据可视化不佳

Defict()输出纯文本摘要,虽然功能性,但在某些情况下并不具有视觉吸引力或易于解释。可视化趋势或分布需要其他图书馆,例如matplotlib或seaborn。

示例:直方图或箱形图可以更好地表示分布,但是Deforce()不提供此类视觉功能。

轻薄开始

Skimpy是一个python库,旨在简化和增强探索性数据分析(EDA)。它提供了数据的详细和简洁摘要,有效地处理数字和非数字列。与熊猫的描述()不同,轻薄的包括高级指标,缺少的数据见解以及更清洁,更直观的输出。这使其成为快速了解数据集,识别数据质量问题以及为更深入分析做准备的绝佳工具。

使用PIP安装轻薄的:
在终端或命令提示符中运行以下命令:

 PIP安装轻薄
登录后复制

验证安装:
安装后,您可以通过将其导入Python脚本或Jupyter笔记本来验证该轻薄安装:

来自轻薄的进口略  
打印(“成功安装了轻薄!”)
登录后复制

为什么轻弹更好?

现在让我们详细探讨为什么使用轻薄的原因更好:

所有数据类型的统一摘要

轻薄的将所有数据类型都具有相同的重视对待,从而为单个统一表中的数字和非数字列提供了丰富的摘要。

例子:

来自轻薄的进口略  
导入大熊猫作为pd  

数据= {  
    “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”],  
    “年龄”:[25,30,35,40],  
    “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”],  
    “薪金”:[70000,80000,120000,90000],  
}  

df = pd.dataframe(数据)  
略(DF)
登录后复制

输出:

轻薄生成了一个简洁,结构良好的表,其中包含以下信息:

  • 数字数据:计数,平均值,中值,标准偏差,最小,最大和四分位数。
  • 非数字数据:唯一值,最频繁的值(模式),缺失值和字符计数分布。

轻薄:pandas替代数据摘要()

内置处理丢失的数据

轻薄的自动在其摘要中自动突出显示丢失数据,显示每列的缺失值的百分比和计数。这消除了对df.isnull()。sum()等其他命令的需求。

为什么这很重要:

  • 帮助用户预先确定数据质量问题。
  • 鼓励快速决定归因或删除丢失的数据。

高级统计见解

轻薄的范围超出了基本描述性统计数据,包括提供更深入见解的其他指标:

  • 峰度:表示分布的“尾巴”。
  • 偏度:数据分布中的不对称性。
  • 离群标志:突出显示具有潜在异常值的列。

文本列的丰富摘要

对于诸如字符串之类的非数字数据,轻薄提供了Pandas描述()无法匹配的详细摘要:

  • 字符串长度分布:提供有关最小,最大和平均字符串长度的见解。
  • 模式和变化:标识文本数据中的常见模式。
  • 独特的价值和模式:更清晰地描绘了文本多样性。

文本列的示例输出:

柱子 独特的值 最常见的价值 模式计数 平均长度
姓名 4 爱丽丝 1 5.25
城市 4 纽约 1 7.50

紧凑和直观的视觉效果

轻薄的使用颜色编码和表格输出易于解释,尤其是对于大型数据集。这些视觉效果突出显示:

  • 缺少值。
  • 分布。
  • 摘要统计数据,全部一眼。

这种视觉吸引力使Skimpy的摘要准备就绪,这对于向利益相关者报告发现特别有用。

对分类变量的内置支持

微薄为Pandas的描述()没有的分类数据提供了特定的指标,例如:

  • 类别的分布。
  • 每个类别的频率和比例。

这使得对涉及人口,地理或其他分类变量的数据集特别有价值。

使用轻薄的数据摘要

在下面,我们探索如何有效使用微薄的数据摘要。

步骤1:简易导入并准备数据集

要使用轻薄的,您首先需要将其与数据集一起导入。轻薄与Pandas DataFrames无缝集成。

示例数据集:
让我们使用一个包含数字,分类和文本数据的简单数据集。

导入大熊猫作为pd
来自轻薄的进口略

#示例数据集
数据= {
    “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”],
    “年龄”:[25,30,35,40],
    “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”],
    “薪金”:[70000,80000,120000,90000],
    “评分”:[4.5,无,4.7,4.8],
}

df = pd.dataframe(数据)
登录后复制

步骤2:应用Skim()函数

小巧的核心功能是Skim()。当应用于数据框时,它提供了所有列的详细摘要。

用法:

略(DF)
登录后复制

轻薄:pandas替代数据摘要()

步骤3:解释简易的摘要

让我们分解一下轻薄的输出的含义:

柱子 数据类型 丢失的 (%) 意思是 中位数 最小 最大限度 独特的 最常见的价值 模式计数
姓名 文本 0.0% - - - - 4 爱丽丝 1
年龄 数字 0.0% 32.5 32.5 25 40 - - -
城市 文本 0.0% - - - - 4 纽约 1
薪水 数字 0.0% 90000 85000 70000 120000 - - -
等级 数字 25.0% 4.67 4.7 4.5 4.8 - - -
  • 缺失值: “评分”列有25%的缺失值,表明潜在的数据质量问题。
  • 数字列: “薪水”的平均值和中位数是接近的,表明大致对称分布,而“年龄”均匀分布在其范围内。
  • 文本列: “城市”列有4个独特的值,“纽约”最常见。

步骤4:专注于关键见解

轻薄对识别特别有用:

  • 数据质量问题:
    • 诸如“评分”之类的列中的缺少值。
    • 通过Min,Max和四分位数等指标进行异常值。
  • 分类数据中的模式:
    • 诸如“城市”之类的专栏中最常见的类别。
  • 字符串长度见解:
    • 对于文本繁重的数据集,Skimpy提供了平均的字符串长度,有助于预处理任务,例如令牌化。

步骤5:自定义简易输出

轻薄允许一些灵活性根据您的需求调整其输出:

  • 子集列:仅通过将特定列作为数据框的子集传递来分析特定列:
脱脂(DF [[“年龄”,“薪金”]])
登录后复制
  • 专注于丢失的数据:快速确定丢失的数据百分比:
 Skim(df).loc [:,[“列”,“丢失(%)”]]
登录后复制

使用轻薄的优点

  • 多合一摘要:轻薄将数字和非数字见解巩固到单个表中。
  • 节省时间:无需编写多行代码以探索不同的数据类型。
  • 提高的可读性:干净,视觉上吸引人的摘要使识别趋势和异常值变得更加容易。
  • 大型数据集的有效效率:轻薄的,可以优化用于处理许多列的数据集,而不会压倒用户。

结论

小巧通过向所有类型的数据集提供详细的,可读的见解来简化数据摘要。与熊猫的描述()不同,它不仅限于数字数据,并提供了更丰富的摘要体验。无论您是清洁数据,探索趋势还是准备报告,轻薄的功能都使其成为数据专业人员必不可少的工具。

关键要点

  • 轻薄的数字和非数字列无缝处理。
  • 它提供了其他见解,例如缺失值和独特的计数。
  • 与熊猫描述()相比,输出格式更直观和视觉吸引力。

常见问题

Q1。什么是轻薄的?

答:这是一个python库,旨在全面的数据摘要,为熊猫描述以外的见解()提供了见解。

Q2。可以轻薄替换描述()吗?

答:是的,它提供了增强的功能,并可以有效地替换描述()。

Q3。轻薄的支持大数据集吗?

答:是的,它经过优化,可有效处理大型数据集。

Q4。如何安装轻薄的?

答:使用PIP安装:PIP安装轻薄。

Q5。是什么使轻薄的比描述更好()?

答:它总结了所有数据类型,包括缺少的价值见解,并以更易于用户友好的格式提供输出。

以上是轻薄:pandas替代数据摘要()的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1657
14
CakePHP 教程
1415
52
Laravel 教程
1309
25
PHP教程
1257
29
C# 教程
1229
24
开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

10个生成AI编码扩展,在VS代码中,您必须探索 10个生成AI编码扩展,在VS代码中,您必须探索 Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

AV字节:Meta' llama 3.2,Google的双子座1.5等 AV字节:Meta' llama 3.2,Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

视觉语言模型(VLMS)的综合指南 视觉语言模型(VLMS)的综合指南 Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

最新的最佳及时工程技术的年度汇编 最新的最佳及时工程技术的年度汇编 Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题

See all articles