格式化和清洗数据的 Python 工具包
世界很杂乱,来自现实世界的数据也一样杂乱。近来一份调查报告显示数据科学家60%的时间都花在整理数据上。不幸的是,57%的人认为这是工作中最头疼的一部分。
整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。Python 社区提供了许多库让数据变得清晰有序——从格式化 DataFrame 到匿名化数据集。
告诉我们你觉得有用的库——我们一直致力于优化放入Mode Python Notebooks中的库。
Dora
Dora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:
读取含有缺失数据和没有标准化的数据表
给缺失数据赋值
标准化变量
开发者:Nathan Epstein
更多资料:https://github.com/NathanEpstein/Dora
datacleaner
号外号外,datacleaner 清洗你的数据——不过只有在你的数据是 pandas DataFrame 实例的时候。开发者Randy Olson说:“datacleaner 不是魔法,它无法神奇的解析你没有结构的数据。”
它可以删除含有缺失数据的行,或者利用列的众数或中位数填充缺失数据,将非数值型变量转化为数值型变量。这个库很新,但考虑到DataFrame 是 Python 数据分析的基本数据结构,这个库还是值得试试看的。
开发者:Randy Olson
更多资料:https://github.com/rhiever/datacleaner
PrettyPandas
DataFrame 很强大,但是它们无法制作出你可以直接给你的老板看的表。PrettyPandas 利用了pandas 风格 API 将 DataFrame 转换成可以演示的表格。产生数据摘要,设置风格,调整数据格式,列和行。附加福利:强健,可读性高的使用文档。
开发者:Henry Hammond
更多资料:https://github.com/HHammond/PrettyPandas
tabulate
tabulate 可以让你仅仅用一个函数调用生成小型耐看的表格。非常适合于通过调整小数点列对齐,数据格式,表头和其他让表格可读性更高。
它有一个超酷的功能是可以让表格输出成不同的格式:HTML, PHP 或者 Markdown Extra,这样你可以用其他的工具或语言继续在使用你已经表格化的数据。
开发者: Sergey Astanin
更多资料:https://pypi.python.org/pypi/tabulate
scrubadub
健康领域和金融领域的数据科学家常需要匿名化数据集。scrubadub可以将 私人信息 (PII) 从文本从移除。例如:
姓名 (名词)
Email地址
网络链接
电话号码
用户名/密码组
Skype 用户名
社会保险号
文档很好的演示了通过哪些途径你可以自定义 scrubadub 的行为,例如定义新的 PII 或者保留特定的 PII。
开发者:Datascope Analytics
更多资料:http://scrubadub.readthedocs.io/en/stable/index.html
Arrow
让我们实话实说:在 Python 里处理日期和时间是很痛苦的。当地时区无法被自动识别。得用好几行不那么让人舒服的代码来转换时区和时间戳。
Arrow 旨于解决这个问题并且填补这个功能空白,从而让你可以用更少的代码和引入库来完成对日期和时间的操作。跟 Python 的标准时间库不同的是,Arrow 默认自动识别时区和 UTC。你可以只用一行代码来完成时区转换或者分析时间字符串。
开发者:Chris Smith
更多资料:http://arrow.readthedocs.io/en/latest/
Beautifier
Beautifier 的任务很简单:清洗 URL 和 Email 地址并让它们看起来更漂亮。你可以通过域名和用户名来解析 email ; 通过域名和参数来解析URL。(UTM 或者标记)
开发者:Sachin Philip Mathew
更多资料:https://github.com/sachinvettithanam/beautifier
ftfy
ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. “quotesâ€x9d becomes "quotes"; ü becomes ü;
ftfy (fixes text for you)将杂乱的Unicode转化为可识别的Unicode。简单的说,它处理所有的垃圾字符。“quotesâ€x9d 变成 "quotes"; ü 变成 ü;
开发者:Luminoso
更多资料:https://github.com/LuminosoInsight/python-ftfy

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

DOS命令是一种在Windows操作系统中使用的命令行工具,它可以用于执行各种系统管理任务和操作。其中一个常用的任务是格式化硬盘驱动器,包括C盘。格式化C盘是一个比较危险的操作,因为它将会清除C盘上的所有数据,并将文件系统重新初始化。在执行这个操作之前,确保你已经备份了重要的文件,并且清楚地了解格式化操作对你的计算机会产生的影响。下面是在DOS命令行中格式化

如何优化Java开发中的时间日期格式化解析性能摘要:在Java开发中,时间日期格式化与解析是常见的操作,但是由于时间日期格式复杂多样且处理的数据量庞大,往往会成为性能瓶颈。本文将介绍几种优化Java开发中时间日期格式化解析性能的方法,包括使用缓存、减少对象创建、选择适当的API等。一、引言时间日期格式化与解析在Java开发中非常常见。然而,在实际应用中,由于

光盘格式化是指将光盘的文件系统进行重建和清空的过程,在光盘格式化过程中,所有的数据都会被彻底删除,同时文件系统会被重新建立,以便在光盘上重新存储数据。光盘格式化可以用于保护数据安全、修复光盘故障和清除病毒等目的,在进行光盘格式化时,需要备份重要数据、选择适当的文件系统,并耐心等待格式化完成。

d盘无法格式化的原因有该盘正在被其他程序或进程使用、该盘上存在损坏的文件系统、硬盘故障和权限问题的。详细介绍:1、D盘无法格式化可能是因为该盘正在被其他程序或进程使用,在Windows操作系统中,如果有程序正在访问D盘上的文件或文件夹,系统将无法执行格式化操作;2、D盘无法格式化可能是因为该盘上存在损坏的文件系统,文件系统是操作系统用来组织和管理存储设备上的文件和文件夹的等等。

现如今,无法开机等,卡顿,我们难免会遇到一些问题,比如系统崩溃、但在使用过程中、手机已成为我们生活中不可或缺的一部分。我们往往束手无策、而有时、对于这些问题的解决方法。帮助你解决手机故障,本文将为大家介绍一些手机格式化恢复的方法、让手机重新恢复正常运行。备份数据——保护重要信息安全通讯录等,如照片、联系人、以免在格式化过程中丢失、在进行手机格式化之前、首先要考虑的是备份手机上的重要数据和文件。确保数据的安全性、或者选择将文件传输至云存储服务中,可以通过连接电脑进行备份。使用系统自带恢复功能——简

如何解决0x80070057错误:简单有效的方法与步骤引言:在使用计算机的过程中,我们有时会遇到各种各样的错误代码。其中,0x80070057是一个非常常见的错误代码,它通常与Windows操作系统相关。这个错误代码可能出现在不同的情况下,例如在安装或更新操作系统、备份或还原文件以及格式化驱动器时等。尽管这个错误代码很令人沮丧,但它并不是无法解决的。本文将介

使用fmt.Sprint函数将多个值格式化为字符串并返回,包括类型信息在Go语言中,fmt包提供了许多函数用于将数据格式化为字符串。其中,fmt.Sprint函数可以将多个值格式化为字符串并返回。与fmt.Sprintf函数不同的是,fmt.Sprint函数返回一个字符串,而不是一个格式化后的字符串。下面是一个使用fmt.Sprint函数的简单示例代码:pa

Rufus是一款出色的工具,可以轻松创建可启动的USB驱动器。这个小巧而时尚的工具的效率令人惊叹,通常可以提供无错误的操作。但是,有时创建一个新的可启动USB记忆棒会弹出一些错误消息,从而在刻录过程中绊倒。如果您在使用Rufus时遇到任何困难,您可以按照以下步骤为您的问题找到快速解决方案。修复1–运行驱动器的错误检查器在使用Rufus重试之前,您可以运行驱动器的错误检查器工具来扫描驱动器是否存在任何错误。1.同时按下Windows键+E键打开文件资源管理器。然后,点击“这台电脑
