正規表示式如何提高Pandas系列子串過濾性能?
提高Pandas 系列中多個子字串篩選的效能
當嘗試篩選特定字串列至少包含一個子字串的行時給定列表,使用np.logic_or.reduce() 的傳統方法對於大型資料集可能效率低。本文探討了一種利用正規表示式來增強效能的替代方法。
建議的解決方案
我們在str.contains() 中不使用regex=False,而是使用正規表示式使用re.escape() 正確轉義提供的子字串之後。這確保了文字匹配而不是正則表達式解釋。然後使用正規表示式管道 (|) 將轉義的子字串組合成單一模式。
屏蔽過程
屏蔽階段成為整個系列的循環,檢查是否每個字串與模式匹配:
df[col].str.contains(pattern, case=False)
效能比較
使用包含100 個長度為5 的子字串和50,000 個長度為 20 的字串的樣本資料集,所提出的方法大約需要 1 秒。對於相同的數據,原始方法大約需要 5 秒。
注意
此解假設沒有子字串匹配的「最壞情況」場景。在有比賽的情況下,表現會進一步提高。此外,這種方法比最初的方法更有效,減少了每行所需的檢查數量。
以上是正規表示式如何提高Pandas系列子串過濾性能?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

如何在10小時內教計算機小白編程基礎?如果你只有10個小時來教計算機小白一些編程知識,你會選擇教些什麼�...

攻克Investing.com的反爬蟲策略許多人嘗試爬取Investing.com(https://cn.investing.com/news/latest-news)的新聞數據時,常常�...

Python3.6環境下加載pickle文件報錯:ModuleNotFoundError:Nomodulenamed...

使用Scapy爬蟲時管道文件無法寫入的原因探討在學習和使用Scapy爬蟲進行數據持久化存儲時,可能會遇到管道文�...
