十个Pandas的另类数据处理技巧

编辑: admin 分类: python 发布时间: 2023-05-01 来源:互联网

本文所整理的技巧与以前整理过10个Pandas的常用技巧不同,你可能并不会经常的使用它,但是有时候当你遇到一些非常棘手的问题时,这些技巧可以帮你快速解决一些不常见的问题。

十个Pandas的另类数据处理技巧

1、Categorical类型

默认情况下,具有有限数量选项的列都会被分配object 类型。 但是就内存来说并不是一个有效的选择。 我们可以这些列建立索引,并仅使用对对象的引用而实际值。Pandas 提供了一种称为 Categorical的Dtype来解决这个问题。

例如一个带有图片路径的大型数据集组成。 每行有三列:anchor, positive, and negative.。

如果类别列使用 Categorical 可以显着减少内存使用量。

# raw data
 +----------+------------------------+
 |class |filename|
 +----------+------------------------+
 | Bathroom | Bathroombath_1.jpg|
 | Bathroom | Bathroombath_100.jpg|
 | Bathroom | Bathroombath_1003.jpg |
 | Bathroom | Bathroombath_1004.jpg |
 | Bathroom | Bathroombath_1005.jpg |
 +----------+------------------------+
 
 # target
 +------------------------+------------------------+----------------------------+
 | anchor |positive|negative|
 +------------------------+------------------------+----------------------------+
 | Bathroombath_1.jpg| Bathroombath_100.jpg| Dinningdin_540.jpg|
 | Bathroombath_100.jpg| Bathroombath_1003.jpg | Dinningdin_1593.jpg |
 | Bathroombath_1003.jpg | Bathroombath_1004.jpg | Bedroombed_329.jpg|
 | Bathroombath_1004.jpg | Bathroombath_1005.jpg | Livingroomliving_1030.jpg |
 | Bathroombath_1005.jpg | Bathroombath_1007.jpg | Bedroombed_1240.jpg |
 +------------------------+------------------------+----------------------------+
登录后复制

filename列的值会经常被复制重复。因此,所以通过使用Categorical可以极大的减少内存使用量。

让我们读取目标数据集,看看内存的差异:

triplets.info(memory_usage="deep")
 
 # Column Non-Null Count Dtype
 # --- ------ -------------- -----
 # 0 anchor 525000 non-null category
 # 1 positive 525000 non-null category
 # 2 negative 525000 non-null category
 # dtypes: category(3)
 # memory usage: 4.6 MB
 
 # without categories
 triplets_raw.info(memory_usage="deep")
 
 # Column Non-Null Count Dtype
 # --- ------ -------------- -----
 # 0 anchor 525000 non-null object
 # 1 positive 525000 non-null object
 # 2 negative 525000 non-null object
 # dtypes: object(3)
 # memory usage: 118.1 MB
登录后复制

差异非常大,并且随着重复次数的增加,差异呈非线性增长。

2、行列转换

sql中经常会遇到行列转换的问题,Pandas有时候也需要,让我们看看来自Kaggle比赛的数据集。census_start .csv文件:

十个Pandas的另类数据处理技巧

可以看到,这些按年来保存的,如果有一个列year和pct_bb,并且每一行有相应的值,则会好得多,对吧。

cols = sorted([col for col in original_df.columns 
 if col.startswith("pct_bb")])
 df = original_df[(["cfips"] + cols)]
 df = df.melt(id_vars="cfips",
value_vars=cols,
var_name="year",
value_name="feature").sort_values(by=["cfips", "year"])
登录后复制

看看结果,这样是不是就好很多了:

图片

3、apply()很慢

我们上次已经介绍过,最好不要使用这个方法,因为它遍历每行并调用指定的方法。但是要是我们没有别的选择,那还有没有办法提高速度呢?

可以使用swifter或pandarallew这样的包,使过程并行化。

Swifter

import pandas as pd
 import swifter
 
 def target_function(row):
 return row * 10
 
 def traditional_way(data):
 data['out'] = data['in'].apply(target_function)
 
 def swifter_way(data):
 data['out'] = data['in'].swifter.apply(target_function)
登录后复制

Pandarallel

import pandas as pd
 from pandarallel import pandarallel
 
 def target_function(row):
 return row * 10
 
 def traditional_way(data):
 data['out'] = data['in'].apply(target_function)
 
 def pandarallel_way(data):
 pandarallel.initialize()
 data['out'] = data['in'].parallel_apply(target_function)
登录后复制

通过多线程,可以提高计算的速度,当然当然,如果有集群,那么最好使用dask或pyspark

4、空值,int, Int64

标准整型数据类型不支持空值,所以会自动转换为浮点数。所以如果数据要求在整数字段中使用空值,请考虑使用Int64数据类型,因为它会使用pandas.NA来表示空值。

5、Csv, 压缩还是parquet?

尽可能选择parquet。parquet会保留数据类型,在读取数据时就不需要指定dtypes。parquet文件默认已经使用了snappy进行压缩,所以占用的磁盘空间小。下面可以看看几个的对比

|file|size |
 +------------------------+---------+
 | triplets_525k.csv| 38.4 MB |
 | triplets_525k.csv.gzip |4.3 MB |
 | triplets_525k.csv.zip|4.5 MB |
 | triplets_525k.parquet|1.9 MB |
 +------------------------+---------+
登录后复制

读取parquet需要额外的包,比如pyarrow或fastparquet。chatgpt说pyarrow比fastparquet要快,但是我在小数据集上测试时fastparquet比pyarrow要快,但是这里建议使用pyarrow,因为pandas 2.0也是默认的使用这个。

6、value_counts ()

计算相对频率,包括获得绝对值、计数和除以总数是很复杂的,但是使用value_counts,可以更容易地完成这项任务,并且该方法提供了包含或排除空值的选项。

df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]})
 df["a"] = df["a"].astype("Int64")
 print(df.info())
 print(df["a"].value_counts(normalize=True, dropna=False),
df["a"].value_counts(normalize=True, dropna=True), sep="nn")
登录后复制

图片

这样是不是就简单很多了

7、Modin

注意:Modin现在还在测试阶段。

pandas是单线程的,但Modin可以通过缩放pandas来加快工作流程,它在较大的数据集上工作得特别好,因为在这些数据集上,pandas会变得非常缓慢或内存占用过大导致OOM。

!pip install modin[all]
 
 import modin.pandas as pd
 df = pd.read_csv("my_dataset.csv")
登录后复制

以下是modin官网的架构图,有兴趣的研究把:

图片

8、extract()

如果经常遇到复杂的半结构化的数据,并且需要从中分离出单独的列,那么可以使用这个方法:

import pandas as pd
 
 regex = (r'(?P[A-Za-z's]+),'
r'(?P[A-Za-zs']+),'
r'(?P<isbn>[d-]+),'
r'(?P<year>d{4}),'
r'(?P<publisher>.+)')
 addr = pd.Series([
 "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins",
 "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House",
 "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster",
 "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers",
 "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books"
])
 addr.str.extract(regex)</pre>登录后复制<p style="text-align: center;" ><p ><img src="http://img.hwidc.net/python/168152154574857.jpg" alt="图片" title="图片"   style="max-width:90%" data-type="inline"></p></p><h4 style="line-height: 1;"  >9、读写剪贴板</h4><p >这个技巧有人一次也用不到,但是有人可能就是需要,比如:在分析中包含PDF文件中的表格时。通常的方法是复制数据,粘贴到Excel中,导出到csv文件中,然后导入Pandas。但是,这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。</p><p >有读就可以写,所以还可以使用to_clipboard()方法导出到剪贴板。</p><p >但是要记住,这里的剪贴板是你运行python/jupyter主机的剪切板,并不可能跨主机粘贴,一定不要搞混了。</p><h4 style="line-height: 1;"  >10、数组列分成多列</h4><p >假设我们有这样一个数据集,这是一个相当典型的情况:</p><pre class="brush:javascript;toolbar:false;">import pandas as pd
 df = pd.DataFrame({"a": [1, 2, 3],
"b": [4, 5, 6],
"category": [["foo", "bar"], ["foo"], ["qux"]]})
 
 # let's increase the number of rows in a dataframe
 df = pd.concat([df]*10000, ignore_index=True)</pre>登录后复制<p style="text-align: center;" ><p ><img src="http://img.hwidc.net/python/168152154650997.jpg" alt="图片" title="图片"   style="max-width:90%" data-type="inline"></p></p><p >我们想将category分成多列显示,例如下面的</p><p style="text-align: center;" ><p ><img src="http://img.hwidc.net/python/168152154610250.jpg" alt="图片" title="图片"   style="max-width:90%" data-type="inline"></p></p><p >先看看最慢的apply:</p><pre class="brush:javascript;toolbar:false;">def dummies_series_apply(df):
return df.join(df['category'].apply(pd.Series) 
.stack() 
.str.get_dummies() 
.groupby(level=0) 
.sum()) 
.drop("category", axis=1)
 %timeit dummies_series_apply(df.copy())
 #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)</pre>登录后复制<p >sklearn的MultiLabelBinarizer</p><pre class="brush:javascript;toolbar:false;">from sklearn.preprocessing import MultiLabelBinarizer
 def sklearn_mlb(df):
mlb = MultiLabelBinarizer()
return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) 
.drop("category", axis=1)
 %timeit sklearn_mlb(df.copy())
 #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)</pre>登录后复制<p >是不是快了很多,我们还可以使用一般的向量化操作对其求和:</p><pre class="brush:plain;toolbar:false;">def dummies_vectorized(df):
return pd.get_dummies(df.explode("category"), prefix="cat") 
.groupby(["a", "b"]) 
.sum() 
.reset_index()
 %timeit dummies_vectorized(df.copy())
 #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)</pre>登录后复制<p style="text-align: center;" ><p ><img src="http://img.hwidc.net/python/168152154649352.jpg" alt="图片" title="图片"   style="max-width:90%" data-type="inline"></p></p><p >使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。</p><h4 style="line-height: 1;"  >总结</h4><p >我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外,除了csv之外,还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型,它可以节省大量内存。感谢阅读!</p><p>以上就是十个Pandas的另类数据处理技巧的详细内容,更多请关注海外IDC网其它相关文章!</p>【文章原创作者:<a href='http://www.1234xp.com' target='_blank'><b>香港云服务器</b></a> http://www.558idc.com/ne.html 复制请保留原URL】

      
	  
  </div>
</article>

 <section class="col-md-8 col-md-offset-2 clearfix">
  <div class="read">
    <div class="read-head"><i class="fas fa-book"></i> 更多阅读</div>
    <div class="read-list row">
      <div class="col-md-6">
        <ul>
            <li><a href="/5157.html" title="Python中yield返回生成器的详细方法">Python中yield返回生成器的详细方法</a> </li>
<li><a href="/8.html" title="Python 多线程处理任务实例">Python 多线程处理任务实例</a> </li>
<li><a href="/9.html" title="python利用while求100内的整数和方式">python利用while求100内的整数和方式</a> </li>
<li><a href="/10.html" title="python中if和elif的区别介绍">python中if和elif的区别介绍</a> </li>
<li><a href="/11.html" title="python中取整数的几种方法">python中取整数的几种方法</a> </li>
<li><a href="/12.html" title="Python 中的 copy()和deepcopy()">Python 中的 copy()和deepcopy()</a> </li>
<li><a href="/13.html" title="Python MNIST手写体识别详解与试练">Python MNIST手写体识别详解与试练</a> </li>
<li><a href="/14.html" title="Python基础 括号()[]{}的详解">Python基础 括号()[]{}的详解</a> </li>
<li><a href="/15.html" title="Python Flask搭建yolov3目标检测系统详解流程">Python Flask搭建yolov3目标检测系统详解流程</a> </li>
<li><a href="/16.html" title="关于 Python json中load和loads区别">关于 Python json中load和loads区别</a> </li>
<li><a href="/17.html" title="Python卷积神经网络图片分类框架详解分析">Python卷积神经网络图片分类框架详解分析</a> </li>
<li><a href="/18.html" title="Python人工智能之混合高斯模型运动目标检测详解">Python人工智能之混合高斯模型运动目标检测详解</a> </li>
<li><a href="/19.html" title="7个关于Python的经典基础案例">7个关于Python的经典基础案例</a> </li>
<li><a href="/20.html" title="Python人工智能之波士顿房价数据分析">Python人工智能之波士顿房价数据分析</a> </li>
<li><a href="/21.html" title="Python 5种常见字符串去除空格操作的方法">Python 5种常见字符串去除空格操作的方法</a> </li>

        </ul>
      </div>
      <div class="col-md-6">
        <ul>
        <li><a href='/36229.html'>十个Pandas的另类数据处理技巧</a></li>
<li><a href='/36228.html'>妙啊!这款 Python 数据可视化工具强的很!</a></li>
<li><a href='/36227.html'>一秒完成Python3与Python2脚本相互转化的实战方法,</a></li>
<li><a href='/36226.html'>三十个 Python 函数,解决99%的数据处理任务!</a></li>
<li><a href='/36225.html'>一种编译器视角下的Python性能优化</a></li>
<li><a href='/36224.html'>Python 数据可视化的三大步骤</a></li>
<li><a href='/36223.html'>用 NumPy 在 Python 中处理数字</a></li>
<li><a href='/36221.html'>学会这招真实用!复制粘贴,快速将Python程序打</a></li>
<li><a href='/36220.html'>TIOBE 1月编程语言排行榜出炉:Python蝉联冠军,</a></li>
<li><a href='/36219.html'>用Python处理Excel的14个常用操作</a></li>
<li><a href='/36218.html'>Python多线程、多进程详细整理</a></li>
<li><a href='/36217.html'>Python量化交易实战:获取股票数据并做分析处理</a></li>
<li><a href='/36216.html'>用 Python 实现十大经典排序算法</a></li>
<li><a href='/36215.html'>Python掌握并熟悉列表、元祖、字典、集合数据类</a></li>
<li><a href='/36214.html'>分享 18 个 Python 高效编程技巧</a></li>

        </ul>
      </div>
    </div>
  </div>

  </section> 
</div>

<footer id="footer">
<div class="copyright">
  <p>Copyright <i class="far fa-copyright"></i> 2020-2021 <b>hwidc.net</b> All Rights Reserved.</p>
</div>
</footer>

<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?30aa2a2a5e60f9668610e106b7a13dc4";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
<script type="text/javascript" src="/style/js/jquery.min.js"></script>
<script type="text/javascript" src="/style/js/bootstrap.min.js"></script>
<script type="text/javascript" src="/style/js/skel.min.js"></script>
<script type="text/javascript" src="/style/js/util.min.js"></script>
<script type="text/javascript" src="/style/js/nav.js"></script>

</body>
</html>