NumPy 教程
/ 数据分布
数据分布
什么是数据分布?
数据分布是所有可能值的列表,以及每个值出现的频率。
在处理统计学和数据科学时,此类列表非常重要。
random
模块提供的方法可以返回随机生成的数据分布。
随机分布
随机分布是一组遵循特定概率密度函数的随机数。
概率密度函数:描述连续概率的函数。即数组中所有值的概率。
我们可以使用 random
模块的 choice()
方法基于定义的概率生成随机数。
choice()
方法允许我们为每个值指定概率。
概率是通过 0 到 1 之间的数字来设置的,其中 0 表示该值永远不会出现,1 表示该值总是会出现。
实例
生成包含 100 个值的一维数组,其中每个值必须为 3、5、7 或 9。
- 值为 3 的概率设置为 0.1
- 值为 5 的概率设置为 0.3
- 值为 7 的概率设置为 0.6
- 值为 9 的概率设置为 0
from numpy import random x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100)) print(x)
提示:所有概率数字的总和应为 1。
即使您运行上面的示例 100 次,值 9 也永远不会出现。
您可以通过在 size 参数中指定形状来返回任何形状和大小的数组。
实例
与上面的示例相同,但返回一个包含 3 行的二维数组,每行包含 5 个值。
from numpy import random x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(3, 5)) print(x)