命令 | 说明 |
---|---|
df.show(n,truncate) |
n - 要显示的行数。truncate - 如果设置为True ,则默认截断超过20个字符的字符串。 如果设置为大于1的数字,则截断长字符串以截断长度并将其右对齐。 |
df.count() |
返回DataFrame 的行数 |
df.select(col) |
投影一组表达式并返回一个新的DataFrame 。col :列名,或者包含列名的列表 |
df.filter(condition) |
使用给定的条件过滤行。where() 是filter() 的别名。 |
df.fillna(value) |
空值填充 |
df.columns |
返回DataFrame 的列名,是一个list |
df.toPandas |
转换为pandas 的dataframe |
df.describe() |
计算数字和字符串列的统计信息。这包括count ,mean ,stddev ,min 和max 。 |
pyspark.sql.functions
1 | from pyspark.sql.functions import * |
命令 | 说明 |
---|---|
isnan |
|
stddev |
计算方差 |