pyspark-DataFrame

命令 说明
df.show(n,truncate) n - 要显示的行数。
truncate - 如果设置为True,则默认截断超过20个字符的字符串。 如果设置为大于1的数字,则截断长字符串以截断长度并将其右对齐。
df.count() 返回DataFrame的行数
df.select(col) 投影一组表达式并返回一个新的DataFrame
col:列名,或者包含列名的列表
df.filter(condition) 使用给定的条件过滤行。where()filter()的别名。
df.fillna(value) 空值填充
df.columns 返回DataFrame的列名,是一个list
df.toPandas 转换为pandasdataframe
df.describe() 计算数字和字符串列的统计信息。这包括countmeanstddevminmax

pyspark.sql.functions

1
from pyspark.sql.functions import *
命令 说明
isnan
stddev 计算方差