条件语句
1 | print('True') if condition else print('False') |
基本
| 命令 | 说明 |
|---|---|
max(num,key=func) |
按照func返回num中的最大值 |
sys
| getsizeof() | |
os
environ()函数
| os.environ[‘USER’] | 当前使用用户 |
| os.environ[‘SHELL’] | 使用shell的类型 |
| os.environ[‘LAN’] | 使用的语言 |
numpy
| 命令 | 说明 |
|---|---|
random.randint(start,ene,size) |
start与end:取值范围size:数组的容量 |
np.logical_and(x1, x2, *args, **kwargs) |
逻辑与 |
np.logical_or(x1, x2, *args, **kwargs) |
逻辑或 |
np.logical_not(x, *args, **kwargs) |
逻辑非 |
pandas
Dataframe
| 命令 | 说明 |
|---|---|
df.iloc[num] |
指定行。df.iloc[0]指定第一行 |
df(df.b.isin([5,13])) |
删除b列包含5、13的列 |
df['add_column']=1 |
df添加列add_column |
df.drop() |
删除行或者列labels:删除的行或者列名axis:行->0;列->1index :直接指定要删除的行columns:直接指定要删除的列inplace=False:默认该删除操作不改变原数据,而是返回一个执行删除操作后的新dataframe;inplace=True:则会直接在原数据上进行删除操作,删除后无法返回。 |
df.dropna() |
删除空行axis:0-行操作(默认),1-列操作 how:any-只要有空值就删除(默认),all-全部为空值才删除 inplace:False-返回新的数据集(默认),True-在愿数据集上操作 |
df.rename() |
df.rename(columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)将列名修改为`[‘a’,’b’,’c’] |
df.columns= ['a','b','c'] |
将列名修改为['a','b','c'] |
df.reset_index(列名,inplace) |
索引转化为列 列名:可以有,可以没有。多索引时,可以指定索引 inplace:替换原DataFrame |
df.set_index(列名) |
列转化为索引 |
df.T |
DataFrame转置 |
df.merge() |
类似于数据库的join,返回DataFrame |
df['列名'].tolist() |
将列转换为list |
matplotlib
https://serverpoolauth.ops.ctripcorp.com
sklearn
特征工程
1 | from sklearn.preprocessing import * |
| 命令 | 说明 |
|---|---|
KBinsDiscretizer |
- 对数据进行分箱(离散化) ,不能处理空值 - 返回 np.array数据- 参数 n_bins:分箱的数量,默认值是5,也可以是列表,指定各个特征的分箱数量,例如,[feature1_bins,feature2_bins,…] |
n_bins:分箱的数量,默认值是5,也可以是列表,指定各个特征的分箱数量,例如,[feature1_bins,feature2_bins,…]
encode:编码方式,{‘onehot’, ‘onehot-dense’, ‘ordinal’}, (default=’onehot’)
- onehot:以onehot方式编码,返回稀疏矩阵
- onehot-dense:以onehot方式编码,返回密集矩阵
- ordinal:以ordinal方式编码,返回分箱的序号
strategy:定义分箱宽度的策略,{‘uniform’, ‘quantile’, ‘kmeans’}, (default=’quantile’)
- uniform:每个分箱等宽
- quantile:每个分箱中拥有相同数量的数据点
- kmeans:每个箱中的值具有与1D k均值簇最近的中心
其他
断言 assert