Помогите, пожалуйста, исправить ошибку ValueError: Shape of passed values is (30471, 1), indices imply (30471, 4)

Question

from sklearn import preprocessing &#10;np.random.seed(34) &#10; &#10;# сгенерируем датасет из случайных чисел &#10;df = pd.DataFrame({ &#10;    # Бета распределение, 5 – значение альфа, 1 – значение бета, 1000 – размер &#10;    'beta': np.random.beta(5, 1, 1000) * 60, &#10; &#10;    # Экспоненциальное распределение, 10 – "резкость" экспоненты, 1000 – размер &#10;    'exponential': np.random.exponential(10, 1000), &#10; &#10;    # Нормальное распределение, 10 – среднее значение р., 2 – стандартное отклонение, 1000 – количество сэмплов &#10;    'normal_p': np.random.normal(10, 2, 1000), &#10; &#10;    # Нормальное распределение, 10 – среднее значение р., 10 – стандартное отклонение, 1000 – количество сэмплов &#10;    'normal_l': np.random.normal(10, 10, 1000), &#10;}) &#10; &#10;# Копируем названия столбцов, которые теряются при использовании fit_transform() &#10;col_names = list(df.columns) &#10; &#10;# инициализируем стандартизатор StandardScaler &#10;s_scaler = preprocessing.StandardScaler() &#10; &#10;# кодируем исходный датасет &#10;df_s = s_scaler.fit_transform(sber_data[['price_doc']]) &#10; &#10;# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации &#10;df_s = pd.DataFrame(df_s, columns=col_names) &#10; &#10;fig, (ax1) = plt.subplots(ncols=1, figsize=(10, 8)) &#10;ax1.set_title('Распределения после StandardScaler') &#10; &#10;sns.kdeplot(df_s['beta'], ax=ax1) &#10;sns.kdeplot(df_s['exponential'], ax=ax1) &#10;sns.kdeplot(df_s['normal_p'], ax=ax1) &#10;sns.kdeplot(df_s['normal_l'], ax=ax1) &#10;df_s.describe()

iq_185 · Accepted Answer

Ошибка возникает из-за несоответствия между количеством столбцов в исходном датафрейме и количеством столбцов, которые вы пытаетесь использовать при создании нового датафрейма.
 from sklearn import preprocessing  &#10;import numpy as np &#10;import pandas as pd &#10;import matplotlib.pyplot as plt &#10;import seaborn as sns &#10; &#10;np.random.seed(34)  &#10; &#10;# сгенерируем датасет из случайных чисел  &#10;df = pd.DataFrame({  &#10;    'beta': np.random.beta(5, 1, 1000) * 60,  &#10;    'exponential': np.random.exponential(10, 1000),  &#10;    'normal_p': np.random.normal(10, 2, 1000),  &#10;    'normal_l': np.random.normal(10, 10, 1000),  &#10;})  &#10; &#10;# инициализируем стандартизатор StandardScaler &#10;s_scaler = preprocessing.StandardScaler()  &#10; &#10;# кодируем исходный датасет  &#10;df_s = s_scaler.fit_transform(df)  &#10; &#10;# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации  &#10;df_s = pd.DataFrame(df_s, columns=df.columns)  &#10; &#10;fig, ax1 = plt.subplots(ncols=1, figsize=(10, 8))  &#10;ax1.set_title('Распределения после StandardScaler')  &#10; &#10;sns.kdeplot(data=df_s, ax=ax1) &#10;plt.legend(df_s.columns) &#10; &#10;print(df_s.describe()) &#10; &#10;plt.show()

pomoshchnik_python · Answer

Для исправления ошибки ValueError: Shape of passed values is (30471, 1), indices imply (30471, 4) вам нужно изменить строку кода, где вы используете StandardScaler. Вместо использования sber_data[['price_doc']], вам следует использовать df, который вы создали ранее. 
Замените эту строку:
 df_s = s_scaler.fit_transform(sber_data[['price_doc']])&#10;```&#10;&#10;На эту строку:&#10;```python&#10;df_s = s_scaler.fit_transform(df)&#10;```&#10;&#10;После этого ваш код должен успешно выполниться без ошибок. Надеюсь, это поможет! Если у вас возникнут еще вопросы, не стесняйтесь обращаться.