Во многих упражнениях по программированию ускоренного курса по машинному обучению используется набор данных о жилье в Калифорнии, который содержит данные, взятые из переписи населения США 1990 года. В следующей таблице приведены описания, диапазоны данных и типы данных для каждой функции в наборе данных.
Название столбца | Описание | Диапазон* | Тип данных |
---|---|---|---|
longitude | Мера того, как далеко на запад находится дом; более отрицательное значение дальше на запад |
| поплавок64 |
latitude | Мера того, как далеко на севере находится дом; более высокое значение находится дальше на север |
| поплавок64 |
housingMedianAge | Средний возраст дома в квартале; меньшее число - более новое здание |
| поплавок64 |
totalRooms | Общее количество комнат в блоке |
| поплавок64 |
totalBedrooms | Общее количество спален в блоке |
| поплавок64 |
population | Общее количество людей, проживающих в блоке |
| поплавок64 |
households | Общее количество домохозяйств, группа людей, проживающих в жилой единице, для квартала |
| поплавок64 |
medianIncome | Средний доход домохозяйств в многоквартирном доме (измеряется в десятках тысяч долларов США) |
| поплавок64 |
medianHouseValue | Средняя стоимость дома для домохозяйств в квартале (измеряется в долларах США) |
| поплавок64 |
* Минимальные и максимальные значения в таблице ниже были получены из тетрадей с упражнениями с использованием pandas.DataFrame.describe()
в наборе данных California Housing.
Ссылка
Пейс, Р. Келли и Рональд Барри, «Разреженные пространственные авторегрессии», Письма о статистике и вероятностях, том 33, номер 3, 5 мая 1997 г., с. 291-297.
Ниже приводится методология данных, описанная в документе:
Мы собрали информацию о переменных, используя все квартальные группы в Калифорнии из переписи 1990 года. Блоковая группа в этой выборке в среднем включает 1425,5 особей, проживающих на территориально компактной территории. Естественно, включенная географическая область изменяется обратно пропорционально плотности населения. Мы вычислили расстояния между центроидами каждой группы блоков, измеренные по широте и долготе. Мы исключили все группы блоков, сообщающие нулевые записи для независимых и зависимых переменных. Окончательные данные содержали 20 640 наблюдений по 9 характеристикам.