Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок

Теория:

Гистограмма:

Плотность распределения случайной величины Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №1 - открытая онлайн библиотека :

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №2 - открытая онлайн библиотека

Мы хотим по имеющейся выборке Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №3 - открытая онлайн библиотека случайной величины Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №1 - открытая онлайн библиотека построить оценку плотности распределения. Логично это сделать так:

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №5 - открытая онлайн библиотека

Вероятность Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №6 - открытая онлайн библиотека тоже можно оценить по выборке, заменив эту вероятность частотой возникновения события Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №7 - открытая онлайн библиотека :

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №8 - открытая онлайн библиотека

Здесь Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №9 - открытая онлайн библиотека – индикаторная функция (индикатор) множества Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №10 - открытая онлайн библиотека . Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №11 - открытая онлайн библиотека при Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №12 - открытая онлайн библиотека и Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №13 - открытая онлайн библиотека иначе. Получаем:

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №14 - открытая онлайн библиотека

Если мы изобразим график Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №15 - открытая онлайн библиотека , то получим ступенчатый график, пытающийся повторить форму графика истинной плотности Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №16 - открытая онлайн библиотека . Его и называют гистограммой. Однако в таком виде гистограмма получается не очень наглядной. Лучше её строить так: разбиваем интересующий нас отрезок оси Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №17 - открытая онлайн библиотека (например, Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №18 - открытая онлайн библиотека ) на Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №19 - открытая онлайн библиотека интервалов Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №20 - открытая онлайн библиотека и строим оценку плотности следующим образом:

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №21 - открытая онлайн библиотека

Разбиение можно строить, руководствуясь следующими правилами:

1) Просто разбиваем отрезок на равные части (число частей – по вкусу)

2) Разбиваем отрезок таким образом, чтобы в каждый интервал попало равное количество элементов выборки (число попаданий - по вкусу)

3) Правило Sturges’а: разбиваем отрезок на Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №22 - открытая онлайн библиотека частей. Используется обычно для нормального и биномиального распределений.

4) Правило Скотта: минимизируем мат. ожидание нормы ошибки (то есть величину Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №23 - открытая онлайн библиотека ), изменяя Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №24 - открытая онлайн библиотека . Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №25 - открытая онлайн библиотека

5) Правило Фридмана-Диаконисса: Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №26 - открытая онлайн библиотека . Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №27 - открытая онлайн библиотека (межквартильный размах) – длина размаха между третьим и первым квартилями выборки. То есть отсекаем от упорядоченной выборки первую четверть и последнюю четверть значений и считаем размах.

hist(x)

Cтроит гистограмму по выборке Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №28 - открытая онлайн библиотека (массив), используя правило Sturges’а, в абсолютных частотах (то есть без деления на Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №29 - открытая онлайн библиотека )

hist(x, prob = T), hist(x, freq = F)

То же, но в относительных частотах (с делением на Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №29 - открытая онлайн библиотека )

hist(x, breaks = z)

Строит гистограмму по заданному разбиению Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №31 - открытая онлайн библиотека

hist(x, breaks = k)

Строит гистограмму, разбивая отрезок на k равных частей

hist(x, “Sturges”), hist(x, “Scott”), hist(x, “FD”)

Строит гистограмму методами Sturges’а, Скотта и Фридмана-Диаконисса

Ящик с усами:

boxplot(x)

Рисует «ящик с усами» по выборке Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №32 - открытая онлайн библиотека . Границы ящика – первый и третий квартили (25% и 75% упорядоченной выборки). Полоса в ящике – медиана (50%). Усы включают в себя всё остальное, кроме выбросов. Выбросы рисуются отдельными точками. Как определяются выбросы, на лекции не рассказывалось.

Диаграмма рассеяния:

plot(y ~ x)

Строит диаграмму рассеяния для двумерной выборки Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №33 - открытая онлайн библиотека . По сути, это просто координатная плоскость, на которой отмечены точки Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №33 - открытая онлайн библиотека

Матрица диаграмм рассеяния:

pairs(c(x, y, z, t, …))

Строит матрицу диаграмм сравнения, содержащую диаграммы рассеяния для всех попарных сочетаний переменных x, y, z, t Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №35 - открытая онлайн библиотека

Практика в R:

func.hist <- function() {

#Для выбора интервалов для отображения гистограммы есть 3 метода: breaks = "Sturges", "Scott", "FD" либо вектор точек

#col - задает цвет

#hist также возвращает breaks, counts - абсолютные частоты, оценки плотности на интервалах в density

print(hist(trees$Girth,col="grey50",breaks="Sturges")) #print печатает все значения и рисует гистограмму

}

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №36 - открытая онлайн библиотека

func.boxplot <- function() {

#ящик с усами

boxplot(trees$Girth,horizontal=TRUE, xlab="Girth");

}

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №37 - открытая онлайн библиотека

func.hist_and_boxplot <- function() {

par(mfrow=c(2,1)); #для отображения 2 графиков

par(mar = par("mar")*c(.8,1,1,1)); #отступы

boxplot(trees$Girth,horizontal=TRUE, xlab="Girth", ylim=range(trees$Girth)*c(0.9,1.1)); #ylime - отображать поменьше хотим

hist(trees$Girth,col="grey50", prob=TRUE, main="", axes=FALSE, xlab="", ylab="",xlim =range(trees$Girth)*c(0.9,1.1) );

axis(1) #отображаем ось по x (в теории можно и подписать)

}

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №38 - открытая онлайн библиотека

func.pie <- function() {

x <- c("Yes", "Yes", "No", "Yes")

pie(table(x))

}

func.diagram_1 <- function() {

#Строим одномерную диаграмму рассеяния

stripchart(Sepal.Length ~ Sepal.Width, #по x, по y

xlab = "Длина",

ylab = "Ширина",

method = "stack") #способ отображения квадратиков, если совпало по x и y (либо друг над другом, либо только 1)

}

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №39 - открытая онлайн библиотека

func.diagram_n <- function() {

pairs(iris[1:4], #т.к. хранится Sepal.Length,Width; Petal.Length,Width и Species, отрезаем так последнее

main = "Anderson’s Iris Data -- 3 species",

pch = 21, #специальный формат точечек, чтобы разноцветные были; 24 - треуг-ки, 21 - кружочки

bg = c("red", "green3", "blue")[Species]) #Назначаем каждому Species цвет - на выходе Species, только вместо Species, там цвета

}

Графические методы представления и анализа данных: гистограммы, графики «ящик с усами», диаграммы рассеяния, матрицы диаграмм рассеяния. Использование цвета для выявления группировок - №40 - открытая онлайн библиотека