mixOmics для гуманитариев

Страница 3

X < – My_table [, !colnames(My_table) %in% to. remove]

Следуя примеру выше, методы PCA могут быть применены для выбора первых пяти переменных, тесно связанных с первыми двумя компонентами в PCA. Пользователь определяет количество переменных, выбранных по каждому компоненту, например, здесь выберем пять переменных на каждом из первых двух компонентов командой keepX=c(5, 5):

My_result. spca < – spca(X, keepX=c(5, 5)) # 1 Запуск выбранного метода анализа

plotIndiv(My_result. spca) # 2 Визуальное представление образцов

plotVar(My_result. spca) # 3 Визуальное представление переменных

Можно заметить, что сократилось количество элементов на круге корреляции. Не останавливайтесь на достигнутом, находясь в начале большого пути. Можно улучшить наглядность представляемых результатов анализа следующим образом: загляните в справочное руководство по каждой из функций используемой в примерах, введя в консоли? pca, ? plotIndiv, ? sPCA. Для запуска сопутствующих примеров можно использовать функцию example: example(pca), example(plotIndiv), и другие.

Глава 2. Метод главных компонент (PCA)

Зададимся следующим вопросом: как определить основные источники различий в имеющихся данных, а после этого выяснить, соответствуют ли такие источники объективным условиям педагогического эксперимента или они образовались в результате предвзятости экспериментаторов? Попутно хотелось бы визуализировать основные тенденции и закономерности изменения значений между образцами, в частности, естественного характера, в соответствии с известными условиями педагогического наблюдения.

Так, например, исходные данные для анализа могут содержать таблицу с n рядами и p столбцами, соответствующими уровню успеваемости p студентов, измеренных на n курсах. Чтобы проиллюстрировать PCA, фокусируемся на уровнях успеваемости по темам, описанным в таблице данных My_table, сохранённой ранее.

Цель PCA заключается в том, чтобы уменьшить размерность данных, сохраняя при этом как можно больше информации, насколько это возможно. «Информация» здесь обусловлена дисперсией. Идея заключается в создании попарно несвязанных между собой вспомогательных переменных, называемых главными компонентами (PC), которые являются линейной комбинацией исходных (возможно, коррелирующих между собой) переменных (например, тематика контрольных работ и так далее).

Уменьшение размерности достигается за счет отображения исходных данных в пространство, порождаемое главными компонентами (PC). На практике это означает, что каждому образцу присваивается координата по каждому новому измерению PC – эта координата рассчитывается как линейная комбинация исходных переменных, с некоторыми весовыми коэффициентами. Вес каждой из исходных переменных хранится в так называемых векторах нагрузки, связанных с каждым образцом. Размер данных уменьшается за счет проецирования данных в подпространство меньшей размерности, порождаемое PC, при одновременном охвате крупнейших источников различий между образцами.

Главные компоненты получены таким образом, чтобы их дисперсия была максимальной. С этой целью вычисляются собственные векторы и собственные значения матрицы дисперсии-ковариации, часто с помощью алгоритмов линейного разложения значения, когда количество переменных достаточно велико. Данные, как правило, центруют (опцией center = TRUE), а иногда и масштабируют (scale = TRUE) при вызове метода. Масштабирование рекомендуется применять в том случае, если дисперсия неоднородна по переменным.

Первая главная компонента (PC1) определяется линейной комбинацией исходных переменных, что объясняет наибольшее количество вариаций. Вторая главная компонента (PC2) затем определяется как линейное сочетание исходных переменных, на которые приходится наибольшее количество оставшегося объема вариаций ортогонального (несвязанного) с первым компонентом. Последующие компоненты определяются также для других размерностей PCA. Таким образом, пользователь должен сообщить, сколько информации объясняется первыми ПК, поскольку они используются для графического представления выходов PCA.

Сначала загружаем данные. Чтобы загрузить свои собственные данные можно воспользоваться следующей командой:

My_result. pca < – pca(X) # 1 Запуск выбранного метода анализа

plotIndiv(My_result. pca) # 2 Визуальное представление образцов

plotVar(My_result. pca) # 3 Визуальное представление переменных

Если запустить PCA этим минимальным кодом, то будут использоваться следующие значения по умолчанию:

1. ncomp = 2: лишь первые две главные компоненты рассчитываются и используются при построении диаграмм;

2. center = TRUE: данные отцентрованы (среднее значение равно 0);

3. scale = FALSE: данные не масштабируются. Если установить scale = TRUE, то алгоритм стандартизирует каждую переменную (дисперсия станет равной 1).

Другие параметры также могут быть настроены дополнительно, с полным списком настроек можно ознакомиться вызвав? pca.

В примере, показанном выше, две пары тем не являются значительно отличающимися визуально, поэтому конкретные образцы должны быть дополнительно исследованы, тогда участок корреляционного круга, содержащий много переменных, можно будет легко интерпретировать. Ниже будет показано, как улучшить полученные диаграммы, чтобы облегчить интерпретацию результатов.

Диаграммы можно настроить с помощью многочисленных опций в plotIndiv и plotVar. Даже если PCA не принимает во внимание какую-либо информацию об известном членстве в группе каждой выборки, можно включить такую информацию в выборку для визуализации любого «естественного» кластера данных, который может быть обусловлен педагогической спецификой и условиями отбора группы.

Так, например, следующая команда включает информацию о классе в группах выборки аргументом группирования:

plotIndiv(My_result. pca, group = My_table$Класс,

legend = TRUE)

Кроме того, два фактора могут отображаться с использованием как цветов (аргумент group), так и символов (аргумент pch). Например, отобразим класс и оценки, полученные по второй теме, изменив при этом название и легенду диаграммы:

plotIndiv(My_result. pca, ind. names = FALSE,

group = My_table$'Класс',

pch = as. factor(My_table$'Тема2'),

legend = TRUE, title = 'Успеваемость по второй теме',

legend. title = 'Класс', legend. title. pch = 'Оценка')

Путем добавления информации, связанной с классом и оценкой появляется возможность увидеть кластер наблюдений успеваемости близких к эталонному образцу (зелёный ромб в левом нижнем углу), в то время как образцы с низкой успеваемостью (синие треугольники) оказались сгруппированы отдельно, но явно обнаруживается эффект разделения обучающихся на классы.

Чтобы отобразить результаты на других компонентах, можно изменить аргумент comp при условии, что было запрошено достаточно компонент для расчета. Приведём второй пример PCA с тремя компонентами, в котором третий компонент по оси PC3 четко разграничивает обучающихся по классам:

My_result. pca2 < – pca(X, ncomp = 3)

plotIndiv(My_result. pca2,

comp = c(1, 3),

legend = TRUE,

group = My_table$'Класс',

legend. title = 'Класс',

title = 'Анализ успеваемости, PCA 1-3')

В связи с этим возникает естественный вопрос об оптимальном количестве главных компонент. С другой стороны, важную роль в дисперсионном анализе (ANOVA) играет объясненная дисперсия, пропорционально характеризующая долю общего числа образцов, охватываемую той или иной главной компонентой. Объяснённая дисперсия может быть представлена наглядно, функцией plot, либо фактическими численными её пропорциями и накапливаемыми пропорциями:

Читать похожие на «mixOmics для гуманитариев» книги

Одна из важных составляющих любой видеоигры – ее персонажи. Взаимодействие с ними погружает нас в необычную атмосферу. Как способен на это набор из анимированных пикселей? В каждом вымышленном герое угадывается реальный человек: со своими эмоциями, тревогами, мимикой, да и сами проблемы видеогероев оказываются не такими уж и выдуманными. Именно об этом расскажет Денис Петришин – практикующий психолог, создатель канала PsyCase и автор материалов для роликов YouTube-канала TVG. На этот раз его

Билл Шутт – бывший профессор биологии в LIU-Post и научный сотрудник в Американском музее естествознания. Мир кровожадных животных, который открывает Билл Шутт, отправит вас в омерзительно-увлекательное путешествие, где вампировые летучие мыши, пиявки и прочие кровососущие станут главными героями почти детективных историй. Это одновременно самая пугающая и забавная книга о биологии и истории. Вряд ли вы где-нибудь еще прочтете такой подробный рассказ о жизни кровожадных животных и насекомых.

Краткий любовный роман. В реальном мире не всегда можно найти пятый угол, третий путь. Иногда хорошего выбора просто нет, но помечтать-то хоть можно? Впрочем, действительно ли у главного героя в результате попадания в чудесный мир всё хорошо или он просто выбирает меньшее зло?!

В этот многотомный биографический справочник вошли биографии лиц военно-политического состава Красной Армии, Военно-морского флота, войск НКВД и Пограничных войск, получивших воинское звание полковой комиссар с 1935 по 1942 гг. Биографии составлены на базе учетно-послужных карт, личных дел и списков командно-начальствующего состава РККА. Многие биографии публикуются впервые!

В этой книге на основе своего многолетнего опыта и сотрудничества приблизительно с сотней компаний автор рассказывает об использовании корпоративных мероприятий как инструмента развития корпоративной культуры компании. Она будет интересна в первую очередь руководителям фирм, их владельцам и HR-директорам, которые тратят большие деньги на организацию корпоративных праздников, но обычно проводят их для галочки и не получают от этого никакой отдачи. Кроме того, книга Дениса Бурховецкого пригодится

Отдаленное будущее, век космической экспансии. В глубоком космосе дрейфует колониальный звездолет, отправленный когда-то на поиски пригодных для жизни планет. Однако, из-за необъяснимой аварии, произошедшей сотню лет назад, корабль превратился в мрачный склеп, населенный чудовищами, а большинство выживших уже не верят, что за бортом есть другие миры. Юрий Гарин – разведчик, один из тех, кто не оставляет попыток пробиться в капитанскую рубку и вернуть людям контроль над системами управления. Мог

Перед вами пошаговое пособие для начинающего предпринимателя. В этой книге я постарался сконцентрировать весь мой опыт, все знания о начальных шагах в бизнесе. За много лет предпринимательской деятельности таких знаний накопилось немало.

Что будет, если ты очнешься на острове посреди океана совсем один? Выживешь ли ты там, попав в толпу фанатиков? Что будет, если в далеком будущем тебя насильно соединят с коллективным разумом? Кому и зачем это нужно? Что, если чей-то эксперимент провалился? Все ответы знает только он.

Как вести неограниченное количество проектов, не теряя в качестве, соблюдать сроки и приводить в восторг заказчиков? Денис Фурсенко – сертифицированный менеджер проектов PMP и PMI, среди клиентов которого Лукойл, Shell, Disney, McDonalds, Universal Parks и др., дает пошаговые инструкции по ведению проектов. Эти инструкции позволяют в разы увеличить скорость работы и довести до идеала выполнение каждой задачи! Эта книга поможет вам: • Выстраивать надежные отношения с заказчиками • Повысить

«Я – другой» – фантастический роман Дениса Деева, третья книга одноименного цикла, жанр ЛитРПГ, боевая фантастика. Вернулся на Землю после ста лет отсутствия по уважительной причине? И обнаружил, что цивилизация рухнула, а родной дом заполонили кровожадные твари? Это ерунда, не делай из этого драму! Монстры оказались не чудовищами, а обычными киборгами весело и задорно разделывающими друг друга на запчасти ради такой непонятной для тебя штуки как «прокачка»? Тоже мне трагедия, перестань