Это может быть логистическая регрессия с градацией в качестве двоичной зависимой переменной (1 для "Да" и 0 для "Нет") и расой в качестве независимой. Вы бы закодировали Race в виде пяти отдельных фиктивных (1/0) переменных, при этом каждый субъект в вашем наборе данных имел бы 1 в одной из этих переменных и 0 в четырех других. Затем вы должны запустить регрессию с одним из этих пяти макетов, опущенных в регрессии, в качестве эталонной категории. Вы бы использовали выходные данные, чтобы сделать выводы, например, о том, что шансы на получение высшего образования у студентов расы A на X% выше, чем у студентов расы B.
Существует модуль Scikit-Learn "LogisticRegression", который легко выполнит это вычисление (хотя это только для Python, а не для R, что может быть проблемой). Преимущество Scikit в том, что если вы хотите выполнить линейный SVC ... это легко, потому что это просто еще один модуль. Более того, если вы хотите оценивать данные в рамках ML framework, это простое расширение. Опять же, вам нужно будет немного изучить Python, чтобы импортировать ваши данные.
Традиционные статистические данные, такие как тесты Хи-квадрат и V Крамера, могут быть использованы для определения взаимосвязи между двумя категориальными признаками.
Проще говоря, при определенных величинах и степенях результат будет такой, что 5 к 1. Скажем, вот вы покупаете товар. Какова вероятность, что вы купите этот.
То есть люди купят скорее мороженное, чем кондиционер. Почему?
Потому что кондиционер более затратный и требует больше времени. Тоже самое и с едой. Если человек никуда не торопится, то приготовит еду сам за меньшие деньги и получит удовольствия от процесса. А в другом случаи ресторан. Поэтому цифра 1 содержит числа 2000, а 5 даже не дотягивает до 900. Значит все верно. Законы рынка таковы. Если брать доходность каждого дня и периода, мы получим график где будут показано все в процентном соотношении. Скажем, палатки с мороженным раскинутым по всей Москве, могут принести больше дохода за день, чем один проданный кондиционер в МВидео.