Таблица сопряжённости: как построить и читать
Как построить таблицу сопряжённости, посчитать ожидаемые частоты и проценты по строкам и столбцам и связать всё с критерием хи-квадрат. С примером 2×2 и FAQ.
У вас два признака, и оба — категориальные: пол (юноши / девушки) и результат (сдал / не сдал ГТО). Среднее тут не посчитаешь — складывать «не сдал» и «сдал» бессмысленно.
Чтобы увидеть, связаны ли два таких признака, их сводят в таблицу сопряжённости. Это первый шаг почти любого анализа «частота против частоты» — и основа для критерия хи-квадрат.
В двух словах
Таблица сопряжённости (она же кросс-таблица, или таблица 2×2) — это таблица, где строки — категории одного признака, столбцы — категории другого, а в клетках стоит количество объектов, попавших в обе категории сразу.
Построить её и сразу проверить связь критерием хи-квадрат можно в калькуляторе хи-квадрат: вводите частоты по клеткам — получаете χ², p и вывод словами. Полный разбор самого критерия — в руководстве по критерию хи-квадрат.
Как построить таблицу сопряжённости
Нужны две вещи: два категориальных признака и список объектов, у каждого из которых известны обе категории.
Алгоритм простой:
- Первый признак — в строки. Например, «группа»: контрольная и экспериментальная.
- Второй признак — в столбцы. Например, «результат»: сдал и не сдал.
- Считаете объекты в каждой клетке. Клетка — это пересечение строки и столбца: «сколько человек из контрольной группы сдали».
- Добавляете итоги — суммы по строкам справа и по столбцам снизу. Самая правая нижняя клетка — общее число объектов N.
Размер таблицы называют по числу категорий: 2 категории × 2 категории — это таблица 2×2, 3 группы × 2 исхода — таблица 3×2 и так далее.
В клетках стоят именно частоты — штуки, люди, случаи, а не проценты и не баллы. Если у вас в клетках средние или измеренные значения — это не таблица сопряжённости, и хи-квадрат к ней не применяется.
Наблюдаемые и ожидаемые частоты
В таблице живут два вида частот, и их важно не путать.
Наблюдаемые частоты (O) — это то, что вы реально посчитали: сколько человек попало в каждую клетку. Их вы записываете руками.
Ожидаемые частоты (E) — это сколько человек оказалось бы в клетке, если бы связи между признаками не было вообще (признаки независимы). Их считают по формуле:
E = (сумма по строке × сумма по столбцу) / N
где сумма по строке и сумма по столбцу — это итоги для той клетки, которую считаете, а N — общее число объектов.
Пример. Если в группе из N = 80 человек строка «экспериментальная» содержит 40 человек, а столбец «сдал» — 50 человек, то ожидаемая частота «сдавших в экспериментальной группе» = 40 × 50 / 80 = 25. То есть «по случайности», без всякого эффекта программы, мы ждали бы 25 сдавших.
Дальше критерий хи-квадрат сравнивает, насколько наблюдаемые частоты отклонились от ожидаемых: чем сильнее O отличается от E, тем больше похоже, что связь есть.
Ожидаемые частоты — не «норматив» и не «план». Это гипотетическая картина «связи нет». Весь смысл анализа — проверить, далеко ли реальность ушла от этой картины.
Проценты по строкам и по столбцам
«Голые» частоты сравнивать неудобно, особенно если группы разного размера. Поэтому клетки переводят в проценты — и тут важно выбрать, от чего считать.
Проценты по строке — каждая клетка делится на итог своей строки. Отвечают на вопрос: «какая доля внутри этой группы дала такой результат». Например: «среди экспериментальной группы 75% сдали».
Проценты по столбцу — клетка делится на итог своего столбца. Отвечают: «какую долю этого результата дала каждая группа». Например: «среди всех сдавших 60% — из экспериментальной группы».
Правило выбора простое: процент считают по тому направлению, где лежит причина. Если вы изучаете, как группа влияет на результат, — считайте проценты по строкам (внутри каждой группы), так выводы читаются естественно: «в экспериментальной сдали 75%, в контрольной — 50%».
Пример таблицы 2×2 и её чтение
Возьмём конкретику. Вы проверяете, помогла ли авторская программа подготовки сдать нормативы ГТО. Две группы по 40 человек, исход — сдал / не сдал.
Таблица 1 — Сдача нормативов ГТО по группам (наблюдаемые частоты, N = 80)
| Группа | Сдал | Не сдал | Всего |
|---|---|---|---|
| Экспериментальная | 30 | 10 | 40 |
| Контрольная | 20 | 20 | 40 |
| Всего | 50 | 30 | 80 |
Читаем таблицу по шагам:
- По строкам. В экспериментальной сдали 30 из 40 — это 75%. В контрольной — 20 из 40, то есть 50%. Разница в долях есть: +25 процентных пунктов в пользу программы.
- Ожидаемая частота для клетки «экспериментальная × сдал»: 40 × 50 / 80 = 25. Наблюдали 30 — реальность выше ожидания на 5 человек. Значит, в этой клетке «перевес» в сторону связи.
- Вывод напрашивается, но на глаз связь не доказывают: разницу в 25% нужно проверить критерием хи-квадрат — вдруг она случайна из-за маленькой выборки.
Связь с критерием хи-квадрат
Таблица сопряжённости — это вход для критерия хи-квадрат. Сам критерий собирает все клетки в одно число:
χ² = Σ (O − E)² / E
то есть по каждой клетке берут разницу наблюдаемой и ожидаемой частоты, возводят в квадрат, делят на ожидаемую — и всё складывают. Чем больше χ², тем сильнее таблица отклонилась от картины «связи нет».
Дальше χ² сравнивают с критическим значением (или смотрят p-значение). Если p < 0,05 — связь между признаками статистически значима.
Хи-квадрат говорит только есть связь или нет — он не показывает, насколько она сильная. Для силы связи считают коэффициент V Крамера: он переводит χ² в понятную величину от 0 до 1.
Для таблицы 1 калькулятор даёт χ² ≈ 5,33 при p ≈ 0,021 — связь значима. А ещё одно ограничение: хи-квадрат корректен, только когда ожидаемые частоты в клетках не меньше 5. Если где-то E < 5 (частая беда в таблицах 2×2 на маленьких выборках), используют точный критерий Фишера.
Что писать в дипломе
Подставьте свои числа:
- «Для проверки связи между признаками “группа” и “результат сдачи ГТО” данные сведены в таблицу сопряжённости 2×2 (таблица 1)».
- «В экспериментальной группе нормативы сдали 75% участников, в контрольной — 50%».
- «Значимость связи проверена критерием χ²: χ² = 5,33 при p = 0,021, что меньше 0,05».
- «Выявлена статистически значимая связь между участием в программе и успешностью сдачи нормативов (χ² = 5,33; p < 0,05); сила связи по V Крамера составила 0,26 — средняя».
Частые ошибки
- Класть в клетки проценты или баллы. В клетках только частоты (штуки). Проценты считают отдельно, для чтения.
- Считать проценты не в ту сторону. Решите заранее: по строкам или по столбцам, и держитесь одного направления по всей работе.
- Забыть про ожидаемые частоты < 5. Если хоть в одной клетке E < 5, хи-квадрат некорректен — нужен точный критерий Фишера.
- Принять связь за причинность. Таблица показывает, что признаки связаны, но не доказывает, что один вызвал другой.
- Доказывать связь «на глаз» по разнице процентов. Разницу обязательно проверяют критерием — иначе это не доказательство.
Частые вопросы
Чем таблица сопряжённости отличается от обычной таблицы с данными?
В обычной таблице данных строки — это объекты (по строке на каждого человека), а столбцы — их признаки. В таблице сопряжённости и строки, и столбцы — это категории, а в клетках стоит, сколько объектов попало в обе категории сразу. Это сводка, а не сырые данные.
Сколько строк и столбцов может быть?
Сколько угодно — главное, чтобы признаки были категориальными. 2×2 — самый частый случай (две группы, два исхода). Бывают 3×2, 2×4 и т.д. Чем больше клеток, тем больше нужна выборка, чтобы ожидаемые частоты не падали ниже 5.
Где взять ожидаемые частоты — их тоже считать руками?
Можно по формуле E = (сумма строки × сумма столбца) / N для каждой клетки, но проще ввести наблюдаемые частоты в калькулятор хи-квадрат — он сам посчитает ожидаемые, χ², p и проверит условие E ≥ 5.
Что делать, если в клетке ожидаемая частота меньше 5?
Для таблицы 2×2 берут точный критерий Фишера (он работает и при малых частотах). Для больших таблиц иногда объединяют редкие категории, чтобы клетки «наполнились». Главное — не применять обычный хи-квадрат, если условие нарушено.
Таблица показала связь — можно сказать, что программа сработала?
Связь — да, причинность — осторожно. Хи-квадрат показывает, что признаки идут вместе. Чтобы говорить про эффект программы, нужны корректный план (контрольная группа, рандомизация) и аккуратные формулировки: «связано с», а не «вызвано».
Короткий алгоритм
- Возьмите два категориальных признака; первый — в строки, второй — в столбцы.
- Посчитайте наблюдаемые частоты по клеткам и итоги по строкам/столбцам.
- Для чтения переведите клетки в проценты (по строкам или по столбцам — выберите одно направление).
- Проверьте связь критерием хи-квадрат в калькуляторе; убедитесь, что ожидаемые частоты ≥ 5.
- Если связь значима (p < 0,05) — добавьте силу связи через V Крамера и опишите словами.
Коротко: строки × столбцы → частоты в клетках → проценты для чтения → хи-квадрат для значимости → V Крамера для силы. Таблица сопряжённости — это просто аккуратная сводка «кто во что попал», с которой начинается весь анализ частот.
Что ещё почитать
- Калькулятор хи-квадрат — построить таблицу и сразу получить χ², p и вывод.
- Руководство по критерию хи-квадрат — как работает критерий и когда его применять.
- V Крамера: размер эффекта — оценить силу связи после хи-квадрата.
- Описательная статистика — посчитать доли и проценты по категориям.
- База методов и калькуляторов — выбрать подходящий метод под ваши данные.
Не уверены, какой критерий подходит к вашей таблице, — загляните в базу методов или закажите консультацию.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.