StatBlank
Руководства18 июня 2026·9 мин чтения

Контент-анализ в дипломе: от текстов к частотам

Что такое контент-анализ, как выделить категории и единицы счёта, перевести ответы в частоты и проценты и проверить связь хи-квадратом. С примерами и FAQ.

У вас на руках стопка анкет, открытых ответов или текстов интервью — а в дипломе нужны цифры, таблицы и проценты. Как из «слов» получить «числа», по которым потом считают статистику?

Это и делает контент-анализ: переводит качественный текст в счётные категории, а дальше с частотами уже работают обычные методы — проценты, таблицы, хи-квадрат.

В двух словах

Контент-анализ в дипломе — это формализованный подсчёт: вы заранее задаёте список смысловых категорий, затем читаете тексты и отмечаете, какая категория где встретилась. На выходе — частоты и проценты вместо «воды».

Дальше частоты сравнивают: если нужно проверить, зависит ли распределение ответов от группы (например, юноши и девушки), берут калькулятор хи-квадрат. Если контент-анализом вы обрабатываете именно открытые вопросы анкеты — почитайте отдельный разбор «Как обработать открытые вопросы анкеты».

Что такое контент-анализ простыми словами

Контент-анализ — это метод, который превращает неструктурированный текст в числа по чётким правилам. Вы не пересказываете ответы «своими словами», а считаете, сколько раз встретился каждый заранее определённый смысл.

Главное отличие от «просто прочитать и описать» — формализация. Правила счёта задаются до того, как вы открыли первую анкету, и применяются ко всем текстам одинаково. Поэтому результат можно проверить и повторить.

Заметка

Контент-анализ бывает количественный (считаем частоты — то, что нужно в дипломе чаще всего) и качественный (описываем смыслы без жёсткого счёта). Для статистики берут количественный: только он даёт числа, с которыми работают критерии.

Где он нужен в дипломе:

  • Открытые вопросы анкеты — «Что для вас важнее всего в тренере?» и десятки разных формулировок в ответ.
  • Тексты — сочинения, посты, отзывы, протоколы наблюдения, ответы на интервью.
  • Документы — программы, планы, публикации, которые надо сравнить по содержанию.

Категории и единицы счёта: главные понятия

Весь метод держится на двух понятиях. Если их перепутать — таблица не сойдётся.

Категория анализа — это смысловая «корзина», рубрика, по которой вы раскладываете содержание. Например, для вопроса «За что вы любите спорт?» категориями будут: «здоровье», «общение», «соревнование/победа», «эмоции/удовольствие».

Единица счёта (единица анализа) — это то, что вы реально считаете и относите в категорию. Чаще всего единицей берут:

  • Одно высказывание (ответ) одного респондента — самый частый и удобный для диплома вариант: один человек = один голос в одну категорию.
  • Слово или словосочетание — если важна частота конкретных терминов.
  • Тему/суждение — законченную мысль, даже если она в несколько предложений.
Важно

Сразу решите: сколько категорий может получить один ответ — одну (тогда сумма частот = числу респондентов) или несколько (тогда сумма больше). От этого зависит, как считать проценты и можно ли применять хи-квадрат. Для хи-квадрата нужен вариант «одна единица — одна категория».

Хорошие категории отвечают трём требованиям:

  • Взаимоисключающие — один ответ нельзя честно отнести сразу в две (иначе счёт «поплывёт»).
  • Полные — для всего, что встречается, есть своя корзина (плюс корзина «другое»).
  • Понятные — у каждой есть определение и пример, чтобы второй человек разложил так же.

Как перевести качественные данные в частоты и проценты

Это ядро метода. Покажу по шагам на сквозном примере.

Задача. Вы спросили 60 студентов-физкультурников открытым вопросом: «Главный мотив заниматься спортом?» Нужно превратить 60 текстовых ответов в таблицу.

Шаг 1. Прочитать часть ответов и составить категории. Прочитайте 15–20 анкет «начерно» и выпишите повторяющиеся смыслы. Получилось 4 категории + «другое»: здоровье, общение, достижения/победа, удовольствие, другое.

Шаг 2. Дать каждой категории определение и якорный пример. Чтобы кодирование было одинаковым:

Таблица 1 — Кодировочная таблица (схема категорий)

Код Категория Что относим Пример ответа
1 Здоровье про самочувствие, форму, отказ от вредного «чтобы быть здоровым», «держать форму»
2 Общение про друзей, команду, тренера «там моя команда», «новые друзья»
3 Достижения про результат, разряд, победу, соревнования «хочу выполнить КМС», «люблю выигрывать»
4 Удовольствие про эмоции, кайф, азарт, разрядку «это драйв», «снимаю стресс»
0 Другое всё, что не вошло «так привык», «родители заставляли»

Эта таблица — ваш рабочий инструмент кодирования; в дипломе её приводят, чтобы показать, что счёт был формализованным.

Шаг 3. Закодировать все 60 ответов. Идёте по анкетам и каждому ответу ставите код 1–4 или 0. Удобно вести в таблице: столбец «ответ», столбец «код».

Шаг 4. Посчитать частоты. Просто сосчитайте, сколько ответов попало в каждую категорию. Получилось: здоровье — 21, общение — 9, достижения — 18, удовольствие — 8, другое — 4. Сумма = 60 (каждый дал ровно один мотив).

Шаг 5. Перевести в проценты. Доля категории считается по формуле:

P = (f / N) × 100%

где f — частота (сколько ответов в категории), N — общее число единиц (здесь 60 ответов).

Пример. Категория «здоровье»: P = (21 / 60) × 100% = 35%. «Достижения»: 18 / 60 × 100% = 30%. Получаем готовую строку для диплома: «ведущий мотив — здоровье (35%), на втором месте достижения (30%)».

Совет

Если один респондент мог назвать несколько мотивов, проценты считайте от числа респондентов, а не от числа упоминаний, и обязательно оговорите это: «сумма превышает 100%, так как один человек мог указать несколько вариантов».

Как потом применить хи-квадрат

Частоты сами по себе уже описывают данные. Но в дипломе часто нужно доказать связь: например, что у юношей и девушек мотивы распределяются по-разному. Это работа для критерия хи-квадрат (χ²) Пирсона.

Хи-квадрат сравнивает наблюдаемые частоты с теми, что были бы при отсутствии связи, и говорит, значимо ли расхождение. Данные подают в виде таблицы сопряжённости «категория × группа».

Таблица 2 — Распределение мотивов по полу (наблюдаемые частоты, n = 60)

Мотив Юноши Девушки Всего
Здоровье 9 12 21
Общение 3 6 9
Достижения 13 5 18
Удовольствие 5 3 8
Другое 2 2 4
Всего 32 28 60

Из таблицы видно, что у юношей перевешивают «достижения», у девушек — «здоровье» и «общение». Хи-квадрат проверит, случайна ли эта разница.

Чтобы получить χ², введите эти частоты в калькулятор хи-квадрат: он посчитает эмпирическое значение, число степеней свободы и p-уровень. Логика вывода такая:

  • p ≤ 0,05 — распределение мотивов зависит от пола, разница значима.
  • p > 0,05 — значимой связи нет, различия можно объяснить случайностью.
Осторожно

У хи-квадрата есть жёсткое ограничение: ожидаемая частота в каждой ячейке должна быть не меньше 5 (хотя бы в 80% ячеек). Если категорий много, а выборка маленькая, ячейки «пустеют». Решение — объединить мелкие категории (например, «удовольствие» и «другое» в одну) или укрупнить группы.

Что писать в дипломе

Готовые формулировки — подставьте свои числа:

  • «Для обработки открытых ответов применялся контент-анализ; единицей счёта выступал отдельный ответ респондента, отнесённый к одной из категорий».
  • «Выделено 4 содержательных категории и категория “другое”; схема категорий представлена в таблице 1».
  • «Ведущим мотивом занятий спортом является здоровье (35%, 21 ответ из 60), второе место занимают достижения (30%)».
  • «Различия в распределении мотивов по полу проверялись критерием χ²: χ²эмп = 9,8 при df = 4, p < 0,05 — распределение мотивов значимо зависит от пола».
  • «Связь между полом и ведущим мотивом не достигла уровня значимости (χ²эмп = 6,1; df = 4; p > 0,05)».

Частые ошибки

  • Категории придумывают «на ходу». Если правила счёта не зафиксированы до кодирования, результат нельзя проверить. Сначала кодировочная таблица — потом счёт.
  • Категории пересекаются. Ответ можно отнести и в «общение», и в «удовольствие» — счёт двоится. Сделайте корзины взаимоисключающими или заранее задайте правило приоритета.
  • Проценты от разной базы. Часть процентов от числа ответов, часть — от числа людей. База должна быть одна, и её надо назвать.
  • Хи-квадрат на процентах. В калькулятор вводят абсолютные частоты (штуки), а не проценты. Это самая частая ошибка.
  • Нарушено правило ожидаемых частот. Много мелких категорий + маленькая выборка = ячейки меньше 5. Укрупняйте.
  • Один кодировщик без проверки. Хорошо, когда часть текстов независимо кодирует второй человек, и вы показываете, что коды совпали.

Частые вопросы

Сколько категорий должно быть?

Обычно 4–7 содержательных плюс «другое». Меньше трёх — теряется смысл (всё в одну кучу), больше восьми — категории мельчают, частоты падают, и хи-квадрат перестаёт работать из-за пустых ячеек. Ориентируйтесь на то, что реально повторяется в ответах.

Чем контент-анализ отличается от обычного «прочитал и описал»?

Формализацией и счётом. При обычном описании вы пересказываете впечатление; при контент-анализе — задаёте правила, считаете частоты и получаете числа, которые может перепроверить другой человек. Только числа годятся для статистики.

Можно ли один ответ отнести сразу в несколько категорий?

Можно, но тогда сумма частот будет больше числа респондентов, проценты считают от числа людей, и применять хи-квадрат «в лоб» уже нельзя. Для статистики удобнее правило «один ответ — одна категория» (берут ведущий, главный смысл).

Какой критерий брать после контент-анализа, кроме хи-квадрата?

Если вы сравниваете доли в двух группах (например, доля выбравших «здоровье» у юношей и девушек), подойдёт критерий φ* Фишера (угловое преобразование). Для таблицы «категория × группа» в целом — хи-квадрат.

Что делать с ответами «не знаю» и пустыми?

Заведите отдельную категорию «нет ответа» / «затрудняюсь» и считайте её честно — выкидывать молча нельзя, это исказит проценты. В таблицу сопряжённости для хи-квадрата такие ответы обычно не включают, оговорив это в тексте.

Короткий алгоритм

  1. Прочитайте часть текстов и выпишите повторяющиеся смыслы — это категории.
  2. Составьте кодировочную таблицу: код, категория, определение, пример (таблица 1).
  3. Выберите единицу счёта и правило «одна или несколько категорий на ответ».
  4. Закодируйте все тексты по таблице, посчитайте частоты каждой категории.
  5. Переведите в проценты: P = (f / N) × 100%.
  6. Если нужна связь с группой — сведите в таблицу сопряжённости и проверьте хи-квадратом (вводите абсолютные частоты, следите за ожидаемыми ≥ 5).
Вывод

Коротко: категории → кодировочная таблица → частоты → проценты → хи-квадрат. Так стопка текстов превращается в доказательную часть диплома с числами и таблицами.

Что ещё почитать

Не уверены, как разбить ответы на категории и какой критерий применить дальше — загляните в базу методов или закажите консультацию: поможем довести обработку до готовых таблиц и выводов.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.