Генеральная совокупность и выборка: разбор с примерами
Что такое генеральная совокупность и выборка простыми словами, зачем по выборке судят обо всех и как связаны репрезентативность и объём. С примерами и FAQ.
Вы написали в дипломе «выборку составили 80 студентов» — и научрук спрашивает: а о ком вы тогда делаете выводы? О восьмидесяти или обо всех студентах вуза?
Это и есть разница между выборкой и генеральной совокупностью. Понять её нужно один раз — дальше она держит всю логику вашего исследования.
В двух словах
Генеральная совокупность — это все объекты, о которых вы хотите сделать вывод (например, все студенты вуза). Выборка — это та часть, которую вы реально опросили или измерили (например, 80 человек).
Смысл всей статистики: измерить выборку, а вывод распространить на всю совокупность. Чтобы это было законно, выборка должна быть репрезентативной и достаточной по объёму. Посчитать средние и доли по своей выборке можно в калькуляторе описательной статистики.
Что такое генеральная совокупность
Генеральная совокупность — это полный набор всех единиц, которые подпадают под ваш исследовательский вопрос. Все, о ком вы хотите что-то утверждать в выводах.
Она задаётся вашей же темой. Меняете формулировку — меняется и совокупность.
- «Тревожность студентов первого курса педвуза» → совокупность = все первокурсники этого педвуза.
- «Физическая подготовленность юношей 16–17 лет г. Казани» → совокупность = все такие юноши в городе.
- «Мотивация спортсменов-разрядников по плаванию» → совокупность = все такие пловцы.
Чаще всего пересчитать и опросить всю совокупность невозможно: людей слишком много, они разбросаны, нет доступа. Поэтому к ней почти не обращаются напрямую — работают с её частью.
Совокупность не обязана быть «бесконечной». Если в вашем колледже учится ровно 300 первокурсников и тема про них — генеральная совокупность равна 300. Это называют конечной совокупностью, и в ней теоретически можно опросить всех (тогда выборка не нужна).
Что такое выборка
Выборка — это часть генеральной совокупности, которую вы фактически включили в исследование: те, кого опросили, протестировали, измерили.
Число людей в ней — это объём выборки, обозначается n (маленькое). Объём всей совокупности обозначают N (большое). Почти всегда n много меньше N.
Именно с выборкой вы реально работаете: считаете по ней средние, проценты, проводите тесты. Всё, что попадает в вашу таблицу с данными, — это выборка.
Пример. В вузе 4000 студентов (это N — генеральная совокупность). Опросить всех нереально, поэтому вы раздаёте анкету 80 студентам (это n — выборка). Считаете средний балл тревожности по этим 80 и говорите: «примерно так же дело обстоит у всех 4000».
Зачем по выборке судят обо всех
Вся прикладная статистика стоит на одной идее: измеряем малое, выводы делаем о большом. Это называется статистическим выводом.
Логика простая. Опросить 4000 человек дорого и долго. Но если 80 человек выбраны без перекосов, то среднее по ним будет близко к среднему по всем 4000 — с небольшой, заранее оцениваемой погрешностью.
Поэтому в дипломе вы пишете не «80 студентов тревожны», а «у студентов вуза наблюдается такой-то уровень тревожности» — обобщаете на совокупность. А чтобы это обобщение было честным, нужны два условия — репрезентативность и достаточный объём.
Связь с репрезентативностью и объёмом
Перенести вывод с выборки на совокупность можно не всегда. Право на это даёт сочетание двух свойств выборки.
Репрезентативность — это похожесть. Выборка должна повторять совокупность по структуре: пол, возраст, курс, уровень подготовки. Если в вузе половина девушек, а вы опросили 80 одних юношей — вывод «о студентах вуза» уже неправомерен.
Объём — это надёжность. Чем больше n, тем меньше случайная погрешность и тем устойчивее результат. На 8 людях даже идеально подобранная выборка даёт шаткие цифры.
Эти свойства независимы: бывает большая, но кривая выборка (10 000 анкет, но только от активных пользователей) и маленькая, но аккуратная. Нужны оба.
Таблица 1 — Генеральная совокупность и выборка: чем отличаются
| Признак | Генеральная совокупность | Выборка |
|---|---|---|
| Что это | все объекты по теме | часть, которую измерили |
| Обозначение объёма | N | n |
| Кого изучаем фактически | редко (обычно недоступна) | да, с ней работаем |
| На кого распространяем вывод | на неё | — |
| Главное требование | чётко определить границы | репрезентативность + объём |
Из таблицы 1 видно главное: совокупность вы определяете (описываете словами в начале работы), а выборку — формируете и измеряете. Качество выборки решает, можно ли вообще переносить выводы на совокупность.
Сначала опишите генеральную совокупность одним предложением — «студенты 1–2 курсов факультета физической культуры». Тогда сразу видно, кого набирать в выборку и кому будут адресованы выводы. Подробнее о подборе — в статье «Репрезентативность выборки».
Подробный пример: студенты вуза
Разберём по шагам на сквозном примере.
Шаг 1. Определяем совокупность. Тема — «уровень учебной мотивации студентов 1 курса педагогического вуза». Значит, генеральная совокупность — все первокурсники этого вуза. Допустим, их N = 600.
Шаг 2. Формируем выборку. Опросить всех 600 нереально (расписание, отказы, время). Берём n = 80 студентов так, чтобы доли факультетов и пол в выборке примерно совпадали с долями среди всех 600.
Шаг 3. Измеряем выборку. Считаем по этим 80 средний балл мотивации:
M = (сумма баллов всех 80) ÷ 80
Получаем, например, M = 5,8 балла из 7. Это характеристика выборки (её называют выборочным средним).
Шаг 4. Делаем вывод о совокупности. Раз выборка похожа на совокупность и её хватает по объёму, заключаем: средняя мотивация всех первокурсников вуза тоже около 5,8 балла. Это уже утверждение о совокупности.
Числа, которые вы посчитали (среднее, доля, медиана), — это характеристики выборки, их называют статистиками. Истинные значения по всей совокупности называют параметрами, и они нам обычно неизвестны. Статистика — это и есть наука о том, как по статистикам выборки оценивать параметры совокупности.
Что писать в дипломе
Готовые формулировки — подставьте свои числа.
- «Генеральную совокупность исследования составили студенты 1 курса педагогического вуза (N = 600)».
- «Выборку исследования составили 80 студентов (n = 80), отобранных с учётом распределения по полу и факультетам».
- «Выборка является репрезентативной по отношению к генеральной совокупности по структуре пола и года обучения».
- «Полученные на выборке результаты с заданной точностью распространяются на всю генеральную совокупность первокурсников вуза».
Описать выборку по полу, возрасту и другим признакам и посчитать средние помогает калькулятор описательной статистики.
Частые ошибки
- Путать N и n. N — это вся совокупность, n — сколько реально опросили. В дипломе чаще нужен и фигурирует именно n.
- Делать вывод шире выборки. Опросили только юношей-спортсменов, а пишете «у молодёжи». Вывод не может выходить за границы того, кого вы реально представляли.
- Считать, что «чем больше выборка, тем точнее» — и всё. Объём не лечит перекос: кривая большая выборка хуже аккуратной средней.
- Не определить совокупность в начале. Тогда непонятно, на кого вообще распространять результаты, и научрук задаёт неудобный вопрос.
- Называть выборкой случайных «кто откликнулся». Самоотбор — это уже не репрезентативная выборка.
Частые вопросы
Чем отличается N от n?
N (большое) — объём всей генеральной совокупности, например все 600 первокурсников. n (маленькое) — объём вашей выборки, например 80 опрошенных. В расчётах и тексте диплома почти всегда используется n.
Обязательно ли знать точный размер генеральной совокупности?
Нет. Часто её размер неизвестен или огромен (например, «все подростки региона»). Для расчётов это не мешает: формулы объёма выборки прекрасно работают и для очень большой совокупности. Важно лишь чётко описать её границы словами.
Можно ли изучить всю совокупность без выборки?
Если совокупность маленькая и доступна — да. Опрос всех её единиц называют сплошным исследованием (или переписью). Например, если в вашей группе 25 человек и тема про эту группу — выборка не нужна, вы изучаете совокупность целиком.
Сколько человек брать в выборку?
Зависит от темы, метода и размера совокупности. Для дипломных опросов часто хватает 30–100 человек, но цифру стоит обосновать. Подробно — в статье «Сколько респондентов нужно для диплома».
Зависит ли это от типа данных, которые я собираю?
Косвенно — да. От шкалы измерения зависит, какие характеристики выборки вы считаете (среднее или медиану) и какие критерии применяете, но сама логика «выборка → совокупность» остаётся той же для любых данных.
Короткий алгоритм
- Определите совокупность одной фразой: кто все те, о ком будет вывод.
- Сформируйте выборку так, чтобы по структуре она повторяла совокупность.
- Зафиксируйте объёмы: N (если известен) и n (обязательно).
- Измерьте выборку — посчитайте средние и доли в описательной статистике.
- Сделайте вывод о совокупности, не выходя за её границы.
Коротко: генеральная совокупность — все, о ком вывод (N); выборка — кого измерили (n); по репрезентативной и достаточной выборке выводы законно переносятся на всю совокупность.
Что ещё почитать
- Репрезентативность выборки — как сделать выборку похожей на совокупность и не получить перекос.
- Сколько респондентов нужно для диплома — как обосновать объём выборки n.
- Шкалы измерения — какими бывают данные и что это меняет в расчётах.
- Описательная статистика — посчитать средние, доли и описать выборку.
- База методов и калькуляторов — выбрать инструмент под свою задачу.
Не уверены, как описать выборку и совокупность в своей теме — загляните в базу методов или закажите консультацию.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.