Генеральная и выборочная совокупности

Изучаемая статистическая совокупность может рассматриваться как генеральная или как выборочная. Это обстоятельство определяет подходы к анализу полученных данных. Дадим определения этим понятиям.

Генеральная совокупность – это совокупность всех без исключения единиц изучаемого объекта, всех единиц, которые соответствуют цели исследования.

Выборочная совокупность (выборка) – это часть единиц генеральной совокупности, отобранная специальным методом и предназначенная для характеристики всей генеральной совокупности.

Пример.

Цель исследования: изучить здоровье современных студентов ИвГМА.

Тогда:

· Генеральной совокупностью будут являться все до единого студенты ИвГМА, обучающиеся в данном году. Объем совокупности составит, предположим, две тысяч человек (N=2000).

· Выборочной совокупностью могут являться, предположим, 180 студентов, обучающихся ИвГМА в данном году (n=180).

Обратите внимание, что одна и та же статистическая совокупность может рассматриваться или как генеральная, или как выборочная. Это зависит от цели исследования.

Пример.

Изучаемая совокупность – все студенты ИвГМА, обучающиеся в данном году. Эта совокупность будет являться:

· Генеральной, если цель исследования – изучить здоровье студентов ИвГМА, обучающихся в данном году.

· Выборочной, если цель исследования – изучить здоровье современных студентов медицинских вузов России.

Выборочная совокупность изучается тогда, когда изучить генеральную совокупность невозможно или нерационально, т.е. неразумно (от лат. ratio – разум). Это обычно бывает в следующих случаях:

1) Генеральная совокупность очень велика, поэтому изучать ее всю целиком нерационально (эта работа потребует очень много времени и средств).

Пример:

Изучается здоровье очень большой группы населения, предположим, здоровье женщин репродуктивного возраста (от 15 до 49 лет), проживающих в Ивановской области. Численность женщин этого возраста в Ивановской области (т.е. объем генеральной совокупности) в настоящее время составляет около 260 тысяч. Чтобы провести медицинский осмотр и(или) проанкетировать такое огромное число женщин потребуются десяток лет, сотни специалистов-исследователей и миллионы рублей. Поэтому формируют выборку, например, из нескольких сотен женщин (предположим, n=600), изучают их здоровье, а затем распространяют, «переносят» сделанные выводы на всех женщин репродуктивного возраста, проживающих сейчас в Ивановской области (т.е. всю генеральную совокупность).

2) Генеральная совокупность не имеет границ (прежде всего, временных).

Пример:

Изучается эффективность нового лекарственного средства, предположительно обладающего гипотензивным действием. Чтобы доказать, что это средство надежно и стабильно снижает артериальное давление, необходимо его опробовать на всех (!!!) больных артериальной гипертензией – живущих сейчас во всех странах, а также всех, кто будет жить на Земле в будущем. Именно такая группа будет являться в данном случае генеральной совокупностью. Однако выполнить такое исследование совершенно невозможно. Поэтому формируют выборку, состоящую из нескольких сотен современных больных артериальной гипертензией (предположим, n=400), апробируют лекарственное средство на этих пациентах, а затем сделанные выводы относительно его эффективности и безопасности распространяют на всю генеральную совокупность больных артериальной гипертензией.

3) Изучение всей генеральной совокупности приведет к ее уничтожению.

Пример:

Необходимо оценить качество поступившей в аптечную сеть с завода-изготовителя партии лекарственного препарата. Вся партия – это генеральная совокупность (предположим, N=2000). Препарат выпускается в форме раствора в герметично закупоренных флаконах. Чтобы оценить концентрацию различных веществ в растворе, необходимо выполнить ряд химических опытов. Для этого требуется вскрыть герметичный флакон и использовать больше половины его содержимого. Понятно, что после этого исследования применять данный флакон с лекарственным препаратом уже нельзя. Если будут вскрыты и проверены все флаконы этой партии (т.е. изучена вся генеральная совокупность), то будут получены совершенно точные сведения о качестве изучаемой партии лекарства, но при этом вся она будет полностью уничтожена. Поэтому формируют выборку из нескольких флаконов, вскрывают и проверяют их, а сделанные по выборке выводы о качестве лекарственного препарата распространяют на всю партию лекарства (т.е. всю генеральную совокупность).

Возникает вопрос: а можно ли доверять выборочным данным (т.е. данным, которые получены при изучении выборки)? Можно ли утверждать, что, если лекарственное средство эффективно для 75 из 100 испытуемых, то и вся генеральная совокупность больных этим заболеванием будет характеризоваться такими же свойствами? То есть у троих из каждых четверых пациентов это средство будет давать ожидаемый эффект? Да, это утверждать можно. Правда, не со 100%-ной уверенностью. Как точно измерять уверенность при статистических утверждениях, вы узнаете на учебных занятиях в следующем семестре. Пока же разберемся, почему можно доверять результатам выборочного исследования.

Возможность изучать генеральную совокупность по выборке опирается на закон больших чисел. Этот закон является одним из основных в теории вероятностей. Простейшую схему его проявления впервые описал швейцарский математик Якоб Бернулли (1655-1705). Если применить этот математический закон к статистическому исследованию, то он будет выглядеть так:

1. При увеличении числа наблюдений в выборке результаты выборочного исследования все больше и больше становятся похожими на истинные характеристики генеральной совокупности.

2. При достижении определенного числа наблюдений в выборке результаты выборочного исследования станут максимально близкими к истинным характеристикам генеральной совокупности.

Другими словами, чем больше объем выборки (чем больше в ней единиц наблюдения), тем точнее исследование, тем больше можно доверять выводам, которые сделал исследователь при изучении этой выборки. Однако, начиная с некоторого объема наблюдения, точность исследования почти перестает изменяться. Увеличение числа единиц наблюдения не дает существенного повышения точности – исследователь просто будет делать лишнюю работу. Он мог бы получить те же самые сведения, изучив меньшее число единиц наблюдения.

Пример.

Изучается распространенность табакокурения среди студентов России. Генеральная совокупность очень велика, поэтому изучать ее всю целиком не стоит. Проводится выборочное исследование. Были опрошены 10 случайно выбранных студентов разных вузов. Они ответили, что не курят (предположим, ответили искренне). Можно ли на основании этих данных делать вывод, что курящих студентов в российских вузах нет? Конечно же, нельзя. Выборка слишком мала, она не способна охарактеризовать всю генеральную совокупность. В выборку случайно попали только некурящие студенты. Но если увеличивать объем выборки, то повышается вероятность того, что в ней окажутся и курящие студенты тоже. Причем, чем больше будет становиться объем выборки, тем ближе к истинному будет в ней соотношение курящих и некурящих. При достижении некоторого объема выборки это соотношение будет крайне мало отличаться от истинного.

Итак, малая выборка не может точно охарактеризовать генеральную совокупность. А всегда ли способна это сделать большая выборка? Нет, не всегда. Здесь нам нужно познакомиться с понятием репрезентативности.