Основные статистические параметры большой и малой выборочной совокупности и их характеристика. Бутстреп, малые выборки, применение в анализе данных Теория малых выборок
Рассмотренные выше приемы расчета характеристик выборочной совокупности (дисперсии, средней и предельной ошибок и т.д.) предусматривают достаточно большую численность выборки (п > 30). В то же время не всегда возможен и целесообразен большой объем выборки. В практике производственных наблюдений и в научно-исследовательской работе часто приходится пользоваться небольшими по объему выборками, численность которых не превышает 30 единиц (агрономические и зоотехнические опыты, проверка качества продукции, связанная с уничтожением образцов и др). В статистике они получили название малых выборок. Согласно выборки с численностью более 30 единиц называют большими выборками.
Небольшой объем выборки уменьшает ее точность по сравнению с большой выборкой. Однако доказано, что результаты, полученные с малыми выборками, также можно распространять на генеральную совокупность. Но здесь необходимо учитывать некоторые особенности, в частности, при расчете среднего квадратического отклонения. При малом объеме выборки следует пользоваться незміщеною оценкой дисперсии 52.
Основы теории малых выборок разработал английский математик-статистик В.Госсет (псевдоним Стьюдент). Исследования Стьюдента показали, что при небольшой численности совокупности среднее квадратическое отклонение в выборке значительно отличается от среднего квадратического отклонения в генеральной совокупности.
Поскольку среднее квадратическое отклонение генеральной совокупности является одним из параметров кривой нормального распределения, то использовать функцию нормального распределения для оценки параметров генеральной совокупности по данным малых выборок в силу получения больших ошибок неправомерно.
При расчете средней ошибки по выборках малой численности всегда надо пользоваться незміщеною оценкой дисперсии
где п - 1 - число степеней свободы вариации (к), под которым понимают число единиц, способных принимать произвольные значения, не меняя их общей характеристики (средней).
Например, проведено три наблюдения: х1 = 4; х2 = 2; х3 = 6. Средняя величина
Итак, свободно варьирующих величин остается только две, потому что третья может быть найдена по известным двумя величинами и средней:
Следовательно, для данного примера число степеней свободы вариации равен 2 (к = п - 1 = 3 - 1 = 2).
Стьюдент обосновал закон распределения отклонений выборочных средних от генеральной средней для малых выборок. Согласно распределения Стьюдента вероятность того, что предельная ошибка не превысит и-кратную среднюю ошибку в малых выборках зависит от величины и численности выборки.
Теоретическое нормированное отклонение для малых выборок получило название и-критерия в отличие от и-критерию нормального распределения, который применяется в больших выборках. Значение и-критерия Стьюдента приводятся в специальных таблицах (прил. 3).
Рассмотрим порядок определения средней и предельной ошибки для малой выборки на таком примере. Допустим, для определения величины потерь при уборке картофеля проведено перекопку пяти случайно отобранных площадок по 4 м2. Потери по площадкам составляли (кг); 0,6; 0,2; 0,8; 0,4; 0,5.
Средняя величина потерь
Судя по отдельным наблюдениям, величина потерь сильно варьирует и средняя только по пяти наблюдениях может иметь большую ошибку.
Для расчета ошибок выборки определим несмещенную оценку дисперсии
Рассчитаем среднюю ошибку выборочной средней, где вместо среднего квадратического отклонения используется его незміщена оценка:
По таблицам Стьюдента (прил. 3) установим, что при доверительной вероятности Г = 0,95 (уровень значимости а = 0,05) и при к = п - 1 = 5 - 1 = 4 степенях свободы вариации и = 2,78. Тогда предельная ошибка выборки равна
Итак, с вероятностью Р = 0,95 можно утверждать, что величина потерь на всем поле составит 0,5 ± 0,28 кг, или от 0,22 до 0,78 кг из расчета на 4 м2.
Как видим из примера, пределы случайных колебаний при малых выборках достаточно велики и могут быть сокращены за счет увеличения численности выборки и уменьшения колебания (дисперсии) признаки.
Если бы мы использовали для расчета доверительных границ генеральной средней таблицу интеграла вероятностей (прил. 2), то и было бы равным 1,96 и єх = іИзі = 1,96 o 0,10 = 0,20 кг, т.е. доверительный интервал был бы более узким (от 0,30 до 0,70 кг).
Малые выборки в силу своей небольшой численности даже при самой тщательной организации наблюдения не отражают достаточно точно показатели генеральной совокупности. Поэтому результаты малых выборок редко используются для установления надежных границ, в которых находятся характеристики генеральной совокупности.
Критерий Стьюдента применяется главным образом для проверки статистических гипотез о существенности различий между показателями двух или нескольких малых выборок (см. раздел 7).
Помимо собственно случайной выборки с ее четким вероятностным обоснованием существуют и другие выборки, которые не являются абсолютно случайными, однако широко применяются. Следует заметить, что строгое применение собственно случайного отбора единиц из генеральной совокупности далеко не всегда возможно на практике. К таким выборкам относятся механическая выборка, типическая, серийная (или гнездовая), многофазовая и ряд других.
Редко бывает, чтобы генеральная совокупность была однородной, это скорее исключение, нежели правило. Поэтому при наличии в составе генеральной совокупности различных типов явления часто желательно обеспечить более равномерное представительство в выборочной совокупности различных типов. Эта цель успешно достигается при применении типической выборки. Главная трудность заключается в том, что мы должны иметь дополнительную информацию о всей генеральной совокупности, что в ряде случаев является затруднительным.
Типическую выборку называют еще расслоенной или стратифицированной выборкой; ее применяют также в целях более равномерного представления в выборке различных районов, и в этом случае выборку называют районированной.
Итак, под типической выборкой понимается такая выборка, при которой генеральная совокупность разделена на типические подгруппы, сформированные по одному или нескольким существенным признакам (например, население разделено на 3-4 подгруппы по величине среднедушевого дохода или по уровню образования - начальное, среднее, высшее и т.п.). Далее из всех типических групп можно вести отбор единиц в выборку несколькими способами, формируя:
а) типическую выборку с равномерным размещением, где из разных типов (слоев) отбирается равное число единиц. Эта схема работает хорошо, если в генеральной совокупности слои (типы) не очень сильно отличаются друг от друга по числу единиц;
б) типическую выборку с пропорциональным размещением, когда требуется (в отличие от равномерного размещения), чтобы доля (%) отбора для всех слоев была бы одинаковой (например, 5 или 10%);
в) типическую выборку с оптимальным размещением, когда учитывается степень вариации признаков в различных группах генеральной совокупности. При таком размещении пропорция отбора для групп с большой колеблемостью признака увеличивается, что в итоге приводит к уменьшению случайной ошибки.
Формула средней ошибки при типическом отборе похожа на обычную ошибку выборки для собственно случайной выборки с той лишь разницей, что вместо общей дисперсии проставляется средняя из частных внутригрупповых дисперсий, что, естественно, приводит к уменьшению погрешности по сравнению с собственно случайной выборкой. Однако ее применение не всегда возможно (по многим причинам). Если нет необходимости в большой точности, легче и дешевле использовать серийную выборку.
Серийная (гнездовая) выборка состоит в том, что в выборку отбираются не единицы совокупности (например, студенты), а отдельные серии или гнезда (например, учебные группы). Говоря иначе, при серийном (гнездовом) отборе единица наблюдения и единица отбора не совпадают: отбираются некоторые группы примыкающих друг к другу единиц (гнезда), а обследованию подлежат входящие в состав этих гнезд единицы. Так, например, при выборочном обследовании жилищных условий мы можем в случайном порядке выбрать некоторое число домовладений (единица отбора) и выяснить далее жилищные условия проживающих в этих домах семей (единицы наблюдения).
Серии (гнезда) состоят из единиц, связанных между собой территориально (районы, города и т.д.), организационно (предприятия, цеха и т.д.), или во времени (например, совокупность единиц выработанной за данный отрезок времени продукции).
Серийный отбор может быть организован в форме одноступенчатого, двухступенчатого или многоступенчатого отбора.
Случайно отобранные серии подвергаются сплошному исследованию. Таким образом, серийная выборка состоит из двух этапов случайного отбора серий и сплошного изучения этих серий. Серийный отбор дает значительную экономию в силах и средствах и поэтому часто используется на практике. Ошибка серийного отбора отличается от ошибки собственно случайного отбора тем, что вместо значения общей дисперсии используется межсерийная (межгрупповая) дисперсия, а вместо объема выборки - количество серий. Точность обычно не очень велика, но в ряде случаев это допустимо. Серийная выборка может быть повторной и бесповторной, а серии - равновеликими и неравновеликими.
Серийная выборка может быть организована по разным схемам. Например, можно сформировать выборочную совокупность в два этапа: сначала в случайном порядке выбираются подлежащие обследованию серии, затем из каждой отобранной серии также в случайном порядке отбирается определенное количество единиц, подлежащих непосредственному наблюдению (измерению, взвешиванию и пр.). Ошибка такой выборки будет зависеть от ошибки серийного отбора и от ошибки индивидуального отбора, т.е. многоступенчатый отбор дает, как правило, менее точные результаты по сравнению с одноступенчатым, что объясняется возникновением ошибок репрезентативности на каждой ступени выборки. В этом случае требуется использовать формулу ошибки выборки для комбинированного отбора.
Другой формой отбора является многофазовый отбор (1, 2, 3 фазы или этапа). Этот отбор по своей структуре отличается от многоступенчатого, так как при многофазном отборе пользуются на каждой фазе одними и теми же единицами отбора. Ошибки при многофазном отборе рассчитывают на каждой фазе отдельно. Главная особенность двухфазовой выборки состоит в том, что выборки отличаются друг от друга по трем критериям в зависимости: 1) от доли единиц, изученных на первой фазе выборки и вновь включенных во вторую и последующие фазы; 2) от соблюдения равенства шансов каждой единицы выборки первой фазы вновь быть объектом изучения; 3) от величины интервала, отделяющего фазы друг от друга.
Остановимся еще на одном виде отбора, а именно механическом (или систематическом). Этот отбор является, вероятно, самым распространенным. Это объясняется, видимо, тем, что из всех приемов выбора данный прием является простейшим. В частности, он значительно проще, чем случайный отбор, предполагающий умение пользоваться таблицами случайных чисел, и не требует дополнительных сведений о генеральной совокупности и ее структуре. К тому же механический отбор тесно переплетается с пропорциональным стратифицированным отбором, что приводит к снижению ошибки выборки.
Например, применение механического отбора членов жилищного кооператива из списка, составленного в порядке поступления в данный кооператив, обеспечит пропорциональное представительство членов кооператива с разным стажем. Использование этого же приема для отбора респондентов из списка лиц, составленного по алфавиту, обеспечивает равные шансы для фамилий, начинающихся на разные буквы, и т.п. Использование табельных или иных списков на предприятиях или в учебных заведениях и др. может обеспечить необходимую пропорциональность в представительстве работников с разным стажем. Заметим, что механический отбор широко применяется в социологии, при изучении общественного мнения и др.
В целях снижения величины ошибки и особенно расходов на проведение выборочного исследования широко используются разные комбинации отдельных видов отбора (механического, серийного, индивидуального, многофазного и т.п.) В таких случаях следует рассчитывать более сложные ошибки выборок, которые состоят из ошибок, имеющих место на разных этапах исследования.
Малая выборка - это совокупность единиц меньше 30. Малые выборки встречаются на практике довольно часто. Например, число заболеваний редкими болезнями или число единиц, обладающих редким признаком; кроме того, к малой выборке прибегают, когда исследование стоит дорого или исследование связано с уничтожением продукции или образцов. Широкое применение малые выборки получили в сфере обследования качества продукции. Теоретические основы для определения ошибок малой выборки были заложены английским ученым У. Госсетом (псевдоним Стьюдент).
Необходимо помнить, что при определении ошибки для малой выборки следует вместо численности выборки брать величину (n – 1) или же до определения средней ошибки выборки рассчитывать так называемую исправленную дисперсию выборки (в знаменателе вместо n следует ставить (n – 1)). Отметим, что такая поправка делается только один раз - при расчете выборочной дисперсии или при определении ошибки. Величина (n – 1) носит название степени свободы. Кроме того, нормальное распределение заменяется t -распределением (распределением Стьюдента), которое табулировано и зависит от количества степеней свободы. Единственным параметром распределения Стьюдента является величина (n – 1). Еще раз подчеркнем, что поправка (n – 1) важна и существенна лишь при малых по численности выборочных совокупностях; при n > 30 и выше различие сходит на нет, приближаясь к нулю.
До сих пор шла речь о случайных выборках, т.е. таких, когда выбор единиц из генеральной совокупности производится случайно (или почти случайно) и все единицы имеют равную (или почти равную) вероятность попасть в выборку. Однако отбор единиц может быть основан на принципе неслучайного отбора, когда во главу угла ставится принцип доступности и целенаправленности. В таких случаях нельзя говорить о репрезентативности полученной выборки, а исчисление ошибок репрезентативности можно производить, лишь имея сведения о генеральной совокупности.
Известны несколько схем формирования неслучайной выборки, которые получили значительное распространение и используются главным образом в социологических исследованиях: отбор доступных единиц наблюдения, отбор по нюрнбергскому методу, целевая выборка при определении экспертов и др. Важное значение имеет также квотная выборка, которая формируется исследователем по небольшому количеству существенных параметров и дает очень близкое совпадение с генеральной совокупностью. Говоря иначе, квотный отбор должен обеспечить исследователю почти полное совпадение выборочной и генеральной совокупностей по избранным им параметрам. Целенаправленное достижение близости двух совокупностей по ограниченному кругу показателей достигается, как правило, с помощью выборки существенно меньшего объема, чем при использовании случайного отбора. Именно это обстоятельство делает квотный отбор привлекательным для исследователя, не имеющего возможности ориентироваться на самовзвешивающуюся случайную выборку большого объема. Следует добавить, что сокращение объема выборки чаще всего сочетается с уменьшением денежных затрат и сроков проведения исследования, что увеличивает преимущества указанного способа отбора. Отметим также, что при квотной выборке имеется довольно значительная предварительная информация о структуре генеральной совокупности. Главное преимущество здесь состоит в том, что объем выборки существенно меньше, чем при случайной выборке. Выделенные признаки (чаще всего социально-демографические - пол, возраст, образование) должны тесно коррелировать с изучаемыми характеристиками генеральной совокупности, т.е. объекта исследования.
Как уже указывалось, выборочный метод дает возможность получить сведения о генеральной совокупности с гораздо меньшими затратами средств, времени и усилий, чем при сплошном наблюдении. Понятно также, что сплошное изучение всей генеральной совокупности в ряде случаев невозможно, например при проверке качества продукции, образцы которой уничтожаются.
Вместе с этим, однако, следует указать, что генеральная совокупность не является полностью «черным ящиком» и кое-какими сведениями о ней мы все же располагаем. Проводя, например, выборочное исследование, касающееся жизни, быта, имущественного положения, доходов и расходов студентов, их мнений, интересов и т.п., мы все же располагаем сведениями об общей их численности, группировке по полу, возрасту, семейному положению, местожительству, курсе обучения и другими характеристиками. Эти сведения всегда используются в выборочном исследовании.
Существует несколько разновидностей распространения выборочных характеристик на генеральную совокупность: способ прямого пересчета и способ поправочных коэффициентов. Пересчет выборочных характеристик производится, как правило, с учетом доверительных интервалов и может быть выражен в абсолютных и относительных величинах.
Здесь вполне уместно подчеркнуть, что бóльшая часть статистической информации, касающейся экономической жизни общества в самых разных ее проявлениях и видах, основана на выборочных данных. Конечно, они дополняются и данными сплошного учета, и сведениями, полученными в результате переписей (населения, предприятий и пр.). Так, например, все сведения бюджетной статистики (о доходах и расходах населения), приводимые Росстатом, основаны на данных выборочного исследования. Сведения о ценах, размерах производства, объемах торговли, выраженные в соответствующих индексах, также в значительной мере основаны на выборочных данных.
Статистические гипотезы и статистические критерии. Основные понятия
Понятия статистического критерия и статистической гипотезы тесно связаны с выборкой. Статистическая гипотеза (в отличие от других научных гипотез) состоит в предположении о некоторых свойствах генеральной совокупности, которые можно проверить, опираясь на данные случайной выборки. При этом следует помнить, что полученный результат имеет вероятностный характер. Следовательно, итог исследования, подтверждающий справедливость выдвинутой гипотезы, почти никогда не может служить основанием для ее окончательного принятия, и наоборот, результат, несовместный с ней, вполне достаточен для отклонения выдвинутой гипотезы как ошибочной или ложной. Это так, потому что полученный результат может быть совместным и с другими гипотезами, а не только с выдвинутой.
Под статистическим критерием понимается свод правил, которые позволяют ответить на вопрос, при каких результатах наблюдения гипотеза отклоняется, а при каких нет. Другими словами, статистический критерий - это некое решающее правило, обеспечивающее принятие истинной (верной) гипотезы и отклонение ложной гипотезы с большой степенью вероятности. Статистические критерии бывают односторонними и двусторонними, параметрическими и непараметрическими, более или менее мощными. Некоторые критерии применяются часто, другие используются реже. Часть критериев предназначена для решения специальных вопросов, а некоторые критерии могут использоваться при решении широкого класса задач. Эти критерии получили повсеместное распространение в социологии, экономике, психологии, естественных науках и т.д.
Введем некоторые основные понятия статистической проверки гипотез. Проверка гипотезы начинается с выдвижения нулевой гипотезы Н 0 , т.е. некоторого предположения исследователя, а также конкурирующей, альтернативной гипотезы Н 1 , которая противоречит основной. Например: Н 0: , Н 1: или Н 0: , Н 1: (где а - генеральная средняя).
Основная цель исследователя при проверке гипотезы заключается в том, чтобы отвергнуть выдвигаемую им гипотезу. Как писал Р. Фишер, цель проверки любой гипотезы - ее отклонить. Проверка гипотезы строится от противного. Следовательно, если мы считаем, что, например, средняя заработная плата рабочих, полученная по данным конкретной выборки и равная 186 денежным единицам в месяц, не совпадает с действительным размером заработной платы по всей генеральной совокупности, то в качестве нулевой гипотезы принимается, что эти зарплаты равны.
Конкурирующая гипотеза Н 1 может быть сформулирована по-разному:
Н 1: , Н 1: , Н 1: .
Далее определяется ошибка I рода (a), которая устанавливает вероятность того, что верная гипотеза будет отклонена. Очевидно, что такая вероятность должна быть небольшой (обычно от 0,01 до 0,1, чаще всего по умолчанию 0,05, или так называемый 5%-ный уровень значимости). Эти уровни вытекают из метода выборочного наблюдения, согласно которому двукратная или трехкратная ошибка представляет собой те пределы, за которые чаще всего не выходит случайная вариация выборочных характеристик. Ошибка II рода (b) - это вероятность того, что будет принята неверная гипотеза. Как правило, более «опасна» ошибка I рода; именно она фиксируется статистиком. Если в начале исследования мы хотим фиксировать a и b одновременно (например, a = 0,05; b = 0,1), то для этого необходимо сначала рассчитать объем выборки.
Критическая зона (или область) - это совокупность значений критерия, при которых Н 0 отклоняется. Критической точкой Т кр называется точка, отделяющая область принятия гипотезы от области отклонения, или критической зоны.
Как уже упоминалось, ошибка I рода (a) - это вероятность отклонения верной гипотезы. Чем меньше a, тем меньше вероятность совершить ошибку I рода. Но вместе с тем при уменьшении a (например, с 0,05 до 0,01) труднее отклонить нулевую гипотезу, что, собственно говоря, и ставит перед собой исследователь. Подчеркнем еще раз, что дальнейшее снижение a до 0,05 и далее фактически приведет к тому, что все гипотезы, верные и ложные, попадут в область принятия нулевой гипотезы, и сделает невозможным провести их различие.
Ошибка II рода (b) возникает в тех случаях, когда принимается Н 0 , но на самом деле верна альтернативная ей гипотеза Н 1 . Величина g = 1 – b называется мощностью критерия. Ошибка II рода (т.е. ошибочное принятие ложной гипотезы) уменьшается с возрастанием объема выборки и увеличением уровня значимости. Из этого следует, что нельзя одновременно уменьшить a и b. Это достигается лишь при увеличении объема выборки (что не всегда возможно).
Чаще всего задачи проверки гипотезы сводятся к сравнению двух выборочных средних или долей; к сопоставлению генеральной средней (или доли) с выборочной; сравнению эмпирического и теоретического распределений (критерии согласия); сравнению двух выборочных дисперсий (c 2 -критерий); сравнению двух выборочных коэффициентов корреляции или коэффициентов регрессии и некоторым другим сравнениям.
Решение о принятии или отклонении нулевой гипотезы заключается в сопоставлении фактического значения критерия с табличным (теоретическим). Если фактическое значение меньше табличного, то делается вывод, что расхождение носит случайный, несущественный характер и нулевую гипотезу отклонить нельзя. Обратная ситуация (фактическое значение больше табличного) ведет к отклонению нулевой гипотезы.
При проверке статистических гипотез чаще всего используются таблицы нормального распределения, распределения c 2 (читается: хи-квадрат), t -распределения (распределения Стьюдента) и F -распределения (распределения Фишера).
При контроле качества товаров в экономических исследованиях эксперимент может проводиться на основе малой выборки.Под малой выборкой понимается несплошное статистическое обследование,при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности. Объем малой выборки обычно не превышает 30 единиц и может доходить до 4 - 5 единиц.Средняя ошибка малой выборки вычисляется по формуле:,где - дисперсия малой выборки.При определении дисперсии число степеней свободы равно n-1: . Предельная ошибка малой выборки определяется по формулеПри этом значение коэффициента доверия t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по специальным таблицам Стьюдента (Табл. 9.1.), в которых даны распределения стандартизированных отклонений:.Поскольку при проведении малой выборки в качестве доверительной вероятности практически принимается значение 0,59 или 0,99, то для определения предельной ошибки малой выборки используются следующие показания распределения Стьюдента:
18. Теория малых выборок.
При большом числе единиц выборочной совокупности (n >100) распределение случайных ошибок выборочной средней в соответствии с теоремой А.М.Ляпунова нормально или приближается к нормальному по мере увеличения числа наблюдений.
Однако в практике статистического исследования в условиях рыночной экономики все чаще приходится сталкиваться с малыми выборками.
Малой выборкой называется такое выборочное наблюдение, численность единиц которого не превышает 30.
При оценке результатов малой выборки величина генеральной совокупности не используется. Для определения возможных пределов ошибки пользуются критерием Стьюдента.
Величина σ вычисляется на основе данных выборочного наблюдения.
Данная величина используется лишь для исследуемой совокупности, а не в качестве приближенной оценки σ в генеральной совокупности.
Вероятностная оценка результатов малой выборки отличается от оценки в большой выборке тем, что при малом числе наблюдений распределение вероятностей для средней зависит от числа отобранных единиц.
Однако для малой выборки величина коэффициента доверия t по другому связана с вероятностной оценкой, чем при большой выборке (так как, закон распределения отличается от нормального).
Согласно установленному Стьюдентом закону распределения, вероятная ошибка распределения зависит как от величины коэффициента доверия t , так и от объема выборки В.
Средняя ошибка малой выборки вычисляется по формуле:
где - дисперсия малой выборки.
В МВ коэффициент n/(n-1) нужно брать во внимание и обязательно корректировать. При определении дисперсии S2 число степеней свободы равно:
.
Предельная ошибка малой выборки определяется по формуле
При этом значение коэффициента доверия t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по специальным таблицам Стьюдента, в которых даны распределения стандартизированных отклонений:
Вероятностная оценка результатов МВ отличается от оценки в БВ тем что при малом числе наблюдений распределение вероятностей для средней зависит от числа отобранных единиц
19. Способы отбора единиц в выборочную совокупность.
1. Выборочная совокупность должна быть достаточно большой по численности.
2. Структура выборочной совокупности должна наилучшим образом отражать структуру гнеральной совокупности
3. Способ отбора должен быть случайным
В зависимости от того участвуют ли отобранные единицы в выборке различают метод - бесповторный и повторный.
Бесповторным называется такой отбор, при котором попавшая в выборку единица не возвращается в совокупность, из которой осуществляется дальнейший отбор.
Расчет средней ошибки бесповторной случайной выборки:
Расчет предельной ошибки бесповторной случайной выборки:
При повторном отборе попавшая в выборку единица после регистрации наблюдаемых признаков возвращается в исходную (генеральную) совокупность для участия в дальнейшей процедуре отбора.
Расчет средней ошибки повторной простой случайной выборки производится следующим образом:
Расчет предельной ошибки повторной случайной выборки:
Вид формирования выборочной совокупности подразделяется на - индивидуальный, групповой и комбинированный.
Способ отбора – определяет конкретный механизм выборки единиц из генеральной совокупности и подразделяется на: собственно – случайный; механический; типический; серийный; комбинированный.
Собственно – случайный наиболее распространенный способ отбора в случайной выборке, его еще называют методом жеребьевки, при нем на каждую единицу статистической совокупности заготовляется билет с порядковым номером. Далее в случайном порядке отбирается необходимое количество единиц статистической совокупности. При этих условиях каждая из них имеет одинаковую вероятность попасть в выборку.
Механическая выборка . Применяется в тех случаях, когда генеральная совокупность каким – либо образом упорядочена т. е. имеется определенная последовательность в расположении единиц.
Для определения средней ошибки механической выборки используется формула средней ошибки при собственно – случайном бесповторном отборе.
Типический отбор . Используется когда все единицы генеральной совокупности можно разбить на несколько типических групп. Типический отбор предполагает выборку единиц из каждой группы собственно – случайным или механическим способом.
Для типической выборки величина стандартной ошибки зависит от точности определения групповых средних. Так, в формуле предельной ошибки типической выборки учитывается средняя из групповых дисперсий, т.е.
Серийный отбор . Применяется в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. Сущность серийной выборки заключается в собственно случайном либо механическом отборе серий, внутри которых производится сплошное обследование единиц.
При серийной выборке величина ошибки выборки зависит не от числа исследуемых единиц, а от числа обследованных серий (s) и от величины межгрупповой дисперсии:
Комбинированный отбор может проходить одну или несколько ступеней. Выборка называется одноступенчатой, если отобранные однажды единицы совокупности подвергаются изучению.
Выборка называется многоступенчатой , если отбор совокупности проходит по ступеням, последовательным стадиям, причем каждая ступень, стадия отбора имеет свою единицу отбора.
" |
В практике статистических исследований часто приходится сталкиваться с малыми выборками , которые имеют объем менее 30 единиц. К большим же обычно относят выборки объемом свыше 100 единиц.
Обычно малые выборки применяются в случаях, когда невозможно или нецелесообразно использовать большую выборку. Иметь дело с такими выборками приходится, например, при опросах туристов и посетителей гостиниц.
Величина ошибки малой выборки определяется по формулам, отличающимся от формул для сравнительно большого объема выборки ().
При малом объеме выборки n следует учитывать взаимосвязь между выборочной и генеральной дисперсией :
Так как при малой выборке дробь имеет существенное значение, то вычисление дисперсии производится с учетом, так называемого числа степеней свободы . Оно понимается как число вариантов , которые могут принимать произвольные значения, не меняя величины средней .
Средняя ошибка малой выборки определяется по формуле:
Предельная ошибка выборки для средней и доли находится аналогично случаю большой выборки:
где t – коэффициент доверия, зависящий от заданного уровня значимости и числа степеней свободы (Приложение 5).
Значения коэффициента зависят не только от заданной доверительной вероятности , но и от объема выборки n . Для отдельных значений t и n доверительная вероятность определяется по распределению Стьюдента, которое содержит распределения стандартизованных отклонений:
Замечание. По мере увеличения объема выборки распределение Стьюдента приближается к нормальному распределению: при n =20 оно уже мало отличается от нормального распределения. При проведении малых выборочных обследований следует учесть, что чем меньше объем выборки n , тем больше различие между распределением Стьюдента и нормальным распределением. Например, при п min . = 4 это различие весьма существенно, что говорит об уменьшении точности результатов малой выборки.