Industrialnet Головна Про сайт webcache.site checkip.site takescreenshot.site
  • Строрінки

  • Генеральна сукупність і вибірковий метод

    Зведення і групування

    Зведення і групування статистичних даних

    Ряди розподілу

    Генеральна сукупність і вибірковий метод

    Ряди динаміки

    Таблиця Стьюдента

  • Кореляційно-регресійний аналіз
  • Зміст
  • Статистична сукупність
  • Генеральна сукупність і вибірка з неї
  • Основні способи організації вибірки
  • Основні характеристики параметрів генеральної і вибіркової сукупності
  • Помилки вибірки
  • Поширення вибіркових результатів на генеральну сукупність
  • Необхідний обсяг вибірки
  • Статистична сукупність

    Статистична сукупність - множина одиниць, що володіють масовістю, типовістю, якісною однорідністю і наявністю варіації.

    Статистична сукупність складається з матеріально існуючих об'єктів (Працівники, підприємства, країни, регіони), є об'єктом статистичного дослідження.

    Одиниця сукупності — кожна конкретна одиниця статистичної сукупності.

    Одна і таж статистична сукупність може бути однорідною по одному ознакою неоднорідна по іншому.

    Якісна однорідність — подібність всіх одиниць сукупності за будь-якою ознакою і несхожість з усім іншим.

    У статистичній сукупності відмінності однієї одиниці сукупності від іншої частіше мають кількісну природу. Кількісні зміни значень ознаки різних одиниць сукупності називаються варіацією.

    Варіація ознаки — кількісну зміну ознаки (для кількісної ознаки) при переході від однієї одиниці сукупності до іншої.

    Ознака - це властивість, характерна риса чи інша особливість одиниць, об'єктів і явищ, яка може бути наблюдаема або виміряна. Ознаки поділяються на кількісні і якісні. Різноманіття і мінливість величини ознаки у окремих одиниць сукупності називається варіацією.

    Атрибутивні (якісні) ознаки не піддаються числовому вираженню (склад населення за статтю). Кількісні ознаки мають числове вираження (склад населення за віком).

    Показник — це узагальнююча кількісно качестванная характеристика якої-небудь властивості одиниць або сукупності в цельм в конкретних умовах часу і місця.

    Система показників — це сукупність показників всебічно відображають досліджуване явище.

    Наприклад, вивчається зарплата:
  • Ознака — оплата праці
  • Статистична сукупність — всі працівники
  • Одиниця сукупності — кожен працівник
  • Якісна однорідність — нарахована зарплата
  • Варіація ознаки — ряд цифр
  • Генеральна сукупність і вибірка з неї

    Основу статистичного дослідження складає безліч даних, отриманих в результаті вимірювання одного чи декількох ознак. Реально що спостерігається сукупність об'єктів, статистично представлена рядом спостережень випадкової величини , є вибіркою, а гіпотетично існуюча (домысливаемая) — генеральною сукупністю. Генеральна сукупність може бути скінченною (число спостережень N = const) або нескінченною (N = ?), а вибірка з генеральної сукупності — це завжди результат обмеженого ряду спостережень. Число спостережень , які утворюють вибірку, називається об'ємом вибірки. Якщо обсяг вибірки досить великий (n > ?) вибірка вважається великою, в іншому випадку вона називається вибіркою обмеженого обсягу. Вибірка вважається малою, якщо при вимірюванні одновимірної випадкової величини обсяг вибірки не перевищує 30 (n <= 30), а при вимірюванні одночасно декількох (k) ознак у багатовимірному просторі відношення n до k не перевищує 10 (n/k < 10). Вибірка утворює варіаційний ряд, якщо її члени є порядковими статистиками, тобто вибіркові значення випадкової величини Х впорядковані за зростанням (ранжируванні), значення ж ознаки називаються варіантами.

    Приклад. Практично одна і та ж випадково відібрана сукупність об'єктів — комерційних банків одного адміністративного округу Москви, може розглядатися як вибірка з генеральної сукупності всіх комерційних банків цього округу, і як вибірка з генеральної сукупності всіх комерційних банків Москви, а також як вибірка з комерційних банків країни і т. д.

    Основні способи організації вибірки

    Достовірність статистичних висновків та змістовна інтерпретація результатів залежить від репрезентативності вибірки, тобто повноти та адекватності представлення властивостей генеральної сукупності, по відношенню до якої цю вибірку можна вважати представницькою. Вивчення статистичних властивостей сукупності можна організувати двома способами: за допомогою суцільного і несуцільного спостереження . Суцільне спостереження передбачає обстеження всіх одиниць досліджуваної сукупності, а несуцільне (вибіркове) спостереження — лише його частини.

    Існують п'ять основних способів організації вибіркового спостереження:

    1. простий випадковий відбір, при якому об'єктів випадково витягуються з генеральної сукупності об'єктів (наприклад за допомогою таблиці або датчика випадкових чисел), причому кожна з можливих вибірок мають рівну ймовірність. Такі вибірки називаються власне-випадковими;

    2. простий відбір з допомогою регулярної процедури здійснюється за допомогою механічної складової (наприклад, дати, дня тижня, номера квартири, літери алфавіту і ін) і отримані таким способом вибірки називаються механічними;

    3. стратифицированный відбір полягає в тому, що генеральна сукупність обсягу підрозділяється на подсовокупности або шари (страти) обсягу так що . Страти являють собою однорідні об'єкти з точки зору статистичних характеристик (наприклад, населення ділиться на страти за віковими групами або соціальної приналежності; підприємства — за галузями). У цьому випадку вибірки називаються стратифікованим (інакше, расслоенными, типовими, районированными);

    4. методи серійного відбору використовуються для формування серійних або гніздових вибірок. Вони зручні в тому випадку, якщо необхідно обстежити відразу "блок" або серію об'єктів (наприклад, партію товару, продукцію певної серії або населення при територіально-адміністративний поділ країни). Відбір серій можна здійснити власне-випадковим або механічним способом. При цьому проводиться суцільне обстеження певної партії товару, або цілої територіальної одиниці (житлового будинку або кварталу);

    5. комбінований (ступінчастий ) відбір може поєднувати в собі відразу кілька способів відбору (наприклад, стратифицированный і випадковий або випадковий і механічний); така вибірка називається комбінованою.

    Види відбору

    За видом розрізняють індивідуальний, груповий та комбінований відбір. При індивідуальному відборі до вибіркової сукупності відбираються окремі одиниці генеральної сукупності, при груповому відборі — якісно однорідні групи (серії) одиниць, а комбінований відбір передбачає поєднання першого і другого видів.

    За методом відбору розрізняють повторну та бесповторную вибірку.

    Бесповторным називається відбір, при якому потрапила у вибірку одиниця не повертається у вихідну сукупність і в подальшому виборі не бере; при цьому чисельність одиниць генеральної сукупності N скорочується в процесі відбору. При повторному відборі потрапила у вибірку одиниця після реєстрації повертається в генеральну сукупність і таким чином зберігає рівну можливість поряд з іншими одиницями бути використаною в подальшій процедурі відбору; при цьому чисельність одиниць генеральної сукупності N залишається незмінною (метод в соціально-економічних дослідженнях застосовується рідко). Однак, при великому N (N > ?) формули для безповторного відбору наближаються до аналогічних для повторного відбору і практично частіше використовуються останні (N = const).

    Основні характеристики параметрів генеральної і вибіркової сукупності

    В основі статистичних висновків проведеного дослідження лежить розподіл випадкової величини , що спостерігаються ж значення (х1, х2, ... , хn) називаються реалізаціями випадкової величини Х (n — обсяг вибірки). Розподіл випадкової величини в генеральній сукупності носить теоретичний, ідеальний характер, а її вибірковий аналог є емпіричним розподілом. Деякі теоретичні розподілу задані аналітично, тобто їх параметри визначають значення функції розподілу в кожній точці простору можливих значень випадкової величини . Для вибірки ж функцію розподілу визначити важко, а іноді неможливо, тому параметри оцінюють за емпіричними даними, а потім їх підставляють в аналітичний вираз, що описує теоретичне розподіл. При цьому припущення (або гіпотеза) про вигляді розподілу може бути як статистично вірним, так і помилковим. Але в будь-якому випадку відновлене за вибіркою емпіричне розподіл лише грубо характеризує істинне. Найважливішими параметрами розподілів є математичне сподівання та дисперсія .

    За своєю природою розподілу бувають безперервними і дискретними. Найбільш відомим безперервним розподілом є нормальне. Вибірковими аналогами параметрів ідля нього є: середнє значення і емпірична дисперсія . Серед дискретних в соціально-економічних дослідженнях найбільш часто застосовується альтернативна (дихотомічний) розподіл. Параметр математичного очікування цього розподілу виражає відносну величину (або частку) одиниць сукупності, які мають досліджуваним ознакою (вона позначена літерою ); частка сукупності, не володіє цією ознакою, позначається буквою q (q = 1 — p). Дисперсія ж альтернативного розподілу також має емпіричний аналог .

    В залежності від виду розподілу і від способу відбору одиниць сукупності по-різному обчислюються характеристики параметрів розподілу. Основні з них для теоретичного і емпіричного розподілів наведено в табл. 9.1.

    Часткою вибірки kn називається відношення числа одиниць вибіркової сукупності до числа одиниць генеральної сукупності:

    kn = n/N.

    Вибіркова частка w — це відношення одиниць, які мають досліджуваним ознакою x до обсягу вибірки n:

    w = nn/n.

    Приклад. В партії товару, що містить 1000 од., при 5% вибірці частка вибірки kn в абсолютній величині складає 50 од. (n = N*0,05); якщо ж у цій вибірці виявлено 2 бракованих виробів, то вибіркова частка шлюбу w складе 0,04 (w = 2/50 = 0,04 або 4%).

    Так як вибіркова сукупність відмінна від генеральної, то виникають помилки вибірки.

    Таблиця 9.1 Основні параметри генеральної і вибіркової сукупностей

    Помилки вибірки

    При будь-якому статистичному спостереженні (суцільному і вибірковий) можуть зустрітися помилки двох видів: реєстрації та репрезентативності. Помилки реєстрації можуть мати випадковий і систематичний характер. Випадкові помилки складаються з безлічі різних неконтрольованих причин, носять ненавмисний характер і зазвичай по сукупності врівноважують один одного (наприклад, зміни показників приладу при температурних коливаннях в приміщенні).

    Систематичні помилки тенденційні, так як порушують правила відбору об'єктів у вибірку (наприклад, відхилення у вимірюваннях при зміні настройки вимірювального приладу).

    Приклад. Для оцінки соціального становища населення в місті передбачено обстежити 25% сімей. Якщо при цьому вибір кожної четвертої квартири заснований на її номері, то існує небезпека відібрати всі квартири тільки одного типу (наприклад, однокімнатні), що забезпечить систематичну помилку і спотворить результати; вибір номера квартири за жеребом більш кращий, так як помилка буде випадковою.

    Помилки репрезентативності притаманні лише вибірковому спостереженню, їх неможливо уникнути і що вони виникають у результаті того, що вибіркова сукупність не повністю відтворює генеральну. Значення показників, одержуваних за вибіркою, що відрізняються від показників цих же величин у генеральній сукупності (або одержуваних при суцільному спостереженні).

    Помилка вибіркового спостереження є різниця між значенням параметра генеральної сукупності і її вибірковим значенням. Для середнього значення кількісної ознаки вона дорівнює: , а для частки (альтернативного ознаки) — .

    Помилки вибірки властиві тільки вибірковим спостереженням. Чим більше ці помилки, тим більше емпіричний розподіл відрізняється від теоретичного. Параметри емпіричного розподілу і є випадковими величинами, отже, помилки вибірки також є випадковими величинами, можуть приймати для різних вибірок різні значення і тому прийнято обчислювати середню помилку.

    Середня помилка вибірки є величина , що виражає середнє квадратичне відхилення вибіркової середньої від математичного очікування. Ця величина при дотриманні принципу випадкового відбору залежить насамперед від обсягу вибірки і від ступеня варіювання ознаки: чим більше і чим менша варіація ознаки (отже, і значення ), тим менше величина середньої помилки вибірки . Співвідношення між дисперсіями генеральної і вибіркової сукупностей виражається формулою:

    тобто при досить великих можна вважати, що . Середня помилка вибірки показує можливі відхилення параметра вибіркової сукупності від параметра генеральної. В табл. 9.2 наведено вирази для обчислення середньої помилки вибірки при різних методах організації спостереження.

    Таблиця 9.2 Середня помилка (m) вибіркових середньої і частки для різних видів вибірки

    Де - середня з внутрішньогрупових вибіркових дисперсій для неперервної ознаки;

    - середня з внутрішньогрупових дисперсій частки;

    — число відібраних серій, — загальна кількість серій;

    ,

    де — середня -ї серії;

    — загальна середня по всій вибіркової сукупності для неперервної ознаки;

    ,

    де — частка ознаки в -ї серії;

    загальна частка ознаки по всій вибіркової сукупності.

    Однак про величину середньої помилки можна судити лише з певною ймовірністю Р (Р ? 1). Ляпунов А. М. довів, що розподіл вибіркових середніх , a отже, і їх відхилень від генеральної середньої при достатньо великому числі наближено підпорядковується нормальному закону розподілу за умови, що генеральна сукупність має кінцевою середньої та обмеженою дисперсією.

    Математично це твердження для середньої виражається у вигляді:

    а для частки вираз (1) прийме вигляд:

    де - є гранична помилка вибірки, яка кратна величині середньої помилки вибірки , а коефіцієнт кратності — є критерій Стьюдента ("коефіцієнт довіри"), запропонований У. С. Госсетом (псевдонім "Student"); значення для різного обсягу вибірки зберігаються в спеціальній таблиці.

    Значення функції Ф(t) при деяких значеннях t дорівнюють:

    Отже, вираз (3) може бути прочитано так: з імовірністю Р = 0,683 (68,3%) можна стверджувати, що різниця між вибірковою і генеральною середньою не перевищить однієї величини середньої помилки m (t = 1), з імовірністю Р = 0,954 (95,4%) — що вона не перевищить величини двох середніх помилок m (t = 2) , з імовірністю Р = 0,997 (99,7%) — не перевищить трьох значень m (t = 3) . Таким чином, ймовірність того, що ця різниця перевищить трикратну величину середньої помилки визначає рівень помилки і становить не більше 0,3%.

    В табл. 9.3 наведено формули для обчислення граничної помилки вибірки.

    Таблиця 9.3 Гранична помилка (D) вибірки для середньої і частки (р) для різних видів вибіркового спостереження

    Поширення вибіркових результатів на генеральну сукупність

    Кінцевою метою вибіркового спостереження є характеристика генеральної сукупності. При малих обсягах вибірки емпіричні оцінки параметрів ( і ) можуть істотно відхилятися від їх істинних значень ( і ). Тому виникає необхідність встановити межі, в межах яких для вибіркових значень ( і ) лежать дійсні значення ( і ).

    Довірчим інтервалом якого-небудь параметра ?генеральной сукупності називається випадкова область значень цього параметра, яка з ймовірністю близькою до 1 (надійністю) містить істинне значення цього параметра.

    Гранична помилка вибірки ?дозволяє визначити граничні значення характеристик генеральної сукупності та їх довірчі інтервали, які дорівнюють:

    Нижня межа довірчого інтервалу отримана шляхом віднімання граничної помилки з вибіркового середнього (частки), а верхня — шляхом її додавання.

    Довірчий інтервал для середньої використовує граничну помилку вибірки і для заданого рівня достовірності визначається за формулою:

    Це означає, що з заданою ймовірністю Р, яка називається довірчим рівнем і однозначно визначається значенням t, можна стверджувати, що справжнє значення середньої лежить в межах від ,а істинне значення частки — в межах від

    При розрахунку довірчого інтервалу для трьох стандартних довірчих рівнів Р = 95%, Р = 99% і Р = 99,9% значення вибирається по таблиці Стьюдента. Додатки в залежності від числа ступенів свободи . Якщо обсяг вибірки досить великий, то відповідні цим імовірностям значення t дорівнюють: 1,96, 2,58 і 3,29. Таким чином, гранична помилка вибірки дозволяє визначити граничні значення характеристик генеральної сукупності та їх довірчі інтервали:

    Поширення результатів вибіркового спостереження на генеральну сукупність в соціально-економічних дослідженнях має свої особливості, так як вимагає повноти показності всіх її типів і груп. Основою для можливості такого поширення є розрахунок відносної помилки:

    де ?%- відносна гранична помилка вибірки; , .

    Існують два основних методи поширення вибіркового спостереження на генеральну сукупність: прямий перерахунок і спосіб коефіцієнтів.

    Сутність прямого перерахунку полягає в множенні вибіркового середнього значення !!\overline{x} на обсяг генеральної сукупності .

    Приклад. Нехай середнє число дітей ясельного віку у місті оцінено вибірковим методом і склало людини. Якщо в місті 1000 молодих сімей, то кількість необхідних місць у муніципальних дитячих яслах отримують множенням цієї середньої на чисельність генеральної сукупності N = 1000, тобто становитиме 1200 місць.

    Спосіб коефіцієнтів доцільно використовувати у разі, коли вибіркове спостереження проводиться з метою уточнення даних суцільного спостереження.

    При цьому використовують формулу:

    ,

    де всі змінні — це чисельність сукупності:

  • — з поправкою на недооблік,
  • - без цієї поправки,
  • — в контрольних точках
  • — в тих же точках за даними контрольних заходів.
  • Необхідний обсяг вибірки Таблиця 9.4 Необхідний обсяг (n) вибірки для різних видів організації вибіркового спостереження

    При плануванні вибіркового спостереження з наперед заданим значенням допустимої помилки вибірки необхідно правильно оцінити необхідний обсяг вибірки. Цей обсяг може бути визначений на основі допустимої помилки при вибірковому спостереженні виходячи із заданої ймовірності , що гарантує допустиму величину рівня помилки (з урахуванням способу організації спостереження). Формули для визначення необхідної чисельності вибірки n легко отримати безпосередньо з формули граничної помилки вибірки. Так, з виразу для граничної помилки:

    безпосередньо визначається обсяг вибірки n:

    Ця формула показує, що із зменшенням граничної помилки вибірки ?істотно збільшується необхідний обсяг вибірки , який пропорційний дисперсії і квадрату критерію Стьюдента .

    Для конкретного способу організації спостереження необхідний обсяг вибірки обчислюється згідно з формулами, наведеними в табл. 9.4.

    Практичні приклади розрахунку

    Приклад 1. Обчислення середнього значення та довірчого інтервалу для безперервного кількісного ознаки.

    Для оцінки швидкості розрахунку з кредиторами в банку проведена випадкова вибірка 10 платіжних документів. Їх значення виявилися рівними (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

    Необхідно з імовірністю Р = 0,954 визначити граничну помилку ? вибіркової середньої та довірчі межі середнього часу розрахунків.

    Рішення. Середнє значення обчислюється за формулою з табл. 9.1 для вибіркової сукупності

    Дисперсія обчислюється по формулі з табл. 9.1.

    Середня квадратична похибка дня.

    Помилка середньої обчислюється за формулою:

    тобто середнє значення дорівнює x ± m = 12,0 ± 2,3 днів.

    Достовірність середнього склала

    Граничну помилку обчислимо за формулою з табл. 9.3 для повторного відбору, так як чисельність генеральної сукупності невідома, і для Р = 0,954 рівня достовірності.

    Таким чином, середнє значення дорівнює `x ± D = `x ± 2m = 12,0 ± 4,6, тобто його справжнє значення лежить у межах від 7,4 до16,6 днів.

    Використання таблиці Стьюдента. Додатки дозволяє укласти, що для n = 10 — 1 = 9 ступенів свободи отримане значення достовірно з рівнем значущості a ? 0,001, тобто отримане значення середньої достовірно відрізняється від 0.

    Приклад 2. Оцінка ймовірності (генеральної частки) р.

    При механічному вибірковому способі обстеження соціального становища 1000 сімей виявлено, що частка малозабезпечених сімей становила w = 0,3 (30%) (вибірка була 2%, тобто n/N = 0,02). Необхідно з рівнем вірогідності р = 0,997 визначити показник р малозабезпечених сімей у всьому регіоні.

    Рішення. За поданим значенням функції Ф(t) знайдемо для заданого рівня достовірності Р = 0,997 значення t = 3 (див. формулу 3). Граничну помилку частки w визначимо за формулою з табл. 9.3 для безповторного відбору (механічна вибірка завжди є бесповторній):

    Гранична відносна помилка вибірки в % становитиме:

    Ймовірність (генеральна частка) малозабезпечених сімей в регіоні складе р=w±?w, а довірчі межі р обчислюються виходячи з подвійної нерівності:

    w — ?w ? p ? w — ?w, тобто істинне значення р лежить у межах:

    0,3 — 0,014 < p <0,3 + 0,014, а саме від 28,6% до 31,4%.

    Таким чином, з імовірністю 0,997 можна стверджувати, що частка малозабезпечених сімей серед усіх сімей регіону становить від 28,6% до 31,4%.

    Приклад 3. Обчислення середнього значення та довірчого інтервалу для дискретної ознаки, заданого інтервальним рядом.

    В табл. 9.5. задано розподіл заявок на виготовлення замовлень по термінах їх виконання підприємством.

    Таблиця 9.5 Розподіл спостережень за строками появи

    Термін виконання заявок (міс.)

    Число спостережень fi (абсолютна частота)

    Відносна частота рi (%)

    Середина інтервалу (градації) ознаки xi

    до 6

    20

    10

    3

    6-12

    80

    40

    9

    12-36

    60

    30

    24

    36-60

    20

    10

    48

    св. 60

    20

    10

    72

    Всього

    200

    100%

    Рішення. Середній термін виконання заявок обчислюється за формулою:

    Середній термін складе:

    = (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 міс.

    Відповідь отримаємо, якщо використовуємо дані про рi з передостанньої колонки табл. 9.5, використовуючи формулу:

    Зауважимо, що середина інтервалу для останньої градації знаходиться шляхом штучного її доповнення шириною інтервалу попередньої градації рівній 60 — 36 = 24 міс.

    Дисперсія обчислюється за формулою

    де хi- середина інтервального ряду.

    Отже !!\sigma = \frac{20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а середня квадратична похибка .

    Помилка середньої обчислюється за формулою міс., тобто середнє значення дорівнює !!\overline{x} ± m = 23,1 ± 13,4.

    Граничну помилку обчислимо за формулою з табл. 9.3 для повторного відбору, так як чисельність генеральної сукупності невідома, для 0,954 рівня достовірності:

    Таким чином, середнє значення дорівнює:

    тобто його справжнє значення лежить у межах від 0 до 50 міс.

    Приклад 4. Для визначення швидкості розрахунків з кредиторами N = 500 підприємств корпорації в комерційному банку необхідно провести вибіркове дослідження методом випадкового безповторного відбору. Визначити необхідний обсяг вибірки n, щоб з імовірністю Р = 0,954 помилка середнього значення вибірки не перевищувала 3-х днів, якщо пробні оцінки показали, що середнє квадратичне відхилення s склало 10 днів.

    Рішення. Для визначення кількості необхідних досліджень n скористаємося формулою для безповторного відбору з табл. 9.4:

    В ній значення t визначається з таблиці Стьюдента для рівня достовірності Р = 0,954. Воно дорівнює 2. Середнє квадратичне значення s = 10, обсяг генеральної сукупності N = 500, а гранична помилка середнього значення ?x = 3. Підставляючи ці значення у формулу, отримаємо:

    тобто вибірку достатньо скласти з 41 підприємства, щоб оцінити необхідний параметр — швидкість розрахунків з кредиторами.

    Copyright © industrialnet.com.ua. 2016 • All rights reserved.