Интервальный ряд определение. Студентам и школьникам - помощь в учебе

💖 Нравится? Поделись с друзьями ссылкой

Представляются в виде рядов распределения и оформляются в виде .

Ряд распределния является одним из видов группировок.

Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

  • Атрибутивными — называют ряды распределения, построенные по качественными признакам.
  • Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .
Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта — выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости () — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:
  • Полигона
  • Гистограммы
  • Кумуляты
  • Огивы

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.

Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.

6.1. Распределение домохозяйств по размеру

Условие : Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача : Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение :
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.

Полигон используется для дискретных вариационных рядов.

Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

Статистическая таблица

Условие : Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача : Построить интервальный вариационный ряд с равными интервалами.
Решение :

  1. Исходная совокупность состоит из 20 единиц (N = 20).
  2. По формуле Стерджесса определим необходимое количество используемых групп: n=1+3,322*lg20=5
  3. Вычислим величину равного интервала: i=(152 — 2) /5 = 30 тыс.руб
  4. Расчленим исходную совокупность на 5 групп с величиной интервала в 30 тыс.руб.
  5. Результаты группировки представим в таблице:

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма

Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис. 6.2. Распределение населения России по возрастным группам

Условие : Приводится распределение 30 работников фирмы по размеру месячной заработной платы

Задача : Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение :

  1. Неизвестная граница открытого (первого) интервала определяется по величине второго интервала: 7000 — 5000 = 2000 руб. С той же величиной находим нижнюю границу первого интервала: 5000 — 2000 = 3000 руб.
  2. Для построения гистограммы в прямоугольной системе координат по оси абсцисс откладываем отрезки, величины которых соответствуют интервалам варицонного ряда.
    Эти отрезки служат нижним основанием, а соответствующая частота (частость) — высотой образуемых прямоугольников.
  3. Построим гистограмму:

Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Кумулята

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 6.3).

Рис. 6.3. Кумулята распределения домохозяйств по размеру

4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.

При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:

Огива

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 6.4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

6.4. Кривая концентрации

Математическая статистика - раздел математики, посвященный математическим методам обработки, систематизации и использования статистических данных для научных и практических выводов.

3.1. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

В медико-биологических задачах часто приходится исследовать распределение того или иного признака для очень большого числа индивидуумов. У разных индивидуумов этот признак имеет различное значение, поэтому он является случайной величиной. Например, любой лечебный препарата имеет различную эффективность при его применении к разным пациентам. Однако для того чтобы составить представление об эффективности данного препарата, нет необходимости применять его ко всем больным. Можно проследить результаты применения препарата к сравнительно небольшой группе больных и на основании полученных данных выявить существенные черты (эффективность, противопоказания) процесса лечения.

Генеральная совокупность - подлежащая изучению совокупность однородных элементов, характеризуемых некоторым признаком. Этот признак является непрерывной случайной величиной с плотностью распределения f(x).

Например, если нас интересует распространенность какого-либо заболевания в некотором регионе, то генеральная совокупность - все население региона. Если же мы хотим выяснить подверженность этому заболеванию мужчин и женщин по отдельности, то следует рассматривать две генеральные совокупности.

Для изучения свойств генеральной совокупности отбирают некоторую часть ее элементов.

Выборка - часть генеральной совокупности, выбираемая для обследования (лечения).

Если это не вызывает недоразумений, то выборкой называют как совокупность объектов, отобранных для обследования, так и совокупность

значений исследуемого признака, полученных при обследовании. Эти значения могут быть представлены несколькими способами.

Простой статистический ряд - значения исследуемого признака, записанные в том порядке, в котором они были получены.

Пример простого статистического ряда, полученного при измерении скорости поверхностной волны (м/с) в коже лба у 20 пациентов приведен в табл. 3.1.

Таблица 3.1. Простой статистический ряд

Простой статистический ряд - основной и самый полный способ записи результатов обследования. Он может содержать сотни элементов. Окинуть такую совокупность одним взглядом весьма затруднительно. Поэтому большие выборки обычно подвергают разбиению на группы. Для этого область изменения признака разбивают на несколько (N) интервалов равной ширины и подсчитывают относительные частоты (n/n) попадания признака в эти интервалы. Ширина каждого интервала равна:

Границы интервалов имеют следующие значения:

Если какой-то элемент выборки является границей между двумя соседними интервалами, то его относят к левому интервалу. Сгруппированные таким образом данные называют интервальным статистическим рядом.

- это таблица, в которой приведены интервалы значений признака и относительные частоты попадания признака в эти интервалы.

В нашем случае можно образовать, например, такой интервальный статистический ряд (N = 5, d = 4), табл. 3.2.

Таблица 3.2. Интервальный статистический ряд

Здесь к интервалу 28-32 отнесены два значения равные 28 (табл. 3.1), а к интервалу 32-36 - значения 32, 33, 34 и 35.

Интервальный статистический ряд можно изобразить графически. Для этого по оси абсцисс откладывают интервалы значений признака и на каждом из них, как на основании, строят прямоугольник с высотой, равной относительной частоте. Полученная столбцовая диаграмма называется гистограммой.

Рис. 3.1. Гистограмма

На гистограмме статистические закономерности распределения признака просматриваются достаточно отчетливо.

При большом объеме выборки (несколько тысяч) и малой ширине столбцов форма гистограммы близка к форме графика плотности распределения признака.

Число столбцов гистограммы можно выбрать по следующей формуле:

Построение гистограммы вручную - процесс долгий. Поэтому разработаны компьютерные программы для их автоматического построения.

3.2. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СТАТИСТИЧЕСКОГО РЯДА

Многие статистические процедуры используют выборочные оценки для математического ожидания и дисперсии (или СКО) генеральной совокупности.

Выборочное среднее (Х) - это среднее арифметическое всех элементов простого статистического ряда:

Для нашего примера Х = 37,05 (м/с).

Выборочное среднее - это наилучшая оценка генерального среднего М.

Выборочная дисперсия s 2 равна сумме квадратов отклонений элементов от выборочного среднего, поделенной на n - 1:

В нашем примере s 2 = 25,2 (м/с) 2 .

Обратите внимание, что при вычислении выборочной дисперсии в знаменателе формулы стоит не объем выборки n, а n-1. Это связано с тем, что при вычислении отклонений в формуле (3.3) вместо неизвестного математического ожидания используется его оценка - выборочное среднее.

Выборочная дисперсия - это наилучшая оценка генеральной дисперсии (σ 2).

Выборочное среднеквадратическое отклонение (s) - это квадратный корень из выборочной дисперсии:

Для нашего примера s = 5,02 (м/с).

Выборочное среднеквадратическое отклонение - это наилучшая оценка генерального СКО (σ).

При неограниченном увеличении объема выборки все выборочные характеристики стремятся к соответствующим характеристикам генеральной совокупности.

Для вычисления выборочных характеристик используют компьютерные формулы. В приложении Excel эти вычисления выполняют статистические функции СРЗНАЧ, ДИСП. СТАНДОТКЛОН.

3.3. ИНТЕРВАЛЬНАЯ ОЦЕНКА

Все выборочные характеристики являются случайными величинами. Это означает, что для другой выборки того же объема значения выборочных характеристик получатся другими. Таким образом, выборочные

характеристики являются лишь оценками соответствующих характеристик генеральной совокупности.

Недостатки выборочного оценивания компенсирует интервальная оценка, представляющая числовой интервал, внутри которого с заданной вероятностью Р д находится истинное значение оцениваемого параметра.

Пусть U r - некоторый параметр генеральной совокупности (генеральное среднее, генеральная дисперсия и т.д.).

Интервальной оценкой параметра U r называется интервал (U 1 , U 2), удовлетворяющий условию:

P(U < Ur < U2) = Рд. (3.5)

Вероятность Р д называется доверительной вероятностью.

Доверительная вероятность Р д - вероятность того, что истинное значение оцениваемой величины находится внутри указанного интервала.

При этом интервал (U 1 , U 2) называется доверительным интервалом для оцениваемого параметра.

Часто вместо доверительной вероятности используют связанную с ней величину α = 1 - Р д, которая называется уровнем значимости.

Уровень значимости - это вероятность того, что истинное значение оцениваемого параметра находится за пределами доверительного интервала.

Иногда α и Р д выражают в процентах, например, 5% вместо 0,05 и 95% вместо 0,95.

При интервальном оценивании сначала выбирают соответствующую доверительную вероятность (обычно 0,95 или 0,99), а затем находят соответствующий интервал значений оцениваемого параметра.

Отметим некоторые общие свойства интервальных оценок.

1. Чем ниже уровень значимости (чем больше Р д), тем шире интервальная оценка. Так, если при уровне значимости 0,05 интервальная оценка генерального среднего есть 34,7 < М < 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М < 40,25.

2. Чем больше объем выборки n, тем уже интервальная оценка с выбранным уровнем значимости. Пусть, например, 5 - процентная оценка генеральной средней (β=0,05), полученная по выборке из 20 элементов, тогда 34,7 < М < 39,4.

Увеличив объем выборки до 80, мы при том же уровне значимости получим более точную оценку: 35,5 < М < 38,6.

В общем случае построение надежных доверительных оценок требует знания закона, по которому оцениваемый случайный признак распределен в генеральной совокупности. Рассмотрим, как строится интервальная оценка генерального среднего признака, который распределен в генеральной совокупности по нормальному закону.

3.4. ИНТЕРВАЛЬНАЯ ОЦЕНКА ГЕНЕРАЛЬНОГО СРЕДНЕГО ДЛЯ НОРМАЛЬНОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ

Построение интервальной оценки генерального среднего М для генеральной совокупности с нормальным законом распределения основано на следующем свойстве. Для выборки объема n отношение

подчиняется распределению Стьюдента с числом степеней свободы ν = n - 1.

Здесь Х - выборочное среднее, а s - выборочное СКО.

Используя таблицы распределения Стьюдента или их компьютерный аналог, можно найти такое граничное значение что c заданной доверительной вероятностью выполняется неравенство:

Этому неравенству соответствует неравенство для М:

где ε - полуширина доверительного интервала.

Таким образом, построение доверительного интервала для М проводится в следующей последовательности.

1. Выбирают доверительную вероятность Р д (обычно 0,95 или 0,99) и для нее по таблице распределения Стьюдента находят параметр t

2. Рассчитывают полуширину доверительного интервала ε:

3. Получают интервальную оценку генерального среднего с выбранной доверительной вероятностью:

Кратко это записывается так:

Для нахождения интервальных оценок разработаны компьютерные процедуры.

Поясним, как пользоваться таблицей распределения Стьюдента. Эта таблица имеет два «входа»: левый столбец, называемый числом степеней свободы ν = n - 1, и верхняя строка - уровень значимости α. На пересечении соответствующей строки и столбца находят коэффициент Стьюдента t.

Применим этот метод к нашей выборке. Фрагмент таблицы распределения Стьюдента представлен ниже.

Таблица 3.3. Фрагмент таблицы распределения Стьюдента

Простой статистический ряд для выборки из 20 человек (n = 20, ν =19) представлен в табл. 3.1. Для этого ряда расчеты по формулам (3.1-3.3) дают: Х = 37,05; s = 5,02.

Выберем α = 0,05 (Р д = 0,95). На пересечении строки «19» и столбца «0,05» найдем t = 2,09.

Вычислим точность оценки по формуле (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Построим интервальную оценку: с вероятностью 95% неизвестное генеральное среднее удовлетворяет неравенству:

37,05 - 2,34 < М < 37,05 + 2,34, или М = 37,05 ± 2,34 (м/с), Р д = 0,95.

3.5. МЕТОДЫ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Статистические гипотезы

Прежде чем сформулировать, что такое статистическая гипотеза, рассмотрим следующий пример.

Для сравнения двух методик лечения некоторого заболевания были отобраны две группы пациентов по 20 человек, лечение которых проводилось по этим методикам. Для каждого пациента фиксировалось количество процедур, после которого достигался положительный эффект. По этим данным для каждой группы находились выборочные средние (Х), выборочные дисперсии (s 2) и выборочные СКО (s).

Результаты представлены в табл. 3.4.

Таблица 3.4

Количество процедур, необходимое для получения положительного эффекта, - случайная величина, вся информация о которой на данный момент содержится в приведенной выборке.

Из табл. 3.4 видно, что выборочное среднее в первой группе меньше, чем во второй. Означает ли это, что и для генеральных средних имеет место такое же соотношение: М 1 < М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистическая проверка гипотез.

Статистическая гипотеза - это предположение относительно свойств генеральных совокупностей.

Мы будем рассматривать гипотезы о свойствах двух генеральных совокупностей.

Если генеральные совокупности имеют известные, одинаковые распределения оцениваемой величины, а предположения касаются величин некоторого параметра этого распределения, то гипотезы называются параметрическими. Например, выборки извлечены из генеральных совокупностей с нормальным законом распределения и одинаковой дисперсией. Требуется выяснить, одинаковы ли генеральные средние этих совокупностей.

Если о законах распределения генеральных совокупностей ничего не известно, то гипотезы об их свойствах называют непараметрическими. Например, одинаковы ли законы распределения генеральных совокупностей, из которых извлечены выборки.

Нулевая и альтернативная гипотезы.

Задача проверки гипотез. Уровень значимости

Познакомимся с терминологией, применяемой при проверке гипотез.

Н 0 - нулевая гипотеза (гипотеза скептика) - это гипотеза об отсутствии различий между сравниваемыми выборками. Скептик считает, что различия между выборочными оценками, полученными по результатам исследований, - случайны;

Н 1 - альтернативная гипотеза (гипотеза оптимиста) - это гипотеза о наличии различий между сравниваемыми выборками. Оптимист считает, что различия между выборочными оценками вызваны объективными причинами и соответствуют различиям генеральных совокупностей.

Проверка статистических гипотез осуществима только тогда, когда из элементов сравниваемых выборок можно составить некоторую величину (критерий), закон распределения которой в случае справедливости Н 0 известен. Тогда для этой величины можно указать доверительный интервал, в который с заданной вероятностью Р д попадает ее значение. Этот интервал называют критической областью. Если значение критерия попадает в критическую область, то принимается гипотеза Н 0 . В противном случае принимается гипотеза Н 1 .

В медицинских исследованиях используют Р д = 0,95 или Р д = 0,99. Этим значениям соответствуют уровни значимости α = 0,05 или α = 0,01.

При проверке статистических гипотез уровнем значимости (α) называется вероятность отклонения нулевой гипотезы, когда она верна.

Обратите внимание на то, что по своей сути процедура проверки гипотез направлена на обнаружение различий, а не на подтверждение их отсутствия. При выходе значения критерия за пределы критической области мы можем с чистым сердцем сказать «скептику» - ну что, Вы еще хотите?! Если бы различия отсутствовали, то с вероятностью 95% (или 99%) расчетное значение было бы в указанных пределах. Так ведь нет!..

Ну а если значение критерия попадает в критическую область, то нет никаких оснований считать что гипотеза Н 0 верна. Это, скорее всего, указывает на одну из двух возможных причин.

1. Объемы выборок недостаточно велики, чтобы обнаружить имеющиеся различия. Вполне вероятно, что продолжение экспериментов принесет успех.

2. Различия есть. Но они настолько малы, что не имеют практического значения. В этом случае продолжение экспериментов не имеет смысла.

Перейдем к рассмотрению некоторых статистических гипотез, используемых в медицинских исследованиях.

3.6. ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ ДИСПЕРСИЙ, F-КРИТЕРИЙ ФИШЕРА

В некоторых клинических исследованиях о положительном эффекте свидетельствует не столько величина исследуемого параметра, сколько его стабилизация, уменьшение его колебаний. В этом случае возникает вопрос о сравнении двух генеральных дисперсий по результатам выборочного обследования. Эта задача может быть решена с помощью критерия Фишера.

Постановка задачи

нормальным законом распределения. Объемы выборок -

n 1 и n 2 , а выборочные дисперсии равны s 1 и s 2 2 генеральные дисперсии.

Проверяемые гипотезы:

Н 0 - генеральные дисперсии одинаковы;

Н 1 - генеральные дисперсии различны.

Показано, если выборки извлечены из генеральных совокупностей с нормальным законом распределения, то при справедливости гипотезы Н 0 отношение выборочных дисперсий подчиняется распределению Фишера. Поэтому в качестве критерия для проверки справедливости Н 0 берется величина F, вычисляемая по формуле:

где s 1 и s 2 - выборочные дисперсии.

Это отношение подчиняется распределению Фишера с числом степеней свободы числителя ν 1 = n 1 - 1 и числом степеней свободы знаменателя ν 2 = n 2 - 1. Границы критической области находятся по таблицам распределения Фишера или с помощью компьютерной функции БРАСПОБР.

Для примера, представленного в табл. 3.4, получим: ν 1 = ν 2 = 20 - 1 = 19; F = 2,16/4,05 = 0,53. При α = 0,05 границы критической области равны соответственно: = 0,40, = 2,53.

Значение критерия попало в критическую область, поэтому принимается гипотеза Н 0: генеральные дисперсии выборок одинаковы.

3.7. ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО РАВЕНСТВА СРЕДНИХ, t-КРИТЕРИЙ СТЬЮДЕНТА

Задача сравнения средних двух генеральных совокупностей возникает, когда практическое значение имеет именно величина исследуемого признака. Например, когда сравниваются сроки лечения двумя различными методами или количества осложнений, возникающих при их применении. В этом случае можно использовать t-критерий Стьюдента.

Постановка задачи

Получены две выборки {Х 1 } и {Х 2 }, извлеченные из генеральных совокупностей с нормальным законом распределения и одинаковыми дисперсиями. Объемы выборок - n 1 и n 2 , выборочные средние равны Х 1 и Х 2, а выборочные дисперсии - s 1 2 и s 2 2 соответственно. Требуется сравнить между собой генеральные средние.

Проверяемые гипотезы:

Н 0 - генеральные средние одинаковы;

Н 1 - генеральные средние различны.

Показано, что в случае справедливости гипотезы Н 0 величина t, вычисляемая по формуле:

распределена по закону Стьюдента с числом степеней свободы ν = ν 1 + + ν2 - 2.

Здесь где ν 1 = n 1 - 1 - число степеней свободы для первой выборки; ν 2 = n 2 - 1 - число степеней свободы для второй выборки.

Границы критической области находят по таблицам t-распределения или с помощью компьютерной функции СТЬЮДРАСПОБР. Распределение Стьюдента симметрично относительно нуля, поэтому левая и правая границы критической области одинаковы по модулю и противоположны по знаку: -и

Для примера, представленного в табл. 3.4, получим:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t = -2,51. При α = 0,05 = 2,02.

Значения критерия выходит за левую границу критической области, поэтому принимаем гипотезу Н 1: генеральные средние различны. При этом среднее генеральной совокупности первой выборки МЕНЬШЕ.

Применимость t-критерия Стьюдента

Критерий Стьюдента применим только к выборкам из нормальных совокупностей с одинаковыми генеральными дисперсиями. Если хотя бы одно из условий нарушено, то применимость критерия сомнительна. Требование нормальности генеральной совокупности обычно игнорируют, ссылаясь на центральную предельную теорему. Действительно, разность выборочных средних, стоящая в числителе (3.10), может считаться нормально распределенной при ν > 30. Но вопрос о равенстве дисперсий проверке не подлежит, и ссылки на то, что критерий Фишера не обнаружил различий, принимать во внимание нельзя. Тем не менее t-критерий достаточно широко применяется для обнаружения различий в средних значениях генеральных совокупностей, хотя и без достаточных оснований.

Ниже рассматривается непараметрический критерий, который с успехом используют для этих же целей и который не требует ни нормальности, ни равенства дисперсий.

3.8. НЕПАРАМЕТРИЧЕСКОЕ СРАВНЕНИЕ ДВУХ ВЫБОРОК: КРИТЕРИЙ МАННА-УИТНИ

Непараметрические критерии предназначены для обнаружения различий в законах распределения двух генеральных совокупностей. Критерии, которые чувствительны к различиям генеральных средних, называют критериями сдвига. Критерии, которые чувствительны к различиям генеральных дисперсий, называют критериями масштаба. Критерий Манна-Уитни относится к критериям сдвига и используется для обнаружения различий в средних значениях двух генеральных совокупностей, выборки из которых представлены в ранговой шкале. Измеренные признаки распологаются на этой шкале в порядке возрастания, а затем нумеруются целыми числами 1, 2... Эти числа и называются рангами. Равным величинам присваивают одинаковые ранги. Значение имеет не сама величина признака, а лишь порядковое место, который она занимает среди других величин.

В табл. 3.5. первая группа из таблицы 3.4 представлена в развернутом виде (строка 1), подвергнута ранжированию (стока 2), а затем ранги одинаковых величин заменены среднеарифметическими значениями. Например, элементы 4 и 4, стоящие в первой строке, получили ранги 2 и 3, которые затем заменены на одинаковые значения 2,5.

Таблица 3.5

Постановка задачи

Независимые выборки {Х 1 } и {Х 2 } извлечены из генеральных совокупностей с неизвестными законами распределения. Объемы выборок n 1 и n 2 соответственно. Значения элементов выборок представлены в ранговой шкале. Требуется проверить, различаются ли эти генеральные совокупности между собой?

Проверяемые гипотезы:

Н 0 - выборки принадлежат к одной генеральной совокупности; Н 1 - выборки принадлежат к различным генеральным совокупностям.

Для проверки таких гипотез применяется {/-критерий Манна-Уитни.

Сначала из двух выборок составляется объединенная выборка {X}, элементы которой ранжируются. Затем находится сумма рангов, соответствующих элементам первой выборки. Эта сумма и является критерием для проверки гипотез.

U = Сумме рангов первой выборки. (3.11)

Для независимых выборок, объемы которых больше 20, величина U подчиняется нормальному распределению, математическое ожидание и СКО которого равны:

Поэтому границы критической области находятся по таблицам нормального распределения.

Для примера, представленного в табл. 3.4, получим: ν 1 = ν 2 = 20 - 1 = 19, U = 339, μ = 410, σ = 37. Для α = 0,05 получим: и лев = 338, и прав = 482.

Значение критерия выходит за левую границу критической области, поэтому принимается гипотеза Н 1: генеральные совокупности имеют различные законы распределения. При этом среднее генеральной совокупности первой выборки МЕНЬШЕ.

Дискретный вариационный ряд строится для дискретный признаков.

Для того, чтобы построить дискретный вариационный ряд нужно выполнить следующие действия: 1) упорядочить единицы наблюдения по возрастанию изучаемого значения признака,

2) определить все возможные значения признака x i , упорядочить их по возрастанию,

значением признака, i .

частота значения признака и обозначают f i . Сумма всех частот ряда равна количеству элементов в изучаемой совокупности.

Пример 1 .

Список оценок полученных студентами на экзаменах: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Здесь число Х – оценка является дискретной случайной величиной, а полученный список оценок - статистические (наблюдаемые) данные .

    упорядочить единицы наблюдения по возрастанию изучаемого значения признака:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) определить все возможные значения признака x i , упорядочить их по возрастанию:

В данном примере все оценки можно разделить на четыре группы со следующими значениями: 2; 3; 4; 5.

Значение случайной величины, соответствующее отдельной группе наблюдаемых данных, называют значением признака, вариантом (вариантой) и обознпчают x i .

Число, которое показывает, сколько раз встречается соответствующее значение признака в ряде наблюдений называют частота значения признака и обозначают f i .

Для нашего примера

оценка 2 встречается - 8 раз,

оценка 3 встречается - 12 раз,

оценка 4 встречается - 23 раза,

оценка 5 встречается - 17 раз.

Всего 60 оценок.

4) записать полученные данные в таблицу из двух строк (столбцов) - x i и f i .

На основании этих данных можно построить дискретный вариационный ряд

Дискретный вариационный ряд – это таблица, в которой указаны встречающиеся значения изучаемого признака как отдельные значения по возрастанию и их частоты

  1. Построение интервального вариационного ряда

Кроме дискретного вариационного ряда часто встречается такой способ группировки данных, как интервальный вариационный ряд.

Интервальный ряд строится если:

    признак имеет непрерывный характер изменения;

    дискретных значений получилось очень много (больше 10)

    частоты дискретных значений очень малы (не превышают 1-3 при относительно большем количестве единиц наблюдения);

    много дискретных значений признака с одинаковыми частотами.

Интервальный вариационный ряд – это способ группировки данных в виде таблицы, которая имеет две графы (значения признака в виде интервала значений и частота каждого интервала).

В отличие от дискретного ряда значения признака интервального ряда представлены не отдельными значениями, а интервалом значений («от - до»).

Число, которое показывает, сколько единиц наблюдения попало в каждый выделенный интервал, называется частота значения признака и обозначают f i . Сумма всех частот ряда равна количеству элементов (единиц наблюдения) в изучаемой совокупности.

Если единица обладает значением признака, равным величине верхней границы интервала, то ее следует относить к следующему интервалу.

Например, ребёнок с ростом 100 см попадёт во 2-ой интервал, а не в первый; а ребёнок с ростом 130 см попадёт в последний интервал, а не в третий.

На основании этих данных можно построить интервальный вариационный ряд.

У каждого интервала есть нижняя граница (х н), верхняя граница (х в) и ширина интервала (i ).

Граница интервала – это значение признака, которое лежит на границе двух интервалов.

рост детей (см)

рост детей (см)

количество детей

больше 130

Если у интервала есть верхняя и нижняя граница, то он называется закрытый интервал . Если у интервала есть только нижняя или только верхняя граница, то это – открытый интервал. Открытым может быть только самый первый или самый последний интервал. В приведённом примере последний интервал – открытый.

Ширина интервала (i ) – разница между верхней и нижней границей.

i = х н - х в

Ширина открытого интервала принимается такой же, как ширина соседнего закрытого интервала.

рост детей (см)

количество детей

Ширина интервала (i)

для расчётов 130+20=150

20 (потому что ширина соседнего закрытого интервала – 20)

Все интервальные ряды делятся на интервальные ряды с равными интервалами и интервальные ряды с неравными интервалами. В интервальных рядах с равными интервалами ширина всех интервалов одинаковая. В интервальных рядах с неравными интервалами ширина интервалов разная.

В рассматриваемом примере - интервальный ряд с неравными интервалами.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ЗАДАЧА 1

Имеются следующие данные о заработной плате работников на предприятии:

Таблица 1.1

Размер заработной платы в усл. ден. ед.

Требуется построить интервальный ряд распределения, по которому найти;

1) среднюю заработную плату;

2) среднее линейное отклонение;

4) среднее квадратическое отклонение;

5) размах вариации;

6) коэффициент осцилляции;

7) линейный коэффициент вариации;

8) простой коэффициент вариации;

10) медиану;

11) коэффициент асимметрии;

12) показатель асимметрии Пирсона;

13) коэффициент эксцесса.

Решение

Как известно, варианты (значения признано) расположены в порядке возрастания образуют дискретный вариационный ряд. При большом числе вариант (больше 10) даже в случае дискретной вариации строятся интервальные ряды.

Если составляется интервальный ряд с ровными интервалами, то размах вариации делится на указанное число интервалов. При этом, если полученное значение целое и однозначное (что бывает редко), то длина интервала принимается равной этому числу. В остальных случаях производится округление обязательно в сторону увеличения, так чтобы последняя оставляемая цифра была чётной. Очевидно, с увеличением длины интервала расширяется размах вариации на величину, равной произведению числа интервалов: на разность расчетной и первоначальной длины интервала

а) Если величина расширения размаха вариации незначительна, то ее либо прибавляют к наибольшему либо вычитают из наименьшего значения признака;

б) Если величина расширения размаха вариации ощутима, то, чтобы не произошло смешения центра размаха, ее примерно делят пополам одновременно прибавляя к наибольшему и вычитая из наименьшего значений признака.

Если составляется интервальный ряд с неравными интервалами, то процесс упрощается, но по-прежнему длина интервалов должна выражаться числом с последней чётной цифрой, что значительно упрощает последующие расчёты числовых характеристик.

30 - объем выборки.

Составим интервальный ряд распределения, используя формулу Стерджеса:

K = 1 + 3.32*lg n,

K - число групп;

K = 1 + 3.32*lg 30 = 5,91=6

Находим размах признака - заработная плата работников на предприятии - (х) по формуле

R= xmaх - xmin и делим на 6; R= 195-112=83

Тогда длина интервала будет l пер=83:6=13.83

Началом первого интервала будет 112. Прибавляя к 112 l рас=13,83, получим его конечное значение 125,83, которое одновременно является началом второго интервала и т.д. конец пятого интервала - 195.

При нахождении частот следует руководствоваться правилом: «если значение признака совпадает с границей внутреннего интервала, то его следует относить к предыдущему интервалу».

Получим интервальный ряд частот и накопительных частот.

Таблица 1.2

Следовательно, 3 работника имеют зар. плату от 112 до 125,83 усл.ден.ед. Наибольшая зар. плата от 181,15 до 195 усл.ден.ед. только у 6-ті работников.

Для расчёта числовых характеристик интервальный ряд преобразуем в дискретный, взяв в качестве вариант середины интервалов:

Таблица 1.3

14131,83

По формуле взвешенного среднего арифметического

усл.ден.ед.

Среднее линейное отклонение:

где xi - значение изучаемого признака у i-той единицы совокупности,

Средняя величина изучаемого признака.

Размещено на http://www.allbest.ru/

LРазмещено на http://www.allbest.ru/

Усл.ден.ед.

Среднее квадратическое отклонение:

Дисперсия:

Относительный размах вариации (коэффициент осцилляции): с= R:,

Относительное линейное отклонение: q = L:

Коэффициент вариации: V = у:

Коэффициент осцилляции показывает относительную колеблемость крайних значений признака около среднего арифметического, а коэффициент вариации характеризует степень и однородности совокупности.

с= R: = 83 / 159,485*100% = 52,043%

Таким образом, разница между крайними значениями на 5,16% (=94,84%-100%) меньше среднего значения заработной платы работников на предприятии.

q = L: = 17,765/ 159,485*100% =11,139 %

V = у: = 21,704/ 159,485*100% = 13,609%

Коэффициент вариации меньше 33%, что говорит о слабой вариации заработной платы работников на предприятии, т.е. о том, что средняя величина является типической характеристикой заработной плате работников (совокупность однородная).

В интервальных рядах распределения мода определяется по формуле -

Частота модального интервала, т. е. интервала, содержащего наибольшее число вариант;

Частота интервала, предшествующего модальному;

Частота интервала, следующего за модальным;

Длина модального интервала;

Нижняя граница модального интервала.

Для определения медианы в интервальном ряду воспользуемся формулой

где - кумулятивная (накопленная) частота интервала, предшествующего медианному;

Нижняя граница медианного интервала;

Частота медианного интервала;

Длина медианного интервала.

Медианный интервал - интервал, накопленная частота которого (=3+3+5+7) превышает половину суммы частот - (153,49; 167,32).

Рассчитаем асимметрию и эксцесс для чего составим новую рабочую таблицу:

Таблица 1.4

Фактические данные

Расчетные данные

Рассчитаем момент третьего порядка

Следовательно, асимметрия равна

Так как 0,3553 0,25, то асимметрия признается значительной.

Рассчитаем момент четвертого порядка

Следовательно, эксцесс равен

Так как < 0, то эксцесс является плосковершинным.

Степень асимметрии может быть определена с помощью коэффициента асимметрии Пирсона (Аs): осцилляция выборка стоимость товарооборот

где -- средняя арифметическая ряда распределения; -- мода; -- среднее квадратическое отклонение.

При симметричном (нормальном) распределении = Мо, следовательно, коэффициент асимметрии равен нулю. Если Аs > 0, то больше моды, следовательно, имеется правосторонняя асимметрия.

Если As < 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

Распределение не является симметричным, а имеет левостороннюю асимметрию.

ЗАДАЧА 2

Какова должна быть численность выборки, чтобы с вероятностью 0,954 ошибка выборки не превышала 0,04, если на основе предыдущих обследований известно, что дисперсия равна 0,24?

Решение

Объем выборки при бесповторном отборе рассчитывается по формуле:

t - коэффициент доверия (при вероятности 0,954 он равен 2,0; определяется по таблицам интегралов вероятности),

у2=0,24 - среднее квадратическое отклонение;

10000 чел. - численность выборки;

Дх =0,04 - предельная ошибка выборочной средней.

С вероятностью 95,4% можно утверждать, что численность выборки, обеспечивающая относительную погрешность не более 0,04, должна составлять не менее 566 семей.

ЗАДАЧА 3

Имеются следующие данные о доходах от основной деятельности предприятия, млн. руб.

Для анализа ряда динамики определите следующие показатели:

1) цепные и базисные:

Абсолютные приросты;

Темпы роста;

Темпы прироста;

2) средний

Уровень ряда динамики;

Абсолютный прирост;

Темп роста;

Темп прироста;

3) абсолютное значение 1% прироста.

Решение

1. Абсолютный прирост (Д у) - это разность между последующим уровнем ряда и предыдущим (или базисным):

цепной: Ду = уi - yi-1,

базисный: Ду = уi - y0,

уi - уровень ряда,

i - номер уровня ряда,

y0 - уровень базисного года.

2. Темп роста (Ту) - это отношение последующего уровня ряда и предыдущего (или базисного 2001 г.):

цепной: Ту = ;

базисный: Ту =

3. Темп прироста (Т Д ) - это отношение абсолютного прироста к предыдущему уровню, выраженное в %.

цепной: Ту = ;

базисный: Ту =

4. Абсолютное значение 1% прироста (А) - это отношение цепного абсолютного прироста к темпу прироста, выраженному в %.

А =

Средний уровень ряда рассчитывается по формуле средней арифметической.

Средний уровень доходов от основной деятельности за 4 года:

Средний абсолютный прирост рассчитывается по формуле:

где n - число уровней ряда.

В среднем за год доходы от основной деятельности выросли на 3,333 млн. руб.

Среднегодовой темп роста рассчитывается по формуле средней геометрической:

уn - конечный уровень ряда,

у0 - начальный уровень ряда.

Ту = 100% = 102,174 %

Среднегодовой темп прироста рассчитывается по формуле:

Т? = Ту - 100% = 102,74% - 100% = 2,74%.

Таким образом, в среднем за год доходы от основной деятельности предприятия увеличивались на 2,74%.

ЗАДАЧ А 4

Вычислить:

1. Индивидуальные индексы цен;

2. Общий индекс товарооборота;

3. Агрегатный индекс цен;

4. Агрегатный индекс физического объема продажи товаров;

5. Абсолютный прирост стоимости товарооборота и разложите по факторам (за счет изменения цен и количества проданных товаров);

6. Сделать краткие выводы по всем полученным показателям.

Решение

1. По условию, индивидуальные индексы цен по изделиям А, Б, В составили -

iрA=1.20; iрБ=1,15; iрВ=1.00.

2. Общий индекс товарооборота рассчитаем по формуле:

I w = = 1470/1045*100% = 140,67 %

Товарооборот вырос на 40,67 % (140,67%-100%).

В среднем цены на товары выросли на 10,24%.

Сумма дополнительных расходов покупателей от роста цен:

w(p) = ? p1q1 - ? p0q1 = 1470 - 1333,478= 136,522 млн. руб.

В результате роста цен покупателям пришлось дополнительно израсходовать 136,522 млн. руб.

4. Общий индекс физического объема товарооборота:

Физический объем товарооборота вырос на 27,61 %.

5. Определим общее изменение товарооборота во втором периоде по сравнению с первым периодом:

w = 1470- 1045 = 425 млн.руб.

за счет изменения цен:

W(р) = 1470 - 1333,478 = 136,522 млн. руб.

за счет изменения физического объема:

w(q) = 1333,478 - 1045= 288,478 млн. руб.

Товарооборот товаров увеличился на 40,67%. Цены в среднем по 3-м товарам выросли на 10,24%. Физический объем товарооборота увеличился на 27,61%.

В целом объем реализации увеличился на 425 млн.руб., в том числе за счет роста цен он вырос на 136,522 млн. руб., а за счет увеличения объемов продаж - на 288,478 млн. руб.

ЗАДАЧА 5

По 10 заводам одной отрасли имеются следующие данные.

№ завода

Выпуск продукции, тыс. шт. (Х)

На основе приведенных данных:

I) для подтверждения положений логического анализа о наличии корреляционной прямолинейной зависимости между факторным признаком (объемом выпуска продукции) и результативным признаком (расходом электроэнергии) нанесите исходные данные на график корреляционного поля и сделайте выводы о форме связи, укажите ее формулу;

2) определите параметры уравнения связи и нанесите полученную при этом теоретическую линию на график корреляционного поля;

3) исчислите линейный коэффициент корреляции,

4) поясните значения показателей, полученных в пунктах 2) и 3);

5) используя полученную модель, сделайте прогноз о возможном расходе электроэнергии на заводе с объемом производства 4,5 тыс. шт.

Решение

Данные признака - объем выпуска продукции (фактор), обозначим через хi; признака - расход электроэнергии (результат) через уi; точки с координатами (х, у) наносим на корреляционное поле ОХУ.

Точки корреляционного поля расположены вдоль некоторой прямой. Следовательно, связь - линейная, будем искать уравнение регрессии в виде прямой Уx=ax+b. Для его нахождения воспользуемся системой нормальных уравнений:

Составим расчетную таблицу.

По найденным средним составляем систему и решаем её относительно параметров а и b:

Итак, получим уравнение регрессии у на х: = 3,57692 х + 3,19231

Строим линию регрессии на корреляционном поле.

Подставляя в уравнение регрессии значения х из столбца 2, получим расчетные (столбец 7) и сравниваем их с данными у, что отражено в столбце 8. Кстати, правильность расчетов подтверждается и совпадением средних значений у и.

Коэффициент линейной корреляции оценивает тесноту зависимости между признаками х и у и рассчитывается по формуле

Угловой коэффициент прямой регрессии а (при х) характеризует направление выявленной зависимости признаков: при а>0 одинаковы, при а<0- противоположны. Его абсолютная величина - мера изменения результативного признака при изменении факторного на единицу измерения.

Свободный член прямой регрессии выявляет направление, а его абсолютное значение - количественную меру влияния на результативный признак всех прочих факторов.

Если < 0, то ресурс факторного признака отдельного объекта используется с меньшей, а при >0 с большей результативностью, чем в среднем по всему множеству объектов.

Проведём послерегрессионный анализ.

Коэффициент при х прямой регрессии равен 3,57692 >0, следовательно, с увеличением (уменьшением) выпуска продукции растёт (падает) расход электроэнергии. Увеличение выпуска продукции на 1 тыс. шт. даёт в среднем рост расход электроэнергии на 3,57692 тыс. кВт.ч.

2. Свободный член прямой регрессии равен 3,19231,следовательно, влияние прочих факторов увеличивает силу воздействия выпуска продукции на расход электроэнергии в абсолютном измерении на 3,19231 тыс. кВт.ч.

3. Коэффициент корреляции 0,8235 выявляет весьма тесную зависимость расхода электроэнергии от выпуска продукции.

По уравнению регрессионной модели легко делать прогнозы. Для этого в уравнение регрессии подставляют значения х - объем выпуска продукции и прогнозируют расход электроэнергии. При этом значения х можно брать не только в пределах заданного размаха, но и вне его.

Сделаем прогноз о возможном расходе электроэнергии на заводе с объемом производства 4,5 тыс. шт.

3,57692*4,5 + 3,19231= 19,288 45 тыс. кВт.ч.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Захаренков С.Н. Социально-экономическая статистика: Учеб.-практ пособие. -Мн.: БГЭУ, 2002.

2. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. - М.: ИНФРА - М., 2000.

3. Елисеева И.И. Статистика. - М.: Проспект, 2002.

4. Общая теория статистики / Под общ. ред. О.Э. Башиной, А.А. Спирина. - М.: Финансы и статистика, 2000.

5. Социально-экономическая статистика: Учеб.-практ. пособие / Захаренков С.Н. и др. - Мн.: ЕГУ, 2004.

6. Социально-экономическая статистика: Учеб. пособие. / Под ред. Нестерович С.Р. - Мн.: БГЭУ, 2003.

7. Теслюк И.Е., Тарловская В.А., Терлиженко Н. Статистика.- Минск, 2000.

8. Харченко Л.П. Статистика. - М.: ИНФРА - М, 2002.

9. Харченко Л.П., Долженкова В.Г., Ионин В.Г. Статистика. - М.: ИНФРА - М, 1999.

10. Экономическая статистика / Под ред. Ю.Н. Иванова - М., 2000.

Размещено на Allbest.ru

...

Подобные документы

    Расчет средней арифметической для интервального ряда распределения. Определение общего индекса физического объема товарооборота. Анализ абсолютного изменения общей стоимости продукции за счет изменения физического объема. Расчет коэффициента вариации.

    контрольная работа , добавлен 19.07.2010

    Сущность оптового, розничного и общественного товарооборота. Формулы расчета индивидуальных, агрегатных индексов товарооборота. Расчет характеристик интервального ряда распределения - среднего арифметического, моды и медианы, коэффициента вариации.

    курсовая работа , добавлен 10.05.2013

    Расчет планового и фактического объема продаж, процента выполнения плана, абсолютного изменения товарооборота. Определение абсолютного прироста, средних темпов роста и прироста денежных доходов. Расчет структурных средних: моды, медианы, квартиля.

    контрольная работа , добавлен 24.02.2012

    Интервальный ряд распределения банков по объему прибыли. Нахождение моды и медианы полученного интервального ряда распределения графическим методом и путем расчетов. Расчет характеристик интервального ряда распределения. Вычисление средней арифметической.

    контрольная работа , добавлен 15.12.2010

    Формулы определения средних величин интервального ряда - моды, медианы, дисперсии. Расчет аналитических показателей рядов динамики по цепной и базисной схемам, темпов роста и прироста. Понятие сводного индекса себестоимости, цен, затрат и товарооборота.

    курсовая работа , добавлен 27.02.2011

    Понятие и назначение, порядок и правила построения вариационного ряда. Анализ однородности данных в группах. Показатели вариации (колеблемости) признака. Определение среднего линейного и квадратического отклонения, коэффициента осцилляции и вариации.

    контрольная работа , добавлен 26.04.2010

    Понятие моды и медианы как типичных характеристик, порядок и критерии их определения. Нахождение моды и медианы в дискретном и интервальном вариационном ряду. Квартили и децили как дополнительные характеристики вариационного статистического ряда.

    контрольная работа , добавлен 11.09.2010

    Построение интервального ряда распределения по группировочному признаку. Характеристика отклонения распределения частот от симметричной формы, расчет показателей эксцесса и ассиметрии. Анализ показателей бухгалтерского баланса или отчёта о прибылях.

    контрольная работа , добавлен 19.10.2014

    Преобразование эмпирического ряда в дискретный и интервальный. Определение средней величины по дискретному ряду с использованием ее свойств. Расчет по дискретному ряду моды, медианы, показателей вариации (дисперсия, отклонение, коэффициент осцилляции).

    контрольная работа , добавлен 17.04.2011

    Построение статистического ряда распределения организаций. Графическое определение значения моды и медианы. Теснота корреляционной связи с использованием коэффициента детерминации. Определение ошибки выборки среднесписочной численности работников.

При построении интервального ряда распределения решаются три вопроса:

  • 1. Сколько надо взять интервалов?
  • 2. Какова длина интервалов?
  • 3. Каков порядок включения единиц совокупности в границы интервалов?
  • 1. Количество интервалов можно определить по формуле Стер- джесса :

2. Длина интервала, или шаг интервала , обычно определяется по формуле

где R - размах вариации.

3. Порядок включения единиц совокупности в границы интервала

может быть разным, но при построении интервального ряда распределения обязательно строго определен.

Например, такой: [), при котором единицы совокупности в нижние границы включаются, а в верхние - не включаются, а переносятся в следующий интервал. Исключение в этом правиле составляет последний интервал , верхняя граница которого включает последнее число ранжированного ряда.

Границы интервалов бывают:

  • закрытые - с двумя крайними значениями признака;
  • открытые - с одним крайним значением признака (до такого-то числа или свыше такого-то числа).

С целью усвоения теоретического материала введем исходную информацию для решения сквозной задачи.

Имеются условные данные по среднесписочной численности менеджеров по продажам, количеству проданного ими однокачественного товара, индивидуальной рыночной цене на этот товар, а также объему продаж 30 фирм в одном из регионов РФ в I квартале отчетного года (табл. 2.1).

Таблица 2.1

Исходная информация для сквозной задачи

Численность

менеджеров,

Цена, тыс. руб.

Объем продаж, млн руб.

Численность

менеджеров,

Количество проданного товара, шт.

Цена, тыс. руб.

Объем продаж, млн руб.

На базе исходной информации, а также дополнительной сделаем постановку отдельных заданий. Затем представим методику их решения и сами решения.

Сквозная задача. Задание 2.1

Используя исходные данные табл. 2.1, требуется построить дискретный ряд распределения фирм по количеству проданного товара (табл. 2.2).

Решение:

Таблица 2.2

Дискретный ряд распределения фирм по количеству проданного товара в одном из регионов РФ в I квартале отчетного года

Сквозная задача. Задание 2.2

требуется построить ранжированный ряд 30 фирм по среднесписочной численности менеджеров.

Решение:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Сквозная задача. Задание 2.3

Используя исходные данные табл. 2.1, требуется:

  • 1. Построить интервальный ряд распределения фирм по численности менеджеров.
  • 2. Рассчитать частости ряда распределения фирм.
  • 3. Сделать выводы.

Решение:

Рассчитаем по формуле Стерджесса (2.5) количество интервалов :

Таким образом, берем 6 интервалов (групп).

Длину интервала , или шаг интервала , рассчитаем по формуле

Примечание. Порядок включения единиц совокупности в границы интервала такой: I), при котором единицы совокупности в нижние границы включаются, а в верхние - не включаются, а переносятся в следующий интервал. Исключение в этом правиле составляет последний интервал I ], верхняя граница которого включает последнее число ранжированного ряда.

Строим интервальный ряд (табл. 2.3).

Интервальный ряд распределения фирм но среднесписочной численности менеджеров в одном из регионов РФ в I квартале отчетного года

Вывод. Наиболее многочисленной группой фирм является группа со среднесписочной численностью менеджеров 25- 30 человек, которая включает 8 фирм (27%); в самую малочисленную группу со среднесписочной численностью менеджеров 40-45 человек входит всего одна фирма (3%).

Используя исходные данные табл. 2.1, а также интервальный ряд распределения фирм по численности менеджеров (табл. 2.3), требуется построить аналитическую группировку зависимости между численностью менеджеров и объемом продаж фирм и на основании ее сделать вывод о наличии (или отсутствии) связи между указанными признаками.

Решение:

Аналитическая группировка строится по факторному признаку. В нашей задаче факторным признаком (х) является численность менеджеров, а результативным признаком (у) - объем продаж (табл. 2.4).

Построим теперь аналитическую группировку (табл. 2.5).

Вывод. На основании данных построенной аналитической группировки можно сказать, что с увеличением численности менеджеров по продажам средний в группе объем продаж фирмы также увеличивается, что свидетельствует о наличии прямой связи между указанными признаками.

Таблица 2.4

Вспомогательная таблица для построения аналитической группировки

Численность менеджеров, чел.,

Номер фирмы

Объем продаж, млн руб., у

» = 59 f = 9,97

Я-™ 4 - Ю.22

74 ’25 1ПЙ1

У4 = 7 = 10,61

у = ’ =10,31 30

Таблица 2.5

Зависимость объемов продаж от численности менеджеров фирм в одном из регионов РФ в I квартале отчетного года

КОНТРОЛЬНЫЕ ВОПРОСЫ
  • 1. В чем суть статистического наблюдения?
  • 2. Назовите этапы статистического наблюдения.
  • 3. Каковы организационные формы статистического наблюдения?
  • 4. Назовите виды статистического наблюдения.
  • 5. Что такое статистическая сводка?
  • 6. Назовите виды статистических сводок.
  • 7. Что такое статистическая группировка?
  • 8. Назовите виды статистических группировок.
  • 9. Что такое ряд распределения?
  • 10. Назовите конструктивные элементы ряда распределения.
  • 11. Каков порядок построения ряда распределения?


Рассказать друзьям