19.04.2024

Глава 2. Здоровье населения

А.А. Касьяненко
Современные методы оценки рисков в экологии

Учебное пособие. – М.: Изд-во РУДН 2008. – 271 с.

Предыдущая

Глава 2. Здоровье населения

2.2. Изучение заболеваемости населения в связи с загрязнением окружающей среды

2.2.4. Математические основы установления причинно-следственных связей между воздействием вредных факторов и здоровьем населения

2.2.4.1. Оценка достоверности изучаемых показателей

Выше уже говорилось о необходимости подтверждения причинных связей между воздействием и эффектами на здоровье человека.

Целью изучения влияния антропогенных факторов на здоровье является установление взаимосвязей между факторами, действующими на данной территории или в данном населённом пункте и заболеваемостью населения.

Для достижения этой цели необходимо решить следующие задачи:

1 – количественно охарактеризовать состояние окружающей среды на обследуемой территории;

2 – изучить и количественно охарактеризовать состояние здоровья населения на данной территории;

3 – выявить характер и степень взаимосвязи между факторами окружающей среды и состоянием здоровья населения;

4 – разработать практические рекомендации по уменьшению или ликвидации вредных факторов.

Как уже было сказано раньше, при таких исследованиях необходимо иметь как минимум две группы населения – подверженных и не подверженных действию изучаемых вредных факторов.

Из этого следует, что для изучения необходимо сравнивать состояние здоровья населения на двух территориях – опытной и контрольной. Эти территории должны отличаться по характеру и степени, либо только по степени загрязнения окружающей среды. В то же самое время, выбранные территории не должны различаться по обеспеченности медицинской помощью, уровню её специализации и организации. В качестве контрольной может быть также выбрана территория, на которой изучаемые факторы находятся в пределах допустимых уровней.

Численность наблюдаемых групп может охватывать 20 – 25 тыс. человек, что примерно соответствует количеству населения обслуживаемого одной поликлиникой.

В первую очередь исследуются отчётные статистические материалы, имеющиеся в лечебных учреждениях. Как мы видели, в таких материалах содержатся сведения об ограниченном количестве заболеваний. Изучение медицинских карт может дать информацию о заболеваниях не входящих в отчётность. При необходимости, как уже говорилось ранее, проводятся дополнительные медицинские обследования всего населения или отдельных групп.

Для описания причинных связей между воздействием и эффектами на здоровье человека используют непрерывные случайные величины. Непрерывными называют величины, которые могут принимать любое значение на некотором интервале. К непрерывным случайным величинам относятся и характеристики факторов воздействия (концентрация загрязнителя на определённой территории, накопленная доза в отдельных организмах популяции и т.д.) и показатели здоровья населения (заболеваемость, смертность и т.д.).

Известны различные функции распределения непрерывных случайных величин: нормальное (гауссово) распределение, экспоненциальное распределение, распределения Вейбулла, Гомперца и Гомперца-Мейкема, распределение Стьюдента (t-распределение, распределение Фишера (F-распределение) и другие.

Нормальное распределение играет особо важную роль при решении прикладных задач во всех естественных науках: медицине, биологии, физике, химии и т.д. Практическая значимость этого распределения при оценке экологических рисков объясняется тем, что показатели здоровья населения на популяционном уровне, показатели заболеваемости и другие подчиняются распределению Гаусса.

Распределение Гаусса, называемое также нормальным распределением, описывается формулой (2.27):

,                              (2.27)

где случайная величина x принимает любые значения в диапазоне —<x<,

Δx=. Значение  соответствует точке симметрии распределения, а дисперсия  D2  (см. рис. 2.1).

Согласно распределению Гаусса вероятность событий:

  равна

                            (2.28)

Соответственно:

P(|x-|2σ)= 0,954,                                                      (2.29)

P(|x-|3σ)= 0,9974.                                                    (2.30)

На рис. 2.1. приведена зависимость для плотности распределения непрерывной случайной величины.

Рис. 2.1. Распределение Гаусса

Геометрически величина σ совпадает с расстоянием от  до точек перегиба кривой f(x) Гаусса, т.е. в точках x=±σ функция плотности имеет точки перегиба, в которых кривая меняется с выпуклой на вогнутую.

Графическая интерпретация связи между этими величинами имеет тот смысл, что для распределения Гаусса не зависимо от значений параметров  и σ площадь под кривой составляет:

Широкое применение распределения Гаусса на практике объясняется тем фактом, что при нормальном распределении случайных величин, вероятность попадания значений за пределы довольно узкого интервала, с границами ±3σ, составляет всего 0,0026, т.е. менее 0,3 %.

Использование распределения Гаусса и его свойств позволяет обрабатывать результаты санитарно-экологических наблюдений и за состоянием здоровья населения и за состоянием окружающей среды, определять степень их взаимосвязи и оценивать достоверность полученных результатов.

На основе полученных данных в соответствии с формулами 2.1 – 2.26, приведёнными в разделе 2.1.3.1 «Расчёт показателей заболеваемости взрослого населения», производится расчёт тех показателей, для расчёта которых имеются соответствующие данные, например: суммарный показатель заболеваемости, доля (удельный вес) различных форм и групп болезней и структура заболеваемости, число детей с врождёнными аномалиями, число посещений по поводу заболеваний и др.

Итак, мы вычислили ряд показателей. Теперь надо убедиться, что они не случайны и отражают реальную картину состояния заболеваемости, другими словами, надо убедиться в их достоверности. Оценка достоверности полученных показателей осуществляется с использованием методов статистической обработки.

Для любого полученного показателя, прежде всего, необходимо вычислить стандартную среднюю ошибку. Стандартную среднюю ошибку m вычисляют по формуле (2.31):

,                             (2.31)

где mвеличина стандартной средней ошибки; Pпоказатель заболеваемости; Nчисло наблюдений.

Следует обратить внимание на то, что формула (2.31) справедлива только для значений P<1 000.

Если величина утроенной стандартной средней ошибки превышает величину показателя заболеваемости, то такой показатель считают статистически не достоверным и он исключается из дальнейшей обработки.

Для оценки достоверности различия сравниваемых показателей заболеваемости по выбранным территориям или когортами используют критерий Стьюдента-Фишера.

При использовании этого критерия оценка достоверности производится по формуле (2.32):

,                                       (2.32)

где: t – коэффициент достоверности; P1 и P2 – показатели заболеваемости в первой и второй когортах; m1 и m2 – стандартная средняя ошибка в первой и второй когортах.

В табл. 2.6 приведены значения коэффициентов достоверности и доверительного интервала. Значения коэффициента достоверности t сравнивают с табличным значением (табл. 2.6).

В большинстве случаев в медицинской практике, также как и в практике биологических и экологических исследований считают результаты приемлемо точными, если они попадают в доверительный интервал 0,95. Это означает, что истинное значение изучаемого параметра с вероятностью 95 % находится в его пределах.

Таблица 2.6

Значения коэффициента достоверности

Коэффициент достоверности t

1

1,28

1,65

1,96

2,58

3,03

Доверительный интервал, α

0,68

0,8

0,9

0,95

0,99

0,999

Доверительная вероятность, p

0,32

0,20

0,10

0,05

0,01

0,001

Пример 1. На территории «А» с повышенным загрязнением атмосферного воздуха в течение 1 года диагностировано заболевание бронхиальной астмой у 1 527 мужчин, при общей численности мужского населения 8 760 человек. На контрольной территории «В» расположенной в зелёной зоне число мужчин, заболевших астмой в течение того же года составило 518, при численности мужского населения 7 780 человек. Необходимо определить суммарные показатели заболеваемости для территории «А» и зоны «В», оценить достоверность данных по каждой зоне и достоверность различия полученных показателей.

Показатель суммарной заболеваемости мужчин на территории «А» в соответствии с формулой (2.7):

 на 1 000 мужчин.

Стандартная средняя ошибка для территории «А» в соответствии с формулой (2.31):

mA==3,72

Показатель суммарной заболеваемости мужчин на территории «А» в соответствии с формулой (2.7):

 на 1000 мужчин.

Стандартная средняя ошибка для территории «А» в соответствии с формулой (2.31):

mB = =2,82.

Утроенное значение стандартной средней ошибки не превышает показателя заболеваемости ни в первом, ни во втором случаях, так что данные по заболеваемости можно считать достоверными.

Достоверность различия сравниваемых показателей заболеваемости по выбранным территориям проверяем с помощью критерия Стьюдента-Фишера, используя формулу (2.32):

= 25,17.

Величина коэффициента достоверности намного превышает значения, приведённые в табл. 2.6, что подтверждает различие между показателями заболеваемости на сравниваемых территориях.

Часто возникает вопрос о том, какое минимальное число наблюдений (случаев заболевания, больных пациентов и т.п.) необходимо иметь, чтобы получить оценку с допустимой точностью, например, с ошибкой ±5 % или ±10 %. Чаще всего требуется определить показатели с ошибкой ±5 %.

Предельную ошибку показателя определяют по формуле (2.33):

,                                            (2.33)

где Δ – ошибка показателя; t коэффициент достоверности; P –величина показателя в % или относительных единицах; q=(1-P) или q=(100-P) в зависимости от того, в каких величинах определён показатель; n – число наблюдений.

Чтобы получить результат с 95 %-м доверительным интервалом (см. табл. 2.6), коэффициент достоверности t принимают равным 2.

Тогда из формулы (2.33) можно найти величину числа n наблюдений (2.34):

.                                               (2.34)

Пример 2. По данным медицинского пункта школы в течение года за медицинской помощью обратились 90 % учеников. Какова должна быть минимальная численность группы наблюдения, чтобы оценка заболеваемости имела ошибку ±5 %?

В соответствии с формулой (3.36) получим:

n== 144.

Т.е., для получения показателя о заболеваемости с погрешностью ±5 % необходимо иметь группу учащихся не менее 144 человек.

Если численность населения, проживающего на изучаемой территории известна, то для расчёта необходимого числа наблюдений используют формулу (2.35):

.                              (2.35)

2.2.4.2. Расчёт стандартизованных показателей

Существенное влияние на уровень и структуру заболеваний оказывают не только факторы окружающей среды, но и состав населения: возраст, пол, группы повышенного риска, к которым обычно относят стариков, детей и беременных женщин. При сопоставлении заболеваемости по наблюдаемым территориям для исключения влияния структуры населения применяют метод стандартизации. Стандартизованные показатели, рассчитанные по данному методу, показывают, какими были бы показатели заболеваемости сравниваемых групп, если бы они имели одинаковый возрастной и половой состав.

Расчёт стандартизованных коэффициентов рассмотрим на простом примере.

Пример 3. Сравнить показатели заболеваемости по физическим недостаткам (искривление позвоночника, плоскостопие, и др.) учащихся двух школ. Данные о численности учащихся по возрастным группам в школе «А» и в школе «В» приведены в таблицах 2.7 и 2.8.

Таблица 2.7

Данные по школе «А»

Возрастная группа, лет

Число учащихся, чел.

Число заболеваний физич. недостатками

Заболеваемость (число учащихся с физич. откл) на 1000

Стандарт,

 человек

Ожидаемое число больных в группе стандарта

6 – 14

720

72

100

1700

170

15 – 19

270

41

152

510

77,52

Всего:

990

113

114

2210

251,94

Распространённость заболеваний среди детей (заболеваемость) рассчитываем на
1 000 детей в соответствии с формулой (2.11). Данные расчёта помещаем в 4-м столбце.

Таблица 2.8

Данные по школе «В»

Возрастная группа, лет

Число учащихся, чел.

Число заболеваний физич. недостатками

Заболеваемость (число учащихся с физич. откл) на 1000

Стандарт,

 человек

Ожидаемое число больных в группе стандарта

6 – 14

980

63

64,29

1700

109,29

15 – 19

240

27

112,5

510

57,37

Всего:

1220

90

73,77

2210

154,91

За стандарт можно принять общую численность населения двух исследуемых групп или численность населения одной из изучаемых групп данного возрастного состава, или численность населения какой-либо третьей группы.

Мы принимаем за стандарт суммарную численность учащихся обеих школ и данные по численности стандарта помещаем в пятом столбце.

Далее составляется простая пропорция: в школе «А» в возрастной группе 6 – 14 лет заболеваемость составляет 64,26 на 100 человек. Сколько было бы больных в этой возрастной группе при численности учащихся  равной стандарту 1700 человек:

По аналогии рассчитываем стандартизованные показатели для других возрастных групп и для всех учащихся по обеим школам и помещаем данные в шестом столбце.

Сравнивая ожидаемые числа больных в группах стандарта, обнаруживаем, что в школе «В» заболеваемость учащихся была бы гораздо меньше по сравнению со школой «А».

При анализе когорт населения, проживающих на разных территориях, можно разбить всё население на такие возрастные категории, в которых заболеваемость примерно одинакова, например: 15 – 19 лет, 20 – 29, 30 – 39, 40 – 49, 50 – 59, 60 лет и старше.

2.2.4.3. Анализ вариационных рядов и определение процентилей

При исследовании проб на загрязнение объектов окружающей среды, также как и при исследовании заболеваемости населения, сопоставлении показателей с помощью статистических методов часто используют вариационные ряды.

Совокупность некоторых данных состоит из отдельных данных – единиц изучаемой совокупности. Единицы изучаемой совокупности обладают интересующим нас признаком в разной мере. Для каждой единицы совокупности данный признак принимает различные значения, т.е. имеет некоторую вариацию (Теория статистики, 2000).

Вариацией признака называется наличие различий в численных значениях признаков у отдельных единиц совокупности.

Для выявления характера распределения единиц совокупности по варьирующим признакам, определения закономерностей этого распределения, строят ряды распределения единиц совокупностей по какому-либо варьирующему признаку.

Ряды распределения, построенные по количественному признаку, называются вариационными.

Вариационные ряды по способу построения бывают двух видов: дискретные и интервальные.

Дискретный ряд распределения можно рассматривать как такое преобразование ранжированного (упорядоченного) ряда, при котором перечисляются отдельные значения признака и указывается их частота или частость.

По своей конструкции дискретный вариационный ряд состоит из двух столбцов: один столбец – значения варьирующего признака (x варианты), другой – частоты (m – абсолютное число случаев данного варианта) или частости (w – относительная доля каждой частоты в общей сумме частот).

Для построения вариационного ряда значения признака ранжируют в порядке возрастания или в порядке убывания.

Общая схема вариационного ряда такова: в совокупности, состоящей из N единиц, некоторая переменная величина xi  (т.е. какой-то варьирующий признак) принимает различные значения, а каждое из этих значений имеет частоту mi , или частость wi  (табл. 2.9).

Таблица 2.9

Общий вид дискретного вариационного ряда

Приведённая схема вариационного ряда применяется для тех случаев, когда варьирующий признак принимает небольшое количество значений. Если же вариантов много, то невозможно образовать группы для каждого из них.

Примером дискретного ряда может служить распределение домашних хозяйств по числу членов семьи, представленное в табл. 2.10.

Если число вариантов велико или признак имеет непрерывную вариацию, то объединение отдельных наблюдений в группы производят на базе интервала. Интервал – это такая группа, которая имеет определенные пределы значений варьирующего признака. Эти пределы обозначают двумя числами, которые указывают верхнюю и нижнюю границы интервала. При использовании интервалов образуются интервальные ряды распределения. Строя интервальный вариационный ряд, определяют, прежде всего, число групп, на которое хотят разбить всю совокупность.

Таблица 2.10

Распределение домашних хозяйств России по числу совместно проживающих членов в 1994 году на 1 000 домашних хозяйств (Теория статистики, 2000)

Число членов домашних хозяйств, чел.,

xi

Число домашних хозяйств (частота), mi

Число домашних хозяйств (частость), wi

1

192

19,2

2

262

26,2

3

226

22,6

4

205

20,5

5 и более

115

11,5

Итого:

1 000

  100,0 %

Для определения числа групп k, на которое можно поделить совокупность, пользуются формулой Стерджесса (Теория статистики, 2000):

k = 1 + 3,322·lg N.                                (2.37)

Используя формулу Стерджесса можно определить длину интервала h, если отбросить аномальные значения признака и построить ряд с равными интервалами:

.                                  (2.38)

При разбиении ряда на интервалы необходимо обращать внимание на значения их границ. Если верхняя граница одного интервала совпадает с нижней границей следующего за ним интервала, то остаётся неясным, в какой интервал попадают пограничные случаи. Пограничное значение можно включить в предыдущие группы или в последующие. Важно соблюдать принятое правило для всего разбиения. Можно также установить границы между группами таким образом, чтобы верхняя граница данного интервала несколько отличалась от нижней границы следующего за ним интервала, например: принимаем значения границ – до 3,0; 3,1 – 5,0; 5,1 – 7,0, 7,1 – 9,0 и т.д.

Любой вариационный ряд можно охарактеризовать с помощью накопленных частот. Накопленная частота показывает число единиц совокупности, у которых значение варианта не больше данного. Накопленная частота для данного варианта или для верхней границы данного интервала получается суммированием (накапливанием) частот всех предшествующих интервалов, включая данный.

Если вместо абсолютных частот использовать частости, то аналогично получим накопленные частости. Ряд частостей применяют, когда совокупность очень велика. Кроме того, они позволяют сравнивать распределения по одному и тому же признаку в разных по численности совокупностях. Для приведения частостей, относящихся к интервалам разной длины, к сопоставимому виду, используют относительную плотность распределения. Вычисляют абсолютную и относительную плотности распределения.

Абсолютная плотность распределения – это частота, приходящаяся на единицу длины интервала – .

Относительная плотность распределения – это частость, приходящаяся на единицу длины интервала – .

Для характеристики распределения применяют средние величины, такие как средняя арифметическая простая, средняя арифметическая взвешенная, мода, медиана.

Среднюю  арифметическую простую определяют по формуле:

,      (2.39)

где xi – текущие величины признака, n – число признаков в вариационном ряду.

Среднюю  арифметическую взвешенную определяют по формуле:

.                                 (2.40)

В отличие от средней арифметической, на которую оказывают влияние все
значения xi , значение медианы совершенно не зависит от крайних значений признака.

Медианой называют такое значение признака, которое приходится на середину ранжированного ряда. Таким, образом, в ранжированном ряду распределения одна половина признака имеет значения признака, превышающие медиану, другая – меньше медианы.

Значение медианы Me при использовании частот на данном интервале определяют по следующей формуле:

,            (2.41)

где xk-1 – нижняя граница медианного интервала; hk – длина медианного интервала; Fk-1 – накопленная частота интервала, предшествующего медианному; mk – частота медианного интервала.

Если вместо частот использовать частости, то значение медианы определяют по формуле:

,             (2.42)

где pk-1 – накопленная частость интервала, предшествующего медианному; wk – частость медианного интервала.

Для анализа структуры вариационного ряда используют такие значения признака, которые делят все распределение на равные группы, называемые квантилями. Квартили, квинтили, децили и процентили являются частными случаями квантилей.

Медиана делит вариационный ряд пополам: 50 % его признаков меньше медианы и 50% – больше. Таким образом, медиана является 50-м процентилем.

Квартилями называются такие значения признака, которые делят распределение на четыре равные части.

Квинтили делят распределение на пять равных частей.

Децили делят распределение на десять равных частей или, что то же самое, децили соответствуют десятые части совокупности.

Процентили делят распределение на сто равных частей. Или другими словами, процентили – это величины, делящие выборку данных на 100 групп, содержащих (по возможности) равное количество наблюдений, по 1 % наблюдений в каждой группе.

Можно еще сказать, что процентили это значения в ряду наблюдений в порядке возрастания (убывания) величин, которые делят распределение на 100 равных частей.

Квартили, квинтили, децили и процентили определяют по тем же формулам, что и медиану.

При исследовании проб на загрязнение объектов окружающей среды часто встречается необходимость определить число проб, превышающих 95 % всех исследованных проб. Для этого определяют 95-й процентиль. 

95-му процентилю – соответствует уровень загрязнения пробы, превышающий по этому показателю 95 % всех исследованных проб.

Пример 4. На некоторой территории проведено обследование вод хозяйственно-бытового назначения. В обследованных источниках обнаружено присутствие свинца. Всего взято 50 проб. ПДК для свинца в водах хозяйственно бытового назначения составляет 0,1 мг/кг. В проведённых анализах обнаружены концентрации свинца, значения которых приведены в табл. 2.11. Для построения вариационного ряда значения концентраций ранжированы в порядке их возрастания.

В соответствии с принятой оценкой степени напряжённости медико-экологической ситуации (см. табл. 3.37) степень напряжённости оценивают по величине превышения концентрации вредного вещества 1-го класса опасности над ПДК в следующих значениях: до 1; 1,1 – 2,0; 2,1 – 3,0; 3,1 – 5,0 и более 5,0.

Разбить вариационный ряд на интервалы в соответствии со степенью напряжённости. Определить число проб в каждой группе. Определить частость. Определить накопленные частоты и частость. Определить значение медианы. Определить значение 95-й процентили. Сделать выводы о пригодности обследованного источника для использования воды в хозяйственно-бытовых целях.

Таблица 2.11

Результаты анализа образцов воды на содержание свинца

№ пробы

Pb

мг/кг

№ пробы

Pb

мг/кг

№ пробы

Pb

мг/кг

№ пробы

Pb

мг/кг

№ пробы

Pb

мг/кг

1

0

11

0,17

21

0,23

31

0,34

41

1.28

2

0

12

0,17

22

0,23.

32

0,41

42

1,39

3

0

13

0,18

23

0,24

33

0,44

43

1,62

4

0

14

0,19

24

0,24

34

0,47

44

1,80

5

0,05

15

0,21

25

0,24

35

0,48

45

2,19

6

0,05

16

0,21

26

0,25

36

0,70

46

2,21

7

0,1

17

0,21

27

0,28

37

0,74

47

2,41

8

0,1

18

0,21

28

0,30

38

0,76

48

2,63

9

0,1

19

0,22

29

0,31

39

0,77

49

2,76

10

0,1

20

0,22

30

0,32

40

0,80

50

27,80

Разобьём вариационный ряд на 5 интервалов в соответствии с уровнями превышения. Результаты поместим в табл. 2.12.

95-ю процентиль определим, используя формулу (3.46), отбросив при этом последнее 50-е значение ряда, как «аномальное».

В нашем примере вариационный ряд содержит 50 проб.

95-й уровень =  = 47,5.

Таблица 2.12

Группировка загрязнения воды по величине превышения

концентрации свинца над ПДК

Величина

превышения

концентраций

Количество анализов

Середина интервала,

xi

Накопленные

Плотность распределения в интервале,

Единиц

mi

%  или

частость,

wi

Частоты,

Fi

Частости,

pi

От 0 до 1,0

10

20

0,5

10

20

40

1,1-2,0

4

8

1,55

14

28

8,89

2,1-3,0

14

28

2,55

28

56

31,1

3,1-5,0

7

14

4,05

35

70

7,36

> 5,0

15

30

50

100

Итого:

50

100

 

 

Полученное число округляем до целого, таким образом 47-я проба будет нижней границей 95-го процентиля. Величина 95-го процентиля будет:

 = 2,41 + 0,35 = 2,421.

Характеристиками вариационного ряда являются:  являются дисперсия и среднее квадратическое отклонение.

Дисперсию называют мерой вариации вариационного ряда. Дисперсию для не сгруппированного ряда вычисляют по формуле:

.                                 (2.43)

Для сгруппированного ряда дисперсию вычисляют по формуле:

.                              (2.44)

Среднее квадратическое отклонение измеряется в тех же единицах, что и варьируемый признак, и исчисляется путём извлечения квадратного корня из дисперсии:

для несгруппированных данных:

.                                (2.45)

для сгруппированных данных:

.                            (2.46)

Среднее квадратическое отклонение показывает, на сколько в среднем отклоняются конкретные варианты признака от его среднего значения. Отклонение, выраженное в σ, называется нормированным или стандартизованным.

2.2.4.4. Обоснование наличия взаимосвязи между показателями состояния здоровья и вредными факторами

При изучении влияния факторов окружающей среды на здоровье населения не достаточно убедиться в достоверности полученных данных, как по оценке здоровья населения, так и по оценке самих вредных факторов. Одной из самых трудных задач является доказательство того, что влияние изучаемого фактора на здоровье населения, на появление того или иного заболевания, на самом деле существует. В числе методов, используемых для доказательства, можно упомянуть экспертные оценки, графоаналитические методы и статистические методы, включающие также вероятностный анализ. Нисколько не сомневаясь в полезности и экспертных оценок и графоаналитических методов, мы не станем задерживать на них внимания в силу ограниченного объёма данного пособия и остановимся лишь на статистических методах, поскольку они при всех допущениях всё же дают какие то количественные оценки. При хорошем владении и знании возможностей, с помощью этих методов можно получить вполне достоверные и убедительные доказательства существования влияния того или иного фактора на определённый вид заболеваемости населения. Тем более что эти методы в настоящее время достаточно хорошо компьютеризированы. Мы остановим наше внимание лишь на основных понятиях статистических методов, которые, тем не менее, должны дать основы для понимания существа и возможностей применения таких методов.

При анализе причинно-следственных связей между факторами воздействия и показателями состояния здоровья наиболее часто используется корреляционно регрессионный метод.

Корреляция характеризует степень взаимосвязи между вариационными рядами. Степень и характер взаимосвязи между двумя корреляционными рядами x и y определяет коэффициент корреляции rxy , который вычисляется по формуле:

 ,     (2.47)

где: rxy  – коэффициент корреляции между параметрами x и yxi и yi – значение параметров x и y в i-м наблюдении;  и  – средние арифметические значения параметров x и y для n проведенных опытов или наблюдений.

Величина коэффициента корреляции всегда находится в пределах

-1 rxy+1.                                          (2.48)

Если rxy=0, то это означает, что параметры x и y совершенно не зависимы друг от друга. Если rxy<0, то это означает, что с увеличением в вариационном ряду наблюдаемых величин x соответствующие им значения величин y уменьшаются, т.е. между вариационными рядами существует обратная взаимосвязь.

Если rxy=1, то это означает, что между параметрами x и y существует прямо пропорциональная функциональная зависимость. Если rxy>0, то с увеличением в вариационном ряду наблюдаемых величин x соответствующие им значения величин y увеличиваются, т.е. между вариационными рядами существует прямая взаимосвязь.

Чем больше абсолютная величина коэффициента корреляции, тем больше доверительная вероятность наличия взаимосвязи между исследуемыми явлениями.

Поскольку и показатели загрязнения окружающей среды и показатели здоровья населения являются величинами случайными и показатели загрязнения не зависят от здоровья, полагают, что они подчиняются закону распределения Гаусса. Для распределения Гаусса все случайные величины укладываются с доверительной вероятностью 0,99 в интервал 3σ.

Среднеквадратическое отклонение σ для нормального распределения определяют по формуле (2.45).

Для распределения Гаусса доверительный интервал коэффициента r корреляции определяют через доверительный интервал коэффициента z. Коэффициент r корреляции связан с коэффициентом z соотношением:

.                                      (2.49)

Среднюю ошибку mr коэффициента корреляции рассчитывают по формуле:

.                                      (2.50)

Если между показателем состояния здоровья и исследуемыми факторами загрязнения окружающей среды действительно существует взаимосвязь и это подтверждается с одной стороны достоверностью определения самих показателей и факторов, и с другой  большим значением коэффициента корреляции, то можно говорить не только и наличии взаимосвязи, но и о существовании функциональной связи.

Для описания такой связи предложена математическая модель в виде уравнения регрессии (2.51):

,       (2.51)

где  – теоретическое значение (математическое ожидание) показателя состояния здоровья; b0 – фоновое значение показателя состояния здоровья; n– число данных о величинах исследуемого фактора состояния окружающей среды; Xi, исследуемый вредный фактор (загрязнитель окружающей среды: физический, химический или биологический), обуславливающий изменение показателя состояния здоровья на исследуемой территории; bi – коэффициент регрессии, характеризующий силу и направленность влияния вредного фактора.

В уравнении (2.51) первая сумма характеризует линейное влияние вредных факторов, вторая сумма – нелинейность зависимости, если такая имеет место.

В наиболее простом случае, когда между одним вредным фактором и одним показателем здоровья существует взаимосвязь, т.е. когда при увеличении величины фактора показатель здоровья увеличивается или уменьшается пропорционально изменению фактора, эта взаимосвязь может быть выражена функциональным уравнением:

.                               (2.52)

Коэффициент b линейной регрессии и коэффициент rxy корреляции связаны между собой уравнением:

, (2.53)

где σч и σнсоответственно среднеквадратические отклонения показателя x здоровья и вредного фактора y, которые определяют по формулам:

,                          (2.54)

,                          (2.55)

где xi  и yi – текущие значения величин x и y в каждом опыте,  и  – средние арифметические значения величин x и y.

До сих пор мы рассматривали лишь вопрос о взаимосвязи одного показателя здоровья и одного вредного фактора. На самом деле реальная ситуация требует анализа влияния нескольких вредных факторов на ряд показателей здоровья. В таких случаях пользуются уравнениями множественной регрессии.

В случае линейных зависимостей уравнение множественной регрессии принимает вид:

= a0+a1x1+a2x2+…+anxn ,                 (2.56)

где a1,a2,….an – вредные факторы, влияющие на показатель здоровья.

На практике для решения этой задачи требуется определить множество величин для каждого вредного фактора и величины коэффициентов множественной регрессии. Для решения уравнения множественной регрессии используют метод наименьших квадратов. Для решения такой задачи необходимо составить систему из n+1 уравнений, т.е. число наблюдений должно быть на 1 больше числа анализируемых признаков. При рассмотрении взаимосвязи более чем между двумя признаками, находят коэффициенты множественной регрессии. Отличие коэффициента множественной регрессии состоит в том, что он всегда положителен и его величина лежит в пределах от 0 до 1.

В настоящее время для корреляционно регрессионного анализа, в том числе и для решения задач оценки воздействия вредных факторов на показатели здоровья населения разработаны хорошие компьютерные программы типа SAS, STATISTIСA и др.

Предыдущая

Добавить комментарий