Корреляционно регрессионный способ анализа применяется при наличии

Применение корреляционно-регрессионного анализа

Больше материалов по теме «Ведение бизнеса» вы можете получить в системе КонсультантПлюс .

В системе статистической обработки данных и аналитики часто используется сочетание методик корреляции и регрессии. Создателем корреляционно-регрессионного анализа считается Фрэнсис Гальтон, который разработал теоретическую основу методологии в 1795 году. В конце 19 века многие европейские ученые в области теории статистики углубили познания в вопросе использования количественных измерителей для отражения связей между явлениями.

Что такое корреляционно-регрессионный анализ (КРА) предприятия?

Корреляционно-регрессионный анализ (КРА) на предприятиях используется для выявления связей между несколькими факторами хозяйственной деятельности и оценки степени взаимозависимости выбранных для анализа критериев. Методика использует два алгоритма действий:

  1. Корреляция, которая направлена на построение моделей связей.
  2. Регрессия, используемая для прогнозирования событий на основе наиболее подходящей для ситуации модели связей.

Анализ проводится в несколько шагов:

  • постановка задач проведения исследования;
  • массовый сбор информации: систематизация статистических данных по конкретным показателям деятельности предприятия в динамике за несколько периодов;
  • этап создания модели связей;
  • анализ функционирования модели, оценка ее эффективности.

Для проведения КРА необходимо использовать показатели в едином измерителе, все они должны иметь числовое значение.

ОБРАТИТЕ ВНИМАНИЕ! Для достоверности данных и работоспособности модели сведения должны быть собраны за длительный отрезок времени.

Для полноты анализа надо устранить количественные ограничения на показатели модели, должно соблюдаться условие постоянной временной и территориальной структуры рассматриваемой совокупности элементов.

Где используется корреляционно-регрессионный анализ?

ВАЖНО! Пример проведения корреляционно-регрессионного анализа от КонсультантПлюс доступен по ссылке

Основные ситуации применения КРА:

  1. Тестирование отношения между несколькими величинами: выявляется, что именно этот показатель является влияющим, а второй – зависимым.
  2. Определение связи между двумя переменными факторами без уточнения причинно-следственного блока сведений.
  3. Расчет показателя по изменению значения другого фактора.

Корреляционно-регрессионная методика анализа может применяться для подготовки данных о разных сторонах деятельности компании. В бизнесе построение моделей зависимости одного показателя от других факторов и дальнейшая эксплуатация выведенной математической формулы позволяют отслеживать оперативное изменение текущей ситуации в выбранном сегменте хозяйствования и быстро принимать управленческие решения.

Например, благодаря КРА можно постоянно отслеживать уровень рыночной стоимости предприятия. Для этого на начальных этапах проводится сбор информации о динамике изменения рыночной стоимости и статистических показателей всех возможных факторов влияния:

  • уровень выручки;
  • рентабельность;
  • размер активов;
  • сумма непогашенной дебиторской или кредиторской задолженности;
  • резерв сомнительных долгов и др.

Для каждого критерия строится модель, которая выявляет, насколько сильно фактор может влиять на рыночную стоимость бизнес-проекта. Когда все модели построены, оценивается их работоспособность и адекватность. Из комплекса данных выбирается тот тип взаимосвязей, который отвечает требованиям объективности и достоверности. На основе полученной схемы связей создается уравнение, которое позволит получать прогнозные данные об изменении рыночной стоимости при условии изменения значения конкретного фактора.

Методику можно применять при формировании ценовой политики, составлении бизнес-планов, проработке вопроса о расширении ассортиментного ряда и в других сегментах предпринимательства.

Задачи, виды и показатели корреляционно-регрессионного анализа

Задачи КРА заключаются в:

  • идентификации наиболее значимых факторов влияния на конкретный показатель деятельности предприятия;
  • количественном измерении тесноты выявленных связей между показателями;
  • определении неизвестных причин возникновения связей;
  • всесторонней оценке факторов, которые признаны наиболее важными для рассматриваемого показателя;
  • выведении формулы уравнения регрессии;
  • составлении прогноза возможного результата деятельности при изменении ключевых связанных факторов с учетом возможного влияния других факторных признаков.

КРА подразумевает использование нескольких видов корреляционных и регрессионных методов. Зависимости выявляются при помощи корреляций таких типов:

  • парная, если связь устанавливается с участием двух признаков;
  • частная – взаимосвязь оценивается между искомым показателем и одним из ключевых факторов, при этом условием задается постоянное значение комплекса других факторов (то есть числовое выражение всех остальных факторов в любых ситуациях будет приниматься за определенную неизменную величину);
  • множественная – основу исследования составляет влияние на показатель деятельности не одного фактора, а сразу нескольких критериев (двух и более).

СПРАВОЧНО! Выявленные показатели степени тесноты связей отражаются коэффициентом корреляции.

На выбор коэффициента влияет шкала измерения признаков:

  1. Шкала номинальная, которая предназначена для приведения описательных характеристик объектов.
  2. Шкала ординальная нужна для вычисления степени упорядоченности объектов в привязке к одному и более признакам.
  3. Шкала количественная используется для отражения количественных значений показателей.

Регрессионный анализ пользуется методом наименьших квадратов. Регрессия может быть линейной и множественной. Линейный тип предполагает модель из связей между двумя параметрами. Например, при наличии таких двух критериев, как урожайность клубники и полив, понятно, что именно объем поступающей влаги будет влиять на объем выращенной и собранной клубники. Если полив будет чрезмерным, то урожай пропадет. Урожайность же клубники никак не может воздействовать на систему полива.

Множественная регрессия учитывает более двух факторов одновременно. В случае с клубникой при оценке ее урожайности могут использоваться факторы полива, плодородности почвы, температурного режима, отсутствия слизняков, сортовые особенности, своевременность внесения удобрений. Все перечисленные показатели в совокупности оказывают комплексное воздействие на искомое значение – урожайность ягод.

Система показателей анализа формируется критериями классификации. Например, при экстенсивном типе развития бизнеса в качестве показателей могут выступать такие факторы:

  • количество сотрудников;
  • число заключенных договоров за отчетный период;
  • посевные площади;
  • прирост поголовья скота;
  • расширение дилерской сети;
  • объем основных фондов.

При интенсивном типе развития могут применяться следующие показатели:

  • производительность труда;
  • рентабельность;
  • урожайность;
  • фондоотдача;
  • ликвидность;
  • средний объем поставок в отчетном периоде по одному договору.

Оценка

Для оценки достоверности и эффективности модели связей необходимо построить матрицу коэффициентов. Коэффициент в случае парной корреляции вычисляется по формуле:

Диапазон значений коэффициента ограничивается показателями от -1 до +1. Если итоговое значение было получено со знаком плюс, то между рассматриваемыми переменными имеется прямая связь. Если в результате расчетов значение оказалось отрицательным, то связь будет обратной, то есть при увеличении одного из показателей другой связанный с ним фактор будет уменьшаться. Пример прямой связи – увеличение посевных площадей будет способствовать росту объема собираемой с полей продукции. Пример обратной связи – увеличение посевных площадей сопровождается снижением урожайности.

Качественный аспект тесноты связи между рассматриваемыми в аналитических расчетах показателями можно оценивать, основываясь на шкале Чеддока.

В соответствии с ее нормами связь будет расцениваться как сильная при значении коэффициента корреляции по абсолютным данным величины выше 0,7. Положительный или отрицательный знак сопровождает числовое значение – неважно, ориентироваться необходимо только на число. Если коэффициент после вычислений оказался ниже 0,3, то связь можно считать слабой.

Для дальнейших этапов анализа выбираются факторы с высокой степенью связанности. Все остальные критерии, для которых установлена слабая связь, отбрасываются. На основании полученных сведений определяется вид математического уравнения регрессии. Рассчитывается численное значение оценки параметров регрессии, определяются качества полученной модели регрессии.

Источник

Корреляционно регрессионный способ анализа применяется при наличии

В практике сельскохозяйственных и биологических исследований часто возникает необходимость изучить характер связи между двумя (или более) варьирующими признаками или свойствами почв.

Многие признаки и свойства растений находятся между собой в определенной взаимосвязи. Некоторые из них являются взаимосвязанными, другие – изменяются в определенном направлении под влиянием общих условий. Примером связи первого типа может служить зависимость крупности плодов от числа цветков в соцветии, другого – связь между площадью питания растений и урожайностью на разных по плодородию участках.

Что такое переменные? Переменные &#150 это то, что можно измерять, контролировать или что можно изменять в исследованиях. Переменные отличаются многими аспектами, особенно той ролью, которую они играют в исследованиях, шкалой измерения и т.д.

Исследование зависимостей в сравнении с экспериментальными исследованиями. Большинство эмпирических исследований данных можно отнести к одному из названных типов. В исследовании корреляций (зависимостей, связей. ) вы не влияете (или, по крайней мере, пытаетесь не влиять) на переменные, а только измеряете их и хотите найти зависимости (корреляции) между некоторыми измеренными переменными, например, между кровяным давлением и уровнем холестерина. В экспериментальных исследованиях, напротив, вы варьируете некоторые переменные и измеряете воздействия этих изменений на другие переменные. Например, исследователь может искусственно увеличивать кровяное давление, а затем на определенных уровнях давления измерить уровень холестерина. Анализ данных в экспериментальном исследовании также приходит к вычислению &#171корреляций&#187 (зависимостей) между переменными, а именно, между переменными, на которые воздействуют, и переменными, на которые влияет это воздействие. Тем не менее, экспериментальные данные потенциально снабжают нас более качественной информацией. Только экспериментально можно убедительно доказать причинную связь между переменными. Например, если обнаружено, что всякий раз, когда изменяется переменная A, изменяется и переменная B, то можно сделать вывод &#150 &#171переменная A оказывает влияние на переменную B&#187, т.е. между переменными А и В имеется причинная зависимость. Результаты корреляционного исследования могут быть проинтерпретированы в каузальных (причинных) терминах на основе некоторой теории, но сами по себе не могут отчетливо доказать причинность.

Читайте также:  Рассчитать ввп всеми способами

Корреляционно-регрессионный анализ применяется для изучения связей и зависимости между наблюдаемыми явлениями. Причинно-следственные связи при математическом анализе могут выражаться в двух формах: функциональной и корреляционной. Под функциональной связью понимают такую связь между какими-либо показателями, когда при изменении одного показателя на определенную величину другой показатель меняется также на строго определенную величину. Функциональные связи характерны для большинства физических, химических и физико-химических явлений. Площадь треугольника точно определяется его высотой и основанием, длина окружности – радиусом, скорость падения является функцией времени падения и ускорения силы тяжести, скорость протекания определенной химической реакции находится в зависимости от температуры.

Необходимо учесть, что в чистом виде функциональные связи встречаются только в идеальных условиях, когда предполагается, что никаких посторонних влияний нет.

Но на практике это недостижимо. Никогда нельзя точно измерить фактически имеющийся радиус круга, причем вычисленная площадь никогда не равна в точности фактической, вследствие практической невозможности начертить точную окружность. Скорость падения реального тела в реальных условиях будет всегда различна при одних и тех же времени и ускорении силы тяжести. На практике всегда действуют посторонние для данной функциональной зависимости факторы, которые нарушают точность этой зависимости в разных случаях по-разному.

Пока такие нарушения остаются настолько незначительными, что их практически можно не учитывать, связь считается функциональной.

При изучении живых объектов приходится иметь дело со связями другого рода. Живой организм развивается в связи с условиями его жизни, под действием бесконечно большого числа факторов, которые по-разному определяют развитие разных признаков. У живых объектов связь между любыми двумя признаками настолько часто и сильно нарушается и модифицируется, что не всегда даже может быть достаточно обнаружена.

Растения, животные, микроорганизмы в процессе своего развития постоянно взаимодействуют с факторами внешней среды, изменяются под влиянием разнообразных условий существования. Поэтому у них связь между признаками проявляется в виде так называемой корреляционной зависимости, или корреляции. Эта форма связи характеризуется тем, что изменение одного показателя на определенную величину сопровождается изменением не одного значения показателя, а целое распределение этих значений при вполне определенных основных показателях этого частного распределения – средней величины и степени разнообразия.

Растения, животные, микроорганизмы в процессе своего развития постоянно взаимодействуют с факторами внешней среды, изменяются под влиянием разнообразных условий существования. Поэтому у них связь между признаками проявляется в виде так называемой корреляционной зависимости, или корреляции. Эта форма связи характеризуется тем, что изменение одного показателя на определенную величину сопровождается изменением другого показателя на различные величины.

Термин корреляция введен в науку Кювье и в переводе с французского означает соотношение, связь (принцип соотношения в каждом организме между различными органами). Таким образом, если при определении значения x переменная y может принимать разные значения с определенной вероятностью, то зависимость между x и y носит характер корреляционной или стохастической связи.

Простейшим визуальным способом выявить наличие взаимосвязи между количественными переменными является построение диаграммы рассеяния (scatterplot). Это график, на котором по горизонтальной оси (X) откладывается одна переменная, по вертикальной (Y) другая. Каждому объекту на диаграмме соответствует точка, координаты которой равняются значениям пары выбранных для анализа переменных.

Направление связи

  1. Если бы существовала функциональная (математически точная) положительная зависимость между числом рабочих и доходом, т.е. если бы на каждом предприятии каждый рабочий за год производил в точности одинаковое количество продукции, все точки-объекты расположились бы на «растущей» прямой.
  2. В этом случае чем больше значения одного признака, тем больше значения другого и чем меньше значения одного признака, тем меньше значения другого.
  3. Пример положительной функциональной связи между признаками X и Y:

Однако на практике мы встречаемся не с функциональными, а со статистическим связями (действительно, эффективность труда, т.е. количество продукции, произведенной одним рабочим, различается на разных предприятиях). Поэтому на графике точки-объекты не лежат на одной прямой, и какую бы прямую мы ни провели, все точки на нее не попадут.

В случае положительной статистической связи мы видим «облако» точек, о котором можно сказать, что оно вытянуто по диагонали от левого нижнего угла к правому верхнему, т.е. с ростом одного признака другой в среднем растет.

Значит, и в этом случае чем больше значения одного признака, тем больше значения другого и чем меньше значения одного признака, тем меньше значения другого. Однако это верно не для каждого объекта, а для статистической совокупности.

Пример положительной статистической связи между признаками X и Y.

Если бы между признаками существовала функциональная отрицательная (а не положительная) зависимость, точки на диаграмме также расположились бы на одной прямой, однако эта прямая проходила бы в противоположном направлении.

В этом случае чем больше значения одного признака, тем меньше значения другого и чем меньше значения одного признака, тем больше значения другого.

Пример отрицательной функциональной связи между признаками X и Y.

Для статистической отрицательной связи мы увидим на графике «облако» точек, о котором можно сказать, что оно вытянуто по диагонали от левого верхнего угла к правому нижнему, т.е. с ростом одного признака другой признак в среднем убывает.

Значит, и в этом случае чем больше значения одного признака, тем меньше значения другого и чем меньше значения одного признака, тем больше значения другого. Однако это верно не для каждого объекта, а для статистической совокупности.

Пример отрицательной статистической связи между X и Y.

Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели

Однако иногда расположение точек на диаграмме рассеяния показывает нелинейную зависимость либо вообще отсутствие связи между признаками.

Примеры нелинейной связи (слева) и отсутствия связи (справа) между признаками X и Y

Попробуем провести прямую линию через облако точек на диаграмме рассеяния. Таких линий можно нарисовать множество, причем на глаз невозможно определить, какая из них лучше подходит для описания диаграммы рассеяния.

Однако существует метод, который позволяет совершенно точно вычислить положение прямой линии, наилучшим образом проходящей через облако точек. Это – метод наименьших квадратов.

Вычисляемая с его помощью прямая линия называется линией регрессии. Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями).

Таким образом, линия регрессии дает наилучшее приближенное описание линейной зависимости между двумя переменными.

Если объекты характеризуются целым набором количественных признаков, можно построить т.н. матрицу корреляции, т.е. квадратную таблицу, число строк и столбцов которой равно числу признаков, а на пересечении каждых строки и столбца стоит коэффициент корреляции соответствующей пары признаков.

Матрица симметрична, т.е. значения выше и ниже диагонали повторяются (т.к. rxy = ryx).

Пример матрицы корреляции для трех признаков. В этой матрице 9 коэффициентов: по диагонали 3 единицы (корреляция каждого признака с самим собой) и три коэффициента для трех пар признаков: r12, r13 и r23, которые повторяются выше и ниже диагонали:

Некоторые коэффициенты в матрице корреляции показаны красным цветом. Это означает, что они являются статистически значимыми.

В чем смысл понятия статистической значимости применительно к коэффициенту корреляции?

Задача исследования корреляционной связи &#150 определить характер и измерить тесноту сопряженности между признаками, из которых один является факториальным, другой результативным. Например, существует определенная корреляция между числом листьев у кукурузы (факториальный признак) и длиной вегетационного периода (результативный признак): чем больше листьев образует растение, тем позднее оно созревает.

Прежде чем приступать к рассмотрению сущности корреляционно — регрессионного анализа, необходимо выделить условия его применения и ограничения:

1) Корреляционную связь не следует вычислять при значении коэффициента корреляции более 30% в каждом из рядов наблюдений.

2) Число наблюдений должно быть не менее чем в 5-6 раз больше числа факторов.

3) Необходимо, чтобы совокупности по результативному и факториальному признакам подчинялись нормальному закону распределения вероятностей.

Исследование корреляции сводится к следующему:

1. Устанавливают факт зависимости изменений одного признака от изменения другого и определяют форму связи между ними (тип корреляции). Корреляцию называют простой, если исследуется связь между двумя признаками, или множественной, когда на величину одного результативного признака влияют несколько факториальных.

2. В зависимости от характера изменений результативного признака под влиянием факториального различают следующие формы корреляции:

а) линейную корреляцию, когда с увеличением среднего значения одного признак также увеличивается среднее значение другого, или с увеличением среднего значения одного признака уменьшается среднее значение другого. В первом случае корреляцию называют прямой, во втором – обратной;

Читайте также:  Классификация грибов по способу питания таблица

б) криволинейную корреляцию: при возрастании значения одного признака другой принимает значения, возрастающие до определенной величины, а затем убывающие, или наоборот.

3.Находят тесноту связи, т.е. степень сопряженности между значениями одного и другого признака. Основной показатель степени сопряженности между значениями одного и другого признака и формы связи — коэффициент корреляции (r). Коэффициент корреляции – безразмерная величина, изменяемая в пределах -1&#8805 r &#8804 +1. При r = 0 линейная связь отсутствует, при r = &#177 1 корреляционная связь превращается в функциональную.

Определение тесноты связи по величине коэффициента корреляции следующее:

r = 0,3 – 0,7 – средней;

r &#8805 0,7 – сильной связи.

Статистическая значимость коэффициента корреляции

Если коэффициент корреляции вычислен на основе выборочных данных, то не исключено, что его ненулевое значение является не отражением действительной связи между признаками, а просто получено в результате специфики данной выборки (тогда как в генеральной совокупности коэффициент корреляции равен нулю, т.е. линейной связи между признаками нет).

Таким образом, надо понять, как далеко значение r от нуля.

Если значение коэффициента корреляции вычислено по выборочным данным, то для оценки его значения в генеральной совокупности, как обычно, строится доверительный интервал.

Для построения доверительного интервала вычисляется ошибка коэффициента корреляции &#963r по формуле:

Затем ошибка коэффициента корреляции умножается на параметр t, зависящий от доверительной вероятности P (для вероятности 95% t = 2), чтобы найти предельную ошибку.

Наконец, строится доверительный интервал r &#177 &#963r и проводится проверка, попадет ли нулевое значение в этот интервал.

Если ноль не попадет в доверительный интервал, значит с высокой вероятностью в генеральной совокупности не может быть нулевого значения коэффициента корреляции, т.е. связь между признаками существует и в генеральной совокупности. В таком случае коэффициент корреляции является статистически значимым

Если две переменные линейно независимы (метод наименьших квадратов дает горизонтальную прямую), то одна из них в своих изменениях никоим образом не определяет другую – в этом случае коэффициент детерминации равен нулю.

В остальных случаях коэффициент детерминации указывает, какая часть изменений одной переменной объясняется изменениями другой переменной.

Чем выше по модулю (по абсолютной величине) значение коэффициента корреляции, тем сильнее связь между признаками.

Принято считать, что коэффициенты корреляции, которые по модулю больше 0,7, говорят о сильной связи (при этом коэффициенты детерминации > 50%, т.е. один признак определяет другой более, чем наполовину).

Коэффициенты корреляции, которые по модулю меньше 0,7, но больше 0,5, говорят о связи средней силы (при этом коэффициенты детерминации меньше 50%, но больше 25%).

Наконец, коэффициенты корреляции, которые по модулю меньше 0,5, говорят о слабой связи (при этом коэффициенты детерминации меньше 25%).

Необходимо подчеркнуть, что величина коэффициента корреляции еще не гарантирует его значимости: даже большой коэффициент может оказаться статистически незначимым (например, при малом объеме выборки), а небольшой коэффициент (если выборка велика) — значимым.

Следует также предостеречь от излишнего злоупотребления математическим описанием анализируемых зависимостей, если природа связи неизвестна и теоретически оправданных предположений о виде уравнения нет. Конечно, процесс отбора может завершиться нахождением уравнения, которое неплохо описывает изучаемое явление. Но не следует забывать, что не имеющее физического смысла уравнение может затушевать весьма важные особенности явления или процесса.

Именно поэтому проведенная от руки линия регрессии или найденная путем сглаживания с помощью скользящей средней нередко оказывается гораздо более полезной, чем с большим трудом подобранное математическое описание. Следует помнить, что математическое выражение лишь тогда полезно, когда оно позволяет дополнительно вскрыть какие-то особенности процесса или помогает прогнозировать процесс, протекающий в аналогичных условиях.

Направление корреляционной зависимости определяется знаком: положительное значение свидетельствует о том, что изменения одной величины соответствуют изменениям другой, т.е с увеличением значения одной увеличивается другая, а связь — прямая. При отрицательной корреляции (обратная зависимость), наоборот, с увеличением значения одной величины другая уменьшается, а с уменьшением – увеличивается.

Коэффициент корреляции определяется по формуле:

r = &#8730 (x – x)&#215 (y –y) / &#8730 &#931 (x –x) 2 &#215 &#931 (y – y) 2

Следует иметь в виду, что коэффициент корреляции выборочного наблюдения подвержен случайным колебаниям, зависящим как от особенностей образования выборки, так и от точности наблюдений. Вследствие этого по величине коэффициента корреляции не всегда можно с достаточной уверенностью судить о наличии или сопряженности между признаками в данной выборке. Поэтому вычисленный для выборки коэффициент корреляции необходимо оценить с точки зрения его значимости и убедиться, что его знак не изменится на обратный. Для оценки существенности коэффициента корреляции вычисляют его ошибку (Sr) и критерий существенности (tr)по формулам:

Sr = &#8730 1 – r 2 / n -2

r – коэффициент корреляции;

n – число парных значений показателей по которым вычислен коэффициент корреляции.

Если tr &#8805 tтеор, то корреляционная связь существенна. Теоретическое значение критерия Стьюдента берут из таблицы при уровнях вероятности 95 и 99% и числе степеней свободы Y = n – 2.

Величина коэффициента корреляции позволяет выяснить тесноту (силу) и направление связи, однако этим не исчерпываются возможности изучения сопряженности между признаками. Более того, во многих исследованиях возникает необходимость изучить не столько меру корреляции, сколько ее форму и характер изменения одного признака в зависимости от изменения другого, т.е. количественное изменение связанных друг с другом показателей или признаков. Последнее особенно важно в тех случаях, когда фактические наблюдения не охватывают всего разнообразия признака и цель исследования заключается в том, чтобы выяснить взаимозависимости между недостающими данными. Эти задачи решаются методами регрессионного анализа.

Термин регрессия был введен Гальтоном в связи с изучением им наследования признаков родителей потомством.

2. Схема корреляционно-регрессионного анализа

Регрессией называется изменение функции при определенных изменениях одного или нескольких аргументов. Функцией называется признак, зависящий от другого – аргумента. Зависимость функции от аргумента может быть или физиологической или условно принятой в исследовании. Примером физиологической зависимости может служить зависимость веса животного (функции) от его возраста (аргумента).

Термин «функция&#187 употребляется не только для обозначения признака, который зависит от аргумента, но и для обозначения формы этой зависимости. Вскрыть функцию – значит найти закономерность, по которой изменяется изучаемый признак в зависимости от изменения одного или нескольких других признаков.

Третьим основным показателем корреляционной связи является коэффициент регрессии – byx, показывающий, в каком направлении и на какую величину в среднем изменяется функция (y) при изменении аргумента (x) на единицу измерения. Кроме того коэффициент регрессии необходим для вычисления теоретических значений результативного признака для любых значений факториального. Коэффициент регрессии измеряется в тех же единицах, что и функция, и имеет тот же знак, что и его коэффициент корреляции. Вычисляется коэффициент регрессии по формуле:

byx = &#931 (x – xср)&#215 (y – yср) / &#931 (x – xср) 2 .

Числитель этой формулы представляет собой сумму произведений отклонений значений x и y от своих средних значений, а знаменатель – сумму квадратов отклонений от средних значений.

При регрессионном анализе производят обычно две оценки выборочных коэффициентов регрессии:

а) оценку существенности коэффициента регрессии;

б) критерий существенности регрессии.

Оценка существенности коэффициента регрессии позволяет убедиться в том, что зависимость между сопоставляемыми признаками не случайна, а статистически значима. Для этого рассчитывают ошибку коэффициента регрессии:

Sbyx= Sr &#8730 &#931 (x –xср) 2 / &#931 (y – yср) 2

Критерий существенности для коэффициента регрессии:

tb= b/ Sb.

При этом следует помнить, что tb = tr и byx*byx = r 2 . Это может служить для проверки правильности расчетов.

В ряде случаев исследователю важно не только установить наличие связи между изучаемыми показателями, но и выразить эту связь в виде математического уравнения. Это требуется в случаях, когда необходимо вычислить неизвестную величину по известным значениям. Например, зная запас минеральных элементов в почве, вычислить урожай культуры. Уравнение, связывающее величины x и y, носит название уравнения регрессии.

Регрессионный анализ заключается в том, чтобы отыскать линию (прямую – в случае линейной корреляции, параболу первого, второго и т.д. порядка при криволинейной зависимости), наиболее точно выражающую зависимость одного признака от другого. Кроме того, при помощи регрессионного анализа можно выяснить ошибку опытных данных, влияющих на конечные результаты исследования.

Наглядным способом выражения корреляционной зависимости служит построение специальных графиков. Поэтому после установления существенности коэффициента регрессии составляют уравнение регрессии, т.е. математическую формулу для данной корреляционной связи. В природе существует множество явлений, обусловленных множеством причин. Поэтому существует много форм зависимости функций от различных аргументов. Исследование этих форм, выраженных математическими уравнениями, составляет основное содержание учения о регрессии признаков. Вскрывая усредненное течение функции, исследователь выявляет ту закономерность изучаемого явления, которая в эмпирическом ряду была скрыта случайностями своего проявления. Эта вскрытая закономерность, выраженная формулой или теоретическим рядом регрессии, помогает более точно, с меньшими ошибками дать описание внешних проявлений закономерности, что, в свою очередь, может помочь вскрытию и внутренних факторов, управляющих данным явлением. В этом и заключается познавательное значение исследование регрессии различных признаков у биологических объектов. Каждый выровненный ряд дает возможность определить значение функции при любом значении аргумента (или нескольких аргументов). Это обстоятельство дает возможность использовать ряды и уравнения регрессии при определении значений таких признаков, непосредственное измерение которых в обычных условиях или невозможно или затруднительно. В простой линейной корреляции уравнение имеет вид:

Читайте также:  Яичный порошок способ производства

Регрессионный анализ заключается в том, чтобы отыскать линию (прямую – в случае линейной корреляции, параболу первого, второго и т.д. порядка при криволинейной зависимости), наиболее точно выражающую зависимость одного признака от другого. Кроме того, при помощи регрессионного анализа можно выяснить ошибку опытных данных, влияющих на конечные результаты исследования.

Наглядным способом выражения корреляционной зависимости служит построение специальных графиков. Поэтому после установления существенности коэффициента регрессии составляют уравнение регрессии, т.е. математическую формулу для данной корреляционной связи. В простой линейной корреляции уравнение имеет вид:

y0 = y + byx (x –xср), где

y0 – теоретическое значение признака;

y– средняя арифметическая признака;

x – средняя арифметическая признака;

byx — коэффициент регрессии.

С помощью уравнения регрессии корреляционная связь изображается графически в системе координат в виде линии регрессии.

Для построения теоретической линии регрессии в формулу уравнения подставляют значения y, x, byx. После этого берут два экстремальных значения x (xmin; xmax) и вычисляют соответствующие им значения y. Строят систему координат в масштабе значений, соответствующих изменениям значений y и x. В этой системе находят две экстремальные точки (xmin ; ymin) (xmax ; ymax), по которым и строят линию регрессии.

После построения линии регрессии в этой же системе координат наносят в виде точек фактические экспериментальные значения y и x. Если разброс точек осуществляется вокруг теоретической линии, значит, расчет сделан, верно, и построенный график может быть использован для научных и практических целей.

3. Множественная корреляция

В практике сельскохозяйственного экспериментирования встречаются задачи, когда исследуемая зависимость между двумя признаками определяется влиянием третьего признака. Например, продуктивность колоса характеризуют длина колоса, число семян в колосе и их величина. Все эти признаки варьируют под влиянием условий произрастания, однако число зерен находится в прямой зависимости с размером (длиной) колоса, а крупность – в обратной связи с количеством семян в колосе. Практический интерес представляет коррелятивная связь между длиной колоса и крупностью семян в колосе.

Для того, чтобы выяснить в таких исследованиях, влияет или не влияет третий признак на корреляционную связь между первым и вторым признаком, необходимо исследовать эту связь при постоянных значениях третьего признака. Постоянное значение признака означает, что с чисто внешней стороны невозможно подметить статистического влияния этого признака на все остальные. При постоянном значении признака возможно только констатировать, что в изменчивости других признаков нет его влияния: он постоянен, а другие признаки изменяются. Поэтому, коэффициент корреляции между первым и вторым признаком при постоянном значении третьего считают коэффициентом корреляции между двумя признаками при исключительном влиянии третьего. Такой показатель носит название частного коэффициента корреляции.

В этом случае для определения формы и тесноты связи нескольких факторов рассчитывают коэффициенты частной и множественной корреляции. При множественной линейной корреляции на величину функции одновременно влияют несколько переменных величин.

Частные коэффициенты корреляции для трех факторов определяют форму и тесноту связи между двумя из них при постоянном значении третьего. Вычисляют их по формулам:

Для определения существенности частных коэффициентов корреляции определяют их ошибки и критерии существенности:

Множественные коэффициенты корреляции являются показателями формы и тесноты связи одного фактора с совокупностью других. Множественный коэффициент корреляции может изменяться в пределах от 0 до 1.

Значимость множественного коэффициента корреляции определяется с помощью критерия Фишера по формуле:

F = R 2 / 1 – R 2 &#215 (n – k / k – 1), где

n — объем выборки;

k – число изучаемых факторов;

F0,5 и F0,1 определяются из данных таблиц при Y = k – 1 и Y = n – k.

Если Fфакт &#8805 Fтеор, связь существенна.

4. Криволинейная корреляция

При криволинейном типе связи с увеличением одного фактора другой коррелирующий с ним сначала увеличивается, а затем уменьшается или наоборот. В связи с этим коэффициент корреляции не дает правильного представления о степени связи между признаками. Тогда вычисляют показатель криволинейной зависимости, так называемое корреляционное отношение &#951(эта), представляющее собой отношение двух дисперсий: дисперсия групповых средних и общей дисперсии. Иначе говоря, корреляционное отношение отвечает на вопрос: какую часть общей дисперсии результативного признака составляет дисперсия частных средних этого признака.

Корреляционное отношение не показывает направление связи так как оно всегда имеет положительный знак и принимает значения от нуля до единицы. При &#951 = 1 корреляционная связь превращается в функциональную, при &#951 = 0 связь отсутствует. Корреляционное отношение может применяться для вычисления независимого фактора, хорошо коррелирующего с зависимым фактором.

Корреляционное отношение вычисляется по формулам:

&#951 xy=&#8730 &#931 (y – yср) 2 – (y –yx) 2 /&#931 (y – yср) 2 – для малых выборок

&#951 xy = &#8730 &#931 &#402(yx – yср) 2 / &#931 &#951 (y – yср) 2 – для больших выборок

Существенность корреляционного отношения определяют с помощью его ошибки и критерия существенности:

S&#951 = &#8730 1 – &#951 2 / n -2; t&#951 = &#951 / S&#951

Свойства корреляционного отношения

Основным свойством корреляционного отношения является способность измерять корреляцию при любой ее форме.

Кроме того, корреляционное отношение обладает рядом других свойств, представляющих большой интерес в статистическом анализе корреляционных связей.

В отличие от коэффициента корреляции, который дает одинаковую меру связи признаков первого со вторым и второго с первым, корреляционное отношение второго признака по первому обычно не бывает равно корреляционному отношению первого признака по второму:

На первый взгляд это кажется невозможным. Казалось бы, между двумя признаками может только одна связь, которая в данный момент всегда равна самой себе независимо от того с какого признака мы начинаем ее измерять: от второго к первому или наоборот.

На самом деле это положение не всегда подтверждается практикой измерения обратных связей в биологии и сельском хозяйстве.

Конечно, если изучается связь между такими парами признаков, как длина и ширина тела, цвет волос и цвет глаз, вес и объем продукта, урожайность на соседних делянках, равенство обратных связей не подлежит сомнению.

Однако существуют такие пары коррелируемых признаков, для которых очевидно, что обратные связи не могут быть равны. Например, связь с возрастом различных признаков животных и растений всегда имеет характер односторонней изменчивости. Вес, размеры, объем, продуктивность, плодовитость, жизненность имеют явную зависимость от возраста, при этом сам возраст изменяется совершенно независимо от этих признаков: он регулярно и неотвратимо увеличивается с каждым днем, месяцем, годом. Связь урожая с количеством осадков или с температурой также имеет характер явно односторонней зависимости: урожай связан с температурой воздуха, но температура воздуха не как не зависит от урожая.

Это неравенство обратных связей между условиями жизни и жизненными функциями и отражается в неравенстве двух обратных корреляционных отношений.

5. Корреляционно-регрессионные модели и их применение в анализе и прогнозе

Корреляционно-регрессионной моделью системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентами детерминации и коэффициентами регрессии, интерпретируемыми в соответствии с теоретическим знанием о природе связей в изучаемой системе. Параметры уравнения оцениваются методом наименьших квадратов. Уравнение регрессии должно быть линейным по параметрам.

Если уравнение регрессии отражает нелинейность связи между переменными, то регрессия приводится к линейному виду путем замены переменных или их логарифмирования.

Если коэффициент детерминации близок к единице, то с помощью уравнения регрессии можно предсказать, каким будет значение зависимой переменной для того или иного ожидаемого значения одной или нескольких независимых переменных.

Приведенное определение корреляционно-регрессионной модели включает достаточно строгие условия: далеко не всякое уравнение регрессии можно считать моделью.

Теория и практика выработали ряд рекомендаций для построения корреляционно-регрессионной модели.

1. Признаки – факторы должны находиться в причинной связи с результативным признаком (следствием).

2. Признаки — факторы не должны быть составными частями результативного признака или его функциями.

3. Признаки – факторы не должны дублировать друг друга, т.е. быть коллинеарными (с коэффициентом корреляции более 0,8).

4. Не следует включать в модель факторы разных уровней иерархии, т.е. фактор ближайшего порядка и его субфакторы.

5. Важно, чтобы для результативного признака и факторов соблюдалось единство единицы совокупности, к которой они отнесены.

6. Математическая форма уравнения регрессии должна соответствовать логике связи факторов с результатом в реальном объекте.

7. Принцип простоты: предпочтительнее модель с меньшим числом факторов при том же коэффициенте детерминации или даже при несущественно меньшем.

Контрольные вопросы

  1. Что такое функциональная и корреляционная связь, в чем их различие?
  2. С помощью каких показателей оценивается корреляционная связь?
  3. Что такое коэффициент простой линейной корреляции, какие значения он может принимать?
  4. В чем суть и значение коэффициента регрессии?
  5. Что такое доверительная зона регрессии?
  6. В чем смысл коэффициента детерминации?

НазадНаверхДалее

© ФГОУ ВПО Красноярский государственный аграрный университет

Источник

Оцените статью
Разные способы