Корреляция и причинность — чем отличаются эти понятия

Блог Петра Диденко

Корреляция и причинность — чем отличаются эти понятия

Мы тут недавно рассуждали о предположениях. Типа, человек может делать обоснованные предположения и необоснованные. Для обоснования предположений надо включать весь что есть мозг и тогда ты принимаешь качественные решения. Чтобы принять решение базирующееся на необоснованное предположении достаточно подбросить монетку – делаем/не делаем. 

Природа предположения такова, что мы ожидаем наличия влияния одних факторов на другие. Например, если мы сделаем это, то произойдёт это. Вероятность наступления ожидаемых последствий как результата наших действий определяется например степенью нашей экспертности или, скажем, статистикой.

Экспертность – это когда «я знаю, что так бывает всегда, потому что 30 лет вижу это каждый день.  По сути, это тоже статистика. Или «я знаю что будет так, потому что меня учили в школе/инстируте что должно быть так». То есть, речь о каких-то законах, которые эмпирически подтверждены наукой, а это тоже статистика. Таком образом, за всё за пределами подбрасывания монетки – статистика.

В ней есть понятие «корреляции». Это когда ты дёрнул в одном месте, а в другом месте предсказуемо что-то изменилось. Таким обрзом можно сделать некоторое количество замеров и с помощью несложных формул установить или опровергнуть связь некоторых величин. Также говорят о коэффициенте корреляции (R), описывающем, скажем так, вероятность того, что есть стойкая связь.

Скажем, R = 1 – это стойках связь: когда мы дернули в одном месте, в другом точно на что-то изменится на точно известную величину.

Корреляция может быть обратной (R = -1): здесь что-то увеличиваем, на другой стороне что-то уменьшится.

R может быть между 0 и 1 – не всегда увеличение “тут” приведёт к конкретному изменению “там” и размер или факт изменений «там» могут с определённой вероятностью быть другими.

Короче, принимать решения на основе статистики просто – померял что-то раз 10-20 и слелал обоснованные предположения о связи одного и другого. Сделал 100 замеров – включился закон больших чисел и тебе бесплатно сгладило всякие случайно большие или маленькие значения при измерениях. Ещё раз: кажется, что принимать решения просто, не надо «подбрасывать монетку», можно «включать» знания.

То есть, сделал предположение, создал модель, провёл 100 тестов – получил почву для принятия решения. На деле, к сожалению, эксперименты часть ставятся просто высказыванием предположения и дальнейшими реальными инвестициями в проверку его на деле, а не тестами. То есть, “давайте напишем программу, которая будет нравиться пользователям!”. “А, давайте!”.

В этом случае, вы видите, сделано предположение, что программа понравится и подброшена монетка – “а давайте” её напишем и увидим, понравится или нет.

Или, “а давайте проведём мероприятие X, оно поможет продвижению нашей программы!”. По аналогии – “давайте”.

Я часто вижу, как стартаперы, не имеющие никакого конкретного опыта и науки в руках таким вот образом принимают решения и, мы знаем, 99% стартапов «фейлят».

Почему они так делают? Потому что так проще.

Кстати, таким образом в том числе и зарабатывается опыт, но пока ты не ошибся много-много раз, твоё будущее подчинено не опыту или науке, а тому, орлом или решкой упадёт монетка.

И ты бросаешь её постоянно и она вечно выпадает не так. А знаете, что неудачи  «накапливаются»? Две последовательные попытки с вероятностью по 0.8 в итоге дают общую вероятность успеха 0.64.

Ещё одна «засада», это когда путают корреляцию и причинно-следственную связь. Типа, (фактор один) 100 процентов людей евших огурцы -> (фактор 2) через 100 лет оказывались мёртвыми. Есть прямая (R = почти 1) корреляция между этими факторами, но причиной смерти людей не являлись огурцы. То есть, несмотря на формальную корреляцию на деле имелся третий фактор.

То есть, видя корреляцию одного с другим, часто мы склонны слишком эмоционально относиться вроде бы к «очевидным вещам» и не анализировать причины происходящего, не искать, что на деле определяет возможный ход событий. «Почему программа будет продаваться? Потому что она поннравится пользователям”. В этом этом предположении просто марианская впадина смертельных неопределёностей!

Я очень люблю вопрос «почему» и всем его задаю. Выдержать этот вопрос например пять раз подряд (читать про технику «five whys”), как показывает мой текущий опыт, способно очень небольшое количество людей. Люди на самом деле часто не знают, почему они делают то что делают и почему окажутся там, где планируют в итоге оказаться, почему достингут поставленных целей. Это ужасно.

Действительно, это происходит очень часто. Что делать? Учитывать всё, что написано выше. Почему обычно люди не делают этого? Часто они слишком простые и неспособны делать сложные вещи.

Можно ли это изменить? Да, всё сложное как правило очень просто. Например, кажется что сложно дочитать этот текст до конца, а на самом деле это очень просто 😉 Надо только хотеть.

Как и в случае с другими важными решениями.

Источник: https://www.kip.ru/realtime/2013/04/corellation.html

Корреляция и причинность: как ошибается наш мозг?

Корреляция и причинность — чем отличаются эти понятия
131 просмотров. Последнее обновление: 02.03.2019

Человек – не только машина для производства теорий, но также для их перепроизводства. Мы склонны перегружать реальность тем, что нам кажется. Тысячи лет это было оправдано.

Если каждый шорох в кустах принимать за тигра, допустимо ошибиться в 99 случаях из 100, чтобы спастись один раз. Но вот уже нет никаких тигров, есть другие способы спастись – но мы всё также реагируем на шорохи. Гипотезы склонны возникать из ничего.

Приходится специально думать, чтобы они не придумывались.

Не возводи единичный факт в теорию. Не строй замок из трех камней.

Например, если человека обидел представитель какой-то группы, он склонен насторожиться. Не на представителя (что оправдано), а сразу на группу. Если неприятность повторилась с другим представителем группы, теория, можно сказать, готова. Неважно, какой группы, если бедолага к этому склонен, у него сработает на любую.

Мужчины, женщины, турки, укурки, полицейские, врачи, бизнесмены, инвалиды… Я как-то слышал даже, что все Близнецы – сволочи. Не братья-близнецы, а люди, рожденные с конца мая по конец июне. Это не просто группа, это группа по вымышленному признаку (астрология действительно лженаука). Вероятно, бедолагу обидел кто-то, рожденный в июне.

Может быть, это случилось два или три раза – для закрепления рефлекса. Теперь он ненавидит «июньских», как нацисты евреев, и наоборот.

Давайте честно, мы все склонны к этой беде. Один раз получив плохой опыт в больнице или в полиции, мы уверены, что узнали важное о мире в целом. Чтобы обобщать, хорошо бы повторить эксперимент, хотя бы с десяток раз, меняя партнеров, места и ситуации. Одна история – это скорее про людей, а не про «систему».

Не обязательно обобщать негативный опыт, можно любой. Один человек съездил в Грузию, и кто-то встретил его очень хорошо. Другой съездил, и его встретили плохо. Потом два дурака встретились и спорят, насколько грузины доброжелательны как народ. Если бы они апеллировали к статистическим массивам, большим фактам, каким-то общим распределениям.

Но нет – каждый вспоминает только свою поездку. «Я вытянул из колоды даму пик – значит, все карты черные». – «С ума сошел? Там все красные, потому что у меня бубновый валет». И так спорят буквально обо всем – больших писателях, маленьких собаках, средних москвичах.

Достаточно пару раз пообщаться с маленькой собакой и средним москвичом, чтобы теория вызрела.

Не обязательно это про людей. Допустим, человек решил купить машину и почему-то «рено». Правильный вариант – посмотреть объективные характеристики моделей, отзывы покупателей, желательно какой-то большой массив. Неправильный – найти знакомого, у которого есть «рено», и спросить «ну как тебе?». Предположим, показания разошлись.

Выборка из десятков людей на сайте хвалит модель, знакомый плюется. Кому верить? «Ну, Гриша мне врать не будет». В итоге, чтобы оценить колоду, верят Грише, который один раз вытянул даму пик. Рядом опыт повторили 50 раз, и в 37 раз были червы. Но поскольку Гришу мы знаем лично и он не врет, то в колоде, конечно, в основном пики.

Тоже самое про ситуации. «У вас ужасный город, в первый же день я увидел на улице драку…». Или наоборот. «Какая криминогенная ситуация? Я ночью прошел через весь город – здесь нет преступности».

Чтобы судить о преступности, опыт стоит повторить. Хотя бы 365 раз. Каждую ночь. И то это будет не сильно качественный массив. Кое-что узнается, вероятно, о плотности бомжей, гопников.

Но вряд ли таким образом вы изучите мафию и сексуальных маньяков.

Корреляция это не причина.

Машина для перепроизводства гипотез возбуждается, когда видит где-то связь. В смысле два показателя колеблются как-то подозрительно синхронно. «В этом что-то есть».

Особенно вот здесь (картинки с сайта rationalnumbers.ru/all/bezumnye-korrelyacii/):

Корреляция 99.79%. Между чем? Между затратами США на науку, космос и технологии и суицидами путем повешения. «От прогресса хочется повеситься».

А от импорта нефти растет потребление курятины. Или наоборот. Корреляция 90%.

А вот здесь утонувшие в бассейне коррелируют с энергией, вырабатываемой АЭС. От данного вида прогресса, как видим, не вешаются, а тонут. Или всё еще страшнее. Секта колдунов-изуверов приносит водные жертвы Ктулху, за это он делится энергией.

А вот здесь докторские степени по компьютерным наукам коррелируют с выручкой от аркадных игр. Если до этого все казалось шуткой, вот это – шутка уже не всем. Во-первых, 98.5%. Во-вторых, всплывает общая тема.

И вот тоже картинка на любителя. Снова общая тема. Корреляция 93.5% между продажами японских авто в США и самоубийством посредством автоаварии. Кто-то сочтет, что японские машины склоняют к самоубийству.

В мире миллиарды показателей, и когда что-то с чем-то коррелирует, обычно оно делает это случайно.

Теория о том, что утопленники связаны с атомной энергетикой, кажется плохой изначально. Но вот про японскую диверсию – уже лучше (хотя все равно для фриков).

Но представьте, что гипотеза производит еще лучшее впечатление. Например: «после того, как они пришли к власти, начался кошмар…». Вместо слова они подставьте по вкусу что угодно. Правые, левые, серо-буро-малиновые. Для их противника гипотеза про кошмар — сильная априорная гипотеза. Осталось найти подтверждающие факты. Поскольку кошмар везде, искать можно где угодно, так ведь?

Против правых, левых и малиновых будут десятки графиков. Выяснится, что с приходом одних, например, растет число уличных краж. Нахождение у власти других коррелирует с насилием над детьми.

Третьи, приходя к власти, почему-то повышают заболеваемость шизофренией. Если в одной стране зависимость не нашлась, найдется в другой. Если не эта, так другая. Кто-то будет вызывать цирроз, кто-то авиакатастрофы, кто-то суициды.

Откуда возьмется корреляция, ясно – скорее всего оттуда же, откуда и корреляция нефти с курицами.

Но она будет производить лучшее впечатление (особенно на тех, кто «так и знал»). «Конечно, с таким правительством люди будут сходить с ума», «всё развалили, и теперь у них падают самолеты», «от такой политики точно запьешь».

При этом какая-то часть выдвинутых гипотез, возможно, будет верной. От какой-то политики действительно запьешь, а от какой-то даже начинают падать самолеты.

Но чтобы закричать «причина!», нужно больше, чем чутье, дополненное графиком.

В частной жизни – та же история. Человек начинает лечить какую-то болезнь, например, неумеренным поеданием чеснока. Или выпиванием водки. Или сразу двойным ударом — водкой с чесноком. И болезнь постепенно проходит. Корреляция с количеством съеденного чеснока налицо.

Но если бы вместо чеснока он жевал, например, листья салата, болезнь отступила бы все равно. По каким-то своим причинам. Но случилось так, как случилось, и в армии чеснока прибыло на одного бойца. Сейчас он будет лечить им половину всех болезней. А если снова поможет, он вообще откажется от лекарств.

Зачем, если чеснок работает?

Подобие и связь – тоже не причины.

Если что-то похоже на что-то, это еще ни о чем не говорит. Хотя смотря кому. Если некий съедобный корень внешне похож на пенис, он еще не является средством от импотенции, но вы же понимаете — тысячи людей с этим не согласятся. «Это не может быть просто так». Даже если ввести логику и критическое мышление в каждой школе на планете, спрос на особо эротичные корни не упадет до нуля.

И даже если мы столь умны, чтобы не уверовать в корень, мы все равно склонны изобретать что-то свое. «Никогда не начинай важные дела в пятницу». Почему? Только потому, что в пятницу однажды не получилось. А уж если два раза не получилось, то все. Для начала хватит.

Мозг замечает некую связь, и дальше справится сам. «Понятно же, что пятница – особенный день. Во-первых…». Мы не знаем, какое там во-первых, но при желании можно найти и «во-вторых», и «в-третьих». При желании можно написать про это книгу.

А потом заменить пятницу на любой другой день недели и написать второй том.

А если что-то начинает получаться ближе к 17.00 и в полосатой рубашке? Будет секта свидетелей Пяти Вечера или Полосатости – хотя бы из одного честного прихожанина.

Возможно даже, что теория начнет питать сама себя. Если важные дела делать в определенное время в лучшем состоянии духа – ну, они начнут делаться в это время. «Всё работает».

Ваш коллега при этом верует в утро и в джинсовый костюм? Он сектант, но где-то рядом.

Последовательность – опять не причина. «Вслед за тем» не значит «потому что».

Если мальчик ходил без шапки, а потом у него случилось вирусная инфекция, это лишь последовательность событий, но попробуйте доказать это его бабушке. Но простейший путь манит не только бабушку. Можно с понедельника начать новую жизнь. Начать верить в Бога, Дейла Карнеги, бег трусцой.

Вариантов того, что можно начать с понедельника, очень много. Уже в среду к вам приходит Большая Удача. Неважно, какая: много денег, тот самый человек, то самое письмо. Подсознательно всё ясно. Осталось пробить оборону сознания, и мы будем благодарны даже Бегу Трусцой. Не говоря уже о том, чтобы признать роль Дейла Карнеги или Бога.

Причина всё та же: это не может быть просто так.

В том-то и дело – еще как может. Можно принять лучшее решение в своей жизни, и назавтра потерпеть величайшую неудачу. Будет трудно не связать это воедино. «Если бы я только знал, я бы никогда не…». Думая так, мы добавляем к неудаче еще одну. Мало того, что нам не повезло – мы задумались, сделали выводы, и теперь думаем хуже, чем раньше.

Иногда лучше обойтись вообще без причины, чем подставить на её место что попало.

Увы, людям очень плохо в беспричинном мире. Сказать «мы этого не знаем и скорее всего не узнаем» противоречит чему-то важному в нас. Но важное не значит полезное.

Нам удобнее в мире, где молнии метает Зевс, простуда потому, что ходил раздетым, а поправился, потому что помог чеснок, таблетка или молитва. Мир, расписанный в очевидных причинах и следствиях, кажется более нашим.

В таком мире жить не так страшно. Хотя в реальном мире жить эффективнее. И интереснее.

Подытожим: причины, которые видятся, чаще кажутся, чем действуют на самом деле.

Чудеса, конспирология, пособия «как выиграть миллион на бирже» — все стоит на том, что человек, по своей природе и текущей культуре, склонен к перепроизводству гипотез…

(1 5,00 из 5)
Загрузка…

Иван Палий

Главный редактор, интернет-маркетолог, продакт-менеджер. Развиваю онлайн-продукты, пишу про социальные технологии и образование. Детальнее обо мне читайте здесь.

Источник: https://brammels.com/silaev/thinking/correlation-is-not-causation/

Корреляция или причинно-следственная связь — Психологос

Корреляция и причинность — чем отличаются эти понятия

Из: Дэвид Дж. Майерс, учебник «Социальная психология».

Статус и продолжительность жизни

Наибольшая продолжительность жизни отмечается в регионах Шотландии с наименьшей плотностью населения и самым низким уровнем безработицы. В США продолжительность жизни коррелирует с уровнем дохода (жизнь бедняков и людей невысокого социоэкономического статуса чаще обрывается преждевременно).

В современной Великобритании профессиональный статус коррелирует с продолжительностью жизни.

Согласно результатам исследования, проводившегося в течение 10 лет с участием 17 350 государственных служащих Великобритании, количество смертей среди работников управленческого аппарата в 1,6 раза больше, а среди конторских служащих и рабочих — соответственно в 2,2 и 2,7 раза больше, чем среди управленцев высшего звена (Adler et al., 1993, 1994). Складывается впечатление, что в разное время и в разных географических точках между статусом и здоровьем существует вполне определенная взаимозависимость.

Приведенный выше пример взаимосвязи статуса и продолжительности жизни иллюстрирует наиболее распространенную как среди любителей, так и среди профессионалов ошибку мышления: когда два фактора «идут рука об руку», как статус и состояние здоровья, трудно не поддаться искушению и не сделать вывод о том, что один является причиной другого. Можно предположить, что статус каким-то образом защищает человека от того, что может причинить вред его здоровью. Или все совсем не так, и хорошее здоровье не следствие, а причина активности и успеха? Может быть, долгожители успевают накопить больше денег, и именно поэтому на их могилах стоят более дорогие надгробия? Корреляционное исследование позволяет нам сделать прогноз, но оно не может ответить на вопрос о том, вызовет ли изменение одного параметра (например, социального статуса) изменение другого параметра (например, состояния здоровья).

Чувство собственного достоинства и успехи в учебе

Путаница в толковании корреляционной и причинно-следственной зависимостей становится причиной многих лишенных логики рассуждений, представленных на страницах популярных психологических изданий.

Рассмотрим ещё одну весьма реальную корреляцию — между чувством собственного достоинства и академическими успехами. Дети с развитым чувством собственного достоинства — это нередко и дети, которые хорошо учатся.

(Как и в любом другом случае корреляции, этот пример «можно развернуть на 180°»: академические успехи ведут к высокому самоуважению.) Как, по-вашему, что будет причиной, а что — следствием? (рис. 1.4).

Некоторые считают, что «здоровая Я-концепция» благоприятствует академическим успехам. А это значит, что, поддерживая «Я»-образ ребенка, можно улучшить его успеваемость. Поверив в этот тезис, администрация 30 штатов издала более 170 законодательных актов, направленных на поддержку самоуважения.

Однако другие, в том числе психологи Уильям Дэмон (Damon, 1995), Робин Дэйвс (Dawes, 1994), Марк Лири (Leary, 1998) и Мартин Селигман (Seligman, 1994), усомнились в том, что самоуважение — на самом деле «те доспехи, которые способны защитить детей» от неуспеваемости (или от увлечения наркотиками и правонарушений). Не исключено, что ситуация диаметрально противоположна и что недостаточное самоуважение есть результат проблем и неудач. Возможно, чувство собственного достоинства зачастую лишь отражает реальность и то, как складывается наша жизнь, или произрастает из достижений, являющихся результатом тяжелого труда. Поступай разумно — и ты будешь уважать себя; грубо ошибайся, терпи неудачи — и ты будешь чувствовать себя последним болваном. Результаты исследования, проведенного с участием 635 норвежских школьников, позволяют предположить, что цепочка золотых звездочек возле имени ученика на доске успеваемости и постоянные похвалы восхищающегося им учителя способствуют росту самоуважения ребенка (Skaalvic & Hagtvet, 1994). Но не исключено, что корреляция самоуважения и достижений есть следствие связи и первого, и второго с такими базовыми параметрами, как интеллект и социальный статус семьи.

О том, что это возможно, свидетельствуют результаты двух исследований: в первом национальная выборка составила 1600 американцев — молодых мужчин, а во втором — 715 юношей — жителей штата Миннесота (Bachman & O'Malley, 1977; Maruyama et al., 1981). После того как исследователи статистически исключили влияние интеллекта и статуса семьи, от корреляции самоуважения и достижений не осталось и следа.

Современные корреляционные методики могут наводить на мысль о причинно-следственных связях. Отсроченные корреляции (time-lagged correlations) выявляют последовательность событий (по ним, например, отмечают, когда изменение достижений проявляется чаще — до изменения самоуважения или после него).

Исследователи могут также использовать статистические методики, исключающие влияние «мешающих» переменных. Так, авторы упомянутых выше работ не обнаружили никакой корреляции между самоуважением и достижением после того, как устранили различия в интеллекте и статусе семьи.

(Для людей с примерно равным интеллектом, принадлежащих к семьям примерно одинакового статуса, корреляция между самоуважением и достижением была минимальной.

) Группа исследователей из Шотландии заинтересовалась, сохранится ли связь между статусом и продолжительностью жизни, если они исключат такой фактор, как курение, которое сейчас гораздо меньше распространено среди людей с высоким социальным статусом. Эта связь сохранилась, что дало основание считать: более высокая смертность среди бедняков отчасти объясняется и другими факторами — такими, например, как более высокий уровень стресса и снижение чувства контроля.

Итого

Итак, сильной стороной корреляционного исследования является то, что его можно проводить в реальных условиях и изучать влияние таких факторов, как расовая принадлежность, пол и социальный статус, которыми невозможно манипулировать в лаборатории. Огромный недостаток корреляционного исследования — неоднозначность его результатов.

Это обстоятельство крайне важно.

Если мало сказать о нем людям 25 раз, чтобы они это поняли, сто ит не пожалеть времени и повторить 26-й: зная, что изменение одной переменной вызывает изменение другой, мы можем предсказывать первую, если нам известна вторая, однако корреляция ничего не говорит о том, что является причиной, а что — следствием.

Источник: https://www.psychologos.ru/articles/view/korrelyaciya-ili-prichinno-sledstvennaya-svyaz

Тема 11 Причинность, регрессия, корреляция

Корреляция и причинность — чем отличаются эти понятия

курса лекций «Статистика»

Причинность, регрессия, корреляция

Исследование объективно существующих связей между социально-экономически­ми явлениями и процессами является важнейшей задачей теории статистики.

В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов.

Причинно-следственные отношения ‑ это такая связь явлений и процессов, когда изменение одного из них ‑ причины ведет к изменению другого ‑ следствия.

Финансово-экономические процессы представляют собой результат одновременно­го воздействия большого числа причин. Следовательно, при изучении этих процессов необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики.

Второй этап – построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее.

Третий, последний этап ‑ интерпретация результатов, вновь связан с качественны­ми особенностями изучаемого явления. Статистика разработала множество методов изучения связей. Выбор метода изучения связи зависит от познавательной цели и задач ис­следования.

Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса.

Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами.

Признаки, изменяющиеся под действием факторных признаков, называются результативными.

В статистике различают функциональную и стохастическую зависимости.

Функ­циональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической.

Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

Таблица 11.1. ‑ Количественные критерии оценки тесноты связи

Величина показателя связи

Характер связи

До ±0,3

практически отсутствует

±0.3 – ±0,5

слабая

±0,5 – ±0,7

умеренная

±0,7 -±1,0

сильная

По направлению выделяют связь прямую и обратную.

Прямая ‑ это связь, при которой с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака.

Пример. Так, рост объемов про­изводства способствует увеличению прибыли предприятия.

В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном  направлении по сравнению с изменением факторного признака, то есть  обратная  ‑ это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака.

Пример. Так, снижение  себестоимости  единицы производимой продукции влечет за собой рост рентабельности.

По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные.

Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида:

Если же связь может быть выражена уравнением какой-либо кривой, то такую связь называют нелинейной или криволинейной, например:

Для выявления наличия связи, ее характера и направления в статистике использу­ются методы: приведения параллельных данных; графический; аналитических группировок; корреляции, регрессии.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат ‑ результативного.

Каждое пересечение линий, проводимых через эти оси, обозначаются точкой. При отсутствии тесных связей имеет место беспорядочное распо­ложение точек на графике.

Чем сильнее связь между признаками, тем теснее будут груп­пироваться точки вокруг определенной линии, выражающей форму связи.

В статистике принято различать следующие виды зависимостей:

  1. Парная корреляция ‑ связь между двумя признаками (результативным и факторным, или двумя факторными).
  2. Частная корреляция ‑ зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
  3. Множественная корреляция ‑ зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты и направления связи между двумя признаками (при парной связи) и между результа­тивным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые, давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множест­венной регрессии. Знаки при коэффициентах корреляции характеризуют направление связи между признаками.

Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое выражение взаимосвязи между признаками.

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком), обусловлено влиянием одной или нескольких независимых величин (факторных признаков).

Одной из проблем построения уравнений регрессии является их размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным.

Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую.

В то же время, построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс.

При построении моделей регрессии должны соблюдаться требования:

  1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
  2. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей.
  3. Все факторные признаки должны иметь количественное (числовое) выражение.
  4. Наличие достаточно большого объема исследуемой совокупности (в последующих примерах в целях упрощения изложения материала это условие нарушено, т.е. объем очень мал).
  5. Причинно-следственные связи между явлениями и процессами должны описываться линейной или приводимой к линейной форме зависимостью.
  6. Отсутствие количественных ограничений на параметры модели связи.
  7. Постоянство территориальной и временной структуры изучаемой совокупности.

Соблюдение данных требований позволяет построить модель, наилучшим образом описывающую реальные социально-экономические явления и процессы.

Парная регрессия на основе метода наименьших квадратов позволяет получить аналитическое выражение связи между двумя признаками: результативным и факторным.

Определить тип уравнения можно, исследуя зависимость графически, однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению.

Если результативный и факторный признаки возрастают одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной связи ‑ гиперболическая.

Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная регрессия.

Оценка параметров уравнений регрессии ( и — в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели , при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:

Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид:

где п ‑ объем исследуемой совокупности (число единиц наблюдения).

В уравнениях регрессии параметр ао показывает усредненное влияние на результа­тивный признак неучтенных в уравнении факторных признаков.

Коэффициент регрессии а1 показывает, на сколько в среднем изменяется значение результативного признака при увеличении факторного признака на единицу собственного измерения.

xi – теоретические значения результативного признака; yi – наблюдаемые значения факторного признака.

Пример. Имеются данные по 10 однотипным предприятиям о выпуске продукции (х) в тыс.ед. и о расходе условного топлива (у) в тоннах (графы 1 и 2 табл. 17).

Требуется найти уравнение зависимости расхода топлива от выпуска продукции (или уравнение регрессии у по х) и измерить тесноту зависимости между ними. Для этого представим данные в табл. 11.2 (вместе с расчетными столбцами).

Таблица 11.2 – Расчет показателей для нахождения уравнения регрессии

№ п/пВыпуск продукции, xi,тыс.ед.Расход топлива, yi, тонн
1542520163,9
2643624164,4
3866448365,5
4856440255,5
510710070496,6
610810080646,6
7148196112648,8
8201040020010012,1
9201240024014412,1
10241657638425614,3
∑*125801961121877080

Необходимые для решения суммы рассчитаны выше в таблице. Подставим их в уравнение и решим систему.

Из системы уравнений получим a1 = 0,547; а0 = 1,16.

Получив искомое уравнение регрессии  можно утверждать, что с увеличение выпуска продукции на тыс. ед., расход топлива возрастет в среднем  на 0,547 тонны.

*Если параметры уравнения найдены верно, то

Измерение тесноты (силы) и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений. Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака и одного (при изучении парных зависимостей) или нескольких (множественных зависимостей) факторных признаков.

Линейный коэффициент корреляции (К. Пирсона) характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

В теории разработаны и на практике применяются различные модификации формулы расчета данного коэффициента.

Для измерения тесноты зависимости между у и х применяют линейный коэффициент корреляции, который может быть рассчитан по любой из нижеприведенных формул:

Таблица 11.3 – Оценка линейного коэффициента корреляции

Значение линейного коэффициента связиХарактеристика связиИнтерпретация связи
г = 0отсутствует
0

Источник: https://stat-ist.ru/statistika-kurs-lektsij/korrelyatsiya-prichinnost-regressiya

Pravo-consut
Добавить комментарий