Описателната статистика служи за синтезиране на големи обеми от информация в разбираеми показатели. Тя не прави заключения за бъдещето, а описва състоянието на нещата в конкретния момент.
1. Работа с данни: Обхват на изследването
-
Генерална съвкупност: Цялата група обекти, които са предмет на интерес (например всички регистрирани автомобили в една държава).
-
Извадка: Представителна част от тази група. Ключово изискване е тя да бъде случайна. Ако извадката е предубедена (например анкетираме само хора в луксозен квартал за доходите на цялото население), резултатите ще бъдат статистически неверни.
2. Централни тенденции
Тези показатели описват „типичната“ стойност в набора от данни:
-
Средноаритметично: Сумата на всички стойности, разделена на техния брой. Отразява общото ниво, но се влияе силно от крайности.
-
Медиана: Стойността, която разделя подредения списък от данни на две равни части. Тя е по-надеждна при наличие на големи отклонения.
-
Мода: Най-често срещаната стойност. Използва се основно при категоризация (например коя е най-продаваната марка телефон).
автор: Diva Jain
Статистически манипулации и грешки
Статистиката е мощно оръжие. Трябва да гледате всички показатели заедно, за да видите цялата картина. Често статистическите показатели се използват за създаване на фалшиво усещане или за манипулиране на общественото мнение. Ето 4 реални примера:
1. Манипулация със „средната заплата“
Това е най-класическият пример. Ако в една малка фирма собственикът получава 20 000 лв., а десетимата му служители по 1 000 лв., „средната заплата“ в обявата за работа ще бъде около 2 700 лв. Това число е математически вярно, но не описва реалността за нито един от служителите. Използването на медианата (която в случая е 1 000 лв.) би дало много по-честна картина.
2. Грешката на „оцелелия“ (Survivorship Bias)
По време на Втората световна война статистици изследвали дупките от куршуми по самолетите, завърнали се от мисия, за да решат къде да поставят допълнителна броня. Първоначално мислели да подсилят местата с най-много дупки. Математикът Ейбрахам Валд обаче посочил грешката: те изследвали само извадка от самолетите, които са оцелели. Истински важната информация била в самолетите, които не са се върнали – те вероятно са били ударени на местата, където оцелелите машини нямали дупки (двигателя и кабината).
3. Парадоксът на Симпсън
Това е явление, при което една тенденция се появява в няколко различни групи данни, но изчезва или се обръща, когато групите се комбинират. Пример: университетът в Бъркли е обвинен в дискриминация срещу жени при прием, защото общите данни показвали по-висок процент приети мъже.
-
Приети са около 44% от кандидатствалите мъже.
-
Приети са само около 35% от кандидатствалите жени.
Когато обаче разгледали данните по отделни факултети (отделни извадки), се оказало, че в почти всеки факултет жените имат равен или по-висок процент на прием. Манипулацията идвала от факта, че жените масово кандидатствали в специалности с много малко свободни места.
4. Манипулиране на извадката (Cherry Picking)
Това се случва, когато се изследва огромна генерална съвкупност, но се публикуват данни само от онази извадка, която подкрепя определена теза. Например, компания за паста за зъби може да твърди, че „80% от зъболекарите препоръчват нашата марка“. В действителност анкетата може да е позволила на зъболекарите да избират няколко марки, но рекламното послание е съставено така, че да изглежда, че тяхната марка е единственият избор.
I. Основни задачи
-
Пресмятане на средно: Имате числата: 5, 8, 12, 15, 20. Намерете средноаритметичното.
-
Намиране на медиана (нечетен брой): Намерете медианата на: 3, 11, 7, 21, 15.
-
Намиране на медиана (четен брой): Намерете медианата на: 10, 2, 38, 24.
-
Търсене на мода: Определете модата в списъка: 4, 7, 4, 9, 12, 4, 8, 7.
-
Извадка vs Съвкупност: Директор на училище анкетира 20 ученици от 10-ти клас за качеството на храната. Коя е генералната съвкупност и коя е извадката?
-
Влияние на нулата: Как ще се промени средното на числата 10, 20, 30, ако добавите 0 към тях?
-
Разпознаване на мода: Може ли един списък с данни да има две моди? Дайте пример.
-
Бърза проверка: Ако медианата на 5 числа е 12, колко от числата са по-малки от 12?
-
Подредба: Защо подреждането на данните е задължително преди намиране на медианата?
-
Обратна задача: Средното аритметично на три числа е 10. Две от числата са 8 и 12. Кое е третото?
II. Приложни задачи
Задачи, вдъхновени от ежедневни ситуации.
-
Обувният магазин: Продавач е продал обувки със следните размери: 37, 38, 38, 38, 39, 40, 42, 45. Кой показател (средно, медиана или мода) му е най-полезен, за да поръча нова стока?
-
Среден успех: Иван има оценки 3, 4, 5, 6. Каква оценка му трябва на следващото изпитване, за да стане средният му успех точно 5.00?
-
Заплати в стартъп: В компания работят петима души. Четирима вземат 1500 лв., а шефът взема 10 000 лв. Изчислете средното и медианата. Кое е по-вярно за „обикновения служител“?
-
Спортни рекорди: В състезание по скок на дължина атлет прави 5 опита. Най-слабият му опит е много нисък поради подхлъзване. Кой показател ще бъде „по-справедлив“ към него – средното или медианата?
-
Гласуване: В един клас гласуват за цвят на тениски: 12 за синьо, 10 за червено, 2 за зелено. Кой статистически показател определя победителя?
-
Възраст в киното: В киносалон има 50 деца на 10 години и двама придружители на по 40 години. Как придружителите влияят на средната възраст?
-
Метеорология: Температурите за седмицата са 22, 23, 22, 24, 23, 22, 35°C. Намерете модата. Отразява ли тя горещата вълна в неделя?
-
Недвижими имоти: В малка уличка има 5 къщи за по 100 000€ и един замък за 5 000 000€. Ако брокер каже, че „средната цена на имотите тук е близо милион“, лъже ли той?
-
Тест по математика: Целият клас има среден успех 4.50. Може ли нито един ученик да няма точно 4.50?
-
Плейлист: Алгоритъм на Spotify вижда, че слушате една песен 50 пъти, а други 10 песни – по 1 път. Коя е модата и какво казва тя за вашия вкус?
III. Предизвикателни задачи
Задачи за критично мислене и разпознаване на манипулации.
-
Парадоксът на добавената стойност: Ако към всяко число в един списък добавим 5, как ще се променят средното, медианата и модата?
-
Липсващата извадка: Проучване твърди: „Средният брой зъби на хората в този град е 20“. Означава ли това, че типичният човек има 20 зъба?
-
Процентно изменение: Ако увеличим всяка стойност в набора от данни с 10%, как ще се промени средноаритметичното?
-
Сравнение на разпределения: Начертайте (мислено) графика, където средното е много по-голямо от медианата. Как изглеждат данните (струпани в началото или в края)?
-
Ефектът на отстраняването: Ако премахнем най-високата стойност от един списък, кога медианата няма да се промени?
-
Комбинирано средно: Клас А (20 души) има среден успех 5.00. Клас Б (30 души) има среден успех 4.00. Защо средният успех на двата класа заедно не е 4.50?
-
Манипулация с графика: Как можем да начертаем графика на „средните продажби“, за да изглежда ръстът огромен, дори ако е минимален?
-
Предизвикателството на модата: Съществува ли набор от данни, в който средното, медианата и модата са едно и също число? Дайте пример.
-
Критичен анализ: Една компания твърди, че е намалила „средното време за чакане на клиенти“ наполовина. Означава ли това, че опашките са изчезнали, или просто са обслужили няколко души светкавично бързо?
-
Отворен въпрос: Предложете метод, по който да изберем представителна извадка от 100 души, за да разберем мнението на целия град за нов парк, без да изпадаме в „грешка на оцелелия“.
Още за Парадокса на Симпсън:
Парадоксът обикновено се дължи на т.нар. „скрити променливи“ (lurking variables), които влияят на групите по различен начин. Когато обединим данните, тежестта на тези променливи се променя и „изкривява“ крайния резултат.
Реален пример: Успеваемост при лечение на камъни в бъбреците
Едно реално медицинско изследване сравнява два метода за лечение на камъни в бъбреците:
-
Метод А: Отворена операция (класически, инвазивен).
-
Метод Б: Малка перкутанна нефролитотомия (модерен, по-малко инвазивен).
Когато погледнем общите данни:
-
Метод Б изглежда по-успешен.
Когато обаче разделим случаите на „малки камъни“ и „големи камъни“:
-
При малки камъни – Метод А е по-успешен.
-
При големи камъни – Метод А е по-успешен.
Парадоксът: Как е възможно Метод А да е по-добър и в двата отделни случая, но Метод Б да изглежда по-добър общо?
Обяснението: Лекарите са използвали Метод А (операция) за много по-трудните и тежки случаи (големи камъни). Метод Б е използван предимно за лесните случаи. Така общата статистика на Метод А е „натежала“ от трудните случаи, докато Метод Б е „обрал лаврите“ от лесните.
Визуализация на парадокса
Ако начертаем данните на координатна система, често виждаме няколко групи от точки, при които всяка група има възходяща тенденция (положителна корелация). Но ако погледнем всички точки накуп, общата линия на тенденцията може да бъде низходяща.
Как да го разпознаем и да се предпазим?
За да не станете жертва на този парадокс в работата си с данни, е важно да следвате няколко правила:
-
Не се доверявайте само на обобщените данни: Винаги се питайте дали извадката е хомогенна. Има ли подгрупи, които се различават значително една от друга?
-
Търсете скрити фактори: В примера с Бъркли (споменат по-рано) факторът беше „трудността на специалността“. В примера с болницата – „тежестта на случая“.
-
Разбиране на причинно-следствените връзки: Математиката не разбира контекста. Вие трябва да знаете кой фактор на кой влияе.
© София-Мат ЕООД

