A kutatáshoz statikus módszereket használnak. Statisztikai módszerek. A lánc növekedési üteme

Statisztikai módszerek - statisztikai adatok elemzési módszerei. Léteznek az alkalmazott statisztikai módszerek, amelyek a tudományos kutatás minden területén és a nemzetgazdaság bármely ágazatában alkalmazhatók, és egyéb statisztikai módszerek, amelyek alkalmazhatósága egy-egy területre korlátozódik. Ez olyan módszerekre vonatkozik, mint a statisztikai átvétel-ellenőrzés, a technológiai folyamatok statisztikai ellenőrzése, a megbízhatóság és a tesztelés, valamint a kísérletek tervezése.

Az adatelemzés statisztikai módszereit az emberi tevékenység szinte minden területén alkalmazzák. Ezeket akkor használják, amikor valamilyen belső heterogenitású csoportról (tárgyakról vagy szubjektumokról) kapcsolatos ítéletek megszerzése és igazolása szükséges. Célszerű háromféle tudományos és alkalmazott tevékenységet megkülönböztetni az adatelemzés statisztikai módszerei területén (a konkrét problémákba való belemerüléshez kapcsolódó módszerek specifitása szerint):

a) általános célú módszerek fejlesztése, kutatása, az alkalmazási terület sajátosságainak figyelembevétele nélkül;

b) valós jelenségek és folyamatok statisztikai modelljeinek fejlesztése és kutatása az adott tevékenységi terület igényei szerint;

c) statisztikai módszerek és modellek alkalmazása konkrét adatok statisztikai elemzésére.

Varianciaanalízis. A varianciaanalízis (a latin Dispersio szóból - dispersion / angolul Analysis Of Variance - ANOVA) egy vagy több kvalitatív változó (faktor) hatásának tanulmányozására szolgál egy függő mennyiségi változóra (válasz). A varianciaanalízis alapja az a feltételezés, hogy egyes változók okoknak (tényezők, független változók), mások pedig következményeknek (függő változók) tekinthetők. A független változókat néha nevezik szabályozott tényezőképpen azért, mert egy kísérletben a kutatónak lehetősége van ezek variálására és a kapott eredmény elemzésére.

Fő cél varianciaanalízis (ANOVA) az átlagok közötti különbségek szignifikanciájának vizsgálata a variancia-összehasonlítás (analízis) segítségével. A teljes variancia több forrásra osztása lehetővé teszi a csoportok közötti eltérésekből adódó eltérések összehasonlítását a csoporton belüli variancia okozta szórással. Ha igaz a nullhipotézis (hogy a sokaságból kiválasztott több megfigyelési csoportban egyenlők az átlagok), akkor a csoporton belüli variabilitáshoz kapcsolódó variancia becslésének közel kell lennie a csoportok közötti variancia becsléséhez. Ha egyszerűen két mintában hasonlítja össze az átlagokat, az ANOVA ugyanazt az eredményt adja, mint egy közönséges független minták t-tesztje (ha alanyok vagy megfigyelések két független csoportját hasonlítja össze) vagy egy függő minták t-tesztje (ha ugyanazon két változót hasonlít össze. tárgyak vagy megfigyelések halmaza).


A varianciaanalízis lényege abból áll, hogy a vizsgált tulajdonság teljes varianciáját specifikus tényezők hatása által meghatározott egyedi komponensekre bontjuk, és hipotéziseket tesztelünk e tényezőknek a vizsgált tulajdonságra gyakorolt ​​hatásának jelentőségéről. A varianciakomponensek egymással való összehasonlításával Fisher-féle F-teszt segítségével megállapítható, hogy az eredményül kapott attribútum teljes variabilitásának mekkora része a szabályozott tényezők hatására.

Forrás anyag A varianciaanalízishez három vagy több mintát tartalmazó vizsgálatból származó adatokat használnak, amelyek száma lehet egyenlő vagy egyenlőtlen, összefüggő és inkoherens. Az azonosított szabályozott tényezők száma alapján a varianciaanalízis lehet egytényezős (egy tényező hatásának vizsgálatakor a kísérlet eredményeire), kéttényezős (két tényező hatásának vizsgálatakor) és többtényezős (egyet tesz lehetővé). hogy ne csak az egyes tényezők hatását külön-külön értékeljük, hanem kölcsönhatásukat is).

A varianciaanalízis utal a paraméteres módszerek csoportjába, ezért csak akkor szabad alkalmazni, ha az eloszlás normálisnak bizonyult.

Varianciaanalízist alkalmazunk, ha a függő változót arány-, intervallum- vagy sorrendskálán mérjük, és a befolyásoló változók nem numerikus jellegűek (névskálán).

Példák a feladatokra. A varianciaanalízissel megoldott feladatokban numerikus jellegű válasz van, amelyet több, nominális jellegű változó is befolyásol. Például többféle állathizlalási takarmány vagy kétféle tartási mód stb.

1. példa: A héten több gyógyszertári kioszk is nyitva volt három különböző helyen. A jövőben csak egyet hagyhatunk. Meg kell határozni, hogy van-e statisztikailag szignifikáns különbség a kioszkok gyógyszerértékesítési volumene között. Ha igen, akkor a legmagasabb átlagos napi értékesítési volumenű kioszkot választjuk. Ha az értékesítési volumen különbsége statisztikailag jelentéktelennek bizonyul, akkor a kioszk kiválasztásának alapját más mutatók kell képezniük.

2. példa: Csoportátlag kontrasztok összehasonlítása. A hét politikai hovatartozást a szélsőségesen liberálistól a szélsőségesen konzervatívig sorolják, és lineáris kontrasztot használnak annak tesztelésére, hogy van-e nullától eltérő tendencia a csoportok átlagának növekedésére, azaz van-e szignifikáns lineáris növekedés az átlagéletkorban, ha a csoportok rendezettségét vesszük figyelembe. a liberálisból a konzervatív irányába.

3. példa: Kéttényezős varianciaanalízis. Egy termék eladásainak számát az üzlet méretén túl gyakran befolyásolja a termékkel ellátott polcok elhelyezkedése is. Ez a példa négy polcelrendezés és három üzletméret heti eladási adatait tartalmazza. Az elemzés eredményei azt mutatják, hogy mindkét tényező - az árukat tartalmazó polcok elhelyezkedése és az üzlet mérete - befolyásolja az eladások számát, de ezek kölcsönhatása nem jelentős.

4. példa: Egyváltozós ANOVA: Véletlenszerű teljes blokk kialakítás két kezeléssel. Három zsír és három tésztakelesztő összes lehetséges kombinációjának hatását vizsgáljuk a kenyérsütésre. Négy különböző forrásból vett lisztminta szolgált blokktényezőként. Fel kell ismerni a zsír-kultivátor kölcsönhatás jelentőségét. Ezután azonosítsa a kontrasztok kiválasztásának különféle lehetőségeit, amelyek lehetővé teszik, hogy megtudja, hogy a faktorszintek mely kombinációi különböznek egymástól.

5. példa: Hierarchikus (fürtözött) vegyes hatású tervezési modell. Négy véletlenszerűen kiválasztott, gépre szerelt fej hatását vizsgáljuk az előállított üvegkatódtartók deformációjára. (A fejek a gépbe vannak beépítve, így ugyanaz a fej nem használható különböző gépeken.) A fejhatást véletlenszerű tényezőként kezeljük. Az ANOVA statisztikái azt mutatják, hogy nincs jelentős különbség a gépek között, de vannak arra utaló jelek, hogy a fejek eltérőek lehetnek. Az összes gép között nem szignifikáns a különbség, kettőnél viszont jelentős a fejtípusok közötti különbség.

6. példa: Egyváltozós ismételt mérések elemzése osztott grafikonos tervezéssel. Ezt a kísérletet azért végezték, hogy meghatározzák az egyéni szorongásos értékelések hatását a vizsgateljesítményre négy egymást követő kísérlet során. Az adatok úgy vannak elrendezve, hogy a teljes adathalmaz részhalmazainak csoportjaként legyenek megtekinthetők („teljes diagram”). A szorongás hatása jelentéktelen volt, de a próbálkozás hatása szignifikáns.

Kovarianciaanalízis. A kovarianciaanalízis olyan matematikai statisztikai módszerek összessége, amelyek valamely valószínűségi változó átlagos értékének (fő) minőségi és (kapcsolódó) mennyiségi tényezőktől egyidejűleg való függésének modelljeinek elemzéséhez kapcsolódnak. Az F faktorok olyan feltételek kombinációit határozzák meg, amelyek mellett az X, Y megfigyeléseket kaptuk, és indikátorváltozók segítségével írják le, a kísérő és indikátorváltozók között lehetnek véletlenszerű és nem véletlenszerűek (a kísérletben szabályozottak).

Ha az Y valószínűségi változó vektor, akkor többváltozós kovarianciaanalízisről beszélünk.

Gyakran alkalmazzák a kovarianciaanalízist varianciaanalízis előtt ellenőrizni kell az X, Y megfigyelések mintájának homogenitását (homogenitását, reprezentativitását) minden kapcsolódó tényezőre.

Az adatelemzés és a statisztika azonos sorrendű dolgok. Ha a statisztika az alapelv és az információforrás, akkor az adatelemzés a kutatás eszköze, és gyakran lehetetlen az adatelemzés statisztika nélkül.

Szerezzen edzésvideót

A statisztika bármely jelenség numerikus formában történő tanulmányozása. A statisztikát a kvantitatív kutatások adatelemzése használja. Ellentétük a kvalitatív, a helyzetet számok használata nélkül, szövegesen írja le.

A statisztikai adatok kvantitatív elemzése intervallumskálán és racionális skálán történik:

  • intervallumskála jelzi, hogy egy vagy másik mutató mennyivel több vagy kevesebb, mint a másik, és lehetővé teszi az arány hasonló tulajdonságaival rendelkező mutatók kiválasztását,
  • egy racionális skála megmutatja, hogy egyik vagy másik mutató hányszor nagyobb vagy kisebb, mint a másik, de csak pozitív értékeket tartalmaz, amelyek nem mindig tükrözik a valós helyzetet.

Hogyan használják az adatbányászatot a Mail.ru webhelyen?

Szerezzen edzésvideót

A statisztikai adatok elemzésének módszerei

A statisztikai adatok elemzésében megkülönböztethető az analitikus és a leíró szakasz. A leíró szakasz az utolsó, amely magában foglalja az összegyűjtött adatok kényelmes grafikus formában történő megjelenítését - grafikonok, diagramok, műszerfalak formájában. Az analitikai szakasz egy olyan elemzés, amely a következő módszerek valamelyikéből áll:

  • statisztikai megfigyelés - az érdeklődésre számot tartó jellemzőkre vonatkozó adatok szisztematikus gyűjtése;
  • adatösszesítések, amelyekben az információ a megfigyelést követően feldolgozható; az egyes tényeket a teljesség részeként írja le, vagy csoportosításokat hoz létre, az információkat bármely jellemző alapján csoportokra osztja;
  • abszolút és relatív statisztikai értékek meghatározása; az abszolút érték egyedileg adja meg az adatok mennyiségi jellemzőit, függetlenül az egyéb adatoktól; A relatív mennyiségek bizonyos tárgyakat vagy jellemzőket írnak le másokhoz képest;
  • mintavételi módszer - az elemzés során nem minden adatot, hanem csak egy részét használjuk, bizonyos szabályok szerint kiválasztva (a mintavétel lehet véletlenszerű, rétegzett, klaszter és kvóta);
  • korrelációs és regressziós elemzés - azonosítja az adatok közötti kapcsolatokat és az adatok egymástól való függésének okait, meghatározza e függőség erősségét;
  • idősoros módszer - követi a tárgyak és jelenségek változásának erősségét, intenzitását és gyakoriságát; lehetővé teszi az adatok időbeli értékelését, és lehetővé teszi a jelenségek előrejelzését.

Statisztikai kutató szoftver

Statisztikai kutatást marketingelemzők végezhetnek:

A statisztikai adatok kvalitatív elemzéséhez vagy ismernie kell a matematikai statisztikákat, vagy jelentéskészítő és elemző programot kell használnia, vagy nem kell ezt megtennie. Az európai vállalatok már régóta felismerték az ilyen elemzés előnyeit, ezért vagy jó matematikai végzettségű elemzőket vesznek fel, vagy professzionális szoftvereket telepítenek a marketingelemzők számára. Ezekben a cégekben a napi elemzés segít az áruk beszerzésének, raktározásának és logisztikájának megfelelő megszervezésében, a személyzet létszámának és munkarendjének beállításában.

Az adatelemzés automatizálására szolgáló megoldások lehetővé teszik a marketingelemzők számára, hogy együttműködjenek velük. Ma már olyan kis cégek számára is elérhetőek megoldások, mint például a Tableau. Előnyeik a kizárólag ember által végzett elemzéshez képest:

  • alacsony megvalósítási költség (havi 2000 rubeltől – 2018 februárjától),
  • az elemzés modern grafikus ábrázolása,
  • az a képesség, hogy az egyik teljesebb jelentésről egy másik, részletesebb jelentésre azonnal áttérjünk.

Szeretné megtanulni, hogyan kell gyorsan elemezni és jelentést készíteni?

Szerezzen edzésvideót

A statisztikai adatelemzés alapjai

statisztika"biostatisztika".

1. névleges;
2. sorszám;
3. intervallum;

minták

reprezentatív

szelektív keret egyszerű véletlenszerű mintavétel intervallum mintavétel

rétegzett minta

fürtÉs kvóta mintavétel

null hipotézist

alternatív hipotézis erő

megbízhatósági valószínűség".


Cím: A statisztikai adatelemzés alapjai
Részletes leírás:

Bármilyen alap- vagy kísérleti tudományos kutatás befejezése után elvégzik a kapott adatok statisztikai elemzését. A statisztikai elemzés sikeres elvégzése és a hozzárendelt problémák megoldása érdekében a vizsgálatot megfelelően meg kell tervezni. Következésképpen a statisztika alapjainak ismerete nélkül lehetetlen egy tudományos kísérlet eredményeit megtervezni és feldolgozni. Az orvosképzés azonban nemcsak a statisztikai ismereteket, de még a felsőbb matematika alapjait sem adja meg. Ezért nagyon gyakran lehet találkozni azzal a véleménnyel, hogy az orvosbiológiai kutatások során a statisztikai feldolgozás kérdéseivel csak statisztikus foglalkozzon, az orvos-kutató pedig tudományos munkája orvosi kérdéseivel foglalkozzon. Ez a munkamegosztás, amely az adatelemzésben való segítségnyújtást jelenti, teljesen indokolt. A statisztika alapelveinek megértése azonban szükséges, legalábbis azért, hogy elkerüljük a probléma helytelen megfogalmazását egy szakember előtt, akivel a vizsgálat megkezdése előtti kommunikáció ugyanolyan fontos, mint az adatfeldolgozás szakaszában.

Mielőtt a statisztikai elemzés alapjairól beszélnénk, tisztázni kell a „” kifejezés jelentését. statisztika". Számos definíció létezik, de a legteljesebb és legtömörebb véleményünk szerint a statisztika meghatározása, mint „az adatok gyűjtésének, bemutatásának és elemzésének tudománya”. A statisztikák élővilágra történő alkalmazását pedig „biometrikusnak” vagy „ biostatisztika".

Meg kell jegyezni, hogy a statisztikák nagyon gyakran csak a kísérleti adatok feldolgozására redukálódnak, anélkül, hogy figyelmet fordítanának a megszerzésük szakaszára. A statisztikai ismeretekre azonban már a kísérlet tervezése során is szükség van, hogy az annak során kapott mutatók megbízható információkkal szolgálhassanak a kutató számára. Ezért elmondhatjuk, hogy a kísérleti eredmények statisztikai elemzése már a vizsgálat megkezdése előtt megkezdődik.

A kutatónak már a terv kidolgozásának szakaszában világosan meg kell értenie, hogy milyen típusú változók lesznek a munkájában. Minden változó két csoportra osztható: minőségi és mennyiségi. A változó tartománya a mérési skálától függ. Négy fő skálát különböztethetünk meg:

1. névleges;
2. sorszám;
3. intervallum;
4. racionális (kapcsolatok léptéke).

A névleges skála (a „nevek skálája”) csak a hagyományos megjelöléseket tartalmazza bizonyos tárgyosztályok leírására, például „nem” vagy „a beteg foglalkozása”. A névleges skála azt jelenti, hogy a változó olyan értékeket vesz fel, amelyek mennyiségi összefüggései nem határozhatók meg. Így lehetetlen matematikai kapcsolatokat megállapítani a férfi és a női nem között. A hagyományos numerikus jelöléseket (nők - 0, férfiak - 1, vagy fordítva) teljesen önkényesen adják meg, és csak számítógépes feldolgozásra szolgálnak. A névleges skála tiszta formájában kvalitatív, az egyes kategóriákat ebben a skálán a gyakoriságok (megfigyelések száma vagy aránya, százalék) fejezik ki.

Az ordinális (sorrendi) skála biztosítja, hogy benne az egyes kategóriák növekvő vagy csökkenő sorrendbe rendezhetők. Az orvosi statisztikában az ordinális skála klasszikus példája a betegség súlyossági fokozatainak fokozatossága. Ebben az esetben a súlyosságot növekvő sorrendbe rendezhetjük, de még mindig nincs lehetőségünk mennyiségi összefüggések megadására, azaz a sorszámskálán mért értékek közötti távolság ismeretlen vagy nem számít. A „súlyosság” változó értékeinek sorrendjét könnyű megállapítani, de lehetetlen meghatározni, hogy egy súlyos állapot hányszor tér el a közepes állapottól.

Az ordinális skála félkvantitatív típusú adatokra vonatkozik, és fokozatai leírhatók mind gyakoriságokkal (mint a minőségi skálán), mind a központi értékek mérőszámaival, amelyeket az alábbiakban tárgyalunk.

Az intervallum- és racionális skálák pusztán mennyiségi típusú adatok. Intervallumskálán már meg tudjuk határozni, hogy egy változó egyik értéke mennyiben tér el a másiktól. Így a testhőmérséklet 1 Celsius-fokkal történő emelkedése mindig meghatározott számú egység által termelt hő növekedését jelenti. Az intervallumskálának azonban pozitív és negatív értékei is vannak (nincs abszolút nulla). Ebben a tekintetben nem lehet azt mondani, hogy a 20 Celsius-fok kétszer olyan meleg, mint a 10. Csak annyit állíthatunk, hogy 20 fok ugyanolyan melegebb 10-nél, mint 30 fok 20-nál.

A racionális skálának (relációk skálájának) egy referenciapontja van, és csak pozitív értékei vannak. Az orvostudományban a legtöbb racionális mérleg a koncentráció. Például a 10 mmol/l-es glükózszint kétszerese a koncentrációnak az 5 mmol/l-hez képest. A hőmérséklet esetében a racionális skála a Kelvin-skála, ahol abszolút nulla (nincs hő).

Hozzá kell tenni, hogy bármely mennyiségi változó lehet folytonos, mint például a testhőmérséklet mérése esetén (ez egy folyamatos intervallum skála), vagy diszkrét, ha a vérsejtek számát vagy a laboratóriumi állatok utódait számoljuk (ez egy diszkrét racionális skála).

Ezek a különbségek kulcsfontosságúak a kísérleti eredmények statisztikai elemzésére szolgáló módszerek megválasztásában. Így a nominális adatokra a khi-négyzet próbát alkalmazzuk, a jól ismert Student-próba pedig megköveteli, hogy a változó (intervallum vagy racionális) folytonos legyen.

Miután eldöntöttük a változó típusára vonatkozó kérdést, el kell kezdeni a létrehozást minták. A minta egy bizonyos osztályba tartozó objektumok kis csoportja (az orvostudományban egy populáció). Az abszolút pontos adatok megszerzéséhez egy adott osztály összes objektumát meg kell vizsgálni, azonban gyakorlati (gyakran anyagi) okokból csak a sokaság egy részét vizsgáljuk, amit mintának nevezünk. Ezt követően a statisztikai elemzés lehetővé teszi a kutató számára, hogy a kapott mintákat bizonyos fokú pontossággal kiterjeszthesse a teljes populációra. Valójában minden orvosbiológiai statisztika arra irányul, hogy a lehető legkevesebb megfigyelésből a lehető legpontosabb eredményeket kapjuk, mert az etikai szempontok is fontosak az emberrel kapcsolatos kutatások során. Nem engedhetjük meg magunknak, hogy a szükségesnél több beteget sodorjunk veszélybe.

A minta létrehozását számos kötelező előírás szabályozza, amelyek megszegése a kutatási eredményekből téves következtetésekhez vezethet. Először is a minta mérete fontos. A vizsgált paraméterek becslésének pontossága a minta méretétől függ. Itt érdemes figyelni a „pontosság” szóra. Minél nagyobb a vizsgált csoportok mérete, annál pontosabb (de nem feltétlenül helyes) eredményeket kap a tudós. Ahhoz, hogy a mintavizsgálatok eredményei a teljes sokaság egészére átvihetők legyenek, a mintának olyannak kell lennie reprezentatív. A minta reprezentativitása feltételezi, hogy a sokaság minden lényeges tulajdonságát tükrözi. Vagyis a vizsgált csoportokban ugyanolyan gyakorisággal fordulnak elő különböző nemű, korú, foglalkozású, társadalmi státuszú személyek, mint a teljes populációban.

Mielőtt azonban elkezdené a vizsgálati csoport kiválasztását, meg kell határoznia egy adott populáció tanulmányozásának szükségességét. Példa lehet egy populációra minden bizonyos nozológiával rendelkező beteg vagy munkaképes korú ember stb. Így a katonai korú fiatalok populációjára kapott eredményeket valószínűleg nem lehet extrapolálni a posztmenopauzás nőkre. A vizsgálati populáció jellemzőinek halmaza határozza meg a vizsgálati adatok „általánosíthatóságát”.

A mintákat többféleképpen lehet kialakítani. A legegyszerűbb közülük véletlenszám-generátor segítségével kiválasztani a kívánt számú objektumot a sokaságból ill szelektív keret(mintavételi keret). Ezt a módszert " egyszerű véletlenszerű mintavétel" Ha véletlenszerűen kiválaszt egy kiindulási pontot a mintavételi keretben, majd minden második, ötödik vagy tizedik objektumot vesz (attól függően, hogy milyen csoportméretekre van szükség a vizsgálatban), akkor intervallum mintavétel. Az intervallummintavétel nem véletlenszerű, mivel soha nem zárják ki az adatok időszakos ismétlődésének lehetőségét a mintavételi kereten belül.

Lehetőség van az ún. rétegzett minta”, amely feltételezi, hogy a populáció több különböző csoportból áll, és ezt a struktúrát kell reprodukálni a kísérleti csoportban. Például, ha egy populációban a férfiak és nők aránya 30:70, akkor rétegzett mintában ennek az aránynak kell lennie. Ezzel a megközelítéssel kritikus fontosságú, hogy a mintát ne egyensúlyozzuk túl, azaz elkerüljük a jellemzőinek homogenitását, ellenkező esetben a kutató elszalaszthatja a lehetőséget, hogy eltéréseket vagy összefüggéseket találjon az adatokban.

A leírt csoportképzési módszereken kívül vannak még fürtÉs kvóta mintavétel. Az elsőt abban az esetben használjuk, ha a mintakeretről annak mérete miatt nehéz teljes körű információt szerezni. Ezután a minta a sokaságban szereplő több csoportból alakul ki. A második - kvóta - hasonló a réteges mintavételhez, de itt az objektumok eloszlása ​​nem felel meg a sokaságon belülinek.

Visszatérve a mintanagyságra, el kell mondanunk, hogy ez szorosan összefügg az első és a második típus statisztikai hibáinak valószínűségével. A statisztikai hibák abból adódhatnak, hogy a vizsgálat nem a teljes sokaságot, hanem annak egy részét vizsgálja. Az első típusú hiba hibás eltérés null hipotézist. A nullhipotézis viszont az a feltételezés, hogy minden vizsgált csoport ugyanabból az általános sokaságból származik, ami azt jelenti, hogy a köztük lévő különbségek vagy kapcsolatok véletlenszerűek. Ha a diagnosztikai tesztekkel analógiát vonunk, akkor az I. típusú hiba hamis pozitív eredmény.

A második típusú hiba helytelen eltérés. alternatív hipotézis, melynek jelentése, hogy a csoportok közötti különbségek vagy kapcsolatok nem véletlen egybeesésből, hanem a vizsgált tényezők hatásából fakadnak. És ismét egy analógia a diagnosztikával: a II. típusú hiba hamis negatív eredmény. Ehhez a hibához kapcsolódik a koncepció erő, amely megmondja, hogy adott feltételek mellett mennyire hatékony egy bizonyos statisztikai módszer és milyen érzékenysége van. A teljesítmény kiszámítása a következő képlettel történik: 1-β, ahol β a II. típusú hiba valószínűsége. Ez a mutató elsősorban a minta méretétől függ. Minél nagyobb a csoportlétszám, annál kisebb a valószínűsége a II. típusú hibának, és annál nagyobb a statisztikai tesztek ereje. Ez a függés legalább négyzetes, vagyis a minta méretének felére csökkentése a teljesítmény legalább négyszeres csökkenéséhez vezet. A minimálisan elfogadható teljesítményt 80%-nak, az I. típusú hiba maximális elfogadható szintjét 5%-nak tekintjük. Mindig emlékezni kell azonban arra, hogy ezeket a határokat önkényesen határozzák meg, és a vizsgálat természetétől és céljaitól függően változhatnak. A tudományos közösség általában elismeri az önkényes hatalomváltást, de az esetek túlnyomó többségében az I. típusú hibaszint nem haladhatja meg az 5%-ot.

A fentiek mindegyike közvetlenül kapcsolódik a tanulmány tervezési szakaszához. Sok kutató azonban tévesen csak a munka fő részének befejezése után végzett manipulációnak tekinti a statisztikai adatfeldolgozást. Gyakran egy nem tervezett kísérlet befejezése után ellenállhatatlan vágy jelenik meg, hogy elrendelje a statisztikai adatok elemzését. De a „szemétkupacból” még egy statisztikusnak is nagyon nehéz lesz kiszednie a kutató által várt eredményt. Ezért, ha nem rendelkezik kellő biostatisztikai ismeretekkel, a kísérlet megkezdése előtt kérjen segítséget a statisztikai elemzéshez.

Magára az elemzési eljárásra térve a statisztikai technikák két fő típusát kell kiemelnünk: leíró és demonstratív (analitikus). A leíró technikák közé tartoznak azok a módszerek, amelyek lehetővé teszik az adatok kompakt és könnyen érthető formában történő bemutatását. Ide tartoznak a táblázatok, grafikonok, gyakoriságok (abszolút és relatív), a központi tendencia mértékei (átlag, medián, módus) és az adatok szórásának mértékei (variancia, szórás, interkvartilis tartomány stb.). Más szóval, leíró módszerek jellemzik a vizsgált mintákat.

A rendelkezésre álló mennyiségi adatok leírásának legnépszerűbb (bár gyakran hibás) módja a következő mutatók meghatározása:

  • a megfigyelések száma a mintában vagy annak mérete;
  • átlagérték (számtani átlag);
  • a szórás annak mértéke, hogy egy változó értékei milyen széles körben változnak.

Fontos megjegyezni, hogy a számtani átlag és a szórás a központi tendencia és a szóródás mértéke meglehetősen kis számú mintában. Az ilyen mintákban a legtöbb objektum értéke egyenlő valószínűséggel tér el az átlagtól, és eloszlásuk szimmetrikus „harangot” (Gauss- vagy Gauss-Laplace-görbe) alkot. Ezt az eloszlást „normálisnak” is nevezik, de az orvosi kísérletek gyakorlatában csak az esetek 30%-ában fordul elő. Ha egy változó értékei aszimmetrikusan oszlanak el a középponthoz képest, akkor célszerűbb a csoportokat a medián és a kvantilisek (percentilisek, kvartilisek, decilisek) segítségével leírni.

A csoportok leírásának befejezése után meg kell válaszolni a kapcsolataik kérdését, valamint a vizsgálat eredményeinek a teljes populációra történő általánosításának lehetőségét. Erre a célra bizonyítékokon alapuló biostatisztikai módszereket alkalmaznak. Ezekre emlékeznek először a kutatók, ha statisztikai adatfeldolgozásról van szó. A munka ezen szakaszát általában „statisztikai hipotézisek tesztelésének” nevezik.

A hipotézisvizsgálati feladatok két nagy csoportra oszthatók. Az első csoport arra a kérdésre ad választ, hogy vannak-e különbségek a csoportok között egyes indikátorok szintjében, például májgyulladásos betegek és egészséges emberek májtranszamináz-szintjében. A második csoport lehetővé teszi két vagy több mutató, például a májfunkció és az immunrendszer közötti kapcsolat bizonyítását.

Gyakorlati szempontból az első csoportba tartozó feladatok két altípusra oszthatók:

  • a mutató összehasonlítása csak két csoportban (egészséges és beteg, férfiak és nők);
  • három vagy több csoport összehasonlítása (a gyógyszer különböző dózisainak vizsgálata).

Figyelembe kell venni, hogy a statisztikai módszerek jelentősen eltérnek a minőségi és a mennyiségi adatok esetében.

Olyan helyzetben, amikor a vizsgált változó kvalitatív, és csak két csoportot hasonlítanak össze, a khi-négyzet teszt használható. Ez egy meglehetősen erős és széles körben ismert kritérium, azonban nem elég hatékony, ha kicsi a megfigyelések száma. Számos módszer létezik a probléma megoldására, mint például a Yates folytonossági korrekció és a Fisher-féle egzakt módszer.

Ha a vizsgált változó kvantitatív, akkor a statisztikai tesztek két típusa közül az egyik használható. Az első típus kritériumai a sokaság meghatározott eloszlási típusán alapulnak, és ennek a sokaságnak a paramétereivel működnek. Az ilyen teszteket „paraméteresnek” nevezik, és általában az értékek normális eloszlásának feltételezésén alapulnak. A nem paraméteres tesztek nem a sokaság eloszlásának típusára vonatkozó feltételezésen alapulnak, és nem használják a paramétereit. Néha az ilyen kritériumokat „terjesztésmentes teszteknek” nevezik. Ez bizonyos mértékig hibás, mivel bármely nem-paraméteres kritérium feltételezi, hogy az eloszlás az összes összehasonlított csoportban azonos lesz, különben hamis pozitív eredményeket kaphatunk.

Két paraméteres tesztet alkalmaznak egy normális eloszlású sokaságból kinyert adatokra: a Student-féle t-próbát két csoport összehasonlítására és a Fisher-féle F-tesztet a varianciaegyenlőség tesztelésére (más néven varianciaanalízist). Sokkal több nem paraméteres kritérium létezik. A különböző tesztek különböznek egymástól az alapul szolgáló feltevésekben, a számítások összetettségében, statisztikai erőben stb. A legtöbb esetben azonban a Wilcoxon-teszt (a rokon csoportok esetében) és a Mann-Whitney-teszt a legelfogadhatóbb. , más néven a független minták Wilcoxon tesztje. Ezek a tesztek kényelmesek, mert nem igényelnek feltételezéseket az adateloszlás természetéről. De ha kiderül, hogy a mintákat egy normális eloszlású sokaságból vettük, akkor statisztikai erejük nem fog szignifikánsan eltérni a Student-féle tesztétől.

A statisztikai módszerek teljes leírása megtalálható a szakirodalomban, azonban a lényeg az, hogy minden statisztikai teszt megköveteli a használatához szükséges szabályokat (feltevéseket) és feltételeket, valamint több módszer mechanikus keresését, hogy megtaláljuk a megfelelőt. ” eredmény tudományos szempontból abszolút elfogadhatatlan. Ebben az értelemben a statisztikai tesztek hasonlóak a gyógyszerekhez – mindegyiknek vannak javallatai és ellenjavallatai, mellékhatásai és a hatástalanság valószínűsége. És ugyanilyen veszélyes a statisztikai tesztek ellenőrizetlen alkalmazása, mert ezeken alapulnak hipotézisek és következtetések.

A statisztikai elemzés pontosságának kérdéskörének teljesebb megértéséhez meg kell határozni és elemezni kell a „ megbízhatósági valószínűség". A megbízhatósági valószínűség egy olyan érték, amelyet a valószínű és a valószínűtlen események közötti határnak tekintünk. Hagyományosan „p” betűvel jelölik. Sok kutató számára a statisztikai elemzés elvégzésének egyetlen célja az áhított p-érték kiszámítása, amely úgy tűnik, vesszőt tesz a híres „végrehajtást nem lehet megbocsátani” kifejezésben. A maximális elfogadható megbízhatósági szint 0,05. Emlékeztetni kell arra, hogy a megbízhatósági valószínűség nem valamilyen esemény valószínűsége, hanem bizalom kérdése. Ha az elemzés megkezdése előtt beállítunk egy megbízhatósági valószínűséget, akkor ezzel meghatározzuk kutatásunk eredményeinek megbízhatósági fokát. És mint tudod, a túlzott hiszékenység és a túlzott gyanakvás egyaránt negatívan befolyásolja bármely munka eredményét.

A konfidenciaszint megmutatja, hogy a kutató mekkora maximális valószínűséget tart elfogadhatónak egy I. típusú hiba előfordulásának. A konfidenciaszint csökkentése, vagyis a hipotézisek tesztelésének feltételeinek szigorítása növeli a második típusú hibák valószínűségét. Következésképpen a megbízhatósági valószínűség szintjének megválasztásánál figyelembe kell venni az első és második típusú hibák előfordulásából adódó lehetséges károkat. Például az orvosbiológiai statisztikában elfogadott szigorú keretrendszer, amely legfeljebb 5%-ban határozza meg a hamis pozitív eredmények arányát, súlyos szükségszerűség, mert az orvosi kutatások eredményei alapján új kezelést vezetnek be vagy utasítanak el, és ez sok ezer ember életkérdése.

Figyelembe kell venni, hogy maga a p érték nem túl informatív az orvos számára, mivel csak a nullhipotézis téves elutasításának valószínűségét jelzi. Ez a mutató nem mond semmit például a terápiás hatás nagyságáról, ha a vizsgált gyógyszert a lakosság körében alkalmazzák. Ezért van olyan vélemény, hogy a megbízhatósági valószínűség szintje helyett jobb lenne a vizsgálat eredményeit a konfidenciaintervallum nagyságával értékelni. A konfidenciaintervallum egy olyan értéktartomány, amelyen belül bizonyos valószínűséggel a populáció valódi értéke (átlag, medián vagy gyakoriság) található. A gyakorlatban kényelmesebb mindkét érték megadása, ami lehetővé teszi, hogy nagyobb biztonsággal ítélje meg a kapott eredmények alkalmazhatóságát a populáció egészére.

Befejezésül érdemes néhány szót ejteni a statisztikus vagy az önállóan adatelemzést végző kutató által használt eszközökről. A kézi számítások már régen elmúltak. A jelenlegi statisztikai számítógépes programok lehetővé teszik a statisztikai elemzések elvégzését komoly matematikai felkészültség nélkül. Az olyan hatékony rendszerek, mint az SPSS, SAS, R stb., lehetővé teszik a kutató számára, hogy összetett és hatékony statisztikai módszereket alkalmazzon. Ez azonban nem mindig jó. Anélkül, hogy ismerné az alkalmazott statisztikai tesztek konkrét kísérleti adatokra való alkalmazhatóságának fokát, a kutató végezhet számításokat, sőt akár kimenő számokat is kaphat, de az eredmény nagyon kétséges lesz. Ezért a kísérleti eredmények statisztikai feldolgozásának előfeltétele a statisztika matematikai alapjainak alapos ismerete.


Az adatelemzés statisztikai módszereit általában két nagy csoportra osztják: az egyváltozós statisztikai elemzési módszerekre és a többváltozós módszerekre.

Egydimenziós elemzési módszerek- ezek olyan módszerek, amelyeket olyan esetekben alkalmaznak, amikor a minta minden elemének értékelésére egyetlen mérőszám van, vagy ha több ilyen mérőszám van, akkor minden változót a többitől elkülönítve elemeznek. Ezen módszerek középpontjában az átlagértékek és a változók változási mutatóinak elemzése áll.

Az egydimenziós módszerek osztályozása a forrásadatok jellege (metrikus vagy nem metrikus), valamint a minták száma és típusa szerint történik. Így a minták fel vannak osztva függő (páros)- ezek egy általános sokaságból képzett minták és független a minták különböző populációkból vett minták. A gyakorlatban függetlennek számítanak a különböző rétegekből (rétegzett vagy kvótaminta alkalmazása esetén), például férfiakból és nőkből, vagy eltérő jövedelmi szinttel rendelkező válaszadói csoportokból vett minták.

Az adatelemzés egydimenziós módszerei a következők:

· A hipotézisek tesztelésének módszerei (z-próba, t-próba, F-próba, χ2-próba stb.).

A hipotézisek részletesebb teszteléséhez lásd: Gmurman V. E. Valószínűségelmélet és matematikai statisztika.

· A statisztikai eloszlássorok elemzésének módszerei.

· Egyirányú varianciaanalízis.

· Egyéb módszerek.

Többváltozós elemzési módszerek- ezek olyan módszerek, amelyeket olyan esetekben használnak, amikor két vagy több mérőszámot használnak az egyes mintaelemek becslésére, és ezeket a változókat egyidejűleg elemzik. Ennek a módszercsoportnak a fókuszában már a változók közötti kapcsolatok, összefüggések és hasonlóságok elemzése áll.

A következő többdimenziós módszereket különböztetjük meg:

1) A változók közötti függőségek azonosítására szolgáló módszerek olyan módszerek, amelyekben egy vagy több változó függő, mások pedig függetlenek. Ez a csoport a következőket tartalmazza:

· korrelációs és regressziós elemzés;

· variancia- és kovarianciaanalízis;

· diszkriminanciaelemzés;

· közös elemzés.

2) A változók közötti kölcsönös függőség azonosítására szolgáló módszerek olyan módszerek, amelyek lehetővé teszik az adatok hasonlóságok alapján történő csoportosítását. Ezekben a módszerekben a változókat nem osztják fel függőre és függetlenre. Ez a csoport a következőket tartalmazza:

· klaszteranalízis;

· faktoranalízis;

· többdimenziós méretezés.

Az adatelemzési módszerek kiválasztása a következőkön alapul:

· marketingkutatás céljai, célkitűzései, munkahipotézisei;

· marketingkutatás típusa (feltáró vagy összefoglaló; leíró vagy ok-okozati összefüggés);

· a gyűjtött adatok típusa – metrikus és nem metrikus változók;

· a vizsgálat során használt mérlegek;

· mintanagyság és módszer;

· az adatgyűjtés módja;

· az adatelemzés statisztikai módszereinek alkalmazási területei és korlátai.

Valójában a marketingkutatás minden korábbi szakasza előre meghatározza az adatelemzési stratégia megválasztását. Jelentős szerepet játszik magának a kutatónak a tapasztalata és képzettsége. Összegzésképpen megjegyezzük, hogy a statisztikai adatelemzés összetett többváltozós módszereit nem mindig alkalmazzák. A kutató nagyon gyakran csak az előzetes (alap)adatok elemzésére és annak grafikus értelmezésére korlátozódik.

Természetesen nem szabad elfelejteni, hogy a marketingkutatási adatok elemzése nem az utolsó szakasz, ezt követi a gyakorlati ajánlások kidolgozása és a kutatási jelentés elkészítése.

Ahhoz, hogy a pszichológiai kutatásban a megfelelő statisztikai módszert válasszuk az adatok elemzésére, először meg kell érteni a statisztikai feldolgozás alapvető módszereit: mik ezek, milyen esetekben használják őket, milyen célra és milyen eredmény érhető el.

A statisztikai adatelemzési módszer megválasztása a vizsgálat céljától és célkitűzéseitől függ. A statisztikai adatelemzés főbb módszerei, amelyeket széles körben alkalmaznak az empirikus kutatások eredményeinek feldolgozására pszichológiai tézisekben vagy disszertációkban, a következők:

  • Leíró statisztikák számítása. A leíró statisztikákat általában kivétel nélkül minden pszichológiai diplomamunkában számítják ki. Leggyakrabban az átlagértékeket (M) és a szórásokat (SD) minden kutatási módszer minden skálájára kiszámítják, és ezeket az adatokat beírják a munkához mellékelt empirikus vizsgálat elsődleges eredményeinek táblázatába. Ezeket leggyakrabban az empirikus fejezet első bekezdésében tárgyaljuk, összehasonlítva azokat a módszerekre vonatkozó normatív adatokkal, és megállapítva, hogy a vizsgált mintában vannak-e olyan jellemzők, amelyeket figyelembe kell venni, vagy amelyek korlátozzák a kutatás értelmezését. eredmények.
  • Korrelációelemzés - kutatási skálák közötti kapcsolatok azonosítása. Ez a módszer lehetővé teszi a változók közötti lineáris (közvetlen és fordított) kapcsolatok vagy hiányuk kimutatását. A korrelációelemzés a statisztikai adatelemzés fő módszere olyan művekben, amelyek célja valaminek valamire gyakorolt ​​hatásának, A B-től való függésének tanulmányozása.
  • A különbségek statisztikai elemzése két vagy több minta összehasonlítására szolgáló módszerek csoportja. Ez magában foglalja a minták Student-, Mann-Whitney-, Wilcoxon stb. tesztekkel történő összehasonlításának módszereit. Mindezek a módszerek lehetővé teszik annak meghatározását, hogy mennyire statisztikailag szignifikánsak (megbízhatóak) a különbségek két vagy több alanycsoport között. Ezek az adatok matematikai feldolgozásának fő módszerei egy csoport jellemzőinek tanulmányozására vagy a csoportok közötti különbségek, köztük a nemek közötti különbségek tanulmányozására.
  • A statisztikai adatelemzés többváltozós módszereit nagyszámú vizsgált jellemzővel (skálákkal és kutatási módszerekkel) rendelkező vizsgálatokban alkalmazzák. A pszichológiai kutatásokban ez leggyakrabban faktoranalízis és klaszteranalízis. Ezek a módszerek lehetővé teszik a vizsgált változók osztályozását, általánosítását, számának csökkentését, csoportok vagy osztályok felosztását, és az általánosítás egy másik szintjének elérését. Az empirikus kutatások eredményeinek többváltozós módszerekkel történő feldolgozása a matematikai adatfeldolgozás „legmagasabb osztályának” számít. Azok a szakdolgozatok, amelyekben általában többváltozós módszereket alkalmaznak, nyilvánvalóan kiváló osztályzatot követelnek.

Hasonló cikkek

  • Technológiai préselési eljárások alapjai

    A préselés olyan termékek előállításának folyamata, amelyek során a felhevített fémet zárt üregből (tartályból) egy szerszám (mátrix) nyílásán keresztül préselik ki. Két préselési mód létezik: közvetlen és fordított. Közvetlen préseléssel (ábra....

  • A műfaj problémás cikk. Példák. A BYuT felháborodott Juscsenko hamisságán, és felelősségre vonásra utal

    4.2 Problémacikk IRINA TSAREGORODTSEVA Elhízás járvány A szemétélelmiszerek elpusztítják az orosz nemzetet A következő években kötelező élelmiszercímkézést vezetnek be az Európai Unióban. Marcos Caprianu uniós egészségügyi biztos beszélt...

  • A kutatáshoz statikus módszereket használnak

    Statisztikai módszerek - statisztikai adatok elemzési módszerei. Vannak az alkalmazott statisztikai módszerek, amelyek a tudományos kutatás minden területén és a nemzetgazdaság bármely ágazatában alkalmazhatók, és egyéb statisztikai módszerek...

  • Bevezetés a makroökonómiába

    A Közgazdasági Felsőoktatási Iskola Kiadója (továbbiakban EBK Kiadó) 2000-ben alakult, ma már tudományos és ismeretterjesztő irodalom készítésére és terjesztésére szakosodott magas szakmai színvonalú kiadó. Akárcsak az Iskola, amely abból „nőtt fel”...

  • Üzbég húsos tésztaleves - ugra oshi

    Ritkán talál keleti ételeket az otthoni étlapunkon – hacsak nem tanulta meg valahogy a pilafot. Az üzbég ételeket pedig főként éttermekben kóstoljuk meg - aztán örömmel emlékezünk az otthon készített csodálatos levesekre...

  • Hogyan áztassuk be a májat szódával pácban A legfinomabb májrecept

    Egyszer meglátogattam egy barátomat, és az anyja elkényeztetett minket egy csodálatos étellel. Máj volt szódával, aminek a receptjét azonnal átírtam. Nem voltam nagy májrajongó (mindegy, hogy milyen fajtáról beszélünk, csirke...