22.05.2022

Klaszterelemzés és feladatai. A klaszteranalízis és feladatai Bevezetés a klaszteranalízisbe


A kutatási témák az Új-Guineában élő mumifikálódott rágcsálók morfológiájának elemzésétől az amerikai szenátorok szavazatainak tanulmányozásáig, a fagyasztott csótányok viselkedési funkcióinak felolvasztás utáni elemzésétől a földrajzi elterjedés vizsgálatáig terjednek. bizonyos típusú zuzmók Saskatchewanban.

A publikációknak ez a robbanása óriási hatással volt a klaszteranalízis fejlesztésére és alkalmazására. De sajnos vannak negatív oldalai is. A klaszteranalízissel foglalkozó publikációk rohamos növekedése a felhasználók csoportosulásainak kialakulásához vezetett, és ennek következtében olyan szakzsargonok létrejöttéhez, amelyeket csak az azt létrehozó csoportosulások használnak (Blashfield és Aldenderfer, 1978; Blashfield, 1980).

A társadalomtudósok zsargonképzését például a Ward-módszerhez kapcsolódó terminológia sokfélesége bizonyítja. A "Ward-módszert" a szakirodalom másként nevezi. Legalább négy további neve ismert: "minimális variancia módszer", "négyzetes hibaösszeg módszer", "hierarchikus csoportosítás minimalizálása" és "HGROUP". Az első két név egyszerűen arra a kritériumra utal, amelynek optimumát Ward módszere határozza meg, míg a harmadik a négyzetes hibák összegére vonatkozik, amely a W mátrix, a csoporton belüli kovarianciamátrix monoton nyomtranszformációja. Végül, a széles körben használt "HGROUP" név egy népszerű neve számítógépes program, amely a Ward-módszert valósítja meg (Veldman, 1967).

A szakzsargon kialakulása gátolja az interdiszciplináris kapcsolatok kialakulását, megakadályozza a klaszteranalízis módszertanának és eredményeinek hatékony összehasonlítását a különböző tudományterületeken, szükségtelen erőfeszítésekhez vezet (ugyanolyan algoritmusok újrafeltalálása), és végül nem ad újat. a felhasználók mélyen megértik az általuk választott módszereket (Blashfield és aldenderfer, 1978). Például egy társadalomtudományi tanulmány (Rogers és Linden, 1973) három különböző klaszterezési módszert hasonlított össze ugyanazon adatok felhasználásával. Ezeket a módszereket a következőképpen nevezték el: "hierarchikus csoportosítás", "hierarchikus klaszterezés vagy HCG" és "klaszterelemzés". És ezen elnevezések egyike sem volt ismerős a klaszterezési módszerek számára. A fürtelemző programok kezdő felhasználóját mindenki összezavarja meglévő címeketés nem fogja tudni összekapcsolni őket a klaszterezési módszerek más leírásával. A tapasztalt felhasználók nehéz helyzetbe kerülnek, amikor kutatásaikat hasonló munkával hasonlítják össze. Lehet, hogy túlzásokba esünk, de a zsargon komoly probléma.

Az elmúlt években a klaszteranalízis fejlődése némileg lelassult, a publikációk számából és azon tudományágak számából ítélve, ahol ezt a módszert alkalmazzák. Elmondható, hogy jelenleg a pszichológia, a szociológia, a biológia, a statisztika és néhány technikai tudományág a konszolidáció szakaszába lép a klaszteranalízis kapcsán.

Fokozatosan csökken a klaszterelemzés erényeit dicsérő cikkek száma. Ugyanakkor egyre több olyan munka jelenik meg, amelyben a különböző klaszterezési módszerek alkalmazhatóságát hasonlítják össze a kontrolladatokon. A szakirodalomban nagyobb figyelmet fordítottak az alkalmazásokra. Számos tanulmány célja gyakorlati intézkedések kidolgozása a klaszteranalízissel kapott eredmények érvényességének tesztelésére. Mindez komoly kísérletekről tanúskodik a klaszterezési módszerek ésszerű statisztikai elméletének megalkotására.


Időszerű és fontos bevezetést nyújt a fuzzy klaszteranalízisbe, annak módszereibe és felhasználásaiba. Szisztematikusan leírja különféle technikák fuzzy klaszterezés, hogy az olvasó kiválaszthassa a problémája megoldására legalkalmasabb módszert. Van egy jó és nagyon átfogó irodalmi áttekintés a témáról, a képfelismerésről, a lefedettség osztályozásáról, az adatelemzésről és a szabálykövetésről. A példák kellően szemléltető jellegűek és hatékonyak. az eredményeket tesztelték.
Ez a legrészletesebb könyv a fuzzy klaszterezésről, ezért is ajánlott informatikusoknak, matematikusoknak, mérnököknek – mindenkinek, aki adatelemzéssel, képfeldolgozással foglalkozik. Hasznos lesz azoknak a hallgatóknak is, akik a számítástechnikai tudományok területén dolgoznak.

Címkék,

A munka a mintafelismerés elméletének egyik módszerével, a klaszteranalízissel foglalkozik.

Tömören bemutatjuk a klaszteranalízis főbb gondolatait, és bemutatjuk a bányászati ​​kutatásban való alkalmazásának néhány területét. Az ismertetett klaszterezési módszerek valós problémákban használhatók. Az algoritmusokban a számítási részt kellően részletesen figyelembe veszik.

Bár a klaszterelemzés hatékony és praktikus eszköz osztályozás, és a gyakorlati kutatásokban is nagyon elterjedt, nagyon kevés publikáció jelenik meg e témában orosz nyelven, a meglévők pedig informatívak. Ez a brosúra rávilágít a klaszterelemzés néhány alapvető kérdésére.

A többváltozós statisztikai elemzés területén dolgozó kutatóknak, szakdolgozóknak és szakembereknek.

Címkék,

A könyv témája a „klaszteranalízis” alkalmazásának elméletének és gyakorlatának helyzetének áttekintése. Ez a módszer a kombinációs csoportosítási módszer összes előnyével rendelkezik, és nem mentes a fő hátrányától - az anyagi szóródástól, amely széles távlatokat nyit a szóban forgó módszer statisztikai elemzésben, objektumok osztályozásában, a tanulmányban való alkalmazására. kapcsolatok, minta tipizálás, stb. A könyvet teljessége, hozzáférhetősége és a bemutatás rövidsége jellemzi. A könyv statisztikusoknak, közgazdászoknak, valamint szociológusoknak, demográfusoknak, biológusoknak és más szakembereknek szól. Az 1977-es kiadás eredeti szerzői helyesírásával reprodukálva (Statistica kiadó).

Címkék,

Küldje el a jó munkát a tudásbázis egyszerű. Használja az alábbi űrlapot

Diákok, végzős hallgatók, fiatal tudósok, akik a tudásbázist tanulmányaikban és munkájukban használják, nagyon hálásak lesznek Önnek.

Bevezetés

1. A "klaszterelemzés" története

2.Terminológia

2.1 Tárgy és jellemző

2.2 Objektumok közötti távolság (metrikus)

2.3 A klaszterek sűrűsége és lokalizációja

2.4 A klaszterek közötti távolság

3. Csoportosítási módszerek

3.1. A hierarchikus agglomerációs módszerek jellemzői

3.2. Az iteratív klaszterezési módszerek jellemzői

4. Funkciócsoportosítás

5. A klaszterezés stabilitása és minősége

Bibliográfia

BEVEZETÉS

"A klaszteranalízis olyan matematikai módszerek összessége, amelyeket arra terveztek, hogy egymástól viszonylag "távol" lévő "közeli" objektumcsoportokat képezzenek a távolságra vagy a köztük lévő kapcsolatokra (a közelség mértékére) vonatkozó információk alapján. Jelentésében hasonló az automatikus kifejezésekhez. osztályozás, taxonómia, mintafelismerés tanár nélkül." A klaszteranalízisnek ezt a definícióját a Statisztikai Szótár legújabb kiadása tartalmazza. Valójában a "klaszteranalízis" egy általános elnevezés az osztályozás létrehozásához használt algoritmusok meglehetősen nagy halmazának. Számos publikáció olyan szinonimákat is használ a klaszterelemzéshez, mint az osztályozás és a particionálás. A klaszteranalízist a tudományban széles körben használják a tipológiai elemzés eszközeként. Bármely tudományos tevékenység Az osztályozás az egyik alapvető összetevő, amely nélkül lehetetlen tudományos hipotéziseket és elméleteket felépíteni és tesztelni. Így munkám során szükségesnek tartom a klaszteranalízis (a klaszteranalízis alapja) kérdéseinek átgondolását, valamint terminológiájának átgondolását, és néhány példát hozok e módszer alkalmazására, amelynek fő célja az adatfeldolgozás.

1. A "KLUSTER ELEMZÉS" TÖRTÉNETE

A hazai és külföldi publikációk elemzése azt mutatja, hogy a klaszterelemzést a legkülönfélébb területeken alkalmazzák tudományos irányok Kulcsszavak: kémia, biológia, orvostudomány, régészet, történelem, földrajz, közgazdaságtan, filológia stb. VV Nalimov „A nyelv valószínűségi modellje” című könyve leírja a klaszteranalízis használatát 70 analitikai minta vizsgálatában. A klaszteranalízissel foglalkozó szakirodalom nagy része az elmúlt három évtizedben jelent meg, bár az első olyan munkák, amelyek a klasztermódszereket említik, meglehetősen régen jelentek meg. A lengyel antropológus, K. Chekanowski előterjesztette a "strukturális osztályozás" ötletét, amely a klaszteranalízis fő gondolatát - a kompakt objektumcsoportok elosztását - tartalmazta.

1925-ben a szovjet hidrobiológus P.V. Terentjev kidolgozta az úgynevezett "korrelációs plejádok módszerét", amely a korrelált jellemzők csoportosítására szolgál. Ez a módszer adott lendületet a gráfokat használó csoportosítási módszerek kidolgozásához. A "klaszteranalízis" kifejezést először Trion javasolta. A "klaszter" szó fordítása: angolul mint "csokor, ecset, csomó, csoport". Emiatt az ilyen típusú elemzést eredetileg "klaszteranalízisnek" nevezték. Az 1950-es évek elején R. Lewis, E. Fix és J. Hodges publikációi jelentek meg a hierarchikus klaszterelemzési algoritmusokról. A klaszteranalízissel foglalkozó munka fejlődéséhez észrevehető lendületet adott R. Rosenblatt felismerő eszközzel (perceptronnal) kapcsolatos munkája, amely megalapozta a „tanár nélküli mintafelismerés” elméletének kidolgozását.

A klaszterezési módszerek kidolgozásának lendületét az 1963-ban megjelent "A numerikus taxonómia alapelvei" című könyv adta. két biológus - Robert Sokal és Peter Sneath. A könyv szerzői abból indultak ki, hogy a hatékony biológiai osztályozás létrehozása érdekében a klaszterezési eljárásnak biztosítania kell a vizsgált élőlényeket jellemző különféle indikátorok alkalmazását, fel kell mérni ezen szervezetek közötti hasonlóság mértékét, és biztosítania kell a hasonló szervezetek elhelyezését. ugyanabban a csoportban. Ebben az esetben a kialakított csoportok kellően „lokálisak”, azaz a csoportokon belüli objektumok (organizmusok) hasonlóságának meg kell haladnia a csoportok egymás közötti hasonlóságát. Az azonosított csoportok utólagos elemzése a szerzők véleménye szerint tisztázhatja, hogy ezek a csoportok különböző biológiai fajoknak felelnek-e meg. Így Sokal és Sneath azt feltételezte, hogy az objektumok csoportos eloszlásának szerkezetének feltárása segít meghatározni e struktúrák kialakulásának folyamatát. A különböző klaszterek (csoportok) élőlényeinek különbözősége és hasonlósága pedig alapul szolgálhat a folyamatban lévő evolúciós folyamat megértéséhez, mechanizmusának tisztázásához.

Ugyanebben az években számos algoritmust javasoltak olyan szerzők, mint J. McKean, G. Ball és D. Hall, k-közép módszerekkel; G. Lance és W. Williams, N. Jardine és mások - a hierarchikus módszerekről. A klaszterelemzési módszerek fejlesztéséhez jelentős mértékben hozzájárultak a hazai tudósok - E. M. Braverman, A. A. Dorofeyuk, I. B. Muchnik, L. A. Rastrigin, Yu. I. Különösen a 60-70-es években. N. G. Zagoruiko, V. N. Elkina és G. S. Lbov novoszibirszki matematikusok által kifejlesztett számos algoritmusa nagy népszerűségnek örvendett. Ezek olyan jól ismert algoritmusok, mint a FOREL, BIGFOR, KRAB, NTTP, DRET, TRF, stb. Ezek alapján készült egy speciális OTEX szoftvercsomag. Nem kevésbé érdekes szoftver termékek A PPSA-t és a Klass-Mastert S. A. Aivazyan, I. S. Enyukov és B. G. Mirkin moszkvai matematikusok hozták létre.

A klaszterelemzési módszerek bizonyos mértékig elérhetőek a legtöbb legismertebb hazai és külföldi statisztikai csomagban: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS stb. Természetesen 10 évvel a jelen áttekintés megjelenése után sok minden megváltozott, számos statisztikai program új verziója jelent meg, és teljesen új programok jelentek meg, amelyek új algoritmusokat és jelentősen megnövelt számítási teljesítményt használnak. A legtöbb statisztikai csomag azonban a 60-70-es években javasolt és kifejlesztett algoritmusokat használ.

Szakértők hozzávetőleges becslése szerint háromévente megduplázódik a klaszterelemzésről és annak különböző tudásterületeken történő alkalmazásairól szóló publikációk száma. Mi az oka az ilyen típusú elemzések iránti viharos érdeklődésnek? Objektíven három fő oka van ennek a jelenségnek. Ez az erőteljes számítástechnika megjelenése, amely nélkül a valós adatok klaszteranalízise gyakorlatilag nem kivitelezhető. A második ok az, hogy a modern tudomány konstrukcióiban egyre inkább az osztályozáson alapul. Sőt, ez a folyamat egyre mélyül, hiszen ezzel párhuzamosan egyre nagyobb a tudás specializálódása, ami kellően objektív osztályozás nélkül lehetetlen.

A harmadik ok - a speciális ismeretek elmélyítése elkerülhetetlenül az egyes tárgyak és jelenségek elemzése során figyelembe vett változók számának növekedéséhez vezet. Ennek eredményeként a szubjektív osztályozás, amely korábban meglehetősen kis számú jellemzőre támaszkodott, gyakran megbízhatatlannak bizonyul. Az objektív osztályozás pedig az objektumjellemzők egyre bővülő készletével olyan összetett klaszterezési algoritmusok alkalmazását igényli, amelyek csak a modern számítógépek alapján valósíthatók meg. Ezek az okok okozták a „klaszter boom”-ot. Az orvosok és biológusok körében azonban a klaszteranalízis még nem vált elég népszerű és elterjedt kutatási módszerré.

2 TERMINOLÓGIA

2. 1 TÁRGY ÉS JEL

Először is vezessünk be olyan fogalmakat, mint a tárgy és a jel. Tárgy - a latin objectum - alany szóból. A kémiával és a biológiával kapcsolatban tárgyak alatt konkrét kutatási alanyokat fogunk érteni, amelyeket fizikai, kémiai és egyéb módszerekkel vizsgálunk. Ilyen tárgyak lehetnek például minták, növények, állatok stb. A kutató rendelkezésére álló objektumok egy bizonyos halmazát mintának vagy mintakészletnek nevezzük. Az ilyen sokaságban lévő objektumok számát általában mintaméretnek nevezik. A minta méretét általában a latin „n” vagy „N” betű jelöli.

Jel (szinonimák - tulajdonság, változó, jellemző; angolul - változó - változó.) - az objektum sajátos tulajdonsága. Ezek a tulajdonságok kifejezhetők numerikus vagy nem numerikus értékekkel. Például a vérnyomást (szisztolés vagy diasztolés) higanymilliméterben, a súlyt kilogrammban, a magasságot centiméterben stb. Az ilyen jelek mennyiségiek. Ezekkel a folytonos numerikus jellemzőkkel (skálákkal) szemben számos jellemző diszkrét, nem folytonos értékkel rendelkezhet. Az ilyen diszkrét jellemzőket viszont általában két csoportra osztják.

1) Az első csoport a rangváltozók, vagy ahogyan ordinális változók (skálák) is nevezik. Az ilyen jeleket az a tulajdonság jellemzi, hogy ezeket az értékeket rendezik. Ilyenek egy-egy betegség stádiumai, korcsoportok, tanulói tudáspontszámok, a 12 pontos Richter-földrengés-skála stb.

2) A diszkrét jellemzők második csoportja nem rendelkezik ilyen sorrenddel, és névleges (a "nominális" szóból - minta) vagy osztályozási jellemzőknek nevezik. Ilyen jelek lehetnek például a beteg állapota - "egészséges" vagy "beteg", a beteg neme, a megfigyelés időszaka - "kezelés előtt" és "kezelés után" stb. Ilyenkor szokás azt mondani, hogy az ilyen tulajdonságok a névskálához tartoznak.

Az objektum és a jellemző fogalmát általában "Objektumtulajdonság" vagy "Objektum-tulajdonság" mátrixnak nevezik. A mátrix egy téglalap alakú táblázat lesz, amely a vizsgált megfigyelések mintájának tulajdonságait leíró jellemzők értékeit tartalmazza. Ebben az összefüggésben egy megfigyelés külön sorként kerül rögzítésre, amely a használt jellemzők értékeit tartalmazza. Az ilyen adatmátrixban egy külön attribútumot egy oszlop képvisel, amely az attribútum értékeit tartalmazza a mintában lévő összes objektumra vonatkozóan.

2. 2 TÁVOLSÁG OBJEKTUMOK KÖZÖTT (METRIKUS)

Vezessük be az „objektumok közötti távolság” fogalmát. Ez a fogalom az objektumok egymáshoz való hasonlóságának szerves mérőszáma. Az objektumok közötti távolság a jellemzőtérben olyan d ij érték, amely kielégíti a következő axiómákat:

1. d ij > 0 (a távolság nem-negativitása)

2. d ij = d ji (szimmetria)

3. d ij + d jk > d ik (háromszög egyenlőtlenség)

4. Ha d ij nem egyenlő 0-val, akkor i nem egyenlő j-vel (nem azonos objektumok megkülönböztethetősége)

5. Ha d ij = 0, akkor i = j (azonos objektumok megkülönböztethetetlensége)

Célszerű az objektumok közelségének (hasonlóságának) mértékét az objektumok közötti távolság reciprokaként ábrázolni. Számos, a klaszteranalízissel foglalkozó publikáció több mint 50 különböző módszert ír le az objektumok közötti távolság kiszámítására. A "távolság" kifejezésen kívül a szakirodalomban gyakran megtalálható egy másik kifejezés - "metrikus", amely egy adott távolság kiszámításának módszerét jelenti. A kvantitatív jellemzők észlelésére és megértésére leginkább az ún. "euklideszi távolság" vagy "euklideszi metrika" érhető el. A távolság kiszámításának képlete a következő:

Ez a képlet a következő jelölést használja:

· d ij - az i-edik és a j-edik objektumok közötti távolság;

· x ik - az i-edik objektum k-edik változójának számértéke;

· x jk - a j-edik objektum k-edik változójának számértéke;

· v - az objektumokat leíró változók száma.

Így v=2 esetben, amikor csak két mennyiségi előjelünk van, a d ij távolság egyenlő lesz egy derékszögű háromszög befogójának hosszával, amely egy derékszögű koordinátarendszerben két pontot köt össze. Ez a két pont a minta i-edik és j-edik megfigyelésének felel meg. Gyakran a szokásos euklideszi távolság helyett annak d 2 ij négyzetét használják. Ezenkívül bizonyos esetekben "súlyozott" euklideszi távolságot használnak, amelynek kiszámításakor az egyes kifejezésekhez súlytényezőket használnak. Az euklideszi metrika fogalmának illusztrálására egy egyszerű képzési példát használunk. Az alábbi táblázatban látható adatmátrix 5 megfigyelésből és két változóból áll.

Asztal 1

Öt megfigyelt mintából és két változóból álló adatmátrix.

Az euklideszi metrika segítségével kiszámítjuk az objektumok közötti távolságok mátrixát, amely a d ij értékekből áll - az i-edik és a j-edik objektumok közötti távolság. Esetünkben i és j a tárgy, megfigyelés száma. Mivel a minta mérete 5, i és j 1-től 5-ig vehet fel értéket. Az is nyilvánvaló, hogy az összes lehetséges páronkénti távolság száma 5*5=25 lesz. Valójában az első objektum esetében ezek a következő távolságok lesznek: 1-1; 1-2; 1-3; 1-4; 1-5. A 2. objektumhoz 5 lehetséges távolság is lesz: 2-1; 2-2; 2-3; 2-4; 2-5 stb. A különböző távolságok száma azonban kevesebb lesz, mint 25, mivel figyelembe kell venni az azonos objektumok megkülönböztethetetlenségének tulajdonságát - d ij = 0 i = j esetén. Ez azt jelenti, hogy az 1. objektum és ugyanazon objektum #1 közötti távolság nulla lesz. Ugyanezek a nulla távolságok lesznek az összes többi i = j esetre is. Ezenkívül a szimmetriatulajdonságból következik, hogy d ij = d ji bármely i és j esetén. Azok. az 1. és 2. objektumok közötti távolság egyenlő a 2. és 1. objektumok távolságával.

Az euklideszi távolság kifejezése nagyon hasonló az úgynevezett általánosított Minkowski hatványtávolsághoz, amelyben a hatványok kettő helyett egy másik értéket használnak. Általános esetben ezt az értéket a "p" szimbólum jelöli.

p = 2 esetén a szokásos euklideszi távolságot kapjuk. Tehát az általánosított Minkowski-metrika kifejezésének alakja a következő:

A "p" kitevő konkrét értékét a kutató maga választja ki.

A Minkowski-távolság speciális esete az úgynevezett Manhattan távolság, vagy "várostömb távolság", amely p=1-nek felel meg:

Így a Manhattan távolság az objektumok megfelelő jellemzői különbségeinek moduljainak összege. Ha hagyjuk, hogy p a végtelenbe hajljon, akkor megkapjuk a „dominancia” mérőszámot vagy a Sup-metrikát:

amely d ij = max|-ként is ábrázolható x ik - x jk |.

A Minkowski-metrika valójában a mérőszámok nagy családja, beleértve a legnépszerűbb mutatókat. Vannak azonban olyan módszerek az objektumok közötti távolság kiszámítására, amelyek alapvetően különböznek a Minkowski-metrikáktól. Ezek közül a legfontosabb az úgynevezett Mahalanobis távolság, amely meglehetősen sajátos tulajdonságokkal rendelkezik. Kifejezés ehhez a mérőszámhoz:

Itt keresztül x énÉs x j Az i-edik és a j-edik objektum változó értékeinek oszlopvektorai vannak feltüntetve. Szimbólum T kifejezésében (x én - x j ) T az úgynevezett vektortranszpozíciós műveletet jelöli. Szimbólum S a közös csoporton belüli variancia-kovariancia mátrix van feltüntetve. Egy szimbólum -1 felett S azt jelenti, hogy meg kell invertálnia a mátrixot S . A Minkowski-metrikától és az euklideszi metrikától eltérően a Mahalanobis-távolság a variancia-kovariancia mátrixon keresztül S változók korrelációihoz kapcsolódik. Ha a változók közötti korreláció nulla, a Mahalanobis-távolság ekvivalens az euklideszi távolság négyzetével.

Dichotóm (csak két értékkel rendelkező) minőségi jellemzők alkalmazása esetén a Hamming-távolság széles körben használatos.

egyenlő az i-edik és a j-edik objektum megfelelő jellemzőinek értékei közötti eltérések számával.

2. 3 A KLASZTEREK SŰRŰSÉGE ÉS LOKALITÁSA

A klaszteranalízis fő célja, hogy a mintában egymáshoz hasonló objektumcsoportokat találjunk. Tegyük fel, hogy néhány lehetséges módszerrel ilyen csoportokat - klasztereket - kaptunk. Figyelembe kell venni a klaszterek fontos tulajdonságait. Az egyik ilyen tulajdonság a pontok, megfigyelések eloszlási sűrűsége egy klaszteren belül. Ez a tulajdonság lehetővé teszi, hogy egy klasztert egy többdimenziós térben lévő pontok klasztereként definiáljunk, amely viszonylag sűrű a tér más olyan régióihoz képest, amelyek vagy egyáltalán nem tartalmaznak pontokat, vagy csak kis számú megfigyelést tartalmaznak. Más szóval, mennyire kompakt ez a klaszter, vagy fordítva, mennyire ritka. Ennek a tulajdonságnak elegendő bizonyítéka ellenére nincs egyértelmű módszer egy ilyen mutató (sűrűség) kiszámítására. Egy adott klaszterben a többdimenziós megfigyelések tömörségét, "pakolódásának" sűrűségét jellemző legsikeresebb mutató a klaszter középpontja és a klaszter egyes pontjai közötti távolság szórása. Minél kisebb ennek a távolságnak a szórása, minél közelebb vannak a megfigyelések a klaszter középpontjához, annál nagyobb a klaszter sűrűsége. És fordítva, minél nagyobb a távolság szórása, annál ritkább ez a klaszter, és ennek következtében vannak olyan pontok, amelyek a klaszter középpontjához közel és a klaszter középpontjától meglehetősen távol helyezkednek el.

A klaszterek következő tulajdonsága a méretük. A klaszter méretének fő mutatója a "sugár". Ez a tulajdonság akkor tükrözi a legteljesebben a klaszter tényleges méretét, ha a vizsgált klaszter kerek, és egy többdimenziós térben található hipergömb. Ha azonban a klaszterek hosszúkás alakúak, akkor a sugár vagy átmérő fogalma már nem tükrözi a klaszter valódi méretét.

A klaszter másik fontos tulajdonsága a lokalitás, az elkülöníthetőség. Ez jellemzi a klaszterek átfedésének mértékét és egymástól való kölcsönös távolságát egy többdimenziós térben. Vegyük például három klaszter eloszlását az új, integrált szolgáltatások terén az alábbi ábrán. Az 1. és 2. tengelyt speciális módszerrel kaptuk a vörösvértestek különböző formáinak reflexiós tulajdonságainak 12 jellemzőjéből, amelyeket elektronmikroszkóppal vizsgáltunk.

1. kép

Látjuk, hogy az 1. klaszter mérete a minimális, míg a 2. és 3. klaszter megközelítőleg azonos méretű. Ugyanakkor elmondhatjuk, hogy a minimális sűrűség, és így a maximális távolsági szóródás a 3. klaszterre jellemző. Ezenkívül az 1. klasztert kellően nagy üres térszakaszok választják el mind a 2., mind a 3. klasztertől. Ezzel szemben a klasztereket 2 és 3 részben átfedik egymást. Érdekes tény, hogy az 1. klaszter az 1. tengely mentén sokkal nagyobb eltérést mutat a 2. és 3. klaszterhez képest, mint a 2. tengely mentén. Ezzel szemben a 2. és 3. klaszter megközelítőleg egyenlő mértékben különbözik egymástól mind az 1., mind a 2. tengely mentén. Nyilvánvaló, hogy egy ilyen vizuális elemzéshez szükséges, hogy a minta összes megfigyelését speciális tengelyekre vetítsük, amelyekben a klaszterelemek vetületei külön klaszterként lesznek láthatók.

2. 4 KLASZTER KÖZÖTTI TÁVOLSÁG

Tágabb értelemben az objektumok nemcsak a kutatás eredeti alanyaiként értelmezhetők, amelyeket a "objektum-tulajdonság" mátrixban külön sorként, vagy egy többdimenziós jellemzőtér egyedi pontjaként mutatnak be, hanem az ilyen pontok különálló csoportjaként is. , amelyeket egyik vagy másik algoritmus egyesít egy klaszterbe. Ebben az esetben felmerül a kérdés, hogyan lehet megérteni az ilyen pontok (klaszterek) közötti távolságot, és hogyan lehet kiszámítani. Ebben az esetben a lehetőségek változatossága még nagyobb, mint egy többdimenziós térben két megfigyelés távolságának kiszámításakor. Ezt az eljárást bonyolítja, hogy a pontokkal ellentétben a klaszterek bizonyos mennyiségű többdimenziós teret foglalnak el, és sok pontból állnak. A klaszteranalízis során széles körben alkalmazzák a klaszterközi távolságokat, amelyeket a legközelebbi szomszéd (legközelebbi szomszéd), súlypont, legtávolabbi szomszéd (legtávolabbi szomszéd), mediánok elve alapján számítanak ki. Négy módszert használnak a legszélesebb körben: egyszeri kapcsolat, teljes kapcsolat, átlagos kapcsolat és Ward módszere. Az egylinkes metódusban egy objektum egy már létező fürthöz lesz csatolva, ha a fürt legalább egyik eleme ugyanolyan szintű hasonlóságot mutat, mint a csatlakoztatott objektum. A teljes hivatkozások módszerénél egy objektumot csak akkor csatolunk a klaszterhez, ha a felvételre jelölt és a klaszter bármely eleme közötti hasonlóság nem kisebb, mint egy bizonyos küszöb. Az átlagos csatlakozási módhoz számos módosítás létezik, amelyek kompromisszumot jelentenek az egyszeri és a teljes kapcsolat között. Kiszámítják a felvételre jelölt és a meglévő klaszter összes objektumával való hasonlóságának átlagos értékét. A csatolás akkor történik meg, ha a talált átlagos hasonlósági érték elér vagy meghalad egy bizonyos küszöböt. A leggyakrabban használt számtani átlag hasonlóság a klaszter objektumai és a klaszterbe való felvételre jelölt között.

Sok klaszterezési módszer abban különbözik egymástól, hogy az algoritmusaik minden lépésben különféle particionálási minőségi függvényeket számítanak ki. A népszerű Ward-módszert úgy alakították ki, hogy optimalizálja a klaszteren belüli távolságok minimális eltérését. Első lépésben minden klaszter egy objektumból áll, ami miatt a távolságok klaszteren belüli szórása 0. Ezzel a módszerrel azokat az objektumokat kombináljuk, amelyek a minimális szórásnövekedést adják, aminek eredményeként ez a módszer hajlamos hiperszférikus klaszterek létrehozására.

A klaszterelemzési módszerek osztályozására tett többszöri kísérlet több tucat vagy akár több száz különböző osztályhoz vezet. Ezt a sokszínűséget nagyszámú generálja lehetséges módjai az egyes megfigyelések közötti távolság kiszámítása, nem kevesebb módszer az egyes klaszterek közötti távolság kiszámítására a klaszterezés folyamatában, valamint a végső klaszterstruktúra optimálisságának különféle becslései.

A legnépszerűbb statisztikai csomagokban a klaszterelemzési algoritmusok két csoportját használják a legszélesebb körben: a hierarchikus agglomerációs módszereket és az iteratív csoportosítási módszereket.

3. CSOPORTOSÍTÁSI MÓDSZEREK

3. 1 A HIERARCHIKUS AGGLOMERATIV MÓDSZEREK JELLEMZŐI

A valódi orvosbiológiai kutatásokban gyakrabban használt agglomeratív hierarchikus algoritmusokban kezdetben az összes objektumot (megfigyelést) különálló, független, egyetlen elemből álló klaszternek tekintik. Hatékony számítógépes technológia alkalmazása nélkül a klaszter adatelemzés megvalósítása nagyon problematikus.

A mérőszám kiválasztását a kutató végzi. A távolságmátrix kiszámítása után kezdődik a folyamat agglomerációk (a latin agglomero szóból - csatolom, felhalmozom), szekvenciálisan haladva lépésről lépésre. Ennek a folyamatnak az első lépésében két, egymástól legkisebb távolságú kezdeti megfigyelést (monoklasztert) egyesítenek egy klaszterbe, amely már két objektumból (megfigyelésből) áll. Így a korábbi N monoklaszter (egy objektumból álló klaszter) helyett az első lépés után N-1 klaszter lesz, amelyek közül egy klaszter két objektumot (megfigyelést) tartalmaz majd, N-2 klaszter pedig továbbra is csak egy tárgy. A második lépésben az N-2 klaszterek kombinálásának különféle módszerei lehetségesek. Ennek az az oka, hogy az egyik fürt már tartalmaz két objektumot. Emiatt két fő kérdés merül fel:

· hogyan kell kiszámítani egy ilyen két (és további kettőnél több) objektumból álló klaszter koordinátáit;

· hogyan lehet kiszámítani a távolságot az ilyen "poli-objektum" klaszterektől a "monocluster"-től és a "poli-objektum" klaszterek között.

Végső soron ezek a kérdések határozzák meg a végső klaszterek végső struktúráját (a klaszterek szerkezete az egyes klaszterek összetételét és egymáshoz viszonyított helyzetét jelenti egy többdimenziós térben). A mérőszámok és a klaszterek koordinátáinak és kölcsönös távolságainak kiszámítására szolgáló módszerek különféle kombinációi a klaszterelemzési módszerek sokféleségét eredményezik. A második lépésben a több objektumból álló klaszter koordinátáinak kiszámítására választott módszertől és a klaszterközi távolságok számítási módszerétől függően lehetőség van két különálló megfigyelés újraegyesítésére egy új klaszterbe, vagy egy új klaszter összekapcsolására. megfigyelés egy két objektumból álló klaszterbe. A kényelem kedvéért a legtöbb agglomeratív-hierarchikus módszerek programja a munka végén két fő grafikont tud biztosítani a megtekintéshez. Az első gráfot dendrogramnak nevezik (a görög dendron - fa szóból), amely az agglomeráció folyamatát, az egyes megfigyelések egyetlen végső klaszterbe való egyesülését tükrözi. Adjunk példát egy 5 megfigyelésből álló dendrogramra, két változóban.

Menetrend1

Egy ilyen gráf függőleges tengelye a klaszterközi távolság tengelye, a vízszintes tengely mentén pedig az objektumok száma - az elemzésben használt esetek - jelölve. Ebből a dendrogramból látható, hogy az 1. és 2. számú objektumokat először egy klaszterbe vonják össze, mivel a köztük lévő távolság a legkisebb és egyenlő 1-gyel. Ezt az összevonást a grafikonon a függőleges szegmenseket összekötő vízszintes vonal jelzi. a C_1 és C_2 jelű pontokból kilépve. Figyeljünk arra, hogy maga a vízszintes vonal pontosan az 1-gyel egyenlő klaszterközi távolság szintjén halad át. Továbbá a második lépésben a 3. számú, C_3-nak nevezett objektum csatlakozik ehhez a már két objektumot tartalmazó klaszterhez. A következő lépés a #4 és #5 objektumok egyesítése, amelyek távolsága 1,41. Az utolsó lépésben pedig az 1., 2. és 3. objektumok klaszterét kombináljuk a 4. és 5. objektumok klaszterével. A grafikonon látható, hogy a két utolsó előtti klaszter közötti távolság (az utolsó klaszter mind az 5 objektumot tartalmazza) nagyobb, mint 5 , de kevesebb, mint 6, mivel a két utolsó előtti klasztert összekötő felső vízszintes vonal megközelítőleg 7-es szinten halad át, a 4. és 5. objektumok kapcsolódási szintje pedig 1,41.

Az alábbi dendrogramot egy 70 feldolgozott kémiai mintából álló valós adatkészlet elemzésével kaptuk, amelyek mindegyikét 12 jellemző jellemezte.

2. diagram

A grafikonon látható, hogy az utolsó lépésben, amikor az utolsó két klaszter egyesül, a köztük lévő távolság körülbelül 200 egység. Látható, hogy az első klaszter sokkal kevesebb objektumot tartalmaz, mint a második klaszter.Az alábbiakban a dendrogram nagyított része látható, amelyen jól láthatóak a megfigyelési számok, jelöléssel C_65, C_58 stb. (balról jobbra): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 stb.

3. ábra A fenti 2. táblázat kinagyított része

Látható, hogy a 44-es objektum egy monoklaszter, amely az utolsó előtti lépésben egyesül a jobb oldali klaszterrel, majd az utolsó lépésben az összes megfigyelést egy klaszterbe egyesítik.

Az ilyen eljárásokban felépített másik grafikon a klaszterek közötti távolságok grafikonja az egyesülés minden lépésében. Az alábbiakban egy hasonló diagram látható a fenti dendrogramhoz.

4. diagram

Számos programban lehetőség van arra, hogy a fürtözés egyes lépéseinél táblázatos formában jelenítsék meg az objektumok kombinálásának eredményeit. A legtöbb ilyen táblázatban, a félreértések elkerülése érdekében, eltérő terminológiát használnak a kezdeti megfigyelések – a monoklaszterek és a két vagy több megfigyelésből álló tényleges klaszterek – megjelölésére. Az angol nyelvű statisztikai csomagokban a kezdeti megfigyeléseket (az adatmátrix sorait) "case" - case-nek jelöljük. Annak szemléltetésére, hogy a klaszterstruktúra mennyire függ a metrika megválasztásától és a klaszteruniós algoritmus megválasztásától, az alábbiakban a teljes kapcsolódási algoritmusnak megfelelő dendrogramot mutatunk be. És itt látjuk, hogy a 44-es objektum a legutolsó lépésben egyesül a kijelölés többi részével.

5. diagram

Hasonlítsuk össze egy másik diagrammal, amelyet ugyanazon az adatokon az egyetlen hivatkozás módszerével kaptunk. A teljes kapcsolódási módszerrel ellentétben látható, hogy ez a módszer egymáshoz szekvenciálisan kapcsolódó objektumok hosszú láncait generálja. Mindhárom esetben azonban elmondhatjuk, hogy két fő csoport emelkedik ki.

6. diagram

Figyeljünk arra is, hogy a 44-es objektum mindhárom esetben monoklaszterként csatlakozik, bár a klaszterezési folyamat különböző lépéseiben. Az ilyen monoklaszterek kiválasztása jó eszköz a rendellenes megfigyelések, az úgynevezett outlierek kimutatására. Töröljük ezt a „gyanús” 44-es objektumot, és hajtsuk végre ismét a klaszterezést. A következő dendrogramot kapjuk:

7. ábra

Látható, hogy a „lánc” hatás megmarad, csakúgy, mint a megfigyelések két lokális csoportjára való felosztás.

3. 2 AZ ITERATÍV KLUSTEREZÉSI MÓDSZEREK JELLEMZŐI

Az iteratív módszerek közül a legnépszerűbb a McKean-féle k-közép módszer. A hierarchikus módszerekkel ellentétben ennek a módszernek a legtöbb megvalósításában a felhasználónak magának kell megadnia a végső klaszterek kívánt számát, amelyet általában "k"-vel jelölnek. A hierarchikus klaszterezési módszerekhez hasonlóan a felhasználó választhat egy vagy másik típusú metrikát. A k-means módszer különböző algoritmusai az adott klaszterek kezdeti középpontjainak kiválasztásában is különböznek. A módszer egyes változataiban a felhasználó maga is megadhat (vagy kell) ilyen kezdeti pontokat, akár úgy, hogy valódi megfigyelésekből választja ki őket, akár úgy, hogy minden változóhoz megadja ezeknek a pontoknak a koordinátáit. A módszer más megvalósításaiban egy adott k számú kezdőpont kiválasztása véletlenszerűen történik, és ezek a kezdőpontok (klaszterszemcsék) a későbbiekben több lépésben finomíthatók. Az ilyen módszereknek 4 fő szakasza van:

· válasszon ki vagy rendeljen hozzá k megfigyelést, amelyek a klaszterek elsődleges központjai lesznek;

· szükség esetén közbülső klasztereket alakítanak ki úgy, hogy minden megfigyelést a legközelebbi meghatározott klaszterközpontokhoz rendelnek;

· miután az összes megfigyelést az egyes klaszterekhez rendeltük, az elsődleges klaszterközpontokat klaszterátlagokkal helyettesítjük;

· az előző iterációt addig ismételjük, amíg a klaszterközéppontok koordinátáinak változása minimálisra nem csökken.

A módszer egyes verzióiban a felhasználó beállíthatja a feltétel számértékét, amelyet a rendszer az új klaszterközéppontok kiválasztásának minimális távolságaként értelmez. Egy megfigyelés nem tekinthető új klaszterközpont jelöltjének, ha távolsága a lecserélt klaszterközponttól meghaladja a megadott számot. Ezt a paramétert egyes programokban "sugárnak" nevezik. Ezen a paraméteren kívül lehetőség van az iterációk maximális számának beállítására vagy egy bizonyos, általában meglehetősen kicsi szám elérésére is, amellyel az összes klaszterközéppont távolságváltozását összehasonlítjuk. Ezt a beállítást általában "konvergenciának" nevezik, mert tükrözi az iteratív klaszterezési folyamat konvergenciáját. Az alábbiakban bemutatunk néhány olyan eredményt, amelyet a McKean k-means módszerével kaptunk az előző adatokhoz. A kívánt klaszterek számát kezdetben 3-ra, majd 2-re állítottuk be. Első részük egy egyirányú varianciaanalízis eredményeit tartalmazza, amelyben a klaszterszám csoportosító tényezőként működik. Az első oszlop egy 12 változóból álló lista, ezt követi a négyzetösszegek (SS) és a szabadságfokok (df), majd a Fisher-féle F-próba, az utolsó oszlopban pedig az elért „p” szignifikancia szint.

2. táblázat McKean k-mean adatok 70 vizsgálati mintára vonatkoztatva.

Változók

Amint ebből a táblázatból látható, a három csoport átlagainak egyenlőségére vonatkozó nullhipotézist elvetik. Az alábbiakban az egyes klaszterekre vonatkozó összes változó átlagának grafikonja látható. A változók azonos klaszterátlagait az alábbiakban táblázat formájában mutatjuk be.

3. táblázat Az adatok részletes áttekintése három klaszter példáján.

Változó

1. klaszter

2. klaszter

3. klaszter

8. ábra

Az egyes klaszterek változóinak átlagértékeinek elemzése arra enged következtetni, hogy az X1 jellemző szerint az 1. és 3. klaszter közeli, míg a 2. klaszter átlagos értéke jóval alacsonyabb, mint a másik két klaszteré. Éppen ellenkezőleg, az X2 jellemző szerint az első klaszter a legalacsonyabb, míg a 2. és 3. klaszter magasabb és közeli átlagértékkel rendelkezik. Az X3-X12 jellemzők esetében az 1. klaszter átlagértékei szignifikánsan magasabbak, mint a 2. és 3. klaszterben. A két klaszterbe történő klaszterezés eredményeinek ANOVA elemzésének alábbi táblázata is azt mutatja, hogy el kell vetni az egyenlőségre vonatkozó nullhipotézist. csoportátlagok szinte mind a 12 jellemzőre, kivéve az X4 változót, amelynél az elért szignifikanciaszint 5% felettinek bizonyult.

4. táblázat. A két klaszterbe való csoportosítás eredményeinek diszperziós elemzésének táblázata.

Változók

Az alábbiakban egy grafikon és táblázat látható a csoport átlagairól a két klaszterbe való csoportosítás esetére.

5. táblázat. Táblázat a két klaszterbe történő klaszterezés esetére.

Változók

1. klaszter

2. klaszter

9. ábra.

Abban az esetben, ha a kutató nem tudja előre meghatározni a klaszterek legvalószínűbb számát, kénytelen megismételni a számításokat, más szám beállításával, hasonlóan a fentiekhez. Ezután a kapott eredményeket összehasonlítva álljunk meg az egyik legelfogadhatóbb klaszterezési lehetőségnél.

4 . JELLEMZŐK CSOPORTOSÍTÁSA

Az egyedi megfigyelések klaszterezésén kívül léteznek jellemző klaszterező algoritmusok is. Az egyik első ilyen módszer a korrelációs plejádok módszere Terentiev P.V. Az ilyen plejádok primitív képei gyakran megtalálhatók az orvosbiológiai publikációkban, kör alakjában, amelyet nyilakkal tarkítottak a jelek, amelyek között a szerzők összefüggést találtak. Számos objektum és szolgáltatás fürtözésére szolgáló program külön eljárásokkal rendelkezik. Például a SAS-csomagban a szolgáltatásfürtözéshez a VARCLUS eljárást (VARiable - változó és CLUSter - cluster) használják, míg a megfigyelések klaszterelemzését más eljárások - FASTCLUS és CLUSTER - végzik. A dendrogram felépítése mindkét esetben a TREE (fa) eljárással történik.

Más statisztikai csomagokban a klaszterezéshez szükséges elemek - objektumok vagy jellemzők - kiválasztása ugyanabban a modulban történik. A jellemzők klaszterezésének mérőszámaként gyakran olyan kifejezéseket használnak, amelyek tartalmazzák bizonyos együtthatók értékét, amelyek tükrözik egy jellemzőpár kapcsolatának erősségét. Ebben az esetben nagyon kényelmes az eggyel egyenlő kapcsolati erősségű jeleknek (funkcionális függőség), ha a jelek közötti távolságot nullával egyenlőnek veszik. Valójában funkcionális kapcsolat esetén az egyik jellemző értéke pontosan ki tudja számítani egy másik jellemző értékét. A jelek közötti kapcsolat erősségének csökkenésével a távolság ennek megfelelően nő. Az alábbiakban egy grafikon látható, amely 12 jellemző kombinációjának dendrogramját mutatja, amelyeket fentebb 70 analitikai minta klaszterezésekor használtunk.

10. ábra. Dendrogram12 jellemző klaszterezése.

Amint ebből a dendrogramból is látható, a jellemzők két helyi csoportosításával van dolgunk: X1-X10 és X11-X12. Az X1-X10 jellemzők csoportját a klaszterközi távolságok meglehetősen kis értéke jellemzi, amely nem haladja meg a 100 egységet. Itt is látunk néhány belső párosított alcsoportot: X1 és X2, X3 és X4, X6 és X7. E párok jellemzői közötti távolság, amely nagyon közel van a nullához, erős párkapcsolatukat jelzi. Míg az X11 és X12 pár esetében a klaszterek közötti távolság értéke sokkal nagyobb, és körülbelül 300 egység. Végül, a bal (X1-X10) és a jobb (X11-X12) klaszterek közötti nagyon nagy távolság, amely körülbelül 1150 egységnek felel meg, azt jelzi, hogy a két jellemzőcsoport közötti kapcsolat meglehetősen minimális.

5. A KLASZTEREZÉS STABILITÁSA ÉS MINŐSÉGE

Nyilvánvalóan abszurd lenne feltenni azt a kérdést, hogy mennyire abszolút a klaszterelemzési módszerekkel kapott osztályozás. A klaszterezési módszer megváltoztatásakor a stabilitás abban nyilvánul meg, hogy két klaszter elég jól látható a dendrogramokon.

A klaszterelemzési eredmények stabilitásának ellenőrzésének egyik lehetséges módjaként a különböző klaszterező algoritmusoknál kapott eredmények összehasonlításának módszere használható. További módok a B. Efron által 1977-ben javasolt úgynevezett bootstrap módszer, a "jackknife" és a "sliding control" módszerek. A klasztermegoldás stabilitásának ellenőrzésének legegyszerűbb módja az lehet, ha a kezdeti mintát véletlenszerűen két nagyjából egyenlő részre osztjuk, mindkét részt klaszterezzük, majd összehasonlítjuk az eredményeket. Egy időigényesebb módszer magában foglalja az első objektum szekvenciális kizárását az elején, és a többi (N - 1) objektum csoportosítását. Továbbá, ezt az eljárást egymás után végrehajtva, kivéve a második, harmadik stb. objektumok esetén az összes N kapott klaszter szerkezetét elemzi. Egy másik stabilitás-ellenőrzési algoritmus magában foglalja az N objektum eredeti mintájának többszöri reprodukálását, az eredeti minta megkettőzését, majd az összes duplikált minta egy nagy mintává (pszeudo-általános sokaság) egyesítését, és egy új, N objektumból álló minta véletlenszerű kinyerését. Ezt követően ezt a mintát klaszterezzük, majd egy új véletlenszerű mintát veszünk, és ismét klaszterezést hajtunk végre stb. Ez is elég munkaigényes.

Nem kevesebb probléma merül fel a klaszterezés minőségének értékelése során. A klasztermegoldások optimalizálására jó néhány algoritmus ismert. Az 50-es években jelentek meg az első munkák, amelyek tartalmazták a klaszteren belüli variancia minimalizálására vonatkozó kritérium megfogalmazásait és az optimális megoldás megtalálására szolgáló (k-means típusú) algoritmust. 1963-ban J. Ward cikke is bemutatott egy hasonló optimalizálási hierarchikus algoritmust. A fürtmegoldás optimalizálására nincs univerzális kritérium. Mindez megnehezíti a kutató számára az optimális megoldás kiválasztását. Ilyen helyzetben a legjobb módja annak állítása, hogy a talált fürtmegoldás az ezt a szakaszt A kutatás optimális, csak ennek a döntésnek a konzisztenciája a többváltozós statisztika más módszereivel nyert következtetésekkel.

A klaszterezés optimálisságára vonatkozó következtetés mellett pozitív eredmények születtek a kapott megoldás prediktív mozzanatainak már más vizsgálati tárgyakon történő ellenőrzése is. A klaszteranalízis hierarchikus módszereinek alkalmazásakor javasolhatjuk a klaszterközi távolság lépésenkénti változásainak több grafikonjának összehasonlítását. Ebben az esetben előnyben kell részesíteni azt a lehetőséget, amelynél az első lépéstől több utolsó előtti lépésig egy ilyen növekmény sík vonala figyelhető meg, a grafikonon éles függőleges emelkedéssel a klaszterezés utolsó 1-2 lépésében.

KÖVETKEZTETÉSEK

Munkám során nem csak az ilyen típusú elemzések bonyolultságát, hanem az optimális adatfeldolgozási képességeket is igyekeztem bemutatni, mert az eredmények pontosságához gyakran több tíztől százig terjedő mintát kell felhasználni. Ez a típus az elemzés segíti az eredmények osztályozását és feldolgozását. Nem is tartom lényegtelennek az elfogadhatóságot ebben az elemzésben számítógépes technológia, amely lehetővé teszi, hogy az eredmények feldolgozása kevésbé időigényes legyen, és így nagyobb figyelmet fordítsanak az elemzési mintavétel helyességére.

A klaszteranalízis alkalmazása során vannak olyan finomságok, részletek, amelyek egyedi konkrét esetekben jelennek meg, és nem azonnal láthatók. Például a jellemzők skálájának szerepe minimális lehet, és bizonyos esetekben domináns lehet. Ilyen esetekben változó transzformációt kell alkalmazni. Ez különösen akkor hatékony, ha olyan módszereket használunk, amelyek nemlineáris jellemzőtranszformációkat hoznak létre, amelyek általában növelik a jellemzők közötti összefüggések általános szintjét.

Még nagyobb a specifikusság a klaszteranalízis olyan objektumokkal kapcsolatban, amelyeket csak minőségi jellemzők írnak le. Ebben az esetben a kvalitatív jellemzők előzetes digitalizálásának és az új jellemzőkkel történő klaszteranalízis módszerei meglehetősen sikeresek. Munkám során kimutattam, hogy a klaszteranalízis nagyon sok új és eredeti információval szolgál mind a kellően tanulmányozott rendszerekben való alkalmazása, mind az ismeretlen szerkezetű rendszerek vizsgálata során.

Azt is meg kell jegyezni, hogy a klaszteranalízis nélkülözhetetlenné vált az evolúciós kutatásban, lehetővé téve az evolúciós utakat mutató filogenetikai fák építését. Ezeket a módszereket széles körben alkalmazzák a fizikai és analitikai kémia tudományos kutatási programjaiban is.

BIBLIOGRÁFIA

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Az alkalmazott statisztikai elemzéshez használt szoftvercsomag felépítéséről és tartalmáról//Algoritmikus és szoftveres alkalmazott statisztikai elemzéshez.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. A többdimenziós megfigyelések osztályozása.--M.: Statisztika, 1974.

3) Becker V. A., Lukatskaya M. L. A csatolási együtthatók mátrixának szerkezetének elemzéséről//A gazdasági és statisztikai modellezés és előrejelzés kérdései az iparban.-- Novoszibirszk, 1970.

4) Braverman E. M., Muchnik I. B. Az adatfeldolgozás strukturális módszerei.--M.: Nauka, 1983.

5) Voronin Yu. A. Osztályozási elmélet és alkalmazásai. - Novoszibirszk: Nauka, 1987.

6) Jó I. J. Botryology of botryology//Osztályozás és klaszter.--M.: Mir, 1980.

7) Dubrovsky S. A. Alkalmazott többváltozós statisztikai elemzés.--M.: Pénzügy és statisztika, 1982.

8) Duran N., Odell P. Klaszterelemzés.--M.: Statisztika, 1977.

9) Eliseeva I.I., Rukavishnikov V.S. Csoportosítás, korreláció, mintafelismerés.--M.: Statisztika, 1977.

10) Zagoruiko N. G. Felismerési módszerek és alkalmazásuk.--M .: Szovjet rádió, 1972.

11) Zade L. A. Fuzzy halmazok és alkalmazásuk a mintafelismerésben és a klaszteranalízisben//Classification and cluster.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Többdimenziós csoportosítások.--M.: Statisztika, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA A particionálás érvényességének ellenőrzésének egyik módja a klaszteranalízisben.//Többváltozós statisztikai elemzés alkalmazása a közgazdaságtanban és a termékminőség-értékelésben.--Ch. P. Tartu, 1977.

14) Shurygin A. M. Interpoint távolságok és különbségek megoszlása ​​// Szoftver és algoritmikus támogatás az alkalmazott többdimenziós statisztikai elemzéshez.--M., 1983.

15) Eremaa R. Általános elmélet klaszterrendszerek és algoritmusok tervezése numerikus reprezentációik megtalálásához: Proceedings of the Computing Center of TSU.--Tartu, 1978.

16) Yastremsky B.S. Válogatott művek.--M.: Statisztika, 1964.

Hasonló dokumentumok

    A piaci szegmentáció céljai ben marketing tevékenység. A klaszteranalízis lényege, megvalósításának főbb állomásai. Válassza ki a távolság vagy a hasonlóság mérésének módját. Hierarchikus, nem hierarchikus klaszterezési módszerek. Megbízhatóság és megbízhatóság értékelése.

    jelentés, hozzáadva 2009.11.02

    Alapvető mutatók pénzügyi helyzet vállalkozások. Vállalkozási válságok, okai, típusai és következményei. Modern módszerekés klaszterelemző eszközök, használatuk jellemzői a vállalkozás pénzügyi és gazdasági értékeléséhez.

    szakdolgozat, hozzáadva: 2013.10.09

    Végezze el a vállalkozások klaszterelemzését a Statgraphics Plus segítségével. Lineáris regressziós egyenlet felépítése. Rugalmassági együtthatók számítása regressziós modellekkel. Az egyenlet statisztikai szignifikanciájának és a determinációs együttható értékelése.

    feladat, hozzáadva 2014.03.16

    Tipológiai regressziók felépítése az egyes megfigyelési csoportokhoz. Térbeli adatok és időbeli információk. A klaszteranalízis alkalmazási köre. A tárgyak homogenitásának fogalma, a távolságmátrix tulajdonságai. Tipológiai regresszió végrehajtása.

    bemutató, hozzáadva 2013.10.26

    Kombinált modellek és módszerek létrehozása, mint az előrejelzés korszerű módja. ARIMA alapú modell stacionárius és nem stacionárius idősorok leírására klaszterezési problémák megoldásában. Autoregresszív AR modellek és korrelogramok alkalmazása.

    bemutató, hozzáadva: 2015.01.05

    Jellegzetes különféle fajták mérőszámok. Legközelebbi szomszéd módszer és általánosításai. Legközelebbi szomszéd algoritmus. Parzen ablak módszer. Általános metrikus osztályozó. A mérőszám kiválasztásának problémája. Manhattan és Euklideszi távolság. koszinusz mérték.

    szakdolgozat, hozzáadva 2015.08.03

    A Krasznodar Terület építőiparának jellemzői. A lakásépítés fejlődésének előrejelzése. A klaszteranalízis korszerű módszerei és eszközei. Többdimenziós statisztikai módszerek egy vállalkozás gazdasági állapotának diagnosztizálására.

    szakdolgozat, hozzáadva: 2015.07.20

    A jelzáloghitelezés jellemzői a Brjanszki régió példáján. Matematikai döntéshozatali módszerek áttekintése: szakértői értékelések, szekvenciális és páros összehasonlítások, hierarchiaelemzés. Az optimális jelzáloghitel keresőprogramjának kidolgozása.

    szakdolgozat, hozzáadva 2012.11.29

    Felhasználási területek rendszer elemzése, helye, szerepe, céljai és funkciói benne modern tudomány. A rendszerelemzés módszereinek fogalma, tartalma, informális módszerei. A heurisztikus és szakértői kutatási módszerek jellemzői és alkalmazásuk jellemzői.

    szakdolgozat, hozzáadva 2013.05.20

    Ökonometriai módszerek fejlesztése, kutatása a közgazdasági adatok sajátosságait figyelembe véve, a gazdaságtudományi és gyakorlati igényeknek megfelelően. Ökonometriai módszerek és modellek alkalmazása gazdasági adatok statisztikai elemzésére.

Egyetem: VZFEI

Év és város: Moszkva 2008


1. Bemutatkozás. A klaszterelemzési módszer fogalma.

2. A klaszteranalízis alkalmazási módszertanának ismertetése. Kontroll példa a problémamegoldásra.

4. Felhasznált irodalom jegyzéke

  1. Bevezetés. A klaszterelemzési módszer fogalma.

A klaszteranalízis olyan módszerek összessége, amelyek lehetővé teszik a többdimenziós megfigyelések osztályozását, amelyek mindegyikét X1, X2, ..., Xk jellemzők (paraméterek) írják le.

A klaszteranalízis célja egymáshoz hasonló objektumcsoportok kialakítása, amelyeket általában klasztereknek (osztály, taxon, koncentráció) neveznek.

A klaszteranalízis a statisztikai kutatások egyik területe. Különösen fontos helyet foglal el azokban a tudományágakban, amelyek a tömegjelenségek és -folyamatok vizsgálatához kapcsolódnak. A klaszterelemzési módszerek kidolgozásának és alkalmazásának szükségességét az diktálja, hogy elősegítik a tudományosan megalapozott osztályozások felépítését, a megfigyelt sokaság egységei közötti belső kapcsolatok azonosítását. Ezen kívül klaszterelemzési módszerek is használhatók az információk tömörítésére, ami fontos tényező a statisztikai adatfolyamok állandó növekedése és összetettsége esetén.

A klaszterelemzési módszerek a következő problémák megoldását teszik lehetővé:

A tárgyak osztályozásának elvégzése, figyelembe véve a tárgyak lényegét, természetét tükröző jellemzőket. Egy ilyen probléma megoldása általában a besorolandó objektumok összességével kapcsolatos ismeretek elmélyítéséhez vezet;

A vizsgált objektumhalmazban valamilyen struktúra jelenlétére vonatkozó feltételezések ellenőrzése, pl. meglévő struktúra keresése;

Új osztályozások felépítése a gyengén vizsgált jelenségekre, amikor a populáción belüli kapcsolatok jelenlétét kell megállapítani, és meg kell próbálni ebbe strukturálni (1. 85-86. o.).

2. A klaszteranalízis alkalmazási módszertanának ismertetése. Kontroll példa a problémamegoldásra.

A klaszteranalízis lehetővé teszi, hogy n objektumból homogén csoportokra (klaszterekre) bontsa ki, amelyeket k jellemzővel jellemez. Az objektumok homogenitását a p(xi xj) távolság határozza meg, ahol xi = (xi1, …., xik) és xj= (xj1,…,xjk) az i k attribútumának értékéből álló vektorok. -edik és j-edik objektumok.

A numerikus jellemzőkkel jellemezhető objektumok távolságát a következő képlet határozza meg:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Az objektumokat homogénnek tekintjük, ha p(xi xj)< p предельного.

Az unió grafikus ábrázolása egy fürt uniófa - dendrogram - segítségével érhető el. (2. 39. fejezet).

Teszteset (92. példa).

Az értékesítés volumene

Osztályozzuk ezeket az objektumokat a „közeli szomszéd” elv alapján. Határozzuk meg az objektumok közötti távolságokat az (1)* képlet segítségével. Töltsük ki a táblázatot.

Magyarázzuk el, hogyan kell kitölteni a táblázatot.

Az i sor és a j oszlop metszéspontjában a p(xi xj) távolság látható (az eredményt két tizedesjegyre kerekítjük).

Például az 1. sor és a 3. oszlop metszéspontjában a p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10 távolság látható, a 3. sor és oszlop metszéspontjában pedig 5, a távolság p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6,08. Mivel p(xi, xj) = p(xj,xi), a táblázat alsó részét nem kell kitölteni.

Alkalmazzuk a „közeli szomszéd” elvet. A táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van, akkor bármelyiket választjuk). Ez p 1,2 ≈ p 4,5 \u003d 2,24. Legyen p min = p 4,5 = 2,24. Ekkor a 4-es és 5-ös objektumot egy csoportba vonhatjuk, azaz a 4-es és 5-ös összevont oszlopban lesz a legkisebb az eredeti távolságtáblázat megfelelő számú 4-es és 5-ös oszlopa. Ugyanezt tesszük a 4. és 5. sorral is. Kapunk egy új táblázatot.

A kapott táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van, akkor bármelyiket választjuk): р min = р 1,2 = 2,24. Ekkor az 1,2,3 objektumokat összevonhatjuk egy csoportba, vagyis az 1,2,3 egyesített oszlop az előző távolságtáblázat 1., 2. és 3. oszlopának megfelelő számú oszlopát tartalmazza majd. Ugyanezt tesszük az 1., 2. és 3. sorral is. Új táblázatot kapunk.

Két klasztert kaptunk: (1,2,3) és (4,5).

3. Feladatok megoldása az irányítási munkához.

85. probléma.

Körülmények:Öt gyártóüzemre két jellemző jellemző: az értékesítési volumen és a tárgyi eszközök átlagos éves költsége.

Az értékesítés volumene

Állandó termelési eszközök éves átlagos költsége

Megoldás: Határozzuk meg az objektumok közötti távolságokat az (1)* képlettel (két tizedesjegyre kerekítünk):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1,2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3,61

p 1,3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2,2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2,3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 \u003d √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

A számítások eredményei alapján kitöltjük a táblázatot:

Alkalmazzuk a legközelebbi szomszéd elvét. Ehhez a táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van belőlük, válassza ki bármelyiket). Ez p 2,3=2,24. Legyen p min = p 2,3 = 2,24, akkor kombinálhatjuk a "2" és "3" oszlopok objektumait, valamint kombinálhatjuk a "2" és "3" objektumok sorait is. Az új táblázatban az eredeti táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

Az új táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van belőlük, akkor bármelyiket kiválasztjuk). Ez p 4,5=3,16. Legyen p min = p 4,5 = 3,16, akkor kombinálhatjuk a "4" és "5" oszlopok objektumait, valamint kombinálhatjuk a "4" és "5" objektumok sorait is. Az új táblázatban az eredeti táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

Az új táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van belőlük, akkor bármelyiket kiválasztjuk). Ezek p 1, 2 és 3=3,61. Legyen p min = p 1, 2 és 3 = 3,61, akkor összevonhatjuk az "1" és a "2 és 3" oszlopobjektumokat, illetve sorokat is egyesíthetünk. Az új táblázatban az eredeti táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

Két klasztert kapunk: (1,2,3) és (4,5).

A dendrogram megmutatja az elemek kiválasztásának sorrendjét és a megfelelő minimális távolságokat pmin.

Válasz: A "legközelebbi szomszéd" elve szerinti klaszteranalízis eredményeként 2 egymáshoz hasonló objektumcsoport jön létre: (1,2,3) és (4,5).

211. feladat.

Körülmények:Öt gyártóüzemre két jellemző jellemző: az értékesítési volumen és a tárgyi eszközök átlagos éves értéke.

Az értékesítés volumene

Állandó termelési eszközök éves átlagos költsége

Osztályozza ezeket az objektumokat a legközelebbi szomszéd elv alapján.

Megoldás: A probléma megoldásához az adatokat az eredeti táblázatban mutatjuk be. Határozzuk meg az objektumok közötti távolságokat. Az objektumokat a „legközelebbi szomszéd” elv szerint osztályozzuk. Az eredményeket dendrogram formájában mutatjuk be.

Az értékesítés volumene

Állandó termelési eszközök éves átlagos költsége

Az (1)* képlet segítségével megtaláljuk az objektumok közötti távolságokat:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2, 3 = 7,07, p 2,4 = 2, p 2,5 = 3,3, p 2,5 = 3,3 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4, 4 = 0, p 4,5 = 1, p 5,5 = 0.

Az eredményeket a táblázat tartalmazza:

A táblázatban szereplő távolságok legkisebb értéke p 4,5=1. Legyen p min = p 4,5 = 1, akkor kombinálhatjuk a "4" és "5" oszlopok objektumait, valamint kombinálhatjuk a "4" és "5" objektumok sorait is. Az új táblázatban az eredeti táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

Az új táblázatban szereplő távolságok legkisebb értéke p 2, 4 és 5=2. Legyen p min = p 2, 4 és 5=2, ekkor kombinálhatjuk a "4 és 5" és a "3" oszlopok objektumait, valamint kombinálhatjuk a "4 és 5" és a "3" objektumok sorait is. Az új táblázatban a táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

A távolságok legkisebb értéke az új táblázatban p 3,4,5=2. Legyen p min = p 3,4,5=2, akkor kombinálhatjuk a "3,4,5" és a "2" oszlopok objektumait, valamint kombinálhatjuk a "3,4,5" és "" objektumok sorait is. 2" Az új táblázatban a táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

vagy jelentkezzen be az oldalra.

Fontos! Minden bemutatott, ingyenesen letölthető tesztanyag célja, hogy tervet vagy alapot készítsen saját tudományos munkájához.

Barátok! Egyedülálló lehetőséged van, hogy segíts a hozzád hasonló hallgatóknak! Ha oldalunk segített megtalálni a megfelelő munkát, akkor biztosan megérti, hogy az Ön által hozzáadott munka hogyan könnyíti meg mások munkáját.

Ha az Ellenőrző Munka Ön szerint rossz minőségű, vagy Ön már találkozott ezzel a munkával, kérjük, jelezze felénk.

KLASZTERELEMZÉS A TÁRSADALMI-GAZDASÁGI ELŐREJELZÉS PROBLÉMÁJABAN

Bevezetés a klaszteranalízisbe.

A társadalmi-gazdasági jelenségek elemzése és előrejelzése során a kutató gyakran találkozik leírásuk többdimenziós voltával. Ez történik a piaci szegmentáció problémájának megoldásában, az országok tipológiájának felépítésében kellően nagy számú mutató szerint, az egyes áruk piaci helyzetének előrejelzésében, a gazdasági depresszió tanulmányozásában és előrejelzésében, valamint sok más probléma.

A többváltozós elemzés módszerei a leghatékonyabb kvantitatív eszközei a nagyszámú jellemzővel leírható társadalmi-gazdasági folyamatok tanulmányozásának. Ezek közé tartozik a klaszteranalízis, a taxonómia, a mintafelismerés és a faktoranalízis.

A klaszteranalízis a legvilágosabban tükrözi a többváltozós elemzés jellemzőit az osztályozásban, a faktoranalízis - a kommunikáció tanulmányozásában.

A klaszterelemzési megközelítést a szakirodalom néha numerikus taxonómiának, numerikus osztályozásnak, öntanuló felismerésnek stb.

A klaszterelemzés a szociológiában találta meg első alkalmazását. A klaszteranalízis elnevezés az angol cluster szóból származik - csomó, felhalmozódás. A klaszteranalízis tárgyát először 1939-ben határozta meg és írta le Trion kutató. A klaszteranalízis fő célja, hogy a vizsgált objektumok és jellemzők halmazát megfelelő értelemben homogének csoportokra vagy klaszterekre ossza fel. Ez azt jelenti, hogy megoldódik az adatok osztályozásának és a benne lévő megfelelő struktúra azonosításának problémája. A klaszterelemzési módszerek sokféle esetben alkalmazhatók, még olyan esetekben is, amikor egyszerű csoportosításról beszélünk, amelyben minden a mennyiségi hasonlóság alapján létrejövő csoportok kialakítására vezethető vissza.

A fürtelemzés nagy előnye, hogy lehetővé teszi az objektumok particionálását nem egy paraméter, hanem egy egész szolgáltatáskészlet szerint. Ezenkívül a klaszteranalízis – a legtöbb matematikai és statisztikai módszertől eltérően – nem szab semmilyen korlátozást a vizsgált objektumok típusára vonatkozóan, és lehetővé teszi, hogy szinte tetszőleges természetű kiindulási adatok halmazát vegyük figyelembe. Ennek nagy jelentősége van például a konjunktúra-előrejelzésben, amikor az indikátoroknak sokféle formájuk van, amelyek megnehezítik a hagyományos ökonometriai megközelítések használatát.

A klaszterelemzés lehetővé teszi meglehetősen nagy mennyiségű információ figyelembevételét, valamint nagy mennyiségű társadalmi-gazdasági információ drasztikus csökkentését, tömörítését, kompakt és vizuális megjelenését.

A klaszterelemzés nagy jelentőséggel bír a gazdasági fejlődést jellemző idősorok (például általános gazdasági és áruviszonyok) kapcsán. Itt lehet kiemelni azokat az időszakokat, amikor a megfelelő mutatók értékei meglehetősen közel voltak, valamint meghatározható az idősorok csoportja, amelyek dinamikája a leginkább hasonló.

A klaszteranalízis ciklikusan használható. Ebben az esetben a vizsgálatot a kívánt eredmény eléréséig végezzük. Ugyanakkor itt minden ciklus olyan információkkal szolgálhat, amelyek nagymértékben megváltoztathatják a klaszteranalízis további alkalmazásának irányát és megközelítéseit. Ez a folyamat visszacsatolási rendszerként ábrázolható.

A társadalmi-gazdasági előrejelzés problémáiban nagyon ígéretes a klaszteranalízis más kvantitatív módszerekkel (például regressziós elemzéssel) való kombinálása.

Mint minden más módszernek, a klaszteranalízisnek is vannak bizonyos hátrányai és korlátai: Különösen a klaszterek összetétele és száma függ a kiválasztott particionálási feltételektől. A kezdeti adattömb kompaktabb formára való redukálásakor bizonyos torzulások léphetnek fel, és az egyes objektumok egyedi jellemzői is elveszhetnek, mivel azokat a klaszterparaméterek általánosított értékeinek jellemzői helyettesítik. Az objektumok osztályozása során nagyon gyakran figyelmen kívül hagyják annak lehetőségét, hogy a vizsgált halmazban nincsenek klaszterértékek.

A klaszteranalízis során a következőket veszik figyelembe:

a) a kiválasztott jellemzők elvileg lehetővé teszik a kívánt klaszterezést;

b) a mértékegységek (skála) helyesen vannak megválasztva.

A méretarány megválasztása nagy szerepet játszik. Általában az adatokat úgy normalizálják, hogy kivonják az átlagot és elosztják a szórással, így a szórás eggyel egyenlő.

A klaszteranalízis problémája.

A klaszteranalízis feladata, hogy az X halmazban található adatok alapján a G objektumok halmazát m (m egy egész szám) klaszterre (részhalmazra) bontsa Q1, Q2, ..., Qm, úgy, hogy minden Gj objektum egy és csak egy partíció részhalmazhoz tartozik, és hogy az azonos klaszterhez tartozó objektumok hasonlóak, míg a különböző klaszterekhez tartozó objektumok heterogének.

Például legyen G-ben n ország, amelyek mindegyikét az egy főre jutó GNP (F1), az 1000 főre jutó M autók száma (F2), az egy főre jutó villamosenergia-fogyasztás (F3), az egy főre jutó acélfogyasztás (F4) jellemzi, stb. Ekkor X1 (mérési vektor) meghatározott jellemzők halmaza az első országhoz, X2 a másodikhoz, X3 a harmadikhoz, és így tovább. A kihívás az országok fejlettségi szint szerinti lebontása.

A klaszteranalízis problémájára olyan partíciók jelentenek megoldást, amelyek megfelelnek egy bizonyos optimalitási kritériumnak. Ez a kritérium lehet valamilyen funkcionális, amely kifejezi a különböző partíciók és csoportosítások kívánatossági szintjét, amelyet célfüggvénynek nevezünk. Például a négyzetes eltérések csoporton belüli összege tekinthető célfüggvénynek:

ahol xj - a j-edik objektum méreteit jelöli.

A klaszteranalízis problémájának megoldásához szükséges a hasonlóság és heterogenitás fogalmának meghatározása.

Nyilvánvaló, hogy az i-edik és a j-edik objektumok ugyanabba a klaszterbe esnének, ha az Xi és Xj pontok közötti távolság (távolság) elég kicsi lenne, és különböző klaszterekbe esnének, ha ez a távolság elég nagy lenne. Így az objektumok egy vagy több klaszterébe való bejutást az Xi és Xj Ep-től való távolság fogalma határozza meg, ahol Ep egy p-dimenziós euklideszi tér. Egy nem negatív d(Xi, Xj) függvényt távolságfüggvénynek (metrikának) nevezünk, ha:

a) d(Xi , Xj) ³ 0, minden Xi és Xj Ep-ből

b) d(Xi, Xj) = 0 akkor és csak akkor, ha Xi = Xj

c) d(Xi, Xj) = d(Xj, Xi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), ahol Xj; Xi és Xk bármely három vektor az Ep-ből.

Xi és Xj d(Xi, Xj) értékét Xi és Xj távolságnak nevezzük, és a kiválasztott jellemzők szerint (F1, F2, F3, ..., Fр) egyenértékű a Gi és Gj közötti távolsággal.

Leggyakrabban használt következő jellemzőit távolságok:

1. Euklideszi távolság d2(Хi , Хj) =

2. l1 - norma d1(Хi , Хj) =

3. Supremum - norma d¥ (Хi , Хj) = sup

k = 1, 2, ..., p

4. lp - norma dр(Хi , Хj) =

Az euklideszi metrika a legnépszerűbb. Az l1 metrikát a legkönnyebb kiszámítani. A supremum-norma könnyen kiszámítható és rendezési eljárást tartalmaz, míg az lp-norma az 1, 2, 3, távolságfüggvényeket fedi le.

Legyen n mérés X1, X2,..., Xn p ´n adatmátrixként:

Ekkor a d(Хi , Хj) vektorpárok közötti távolság szimmetrikus távolságmátrixként ábrázolható:

A távolsággal ellentétes fogalom a Gi objektumok közötti hasonlóság fogalma. és Gj. Az S(Хi ; Хj) = Sij nemnegatív valós függvényt hasonlóság mértékének nevezzük, ha:

1) 0 £ S(Xi , Xj)<1 для Хi¹ Хj

2) S(Хi , Хi) = 1

3) S(Xi, Xj) = S(Xj, Xi)

A hasonlósági mérőszámok párjait hasonlósági mátrixba lehet kombinálni:

A Sij értékét hasonlósági együtthatónak nevezzük.

1.3. Klaszteranalízis módszerei.

Manapság számos klaszteranalízis módszer létezik. Nézzünk meg néhányat ezek közül (az alábbiakban megadott módszereket általában minimális variancia módszereinek nevezik).

Legyen X a megfigyelési mátrix: X = (X1, X2,..., Xu), és az Xi és Xj közötti euklideszi távolság négyzetét a következő képlet határozza meg:

1) A teljes kapcsolatok módszere.

Ennek a módszernek az a lényege, hogy két azonos csoportba (klaszterbe) tartozó objektum hasonlósági együtthatója kisebb, mint valamilyen S küszöbérték. A d euklideszi távolság szempontjából ez azt jelenti, hogy az objektum két pontja (objektuma) közötti távolság a klaszter nem léphet túl valamilyen h küszöbértéket. Így h meghatározza egy klasztert alkotó részhalmaz legnagyobb megengedett átmérőjét.

2) A maximális helyi távolság módszere.

Minden objektum egypontos klaszternek minősül. Az objektumok csoportosítása a következő szabály szerint történik: két klasztert kombinálunk, ha az egyik klaszter pontjai és a másik pontjai közötti maximális távolság minimális. Az eljárás n - 1 lépésből áll, és olyan partíciókat eredményez, amelyek megfelelnek az előző módszer összes lehetséges partíciójának bármely küszöbértékhez.

3) Szómódszer.

Ebben a módszerben a négyzetes eltérések csoporton belüli összegét használjuk célfüggvényként, ami nem más, mint az egyes pontok (objektumok) közötti távolságok négyzetes összege és az ezt az objektumot tartalmazó klaszter átlaga. Minden lépésben két klaszter kombinálódik, amelyek a célfüggvény minimális növekedéséhez vezetnek, azaz. csoporton belüli négyzetösszeg. Ez a módszer szorosan elhelyezkedő klaszterek kombinálására irányul.

4) Centroid módszer.

A két klaszter közötti távolság az euklideszi távolság a klaszterek középpontjai (átlagai) között:

d2 ij = (`X – `Y)Т(`X – `Y) A klaszterezés lépésről lépésre halad n-1 lépésenként, két G és p klaszter egyesítése, amelyek minimális értéke d2ij Ha n1 sokkal nagyobb, mint n2, akkor két klaszter egyesülési központjai közel vannak egymáshoz, és a klaszterek kombinálásakor gyakorlatilag figyelmen kívül hagyjuk a második klaszter jellemzőit. Ezt a módszert néha súlyozott csoportok módszerének is nevezik.

1.4 Szekvenciális klaszterezési algoritmus.

Tekintsük Ι = (Ι1, Ι2, … Ιn) (Ι1), (Ι2),…(Ιn) klaszterek halmazának. Válasszunk közülük kettőt, például Ι i-t és Ι j-t, amelyek bizonyos értelemben közelebb állnak egymáshoz, és egyesítik őket egy klaszterbe. Az új klaszterkészlet, amely már n-1 klaszterből áll, a következő lesz:

(Ι1), (Ι2)…, (Ι i , Ι j), …, (Ιn).

A folyamatot megismételve egymást követő klaszterhalmazokat kapunk, amelyek (n-2), (n-3), (n-4) stb. klaszterek. Az eljárás végén kaphat egy klasztert, amely n objektumból áll, és egybeesik a kezdeti Ι = (Ι1, Ι2, … Ιn) halmazzal.

A távolság mértékeként az euklideszi metrika di j2 négyzetét vesszük. és számítsuk ki a D = (di j2) mátrixot, ahol di j2 a távolság négyzete

Ι1 Ι2 Ι3 …. Ιn
Ι1 0 d122 d132 …. d1n2
Ι2 0 d232 …. d2n2
Ι3 0 …. d3n2
…. …. ….
Ιn 0

Legyen Ι i és Ι j távolsága minimális:

di j2 = min (di j2, i ¹ j). Ι i és Ι j segítségével új klasztert alkotunk

(Ιi, Ιj). Szerkesszünk új ((n-1), (n-1)) távolságmátrixot

(I , Ι j) Ι1 Ι2 Ι3 …. Ιn
(Ι i ; Ι j) 0 di j21 di j22 di j23 …. di j2n
Ι1 0 d122 d13 …. d12n
Ι2 0 di j21 …. d2n
Ι3 0 …. d3n
Ιn 0

Az utolsó mátrix (n-2) sorát az előzőből veszik, és az első sort újraszámítják. A számítások minimálisra csökkenthetők, ha di j2k,k = 1, 2,…, n kifejezhető; (k ¹ i ¹ j) az eredeti mátrix elemein keresztül.

Kezdetben csak egyelemes klaszterek között határoztuk meg a távolságot, de szükséges a több elemet tartalmazó klaszterek közötti távolságok meghatározása is. Ezt többféleképpen megtehetjük, és a választott módszertől függően eltérő tulajdonságú klaszterelemző algoritmusokat kapunk. Például beállíthatjuk az i + j klaszter és néhány másik k klaszter közötti távolságot az i és k klaszter, valamint a j és k klaszter közötti távolságok számtani átlagával:

di+j,k = ½ (di k + dj k).

De definiálhatjuk a di+j,k-t a két távolság minimumaként is:

di+j,k = min(di k + dj k).

Így leírjuk az agglomeratív hierarchikus algoritmus műveletének első lépését. A következő lépések ugyanazok.

Az algoritmusok meglehetősen széles osztálya érhető el, ha a következő általános képletet használjuk a távolságok újraszámításához:

di+j,k = A(w) min(dik djk) + B(w) max(dik djk), ahol

A(w) = ha dik £ djk

A(w) = ha dik > djk

B(w) = ha dik £ djk

B(w) = ha dik > djk

ahol ni és nj az i és j klaszterek elemeinek száma, w pedig egy szabad paraméter, amelynek megválasztása meghatároz egy adott algoritmust. Például w = 1 esetén az úgynevezett „átlagos kapcsolat” algoritmust kapjuk, amelyre a távolságok újraszámításának képlete a következő alakot ölti:

di+j,k =

Ebben az esetben az algoritmus minden lépésében két klaszter közötti távolság egyenlőnek bizonyul az összes elempár közötti távolság számtani átlagával úgy, hogy a pár egyik eleme az egyik klaszterhez, a másik a másikhoz tartozik.

A w paraméter vizuális jelentése világossá válik, ha w®¥-t teszünk. A távolságátszámítási képlet a következőképpen alakul:

di+j,k = min(di,k djk)

Ez lesz az úgynevezett „legközelebbi szomszéd” algoritmus, amely lehetővé teszi tetszőlegesen összetett alakú klaszterek kiválasztását, feltéve, hogy az ilyen klaszterek különböző részeit egymáshoz közeli elemláncok kötik össze. Ebben az esetben az algoritmus minden lépésében két klaszter távolsága megegyezik az ehhez a két klaszterhez tartozó két legközelebbi elem távolságával.

Gyakran feltételezik, hogy a csoportosított elemek közötti kezdeti távolságok (különbségek) adottak. Bizonyos esetekben ez igaz. Azonban csak az objektumok és jellemzőik vannak megadva, és a távolságmátrix ezek alapján épül fel. Attól függően, hogy az objektumok közötti távolságokat vagy az objektumok jellemzői közötti távolságot számítják ki, különböző módszereket alkalmaznak.

Az objektumok klaszteranalízise esetén a különbség leggyakoribb mértéke vagy az euklideszi távolság négyzete.

(ahol xih, xjh az i-edik és j-edik objektum h-edik attribútumának értékei, m pedig a jellemzők száma), vagy maga az euklideszi távolság. Ha jeleket tulajdonítanak különböző súlyú, akkor ezek a súlyok figyelembe vehetők a távolság kiszámításakor

Néha a távolságot a különbség mértékeként használják, a következő képlettel számítva:

amelyek a következők: "Hamming", "Manhattan" vagy "várostömb" távolság.

Az objektumjellemzők hasonlóságának természetes mércéje sok probléma esetében a köztük lévő korrelációs együttható

ahol mi ,mj ,di ,dj az i és j jellemzők átlagos és négyzetes átlag eltérése. Az 1 - r érték a jellemzők közötti különbség mértékeként szolgálhat. Egyes feladatokban a korrelációs együttható előjele jelentéktelen, és csak a mértékegység megválasztásától függ. Ebben az esetben az ô1 - ri j ô a jellemzők közötti különbség mértéke

1.5 Klaszterek száma.

Nagyon fontos kérdés a szükséges számú klaszter kiválasztásának problémája. Néha m számú klaszter eleve kiválasztható. Általános esetben azonban ez a szám a halmaz klaszterekre való felosztása során kerül meghatározásra.

Fortier és Solomon tanulmányokat végzett, és azt találták, hogy a klaszterek számát kell venni ahhoz, hogy elérjük a valószínűségét, hogy a legjobb partíciót találjuk. Így a partíciók optimális száma az összes lehetséges partíció halmazában a legjobb vagy bizonyos értelemben megvalósítható partíciók adott b törtrészének függvénye. Minél nagyobb a teljes szórás, annál nagyobb a megengedett partíciók b törtrésze. Fortier és Solomon kifejlesztett egy táblázatot, amelyből megtudhatja a szükséges partíciók számát. S(a,b) a-tól és b-től függően (ahol a a legjobb partíció megtalálásának valószínűsége, b a legjobb partíciók aránya a partíciók teljes számában) Ráadásul a heterogenitás mérőszámaként nem a szóródás mértéket használják, hanem a Holzenger és Harman által bevezetett tagsági mértéket. Az S(a,b) értékek táblázata az alábbiakban található.

S(a,b) értéktáblázat

b\a 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

Gyakran a kombinálás kritériuma (a klaszterek száma) a megfelelő függvény változása. Például az eltérések négyzetes összegei:

A csoportosítási folyamatnak itt meg kell felelnie az E kritérium értékének következetes minimális növekedésének. Az E értékében bekövetkezett éles ugrás a vizsgált populációban objektíven létező klaszterek számának jellemzőjeként értelmezhető.

Tehát a klaszterek legjobb számának meghatározásának második módja az objektumok erősen csatolt állapotából gyengén csatolt állapotba való fázisátmenet által meghatározott ugrások azonosítása.

1.6 Dendogramok.

A távolság- vagy hasonlósági mátrix ábrázolásának legismertebb módja a dendogram vagy fadiagram ötletén alapul. A dendogram a szekvenciális klaszterezési folyamat eredményeinek grafikus ábrázolásaként definiálható, amelyet távolságmátrixban hajtanak végre. A dendogram segítségével lehetőség van a klaszterezési eljárás grafikus vagy geometriai ábrázolására, feltéve, hogy ez az eljárás csak a távolság- vagy hasonlósági mátrix elemeivel működik.

A dendrogramok elkészítésének számos módja van. A dendrogramon az objektumok függőlegesen helyezkednek el a bal oldalon, a klaszterezési eredmények a jobb oldalon. Az új klaszterek szerkezetének megfelelő távolság- vagy hasonlósági értékek vízszintes egyenes mentén jelennek meg a dendrogramok felett.

Az 1. ábra egy példát mutat egy dendogramra. Az 1. ábra hat objektum (n=6) és k jellemző (jellemző) esetének felel meg. Az A és C objektumok vannak a legközelebb, ezért egy klaszterbe egyesülnek a 0,9-es közelségi szinten. A D és E objektumok 0,8-as szinten vannak kombinálva. Jelenleg 4 klaszterünk van:

A dendogram típusa a hasonlósági mérték vagy az objektum és a klaszter közötti távolság megválasztásától, valamint a klaszterezési módszertől függ. A legfontosabb pont a hasonlóság mértékének vagy az objektum és a klaszter közötti távolság mértékének kiválasztása.

A fürtelemző algoritmusok száma túl nagy. Mindegyik felosztható hierarchikusra és nem hierarchikusra.

A hierarchikus algoritmusok a dendogramok felépítéséhez kapcsolódnak, és a következőkre oszthatók:

a) agglomeratív, amelyet a kezdeti elemek következetes kombinációja és a klaszterek számának megfelelő csökkenése jellemez;

b) osztható (osztható), amelyben a klaszterek száma növekszik, egyből kiindulva, aminek eredményeként szétváló csoportok sorozata jön létre.

A mai klaszterelemző algoritmusok jó szoftveres implementációval rendelkeznek, amely lehetővé teszi a legmagasabb dimenziójú problémák megoldását.

1.7 Adatok

A klaszteranalízis alkalmazható intervallumadatokra, gyakoriságokra, bináris adatokra. Fontos, hogy a változók összehasonlítható skálákon változzanak.

A mértékegységek heterogenitása és az ebből következően lehetetlen a különböző mutatók értékeinek ésszerű kifejezése ugyanazon a skálán ahhoz a tényhez vezet, hogy a pontok közötti távolság, amely tükrözi az objektumok helyzetét tulajdonságaik terében, kiderül. hogy egy önkényesen választott skálától függjön. A kezdeti adatok mérésének heterogenitásának kiküszöbölése érdekében minden értéküket előzetesen normalizálják, pl. ezeknek az értékeknek egy bizonyos értékhez viszonyított arányában fejeződnek ki, amely tükrözi ennek a mutatónak bizonyos tulajdonságait. A klaszteranalízis kezdeti adatainak normalizálását néha úgy hajtják végre, hogy a kezdeti értékeket elosztják a megfelelő mutatók szórásával. Egy másik módszer az úgynevezett standardizált hozzájárulás kiszámítása. Z-hozzájárulásnak is nevezik.

A z-hozzájárulás megmutatja, hogy egy adott megfigyelés hány szórást választ el az átlagtól:

Ahol xi ennek a megfigyelésnek az értéke, az átlag, S a szórása.

A Z-hozzájárulások átlaga nulla, a szórása pedig 1.

A szabványosítás lehetővé teszi a különböző eloszlásokból származó megfigyelések összehasonlítását. Ha egy változó eloszlása ​​normális (vagy normálishoz közeli), és az átlag és a variancia ismert vagy nagy mintákból becsülhető, akkor egy megfigyelés Z-hozzájárulása pontosabb információt ad a helyéről.

Megjegyzendő, hogy a normalizálási módszerek az összes jellemző egyenértékűként való felismerését jelentik a vizsgált objektumok hasonlóságának tisztázása szempontjából. Korábban már megfigyelhető, hogy a gazdasággal kapcsolatban a különböző mutatók egyenértékűségének elismerése nem mindig tűnik indokoltnak. Kívánatos lenne a normalizálás mellett minden mutatónak olyan súlyt adni, amely tükrözi jelentőségét az objektumok közötti hasonlóságok és különbségek megállapítása során.

Ebben a helyzetben az egyes mutatók súlyának meghatározásának módszerét - szakértői felmérést - kell igénybe venni. Például az országok gazdasági fejlettségi szint szerinti osztályozási problémájának megoldása során egy 40 vezető moszkvai szakértő részvételével a fejlett országok problémáit vizsgáló felmérés eredményeit használtuk fel tízfokú skálán:

a társadalmi-gazdasági fejlődés általános mutatói - 9 pont;

a foglalkoztatott népesség ágazati megoszlásának mutatói - 7 pont;

a bérmunka elterjedtségének mutatói - 6 pont;

a termelőerők humán elemét jellemző mutatók - 6 pont;

az anyagi termelőerők fejlődésének mutatói - 8 pont;

az állami kiadások mutatója - 4 pont;

"katonai-gazdasági" mutatók - 3 pont;

szocio-demográfiai mutatók - 4 pont.

A szakértők becslései viszonylag stabilak voltak.

A szakértői értékelések jól ismert alapot adnak egy adott indikátorcsoportba tartozó indikátorok fontosságának meghatározásához. A mutatók normalizált értékeinek szorzata az átlagos értékelési pontszámnak megfelelő együtthatóval lehetővé teszi az országok helyzetét tükröző pontok közötti távolság kiszámítását egy többdimenziós térben, figyelembe véve jellemzőik egyenlőtlen súlyát.

Az ilyen problémák megoldása során gyakran nem egy, hanem két számítást használnak: az elsőt, amelyben az összes jelet egyenértékűnek tekintik, a másodikat, ahol a szakértői becslések átlagos értékeinek megfelelően különböző súlyokat kapnak.

1.8. Klaszteranalízis alkalmazása.

Nézzük meg a klaszteranalízis néhány alkalmazását.

Az országok fejlettségi szint szerinti csoportosítása.

65 országot vizsgáltak 31 mutató szerint (az egy főre jutó nemzeti jövedelem, az iparban foglalkoztatottak aránya %-ban, az egy főre jutó megtakarítások, a mezőgazdaságban foglalkoztatottak aránya %-ban, az átlagos várható élettartam, az 1 főre jutó autók száma ezer lakos, a fegyveres erők száma 1 millió lakosra vetítve, részesedése a GDP-ből ipar %-ban, részesedése a GDP-ből Mezőgazdaság%-ban stb.)

Ebben a tekintetben mindegyik ország olyan objektumként működik, amelyet 31 mutató bizonyos értékei jellemeznek. Ennek megfelelően egy 31 dimenziós térben pontként ábrázolhatók. Az ilyen teret általában a vizsgált objektumok tulajdonságterének nevezik. A pontok közötti távolság összehasonlítása tükrözi a vizsgált országok közelségének mértékét, egymáshoz való hasonlóságát. A hasonlóság ezen felfogásának társadalmi-gazdasági jelentése azt jelenti, hogy minél hasonlóbbnak tekintik az országokat, minél kisebbek a különbségek ugyanazon mutatók között, amelyekkel leírják őket.

Az ilyen elemzés első lépése egy pár azonosítása nemzetgazdaságok, figyelembe véve a hasonlósági mátrixban, amelyek közötti távolság a legkisebb. Nyilván ezek lesznek a leginkább hasonló, hasonló gazdaságok. A következőkben mindkét országot egyetlen csoportnak, egyetlen klaszternek tekintjük. Ennek megfelelően az eredeti mátrixot úgy alakítják át, hogy elemei nem 65, hanem 64 objektum - 63 gazdaság és egy újonnan átalakult klaszter - összes lehetséges párja közötti távolságok - a két leginkább hasonló ország feltételes uniója. Az unióban szereplő országpár és az összes többi közötti távolságnak megfelelő sorokat és oszlopokat kihagyjuk az eredeti hasonlósági mátrixból, de hozzáadunk egy sort és oszlopot, amely tartalmazza az unió és a többi ország klasztere közötti távolságot.

Feltételezzük, hogy az újonnan kapott klaszter és az országok közötti távolság egyenlő az utóbbi és az új klasztert alkotó két ország közötti távolságok átlagával. Más szóval, a kombinált országcsoportot egy egészként kezeljük, amelynek jellemzői nagyjából megegyeznek az azt alkotó országok jellemzőinek átlagával.

Az elemzés második lépéseként egy 64 sorból és oszlopból álló, így transzformált mátrixot veszünk figyelembe. Ismét azonosítunk egy gazdaságpárt, amelyek közötti távolság a legkisebb jelentőségű, és ezeket, mint az első esetben, összehozzuk. Ebben az esetben a legkisebb távolság lehet egy országpár, valamint bármely ország és az előző szakaszban elért országok uniója között.

A további eljárások hasonlóak a fent leírtakhoz: minden szakaszban a mátrixot úgy alakítják át, hogy az előző szakaszban összehozott objektumok (országpárok vagy társulások - klaszterek) távolságát tartalmazó két oszlop és két sor kimaradjon belőle. ; a kizárt sorok és oszlopok helyére egy oszlop és sor kerül, amely tartalmazza az új illesztések és a többi jellemző távolságát; továbbá a módosított mátrixban feltárul a legközelebbi objektumok párja. Az elemzés a mátrix teljes kimerüléséig (vagyis az összes ország összevonásáig) folytatódik. A mátrixanalízis általánosított eredményei a fent leírtakhoz hasonló hasonlósági fa (dendogram) formájában ábrázolhatók, azzal a különbséggel, hogy a hasonlósági fa, amely mind a 65 általunk vizsgált ország relatív közelségét tükrözi. sokkal bonyolultabb, mint az a rendszer, amelyben mindössze öt nemzetgazdaság jelenik meg. Ez a fa 65 szintet tartalmaz az egyező objektumok számától függően. Az első (alsó) szint az egyes országoknak külön-külön megfelelő pontokat tartalmaz. E két pont összekapcsolása a második szinten a nemzetgazdaságok általános típusát tekintve a legközelebb álló országpárt mutatja. A harmadik szinten a következő leghasonlóbb országpár-arányt jegyezzük (amint már említettük, ebben az arányban vagy egy új országpár, vagy egy új ország és egy már azonosított hasonló országpár szerepelhet). És így tovább egészen az utolsó szintig, amelyen az összes vizsgált ország egyetlen halmazként működik.

A klaszteranalízis alkalmazása eredményeként a következő öt országcsoportot kaptuk:

afro-ázsiai csoport;

latin-ázsiai csoport;

latin-mediterrán csoport;

fejlett kapitalista országok csoportja (az USA nélkül)

Az itt használt 31 mutatón túli új mutatók bevezetése, illetve másokkal való helyettesítése természetesen az országbesorolás eredményeinek megváltozásához vezet.

2. Az országok felosztása a kultúra közelségének kritériuma szerint.

Mint ismeretes, a marketingnek figyelembe kell vennie az országok kultúráját (szokások, hagyományok stb.).

A következő országcsoportokat kaptuk klaszterezéssel:

Arab;

Közép-keleti;

Skandináv;

német nyelvű;

Angol nyelvű;

román stílusú európai;

Latin-Amerika;

Távol-Kelet.

3. Cinkpiaci előrejelzés kidolgozása.

Klaszterelemzés játszik fontos szerep az áruhelyzet gazdasági és matematikai modelljének redukciójának szakaszában, hozzájárulva a számítási eljárások megkönnyítéséhez és egyszerűsítéséhez, biztosítva a kapott eredmények nagyobb tömörségét a kívánt pontosság megőrzése mellett. A klaszteranalízis alkalmazása lehetővé teszi a teljes kezdeti piaci indikátorkészlet megfelelő kritériumok szerinti csoportokra (klaszterekre) történő felosztását, megkönnyítve ezzel a legreprezentatívabb mutatók kiválasztását.

A klaszteranalízist széles körben használják a piaci feltételek modellezésére. A gyakorlatban az előrejelzési feladatok többsége klaszterelemzésen alapul.

Például a cinkpiac előrejelzésének kidolgozása.

Kezdetben a globális cinkpiac 30 fő mutatóját választották ki:

X1 - idő

Gyártási adatok:

X2 - a világon

X4 - Európa

X5 – Kanada

X6 - Japán

X7 – Ausztrália

Fogyasztási mutatók:

X8 - a világon

X10 – Európa

X11 – Kanada

X12 - Japán

X13 – Ausztrália

Termelői cink készletek:

X14 - a világon

X16 - Európa

X17 - más országok

Cink fogyasztói készletei:

X18 - az USA-ban

X19 - Angliában

X10 - Japánban

Cinkércek és koncentrátumok importja (ezer tonna)

X21 - az USA-ban

X22 - Japánban

X23 - Németországban

Cinkércek és koncentrátumok exportja (ezer tonna)

X24 - Kanadából

X25 - Ausztráliából

Cink import (ezer tonna)

X26 - az USA-ban

X27 - Angliába

X28 - Németországban

Cink export (ezer tonna)

X29 - Kanadából

X30 - Ausztráliából

A specifikus függőségek meghatározásához a korrelációs és regressziós analízis apparátust alkalmaztuk. Az összefüggéseket páros korrelációs együtthatók mátrixa alapján elemeztük. Itt a hipotézis normális eloszlás a konjunktúra mutatóit elemezte. Nyilvánvaló, hogy a rij nem az egyetlen lehetséges indikátora a használt mutatók kapcsolatának. A klaszteranalízis alkalmazásának szükségessége ebben a problémában annak tudható be, hogy a cink árát befolyásoló mutatók száma igen nagy. A következő okok miatt van szükség ezek csökkentésére:

a) hiányzik az összes változóra vonatkozó teljes statisztikai adat;

b) a számítási eljárások éles bonyodalma a modellbe való beépítéskor egy nagy szám változók;

c) a regresszióelemzési módszerek optimális alkalmazása megköveteli, hogy a megfigyelt értékek száma a változók számához képest legalább 6-8-szoros túllépés legyen;

d) statisztikailag független változók használatának vágya a modellben stb.

Nagyon nehéz egy ilyen elemzést közvetlenül elvégezni a korrelációs együtthatók viszonylag terjedelmes mátrixán. A klaszteranalízis segítségével a piaci változók teljes halmaza csoportokra bontható oly módon, hogy az egyes klaszterek elemei egymással erősen korrelálódjanak, és a képviselők különböző csoportok gyengén korreláltak.

A probléma megoldására az egyik agglomeratív hierarchikus klaszterelemzési algoritmust alkalmaztuk. Minden lépésnél eggyel csökken a klaszterek száma a két csoport bizonyos értelemben optimális egyesülése miatt. A csatlakozás feltétele a megfelelő funkció megváltoztatása. Ennek függvényében az alábbi képletekkel számított eltérések négyzetes összegeinek értékeit használtuk:

(j = 1, 2, …, m),

ahol j a klaszter száma, n a klaszter elemeinek száma.

rij - pár korrelációs együttható.

Így a csoportosítási folyamatnak meg kell felelnie az E kritérium értékének szekvenciális minimális növekedésének.

Az első szakaszban a kezdeti adattömb egy-egy elemet tartalmazó klaszterekből álló halmazként jelenik meg. A csoportosítási folyamat egy ilyen klaszterpár egyesülésével kezdődik, ami a négyzetes eltérések összegének minimális növekedéséhez vezet. Ehhez meg kell becsülni az eltérések négyzetes összegét az egyes lehetséges klaszteruniók esetében. A következő szakaszban a négyzetes eltérések összegeinek értékeit már figyelembe veszik a klasztereknél, és így tovább. Ez a folyamat egy lépésben leáll. Ehhez figyelni kell az eltérések négyzetes összegének értékét. Növekvő értékek sorozatát tekintve annak dinamikájában ugrás (egy vagy több) fogható el, ami a vizsgált populációban "objektíven" létező csoportok számának jellemzőjeként értelmezhető. A fenti példában az ugrások akkor történtek, amikor a klaszterek száma 7 és 5 volt. Továbbá a csoportok számát nem szabad csökkenteni, mert ez a modell minőségének csökkenéséhez vezet. A klaszterek megszerzése után kiválasztásra kerülnek a gazdasági értelemben legfontosabb és a kiválasztott piaci kritériumhoz leginkább kapcsolódó változók – jelen esetben a London Metal Exchange cink jegyzéseivel. Ez a megközelítés lehetővé teszi a konjunktúra kezdeti mutatóinak eredeti készletében szereplő információk jelentős részének mentését.


2023
newmagazineroom.ru - Számviteli kimutatások. UNVD. Fizetés és személyzet. Valutaműveletek. Adók fizetése. ÁFA. Biztosítási díjak