Locked History Actions

Stylometry

Žodis angliškai:

Stylometry

Žodis lietuviškai:

Stilometrija

Apibrėžimas:

Stilometrija - tai literatūrinio stiliaus statistinė analizė.

Įvadas

Žmogaus anonimiškumas internetinėje erdvėje tampa didelė problema tobulėjant automatizuotiems kompiuteriniams įrankiams kurie yra sukurti atlikti identifikavimo funkciją. Vienas iš šių įrankių yra stilometrija paremtas sekimas. Šie įrankiai gali aspaugoti žmogaus autorines teises interneto platybėje, tačiau gali būti panaudotas ir atvirkščiai, susekti žmones naudojant įvairias tikimybės teorijos šakas bei matematinius modelius. Atliekant stilometriją iškyla įvairios problemos – tinkamo (ne)panašumo mato pasirinkimas, stilometrijos modelio visumos kompleksija, tiriamų duomenų kiekio ir rezultato patikimumo problema.

Paaiškinimas :

Pagrindinė prielaida, kuria yra grindžiami stilometrijos tyrimai, yra ta, jog autoriai savo kūriniuose turi sąmoningai ir nesąmoningai panaudotų stiliaus aspektų. Yra manoma, kad kiekvieno autoriaus stilius turi tam tikrų charakteristikų, kurios nepriklauso nuo paties autoriaus valios. Kadangi autorius šiomis savybėmis negali sąmoningai manipuliuoti, yra laikoma, kad jos suteikia patikimiausių duomenų stilometrijos tyrimams. Panašumas gali atsirasti dėl vartojamų literatūros meninių priemonių, pavyzdžiui, imitacijos. Panašumus taip pat galima skirstyti į tipinius tam tikrai kalbai išsireiškimus.

Veikimo principas :

Stilometriniuose tyrimuose naudojami įvairūs statistiniai metodai, taikomi tekstų analizei, dažniausiai sprendžiant autoriaus nustatymo problemą rašytinėje kalboje. Paplitusi metodika yra atstumų ar panašumų skaičiavimas tarp analizuojamų tekstų ir šių rezultatų atvaizdavimas panaudojant įvairius vizualizavimo metodus.

Konkrečiai norint susekti ir atpažinti autorių internete, “George Mason” universiteto studentai atliko analizę kaip tai galima atlikti praktiškai. Konkrečiai buvo naudojami keli funkcijų moduliai , kad pagerinti aptikimo šansą. Toliau remsiuos šiuo atliktu tyrimu.

Eigenvektorias centralė:

Stilometrijoje galima naudoti šią matematine funkciją. Tai yra mazgo įtaka tinkle. Jis priskiria santykinius balus visiems tinko mazgams remdamasis koncepcija, kad ryšys su didelio taško mazgais labiau padeda nuspręsti apie mazgo balą, nei vienodi ryšiai su mažo taško mazgais. Ši Sistema paprastai apibūdinama kaip mazgo reitingavimas. Naudojant šią funkciją, turint pakankamai susirašinėjimo duomenų, galima atrinkti pagrindinius vartotojus tam tikrame portale. [PRIDĖTI] Šiame pavyzdyje, naudojant Eigencentralę, nustatomi pagrindiniai portalo asmenys, kurie susirašinėja su kitais. Tamsus tačiau mažas (žemo rango) mazgas čia žymi asmenį, kurio pokalbiai su kitais yra vienapusiški, taiga galima daryti prielaidą, kad tai yra forumo “Bot’as”, kuris periodiškai kitiem siunčia informacija ir nėra tikras asmuo. Dideli rutuliai atvaizduoja pagrindinius žmones. Tokios sistemos kaip “Google PageRank” taip pat naudoja šią vektorinę analizę.

Temos aptikimas naudojant LDA

LDA-Latent Dirichlet Allocation. Tai yra Atviras Dirichlet pasiskirstymas , kuris gali grupuoti temas pagal hierarchinę sistemą. Tai generacinis statistinis modelis, leidžiantis paaiškinimų grupes paaiškinti nepastebimomis grupėmis, kurios apibrėžia, kodėl kai kurios duomenų dalys yra panašios. Pavyzdžiui LDA modelis gali turėti kelias temas su klasifikacija “Šunims” ir “Katėms”. Šios temos turi tikimybę generuoti skirtigus žodžius kaip “pienas, miau, kačiukas, kurie tuomet klasifikuojami šioms temoms. LDA gali būti naudojamas atskirti skirtingas temas forumuose, taip toliau pagerinant Stilometrijos rezultatus.

Parduodamų produktų aptikimas

Naudojant Stilometriją, viena iš užduočių galėtų būti nelegalių prekių pardavėjų susekimas. Vienas iš pagalbinių modulių galetų būti produktų aptikimas portale. Aptikus ir suklasifikavus produktus, galima sugrūpuoti kurie vartotojai yra labiausiai susiję su tam tikrais produktais.

===Privalumai taikant Stilometriją: ===

Naudojant stilometriją, įvedus kelias funkcijas bei turint didelį bagažą informacijos galima susekti bei atskirti atskirus asmenis greitai, naudojant kompiuterių tinklus ir programinę įrangą. Rezultatai gali kisti, priklausant nuo programos kodo pažangumo, tačiau geriausius rezultatus aplamai galima gauti jei :

• Asmuo nekeičia rašysenos stiliaus, dažnai naudoja panašias išraiškas kurios yra specifinės tik jo naudojamai kalbai.

• Asmuo turi tik vieną vartotojo anketą.

• Asmuo rašo anglų kalba, bei didelio mąsto tekstus.

• Rašo nuspėjamu laiku, pvz. Po darbo, tuomet galima ne tik nustatyti kad tai yra tas pat vartotojas, bet ir jo laiko juostą.

[PRIDĖTI]

Pavyzdys – kai analizuojamas tekstas užsienio kalba bet ne anglų, yra mažesnė tikimybė atsekti konkrečius asmenis. Taip yra dėl anglų kalbos paprastos struktūros . Išvertus tekstą anglų kalba, tačiau palikus išskirtinius specifinius bruožus iš kitos kalbos, aptikimo procentalė padidėja drąstiškai,

===Trūkumai taikant Stilometriją:===

Šį metodą taikant tyrimo metu buvo apipavidalintos pagrindinės problemos :

• Aukštam aptikimo šansui reikia turėti didelį kiekį laiškų, žinučių kiekį iš tam tikro portalo (forumo, žinučių). T.y. kad pasiekti 80 % patikimumą, sekamas asmuo turi parašyti apie 5000 žodžių. Tyrimo metu iš kelių šimtų tūkst. Tiriamų asmenų šį kriterijų atitiko keli šimtai žmonių.

• Stilometrijos rezultatai tampa mažiau patikimi, kai tiriami žmonės turi kelis, nesusijusius vartotojus portalo sistemoje . T.y. skirtingi vartotojo vardai, informacija apie jį, skirtingi I.P Adresai.

• Taikant atpažinimą sekant tam tikrai kalbai specifinius išsisireiškimus, tampa sunku analizuoti sudetingesių kalbų darinius , kai kalbos struktūra skiriasi nuo daugumos pvz. Kinų kalba.

===Apibendrinimas === Šie privalūmai ir trūkumai yra paremti atlikto tyrimo analizės duomenimis, tačiau egzistuoja didesnės koorporacijos, kurios turi daug daugiau duomenų apie asmenis, jų susirašinėjimus ir pnš. Taigi aspaugot savo tapatybę nuo aptikimo naudojant stilometriją yra keli būdai. Vienas iš pagrindinių : specialios programinės įrangos naudojimas kaip „Jstyle“ ar „Anonymouth“. Šios programinės įrangos aptinka vartotojo stilistinio rašymo bruožus bei pasiūlo juos koreguoti taip, kad susekimas naudojant stilometriją būtų daug sunkesnis. Aplamai galima naudotis aukščiau paminėtais stilometrijos trūkumais, t.y. rašyti skirtingomis kalbomis, trumpai. Stilometriją valstybių žvalgybos organai naudoja , kai kiti patikimesni būdai nėra prieinami, tačiau turėdami didesnius duomenų kiekius, jų stilometrijos rezultatų patikimumas gali būti daug didesnis nei studentų sukurtas modelis.

Literatūra:

1. http://securityaffairs.co/wordpress/11652/cyber-crime/stylometric-analysis-to-track-anonymous-users-in-the-underground.html

2. https://en.wikipedia.org/wiki/Stylometry

3. https://en.wikipedia.org/wiki/Eigenvector_centrality

4. https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation

5. http://peterkirby.com/basic-stylometry-101.html