Principii de semantică. Principiul semantic al clasificării părților de vorbire. Prezentarea datelor sensibile la context

adnotare

Articolul este dedicat problemelor analizei semantice a textelor. Sunt luate în considerare diverse metode: diagrame de dependență conceptuală și rețele semantice; abordări bazate pe funcții lexicale și clase de subiecte; modele cadru și ontologice; modele logice de reprezentare a cunoștințelor. Fiecare dintre ele are propriile sale avantaje și dezavantaje.

Crearea de noi metode de analiză semantică a textelor este relevantă în rezolvarea multor probleme de lingvistică computerizată, cum ar fi traducerea automată, auto-rezumatul, clasificarea textelor și altele. La fel de importantă este dezvoltarea de noi instrumente pentru automatizarea analizei semantice.

Metode și sisteme de analiză semantică a textului

Semantica este o ramură a lingvisticii care studiază semnificația semantică a unităților de limbaj. Pe lângă cunoștințele despre structura limbajului, semantica este strâns legată de filozofie, psihologie și alte științe, deoarece ridică inevitabil întrebări despre originea semnificațiilor cuvintelor, relația lor cu ființa și gândirea. La efectuarea analizei semantice este necesar să se țină cont de caracteristicile sociale și culturale ale vorbitorului nativ. Procesul gândirii umane, ca și limbajul, care este un instrument de exprimare a gândurilor, este foarte flexibil și greu de oficializat. Prin urmare, analiza semantică este considerată pe bună dreptate cea mai dificilă etapă a procesării automate a textului.

Crearea de noi metode de analiză semantică a textului va deschide noi oportunități și va permite
face progrese semnificative în rezolvarea multor probleme de lingvistică computerizată, cum ar fi traducerea automată, auto-rezumatul, clasificarea textului și altele. Nu mai puțin relevantă este dezvoltarea de noi instrumente pentru automatizarea analizei semantice.

În prezent, există mai multe metode de reprezentare a sensului enunțurilor, dar niciuna dintre ele nu este universală. Mulți cercetători au lucrat pentru a corela sensul textului. Deci, I.A. Melchuk a introdus conceptul de funcție lexicală, a dezvoltat conceptele de valențe sintactice și semantice și le-a considerat în contextul unui dicționar explicativ-combinatorial, care este un model de limbaj. El a arătat că sensurile cuvintelor nu sunt direct legate
cu realitatea înconjurătoare, dar cu ideile vorbitorului nativ despre această realitate.

Majoritatea cercetătorilor sunt înclinați să creadă că analiza semantică ar trebui efectuată după analiza sintactică. V.Sh. Rubașkin și D.G. Lahuti a introdus o ierarhie a conexiunilor sintactice pentru o funcționare mai eficientă a analizorului semantic. Cele mai importante sunt conexiunile de rol obligatorii, urmate de conexiunile de coreferență, apoi conexiunile de rol opționale și abia apoi cele asociate subiect.

Faimosul lingvist E.V. Paducheva propune să se ia în considerare clase tematice de cuvinte, în special verbe, deoarece acestea poartă principala încărcătură semantică: verbe de percepție, verbe de cunoaștere, verbe de emoții, verbe de luare a deciziilor, acțiuni de vorbire, mișcare, verbe de sunet, verbe existențiale, etc. Esențială în această abordare este ideea de a împărți conceptele de limbaj în anumite grupuri semantice, ținând cont de faptul că aceste concepte au o componentă semantică comună non-trivială. Elementele unor astfel de grupuri tind să aibă același set de concepte dependente. Cu toate acestea, principala problemă a acestei abordări este că identificarea claselor tematice și compilarea dicționarelor semantice este un proces extrem de laborios, foarte dependent de percepția și interpretarea individuală a conceptelor de către o anumită persoană.

Un limbaj universal de reprezentare a cunoștințelor ar trebui să fie un instrument convenabil pentru obținerea de noi cunoștințe din cunoștințele existente, ceea ce înseamnă că este necesar să se creeze un aparat pentru verificarea corectitudinii enunțurilor. Aici sunt utile modelele logice de reprezentare a cunoștințelor. De exemplu, limbajul semantic propus de V.A. Tuzov, conține formalismele logicii predicatelor, conține concepte „atomice”, „funcții” peste aceste concepte și reguli de inferență cu care pot fi descrise concepte noi. Este posibil ca gândirea științifică să se dezvolte în direcția creării unor astfel de limbaje semantice în viitor.

În ciuda faptului că unele idei științifice și tehnice din domeniul prelucrării textului se dezvoltă destul de rapid, multe probleme în analiza semantică rămân nerezolvate. Majoritatea cercetătorilor au ajuns la concluzia că un dicționar care să susțină analiza semantică trebuie să opereze cu semnificații și, prin urmare, să descrie proprietățile și relațiile conceptelor, nu cuvintelor. Dar se pune întrebarea cum să structurați și să prezentați corect informațiile în astfel de dicționare, astfel încât căutarea prin ele să fie comodă și rapidă și, de asemenea, ar fi posibil să se țină seama de schimbările în limbajul natural (dispariția vechilor concepte și apariția unor concepte noi). ). Acest articol face o încercare de a sistematiza realizările cunoscute în domeniul analizei semantice și, într-o oarecare măsură, de a găsi un răspuns la aceasta și la alte întrebări.

Studiul semanticii în cadrul teoriei „Sens ↔ Text”

La crearea teoriei „Sens ↔ Text” I.A. Melchuk a introdus conceptul de funcție lexicală.
Din punct de vedere formal, o funcție lexicală este o funcție ale cărei argumente sunt câteva cuvinte sau fraze dintr-o anumită limbă, iar valorile sunt un set de cuvinte și fraze din aceeași limbă. În același timp, doar acele funcții lexicale care au înțelesuri înrudite frazeologic prezintă interes de fond și sunt considerate - sensuri care sunt posibile cu unele argumente și imposibile cu altele.

Cu alte cuvinte, o funcție lexicală este o anumită relație semantică, de exemplu, „egalitatea în sens” (Syn), „opus în sens” (Anti), etc. Să fie un număr de unități lexicale - cuvinte și fraze; atunci această funcție lexicală atribuie fiecăreia dintre aceste unități un set de unități lexicale care se află în relația semantică corespunzătoare cu unitatea originală.

Semnificațiile unei funcții lexicale din diferite argumente pot coincide complet sau parțial; Pot coincide și valorile diferitelor funcții din același argument. Corelatele alternative incluse în sensul unei anumite funcții lexicale dintr-un argument dat nu trebuie să fie interschimbabile întotdeauna și în orice context. Ele pot diferi în caracteristicile stilistice, în toate tipurile de compatibilitate, în condițiile gramaticale de utilizare și, în sfârșit, chiar și în sens. Acesta din urmă este deosebit de important de subliniat: diferitele corelate nu trebuie să fie întotdeauna complet sinonime; este suficient dacă semnificațiile lor au o parte comună care corespunde unei anumite funcții lexicale, iar diferențele nu depășesc anumite limite, adică nu sunt „prea semnificative”.

În general, funcția lexicală nu este determinată pentru toate cuvintele și frazele. În primul rând, unele funcții sunt definite numai pentru una sau alta parte de vorbire: de exemplu, Oper, Func și Labor sunt imaginabile numai pentru substantive. În al doilea rând, cutare sau cutare funcție poate fi definită numai pentru cuvinte cu o anumită semantică: Magn - pentru cuvintele al căror sens permite gradarea ("mai mult - mai puțin"); Oper, Func și Muncă sunt definite numai pentru numele situațiilor.

Trebuie avut în vedere că, chiar și cu un argument complet potrivit (din punct de vedere al proprietăților sale sintactice și semantice), funcția lexicală poate să nu aibă sens (într-o limbă dată). De exemplu, sinonimele sunt, în principiu, posibile pentru orice cuvinte, dar doar unele le au. Acest lucru se datorează naturii frazeologice a funcțiilor lexicale.

Trebuie subliniat încă o dată că inițial funcțiile lexicale au fost introduse în mod specific pentru a descrie compatibilitatea lexicală și nu pentru a reprezenta sensul în sens general, de aceea nu toate ar trebui interpretate ca unități semantice. Relația dintre funcțiile lexicale și sens este departe de a fi clară. Unele funcții lexicale pot revendica statutul de elemente semantice, altele pot să nu aibă deloc sens, iar altele pot acoperi un sens foarte complex.

Din punctul nostru de vedere, a vorbi despre funcții lexicale ca funcții „cu mai multe valori” nu este în întregime corect și convenabil. Este mai convenabil să vorbim despre predicate lexicale. Următoarea este o listă de „funcții” lexicale standard simple (aici vor fi prezentate sub formă de predicate).

1. Syn (x, y), x, y – sinonime.

2. Conv (x, y), x, y – conversii.

3. Anti (x, y), x, y – antonime.

4. Der (x, y), y este un derivat sintactic al lui x, adică y coincide cu x ca semnificație, dar aparține unei părți diferite de vorbire:

S0 (x, y), y este un substantiv derivat din x (x nu este un substantiv);

A0 (x, y), y – adjectiv derivat din x (x – nu un adjectiv);

Adv0 (x, y), y – adverb format din x (x – nu un adverb);

V0 (x, y), y este un verb format din x (x nu este un verb).

Cu alte cuvinte, „x”y (Der (x, y) « S0 (x, y) Ú A0 (x, y) Ú Adv0 (x, y) Ú V0 (x, y)).

5. Gen (x, y), y – un concept generalizator în raport cu conceptul desemnat x (x = căpșuni, y = boabe). Acest predicat depinde de compatibilitatea lexicală a cuvintelor dintr-o limbă dată: dacă x și m sunt cuvinte din două limbi diferite care au același sens, atunci pentru Gen (x, y) și, respectiv, Gen (m, n), y și n pot să nu aibă același sens.

O situație este o anumită reflectare lexicală (într-o limbă dată) a unei părți a realității. Situațiile notate prin unități lexicale individuale ale limbilor naturale (lexeme) au, de regulă, de la una la patru componente semantice, sau actanți semantici, notați cu litere mari latine A, B, C, D. În același timp, fiecare un astfel de lexem este comparat în profunzime actanții sintactici sunt dependenții săi, corespunzător subiectului și obiectelor puternice (dacă acest lexem este realizat printr-un verb predicat). Actanții sintactici profundi sunt numerotați cu cifre arabe: 1, 2, 3, 4.

6. Si (x, y), i = 1, …, 4, y – denumirea tipică a i-lea actant pentru x.

7. Sc (x, y), y – circumstantă, adică denumirea tipică a componentei secundare a unei situații date x:

Sloc (x, y), y – denumirea tipică a locului în care apare această situație x; „unde...” (x = bătălie, y = câmp (de luptă));

Sinstr (x, y), y – denumirea tipică a instrumentului folosit într-o situație dată x; „acea prin care/prin care...” (x = luptă, x = armă (de luptă));

Smod (x, y), y – denumirea tipică a metodei (modului, caracterului) de implementare a unei situații date x; „calea...” (x = viață, y = imagine (a vieții));

Sres (x, y), y – denumirea tipică a rezultatului unei situații date; „ce iese” (x = copie, y = copie).

Cu alte cuvinte, „x”y (Sc (x, y) « Sloc (x, y) Ú Sinstr (x, y) Ú Smod (x, y) Ú Sres (x, y)).

8. Predicate corelative Semnul (x, y), y – denumirea tipică a unei „piese”, o „cuantică” a unor x; Mult (x, y), y – denumirea tipică a unei colecții, set.

9. Sigur (x, y), y – metaforă pentru x (x = vis, y = îmbrățișare (vis)).

10. Centr (x, y), y – desemnarea tipică a părții „centrale” a unui obiect sau proces.

11. Ai (x, y), i = 1, …, 4, y – definiția tipică a actantului i în funcție de rolul său real; "una care..."; "cel care..."

12. Ablei (x, y), i = 1, …, 4, y – definiția tipică a actantului i în funcție de rolul său potențial în situație; „cel care poate...”; „Unul care poate...”

13. Magn0 (x, y) și Magni (x, y), i = 1, ..., 4, y denotă „gradul înalt”, „intensitatea” situației în sine x (Magn0) sau i-a ei actant (Magni).

14. Ver (x, y), y – „corect”, „potrivit scopului”, „cum ar trebui să fie” în raport cu x.

15. Bon (x, y), y – „bun” în raport cu x.

16. Advix (z, y), i = 1, ..., 4, x = A, B, C, D, y – numele situației ca definiție pentru un verb care denumește o altă situație:

AdviA (z, y), i = 1, ..., 4, y – un cuvânt format din z, care, înlocuind z în text, necesită transformarea primului actant al acestui z într-un vârf (în loc de z) ( x = însoțește, y = împreună cu).

AdviB (z, y), i = 1, …, 4, y necesită ca al doilea actant z să devină vârful (x = greșit, y = greșit).

17. Loc (x, y), y – prepoziție de localizare tipică (spațială, temporală sau abstractă):

Locin (x, y), y – localizare „static” (x = Moscova, y = in);

Locad (x, y), y – prepoziție de direcție (x = Moscova, y = to);

Locab (x, y), y – prepoziție de îndepărtare (x = Moscova, apoi y = din).

Cu alte cuvinte, „x”y (Loc (x, y) « Locin (x, y) Ú Locad (x, y) Ú Locab (x, y)).

Uneori, Loc(x,y) nu poate fi determinată fără ambiguitate (x = zăpadă, y = on și y = in).

18. Copul (x, y), y – verb de legătură „a fi”, „a apărea” (x = atacat, y = atacat).

19. Oper1 (x, y), Oper2 (x, y), y – verb care leagă numele primului (respectiv al doilea) actant în rolul subiectului cu numele situației în rolul primului obiect ( dacă x = suport, atunci y = asigurați pentru Oper1 (x, y) și y = găsiți sau întâlniți pentru Oper2 (x, y)).

20. Func0 (x, y), Func1 (x, y), Func2 (x, y), y – un verb care are numele situației ca subiect x cu numele actanților (dacă există) ca obiect (x = ploaie, y = merge).

21. Munca12 (x, y), y – verb care leagă numele primului actant în rolul subiectului, cu numele celui de-al doilea actant în rolul primului obiect și cu numele situației din rolul celui de-al doilea obiect (x = ordin, y = recompensă; x = pedeapsă, y = subiect).

22. Causij (x, y), y – acțiunea actanților „a face astfel încât...”, „a provoca”. În cazul fără indici de actanți Caus (x, y), x este numele neparticipantului la situație (x = infracțiune, y = push). Apare separat doar cu verbe în alte cazuri face parte din parametrii complexi.

23. Incep (x, y), y – „a începe”. Proprietățile sunt aceleași cu Causij (x, y).

24. Perf (x, y), y – „perfect”, y poartă finalizarea acțiunii, atingerea limitei sale naturale. Perf (x, y) nu are o expresie independentă separată în limba rusă; De obicei, acest predicat se evaluează la adevărat dacă y este în formă perfectivă (x = citit, y = citit).

25. Rezultat (x, y), y – „rezultat”, adică y – „stare ca rezultat...”; folosit pentru formele imperfective (x = culcat, y = culcat pentru Perf(x, y), y = culcat pentru Rezultat(x, y)).

26. Faptul j (x, y), y – „de realizat”, „de împlinit”. Superscriptul (cifrele romane) reprezintă, dacă este necesar, gradul de implementare a cerinței implicite, cu un indice inferior atribuit gradului inferior (dacă x = capcană și j = I, atunci y = trigger; dacă j = II, atunci y = prinde).

27. Real j1,2(x, y), y – „realizează”, „îndeplinește cerința” cuprinsă în x. Indicele j are aceeași semnificație ca mai sus – gradul de completare; indicele denotă actantul sintactic profund care îndeplinește cerința (x = datorii (monetare), y = recunoaștere pentru Real I1,2(x, y), y = rambursare pentru Real II1,2(x, y)).

28. Destr (x, y), y – un nume tipic pentru o acțiune „agresivă” (x = viespe, y = înțepături).

29. Cap (x, y), y – „șef” (x = facultate, y = decan).

30. Echipat (x, y), y – „personal” (x = populație, y = state).

31. Doc (x, y), y – „document”:

Docres (x, y), y – „documentul care este rezultatul”; „întruchipare” (x = raport, y = raport);

Docperm (x, y), y – „document pentru dreapta...” (x = tren, y = (de călătorie) bilet pentru Docperm Oper2 (x, y));

Doccert (x, y), y – „un document care atestă...” (x = studii superioare, y = diplomă).

Cu alte cuvinte, „x”y (Doc (x, y) « Docres (x, y) Ú Docperm (x, y) Ú Doccert (x, y)).

Pe lângă predicatele lexicale simple enumerate mai sus, combinațiile lor – predicate compuse – pot fi folosite pentru a descrie compatibilitatea lexicală:

AntiReal2 (x, y): pică examenul/esuează examenul;

IncepOper2 (x, y): câștigă popularitate, căde în disperare;

IncepOper2 (x, y): merge la vânzare, vine sub foc;

CausOper2 (x, y): a pune sub control, a pune în circulație.

După cum sa menționat mai devreme, în cazul general, funcția lexicală nu este determinată pentru toate cuvintele și frazele. O funcție poate fi definită numai pentru cuvinte cu o anumită semantică. De exemplu, Cap și Echipa - pentru cuvintele al căror sens implică prezența „șefului” și „staffului”, adică pentru numele instituțiilor și organizațiilor în sensul cel mai larg; Real – pentru cuvintele al căror sens include componenta „necesită” („nevoie”) etc.

Dacă funcțiile lexicale sunt reprezentate ca predicate, nu apar dificultăți.
În cazurile în care funcțiile lexicale nu sunt definite, predicatele lor corespunzătoare vor fi false.

Un rol deosebit în studiul semanticii în abordarea I.A. Melchuk este jucat de valența cuvintelor, adică de capacitatea cuvintelor de a intra în legătură cu alte cuvinte. Cuvintele care definesc o situație au valențe. Acestea sunt toate verbe, unele substantive (verbale), adjective (care denotă comparație: mai mult, mai puțin, mai mare, mai mic), unele prepoziții și adverbe.

Există două tipuri de valențe ale cuvintelor: sintactice și semantice. Deși această împărțire este uneori destul de arbitrară. Valențele semantice sunt determinate de analiza lexicală a situației specificate de un anumit cuvânt. Să dăm un exemplu cu cuvântul închiriere sau închiriere. A închiriază C înseamnă că, pentru o anumită contrapartidă D, persoana A dobândește de la o altă persoană B dreptul de a exploata proprietatea C pentru o perioadă de timp T. Prin urmare, esențial pentru situația de închiriere.
sunt următorii „participanți” sau actanți semantici: subiectul contractului de închiriere (cel care închiriază), primul obiect al contractului de închiriere (ceea ce este închiriat), contrapartea (cel de la care închiriază), al doilea obiect (cel plata) si termenul.

Acești actanți sunt necesari, deoarece eliminarea oricăruia dintre ei schimbă sensul situației. De exemplu, dacă eliminați termenul, situația de închiriere se transformă într-o situație de cumpărare și vânzare. Pe de altă parte, acești actori sunt suficienți, deoarece într-o situație de închiriere nu este necesară indicarea din ce motiv, unde, când și în ce scop a fost efectuată. Deși formele de cuvinte corespunzătoare sunt atașate gramatical verbului închiriat.

Cu alte cuvinte, valența semantică este determinată de numărul de actanți semantici. Astfel, verbul rent are o valență semantică de 5, deoarece are 5 actanți semantici. Formal, această situație poate fi scrisă ca un predicat P (x1, x2, x3, x4, x5), unde x1 este „cine”, x2 este „ce”, x3 este „cine are”, x4 este „plată”, x5 este „termen”.

Nu toți actanții semantici pot fi definiți într-o propoziție, unii pur și simplu pot să nu fie menționați sau să nu aibă deloc expresie sintactică. Valențele sintactice sunt determinate de numărul de actanți sintactici care sunt prezentați direct în text (adică subiecte și obiecte atașate verbului) și depind de context.

De exemplu, valența semantică a verbului dor este 4, deoarece are 4 actanți: cine (factor), în ce/la ce (țintă), din ce (arma - opțional) și cu ce (organ, înseamnă). Dar, în majoritatea contextelor, o singură valență este exprimată sintactic, de exemplu, în propoziția „A țintit mult timp, dar a ratat”. Cu toate acestea, expresia „A ratat fereastra cu o sticlă” nu este în întregime corectă.

Din punct de vedere formal, avem construcția descrisă mai jos. Pentru a nu asocia un predicat separat fiecărui verb (și alte cuvinte), vom lua în considerare un predicat a cărui dimensiune este mai mare cu 1: P val(y, x1, x2, ..., xn), în timp ce y va fi cuvântul însuși și x1, x2, ..., xn – valența acestuia. Pentru a distinge între actanții sintactici și semantici, multi-indici pot fi utilizați pentru a indica actanții specificați în text. Intrarea înseamnă că sunt specificați actanții i1, i2, …, ik.
În special, dacă toți actanții sunt dați, atunci obținem. Este posibil ca unele variante (de seturi multi-index) să nu fie valide în limbă. Dacă mulțimea i1, i2, …, ik este admisibilă, atunci implicația este valabilă

Mai mult, dacă există două seturi de multi-indexuri valide Și , astfel încât (i1, i2, …, ik) Ê (i1”, i2”, …, is”), atunci o implicație similară este valabilă

Dicționarul combinatoriu explicativ este una dintre principalele invenții teoretice ale I.A. Melchuk.
Într-un fel, modelul de limbaj propus de I.A. Melchuk, prezintă limba ca un set de intrări de dicționar cu o cantitate imensă de informații variate; Cu un astfel de dicționar, regulile gramaticale joacă mai degrabă un rol secundar. Dicționarul combinatoriu explicativ reflectă, în primul rând, compatibilitatea nebanală a lexemelor. Ne putem gândi la o limbă ca la un model foarte mare în care sunt definite predicate lexicale care operează în modul descris mai sus.

O intrare într-un dicționar combinatoriu explicativ conține informații despre valențele unui anumit cuvânt, ceea ce este adevărat nu numai în cadrul său, ci și în cadrul întregii limbi în ansamblu. Valenta corespunde unui predicat, unde sunt actantii semantici ai cuvantului cx, n este valenta cuvantului cx. De exemplu, în propoziția Petya citește o carte, cx = citește, n = 2: y1 = Petya, y2 = carte, adică putem scrie condiționat P val (cx, y1, y2) = 1.

Un set de intrări dintr-un dicționar explicativ-combinatorial poate fi considerat un anumit submodel al modelului original, care este o limbă. Predicatele lexicale definite acum pe un set mai restrâns vor acționa similar.

Notăm cu F mulțimea de sintagme corect construite ale limbajului natural L și j О F – o frază din această mulțime; – cuvântul cx este inclus în sintagma j, iar cx О L. Fie cx un substantiv sau un adjectiv. Să notăm cu Predicat mulțimea de predicate definită pe L. Unul dintre elementele acestei mulțimi este predicatul de valență introdus anterior P val (cx, y1, …, yn).

În mod similar, putem presupune că există și alte predicate:

– predicat al genului cuvântului Gen, unde О (g1, g2, g3), g1 = feminin; g2 = masculin; g3 = medie;

– predicat al prepoziției Prepoziție, unde Î (pr1, ..., prk) – un set de prepoziții combinate cu un cuvânt dat;

– predicat caz Cazuri, unde – cazul cuvântului cx; pentru diferite limbi, numărul de cazuri este diferit: de exemplu, în limba rusă există șase cazuri, prin urmare Î (case1, case2, case3, case4, case5, case6), case1 = im.p.; caz2 = gen; case3 = data; case4 = vin.p.; case5 = creativ; case6 = clauză; în germană există patru cazuri, deci Î (case1, case2, case3, case4), unde case1 = Nom; case2 = Gen; case3 = Data; case4 = Akk.

Intrarea din dicționar a unui dicționar explicativ-combinator conține cuvântul principal, predicate lexicale asociate cu acesta și informații despre valența acestui cuvânt. Informațiile despre valență includ un număr care indică numărul de actanți, iar pentru fiecare actant - o indicație în ce cazuri și cu ce prepoziții sunt folosite cuvintele corespunzătoare acestui actant. În unele cazuri, poate fi indicat și genul cuvântului.

Cele de mai sus pot fi reprezentate printr-un set de predicate de forma

unde xi este o variabilă liberă corespunzătoare actantului i.

Teoria „Semnificația Û Text” a fost creată de la bun început pentru a fi utilizată în probleme aplicate de traducere automată. Potrivit lui I.A. Melchuk, cu ajutorul său, spre deosebire de teoriile tradiționale neriguroase, a fost necesar să se asigure construirea unui model de limbaj „funcțional”. Teoria „Meaning Û Text” a fost într-adevăr folosită în unele sisteme de traducere automată dezvoltate în Rusia, mai ales în sistemul de traducere automată engleză-rusă ETAP, creat de un grup condus de Yu.D. Apresyan. Toate aceste sisteme sunt experimentale, adică utilizarea lor industrială nu este posibilă. Deși includ o mulțime de informații utile din punct de vedere lingvistic, în general niciuna dintre ele nu a oferit încă o descoperire în ceea ce privește calitatea traducerii.

În opinia autorului, principala idee valoroasă a acestei teorii este că semnificațiile cuvintelor nu se corelează direct cu realitatea înconjurătoare, ci cu ideile vorbitorului nativ despre această realitate (uneori numite concepte). Natura conceptelor depinde de cultura specifică; sistemul de concepte al fiecărei limbi formează așa-numita „imagine naivă a lumii”, care în multe detalii poate diferi de imaginea „științifică” a lumii, care este universală. Sarcina analizei semantice a vocabularului în teoria „Semnificația Û Text” este tocmai de a descoperi „imaginea naivă a lumii” și de a descrie principalele ei categorii. Cu alte cuvinte, rolul important al acestei teorii este de a descrie nu numai imaginea obiectivă, ci și subiectivă a lumii.

În ciuda faptului că interesul pentru teoria I.A. Melchuk se estompează, marcarea corpusului sintactic „Corpusul național al limbii ruse” este efectuată de procesorul lingvistic ETAP-3, bazat pe principiile teoriei „Sens Û Text”.

După cum sa menționat mai sus, Yu.D a participat la dezvoltarea procesorului ETAP. Apresyan. Ideile lui sunt oarecum diferite de cele ale lui I.A. Melchuk. Locul central în cercetarea lui Yu.D. Apresyan este ocupat de un nou tip de dicționar de sinonime. Pentru acest dicționar, a fost dezvoltată o schemă detaliată de descriere a seriei sinonime, în care fiecare element al seriei a fost caracterizat în termeni de semantică, sintaxă, compatibilitate și alte proprietăți. Dicționarul colectează și rezumă cantitatea maximă de informații despre comportamentul lingvistic al sinonimelor rusești.

Diagrame conceptuale de dependență

Analiză conceptuală și de caz

La etapa analizei morfologice si semantico-sintactice a textelor, unitatile principale care denota concepte sunt cuvintele. De regulă, se crede că sensul frazelor și frazelor poate fi exprimat prin semnificațiile cuvintelor lor constitutive. Doar un număr limitat de fraze stabile – idiomuri – sunt considerate excepții. Această abordare se bazează pe presupunerea că combinațiile de cuvinte găsite într-o limbă pot fi împărțite în „libere” și „nelibere”.

O altă abordare se bazează pe faptul că cele mai stabile (indivizibile) unități de sens sunt categoriile și conceptele, formate nu din cuvinte independente, ci din fraze. Astfel de categorii și concepte se numesc concepte. Cu această abordare, frazele „nelibere” nu sunt doar expresii idiomatice, ci și toate unitățile frazeologice stabile ale limbajului și vorbirii (există sute de milioane de ele în limbile dezvoltate).

Ideea analizei conceptuale ca componentă integrală a analizei semantice se regăsește și în studiile lui V.Sh. Rubașkin și D.G. Lahuti. Această secțiune prezintă pe scurt punctele de vedere cu privire la problema ce probleme ar trebui rezolvate prin intermediul analizei semantice conceptuale.

Intrarea componentei semantice trebuie să primească text marcat sintactic. Textul marcat trebuie să conțină diverse informații: identificatori ai conceptelor corespunzătoare cuvântului (termenului); indicarea gazdei sintactice (toate gazdele alternative) și tipul conexiunii sintactice etc.

Înainte de a trece la componenta semantică trebuie identificați și termenii și sintagmele, prezentarea informațiilor numerice trebuie să fie unificată, trebuie identificate denumirile proprii etc. În proiectele reale, toate aceste probleme sunt rezolvate cu diferite grade de aproximare. Se poate considera că comunitatea profesională a ajuns la un acord cel puțin asupra următoarelor aspecte.

Analiza semantică, din punctul de vedere al metodelor și mijloacelor folosite, ar trebui să cuprindă două etape: a) etapa interpretării legăturilor exprimate gramatical (sintactice și anaforice) și b) etapa recunoașterii legăturilor care nu au expresie gramaticală. .

Ambiguitățile ar trebui rezolvate prin procesul de analiză în sine - după criteriul gradului de satisfacție semantică a rezultatului obținut la fiecare opțiune.

Punctul cheie al unui sistem de analiză semantică este suportul eficient pentru dicționar.
În acest sens, orice sistem de analiză semantică este orientat spre tezaur. Procedurile de analiză semantică în toate cazurile, fără excepție, se bazează pe funcționalitatea dicționarului conceptual. Un dicționar care să susțină analiza semantică trebuie să opereze cu semnificații și, prin urmare, să descrie proprietățile și relațiile conceptelor, nu cuvintelor. Acesta este un dicționar conceptual. Într-un fel, rolul unui dicționar conceptual poate fi îndeplinit de rețele semantice, care sunt descrise în secțiunea următoare.

În interpretul semantic, în primul rând, este necesar să se precizeze tipurile de relații semantice distincte în text: rol (relații după valența predicatului), subiect-asociativ (relații între obiecte, procese, semnificative în subiect). zona - a face parte, a avea un loc, a fi destinat, a fi capitala etc.) etc.

Sunt acceptate următoarele postulate de bază pentru interpretarea conexiunilor sintactice.

1. Tipul de relaţie semantică care se stabileşte este determinat de clasele semantice şi
în anumite cazuri, caracteristici semantice mai detaliate ale „stăpânului” și „slujitorului” sintactic.

2. Prepozițiile sunt considerate nu ca un obiect independent de interpretare, ci ca o caracteristică suplimentară (semantico-gramaticală) a legăturii dintre „proprietarul” sintactic al prepoziției și cuvântul semnificativ controlat de aceasta.

3. Pentru a rezolva omonimia lexicală și sintactică înregistrată de parser, interpretul semantic folosește un sistem de preferințe stabilite empiric. Pentru a facilita compararea preferințelor opțiunilor de interpretare, li se atribuie ranguri numerice. La nivelul tipurilor de relații semantice se stabilește următoarea ordine de preferințe (ordinea de listare corespunde unei scăderi a priorității relației):

– conexiuni funcționale și conexiuni care stabilesc faptul redundanței semantice;

– conexiuni de rol, definite ca obligatorii, în prezența unui actant consistent semantic;

– conexiuni coreferențiale;

– conexiuni de rol, definite ca opționale;

– conexiuni subiect-asociative specificate;

– legăturile subiect-asociative sunt nespecificate.

Conexiunile sintactice specificate sunt cele pe care interpretul este capabil să lexicaliza cu o relație specifică în domeniul subiectului (facilități portuare ® structuri situate în port); Prin urmare, conexiunile nespecificate sunt acelea pentru care interpretul nu oferă o asemenea specificație și care sunt interpretate prin conceptul general de conectat.

Dacă se detectează omonimia sintactică a conexiunilor de coordonare, preferințele sunt determinate de gradul de consistență a caracteristicilor semantice ale participanților la conexiunea sintactică.

Ambiguitățile lexicale și sintactice locale (prezența gazdelor alternative pentru un cuvânt) sunt procesate într-un singur mecanism de enumerare. Opțiunile globale pentru analizarea unei propoziții sunt luate în considerare în mecanismul de enumerare de nivel următor. În acest caz, ponderile totale de interpretare ale tuturor conexiunilor de propoziție sunt comparate.

La stabilirea diferitelor tipuri de relații, interpretarea este determinată de următoarele prevederi.

La stabilirea relațiilor de rol, următoarele caracteristici gramaticale ale participanților la o conexiune sintactică sunt semnificative și trebuie luate în considerare (în raport cu limba rusă):

– tip semantico-sintactic de predicat (caracteristică de dicționar);

– forma gramaticală a predicatului;

– caz actant, posibilitatea unei forme adjectivale pentru un actant în funcție de o valență dată;

– posibilitatea controlului prepozițional al actantului și capacitatea prepoziției formând o legătură sintactică de a exprima relația în funcție de o valență dată; informațiile despre capacitatea unei prepoziții de a servi ca indicator de rol pentru o anumită valență sunt stocate în descrierea din dicționar a prepoziției.

Operațional, procedura de determinare a posibilului rol al unui actant este determinată de gramatica conexiunilor de rol, stabilindu-se corespondența tipului

(Rf, GFP, TSEMU) ® VAL,

unde Rf este numele conexiunii sintactice; GFP – forma gramaticală a predicatului; TSEMU – tip semantico-sintactic de predicat; VAL este numele unei posibile valențe sau o referire la funcția de rol a prepoziției.

Apoi se verifică conformitatea caracteristicilor semantice ale actantului cu condiția semantică de umplere a valenței predicatului (se verifică compatibilitatea volumetrică perechea corespunzătoare de concepte).

Pentru a stabili o relație de coreferență, sunt necesare și suficiente următoarele condiții:

– „stăpânul” și „slujitorul” aparțin categoriei semantice Obiect;

– conceptele corespunzătoare termenilor „stăpân” și „slujitor” sunt într-o relație de compatibilitate volumetrică;

– în cazul unei conexiuni prepoziționale, se verifică capacitatea unei prepoziții date de a exprima o relație de coreferenție.

Pentru a stabili relații subiect-asociative specificate, sunt necesare și suficiente următoarele condiții:

– conceptele corespunzătoare termenilor „stăpân” și „slujitor” se află într-o relație de incompatibilitate volumetrică, sau (dacă sunt compatibili) acești termeni sunt legați sintactic printr-o prepoziție care nu este capabilă să exprime relația de coreferență;

– cu o pereche de termeni „stăpân – servitor” se asociază lexical o relație de subiect
(<автомобиль, кузов>® au o parte) și/sau (dacă legătura este prepozițională) relația subiect este asociată cu o prepoziție și caz.

Pentru a stabili relații subiect-asociative nespecificate, adevărul primei și falsitatea celei de-a doua condiții sunt necesare și suficiente.

Analiza „pe eșantion” (analiza precedentă), bazată pe utilizarea unui corpus de texte preetichetate, devine din ce în ce mai importantă. Un sistem de analiză construit în mod rezonabil ar trebui să asigure nu numai extragerea cunoștințelor dintr-un text specific, ci și acumularea de rezultate atât la nivel sintactic, cât și la nivel semantic - pentru utilizarea lor ulterioară ca precedente.

Unul dintre cele mai ample și semnificative proiecte în curs de implementare este crearea Corpusului Național al Limbii Ruse. La ea participă un grup mare de lingviști din Moscova, Sankt Petersburg, Kazan, Voronezh, Saratov și alte centre științifice ale Rusiei.

Corpusul național al limbii ruse este o colecție de texte electronice dotate cu informații lingvistice și metatextuale extinse. Corpusul reprezintă întreaga varietate de stiluri, genuri și variante ale limbii ruse din secolele XIX-XX. Corpusul național al limbii ruse folosește în prezent cinci tipuri de marcaj: metatextual, morfologic (flexiv), sintactic, accentual și semantic. Nu vom lua în considerare în detaliu toate tipurile de marcare disponibile, ne vom concentra doar pe marcajul semantic.

Cu marcarea semantică, celor mai multe cuvinte din text li se atribuie una sau mai multe caracteristici semantice și de formare a cuvintelor, de exemplu, „persoană”, „substanță”, „spațiu”, „viteză”, „mișcare”, etc. Marcarea textului este efectuată. scos automat folosind programul Semmarkup (autor A.E. Polyakov) în conformitate cu dicționarul semantic al corpusului. Deoarece procesarea manuală a textelor etichetate semantic necesită foarte multă muncă, omonimia semantică din corpus nu este eliminată: mai multe seturi alternative de caracteristici semantice sunt atribuite cuvintelor poliseme.

Markupul semantic se bazează pe sistemul de clasificare a vocabularului rus adoptat în baza de date Lexicograph, care a fost dezvoltată din 1992 în Departamentul de Cercetări Lingvistice al VINITI RAS sub conducerea lui E.V. Paducheva și E.V. Rakhilina. Pentru corpus, vocabularul a fost semnificativ extins, compoziția a fost extinsă și structura claselor semantice a fost îmbunătățită și au fost adăugate caracteristici de formare a cuvintelor.

Vocabularul dicționarului semantic se bazează pe dicționarul morfologic al sistemului „Apelare” (cu un volum total de aproximativ 120 de mii de cuvinte), care este o extensie a dicționarului gramatical al limbii ruse de A.A. Zaliznyak. Versiunea actuală a dicționarului semantic include cuvinte din părți semnificative de vorbire: substantive, adjective, numere, pronume, verbe și adverbe.

Informațiile lexico-semantice atribuite unui cuvânt arbitrar din text sunt formate din trei grupuri de mărci:

– categorie (de exemplu, nume propriu, pronume reflexiv);

– caracteristici lexico-semantice reale (de exemplu, clasa tematică a unui lexem, semne de cauzalitate, evaluări);

– caracteristici derivative (formative de cuvânt) (de exemplu, „diminutiv”, „adverb adjectiv”).

Informațiile lexico-semantice au o structură diferită pentru diferitele părți ale vorbirii. În plus, fiecare dintre categoriile de substantive - substantive obiective, neobiective și proprii - are propria sa structură nominală.

Marcajele lexico-semantice reale sunt grupate în următoarele câmpuri:

– taxonomie (clasa tematică de lexem) – pentru substantive, adjective, verbe și adverbe;

– mereologie (indicarea relației „parte – întreg”, „element – ​​​​mult”) – pentru nume obiective și neobiective;

– topologia (starea topologică a obiectului desemnat) – pentru numele subiectelor;

– cauzalitate – pentru verbe;

– stare de serviciu – pentru verbe;

– evaluare – pentru nume, adjective și adverbe obiective și neobiective.

Clase tematice de verbe

Studiile lui E.V sunt, de asemenea, considerate ca o direcție specială în studiul semanticii limbii ruse. Paducheva. Cele mai interesante sunt lucrările privind clasele tematice de verbe rusești. Clasa tematică combină cuvinte cu o componentă semantică comună care este centrală pentru structura lor semantică. Există, de exemplu, verbe de fază, verbe de percepție, verbe de cunoaștere, verbe de emoții, verbe de luare a deciziilor, acțiuni de vorbire, mișcare, verbe de sunet, verbe existențiale etc.

Cuvintele din aceeași clasă tematică au o componentă comună non-trivială în interpretare. Clasa tematică este importantă din mai multe motive. În primul rând, o clasă tematică are adesea manifestări caracteristice în sintaxă - de exemplu, o clasă are de obicei un membru caracteristic.
În al doilea rând, membrii aceleiași clase tematice tind să aibă același set de derivate semantice, adică concepte dependente de aceasta.

Articolul oferă cea mai completă listă de semnificații de aspect privat ale verbelor imperfective. Se disting următoarele tipuri de semnificații: actual-pe termen lung (procesul sau starea durează în momentul observării); procesual (adică pur și simplu în curs de desfășurare); constant-continuu (sensul unei proprietăți sau relații constante); obișnuit (sensul de obișnuit, adică o acțiune sau eveniment repetată, general acceptată); potenţial; multiple (dar nu obișnuite sau potențiale); factual general nelimitat (sensul unei stări oprite sau al unui proces nelimitat); efectiv efective general (acțiunea și-a atins limita); bidirecțională generală de fapt (rezultatul a fost atins, dar a fost anulat printr-o acțiune în direcția opusă); în general faptice ineficiente (nu se știe dacă acțiunea și-a atins limita).

Lucrarea analizează nume de predicate, adică substantive formate din verbe și adjective, precum lupta, venirea, disperarea, zgârcenia. Ca rezultat, este posibil să se facă distincția între procese, evenimente, stări și proprietăți.

De exemplu, numele proceselor sunt acceptabile în contextul verbelor cu sensul „a continua”, „a merge”, adică „a avea loc” (se desfășoară o conversație, are loc o grevă, are loc o actualizare). loc). Un anumit tip de proces sunt acțiunile continue, adică procesele intenționate cu un subiect activ, cum ar fi lupta, verificarea, dar nu cum ar fi înotul, fuga, revoltarea, mersul pe jos, somnul, fumatul. Numele de acțiuni sunt acceptabile în contextul verbelor cu sensul „a produce”, „a conduce”: supravegherea a fost efectuată de un grup de agenți; efectuează recepția (înlocuire, selecție); investigam.

Toate denumirile proceselor sunt folosite în contextul verbelor de fază cu semnificația „începe”, „sfârșește”, „continuă”: lupta a început (ploaie, luptă); persecuția dizidenților s-a încheiat; Debarcarea (asediul) continuă. Numele de acțiuni sunt acceptabile în contextul verbelor de fază cu sensul „începe”, „termină”, „continuă”: intrat în negocieri; terminat de verificare caiete; citire întreruptă; început, început, oprit (emitere). Contextul verbului de fază este un diagnostic al numelor de proces, spre deosebire de numele evenimentelor.

Numele evenimentelor sunt folosite în contextul verbelor cu sensul „s-a întâmplat”, „s-a întâmplat”: a avut loc un cutremur. Evenimentele diferă de procese prin faptul că au un observator retrospectiv. Observatorul procesului este sincron, prin urmare, dacă avem un proces, atunci verbul este imperfect, iar dacă avem un eveniment, atunci este perfect.

Vom omite multe alte detalii referitoare la diferențele dintre procese, evenimente, stări și proprietăți, cu excepția faptului că potențialul de aplicare al acestor studii rămâne de descoperit.

Mai jos este o listă de verbe de percepție, desemnate de E.V. Paducheva ca una dintre clasele tematice cele mai bine studiate. S-ar părea că pentru a stabili că un verb aparține clasei tematice a percepțiilor este suficient să ne asigurăm că formula sa semantică include componenta „percepție”. Totuși, totul nu este atât de simplu. Faptul este că componenta perceptivă este ușor inclusă în semantica verbelor din diferite clase. Percepția reală curge în percepția mentală.

1. Verbe de mișcare și stare care presupun un observator:

a) verbe de mișcare observată: fulger, fulger, apar, alunecare;

b) verbe din starea observată: alb, scoate, războaie; împrăștiat, ieșire, izbucnire, răspândire, deschidere, performanță;

c) verbe de emisie de lumină, miros, sunet: strălucire, pâlpâire, strălucire, miros, miros, sunet.

2. Verbul a fi auzit sugerează observatorului (ca în clopoțelul a sunat), dar următoarele verbe au și o componentă perceptivă: a zăbovi, a înăbuși, a umbri, a tăcea, a tăcea, a se potoli, a înăbuși. îmbinați (ca în tunică și pantaloni gri aproape îmbinați cu pământul).

3. Subiectul percepției (sau observatorului) este un participant obligatoriu la situațiile exprimate prin verbe cauzative: exprima, arată (mi-a arătat afecțiunea); evidențiere, dezvăluire, umbrire, evidențiere, surprindere, ascunde, expune, marca (borduri), deschide, marca, afișa; și decauzativele lor (exprimă, dezvăluie, ies în evidență, imprimă, expune, identifică, deschide).

4. Există multe verbe care descriu identificarea, ceea ce necesită participarea simțurilor: identifica, diferențiază, recunoaște, distinge, identifică, distinge (conturează), recunoaște, face (ca în a doua literă nu înțeleg).

5. Multe verbe includ o componentă perceptivă, dar denotă o acțiune sau o activitate foarte specifică, pentru care principalul lucru este scopul, și nu participarea percepției la realizarea acesteia: inspectați („efectuați o inspecție”), înregistrare, căutare , găsi, găsește, caută, explorează, înfățișează, conturează, urmărește, urmărește, urmărește, păzește, sta la pândă, luminează, ascunde, ascunde, spionează.

6. Orice verb de a transmite și a primi informații, de exemplu, a scrie sau a citi, presupune prezența unui semnal care trebuie perceput de simțuri.

7. Verbele arată și ascunde, întrucât interpretarea lor include o componentă perceptivă, pot fi clasificate și ca verbe de percepție.

8. Verbele de percepție includ, printre altele, orb - orbește (și orbește într-unul dintre sensuri). Ele descriu pierderea organului vederii, ducând la pierderea capacității de a vedea pentru totdeauna. Totuși, acesta nu include verbul a se trezi, care denotă o pierdere temporară a capacității de a percepe odată cu revenirea sa ulterioară.

9. Câteva verbe de percepție colorate stilistic: se uite, se holbează, se holbează, se holbează, se holbează, se văd, se prinde, se luminează.

10. Clasificarea tematică este ghidată de semnificațiile originale ale cuvintelor. Între timp, multe verbe au un sens perceptiv ca derivat; în special, a veghea, a înfrunta (o problemă), a pătrunde (un secret), a vorbi. De exemplu, clădirile albe au apărut brusc din întuneric.

11. Alte cuvinte asemănătoare în care sensul percepției este derivat sau determinat contextual, cum ar fi arunca (priviți, priviți), grăbiți (în ochi), întoarceți (priviți, atenția), alergați prin (ochii), strălucirea (priviți) , alunecare (uite ).

12. Verbe cu metode marcate de acțiune:

a) început: a se vedea prin, a albi, a suna;

b) fifinitive: a privi, a asculta și a spiona, a auzi;

c) saturare: uita-te destul, admira destul, ascultă suficient;

d) verbe de completă absorbție în acțiune: a privi - a privi, a privi - a privi;

e) deosebit de eficient: look out - look out, track - track down, track - track;

f) înmuiere intermitentă: uite, privesc; semelfactiv: uite.

Verbele de percepție, ca și alte clase tematice, au propriile lor modele de derivare semantică, caracteristice acestei clase particulare.

13. O tranziție semantică este caracteristică - de la percepție la sens mental. Semnificația mentală derivată se dezvoltă, de exemplu, în verbele a vedea, a privi, a observa, a lua în considerare (ca un indiciu; și avem în vedere propoziția ta), a simți, a părea, a descoperi, a auzi, a închipui, a întâlni, a urmări, a apărea; prezentați-vă, vedeți-vă (aceeași ambiguitate pentru substantivul aspect):

a) De la tejghea avea o vedere clară asupra pridvorului clubului (sens vizual);

b) O văd așa (sens mental).

14. Verbul a mărturisi sugerează etimologic viziune, dar în contextul Acest lucru mărturisește talentul său extraordinar are un sens mental; a arunca lumină înseamnă „a face mai clar”, deși este nevoie de lumină pentru a vedea. Verbul a anticipa și-a pierdut în general componenta asociată cu percepția gustului și a devenit mental.

15. Sensul mental derivat apare și în verbele cauzative. Așadar, show este un verb de percepție, dar poate avea și sensul de „dovedi”, mental. Este interesant că printre derivatele lui see există atât verbe de cunoaștere, cât și verbe de opinie:

a) Văd că taci (cunoaștere);

b) el vede acest lucru ca pe un obstacol (opinie).

16. Verbul a apărea îmbină sensul perceptiv (El nu era acolo) cu sensul mental (S-a dovedit că era sănătos).

17. Sensul derivat al vorbirii dezvoltă verbul a observa; se manifestă în combinație cu adverbe: ai observat corect („a spus corect”).

18. Verbele ascultă, ascultă, ascultă, ascultă, se caracterizează prin ambiguitatea „percepe” - „supun”.

19. Tranziția semantică look ® relate este de asemenea regulată, adică repetată: îl privesc simplu (îl tratez simplu); închide ochii (rădăcină); în ciuda (indiferent de).

20. Ambiguitatea privirii ® relatează este caracteristică verbului strabi: a) (privire lateral, din lateral); b) (uita-te cu suspiciune, tratează cu suspiciune, exprimă o atitudine suspicioasă cu o privire).

21. Trecerea spre a see ® have este reprezentată de exemple de găsire, pierdere.

22. Trecerea de la percepție la contactul interpersonal se notează la verbele a se întâlni, a se uita (la lumină), a se vedea.

23. Semnificația de a vedea poate dispărea la ideea de simplu contact cu un obiect, adică de a fi în același loc (Acești ziduri au văzut multe; Crimeea va fi întotdeauna bucuroasă să te vadă).

24. Verbele a apărea și a dispărea se caracterizează prin ambiguitatea de a fi vizibil – existent. Există o ambiguitate similară în denotate – a fi denotat; a se rătăci: de exemplu, Calea s-a pierdut în tufișuri (a încetat să mai fie vizibilă) și s-a pierdut treptat din vioarea mișcărilor (a încetat să mai existe); specia perfectă are un abis (deși pentru specia imperfectă, a dispărea înseamnă doar a nu fi vizibil: unde ai fost?). În limbajul matematic, dacă X există, atunci X există.

25. Conceptul semantic de percepție coexistă deseori cu mișcarea: se ciocnește, se poticnește, se da peste, da; fi prins (am primit o ciupercă albă).

Consecința mișcării poate fi, dimpotrivă, părăsirea câmpului vizual, ca în ascunderea, evadarea, rănirea.

Este interesant că pentru verbele care exprimă principalele tipuri de percepție - vedere, auz, miros, atingere, gust - este posibil să se identifice o singură paradigmă de derivate semantice ale lexemului original și va fi în mod substanțial același pentru multe limbi, ceea ce indică vechimea acestui vocabular și modele de date.

Esențială în această abordare este ideea împărțirii conceptelor de limbaj în anumite grupuri semantice, ținând cont de faptul că aceste concepte au o componentă semantică comună netrivială. Elementele unor astfel de grupuri tind să aibă același set de concepte dependente. Un dicționar care să susțină analiza semantică trebuie să opereze cu semnificații și, prin urmare, să descrie proprietățile și relațiile conceptelor, nu cuvintelor. Rămâne întrebarea cum să structurați și să prezentați corect informațiile în astfel de dicționare, astfel încât căutarea prin ele să fie convenabilă și rapidă și, în plus, este posibil să se țină seama de schimbările în limbajul natural (dispariția vechilor concepte și apariția unor concepte noi). ).

Când se discută probleme de semantică, este adesea menționat principiul compoziționalității. El susține că sensul unei expresii complexe este determinat de semnificațiile părților sale constitutive și de regulile aplicate pentru a le combina. Deoarece o propoziție este formată din cuvinte, se dovedește că sensul ei poate fi reprezentat printr-un set de semnificații ale cuvintelor incluse în ea. Dar nu este atât de simplu. Sensul unei propoziții se bazează și pe ordinea cuvintelor, fraza și relațiile dintre cuvintele dintr-o propoziție, adică ține cont de sintaxă.

După cum putem vedea, diagramele de dependență conceptuală sugerează că în unele cazuri este încălcat principiul compoziționalității. Este o greșeală să afirmi că sensul frazelor și frazelor poate fi exprimat prin semnificațiile cuvintelor lor constitutive. Acest lucru nu este întotdeauna adevărat. Cu toate acestea, principala problemă a acestei abordări este că identificarea claselor tematice și compilarea dicționarelor semantice este un proces extrem de laborios, foarte dependent de percepția și interpretarea individuală a conceptelor de către o anumită persoană.

Modele de rețea de reprezentare a cunoștințelor

Tezauri, rețele semantice, modele cadru și ontologice

Un tezaur este un tip de dicționar de vocabular general sau special, care indică relațiile semantice dintre unitățile lexicale. Spre deosebire de un dicționar explicativ, un tezaur vă permite să identificați sensul nu numai printr-o definiție, ci și prin corelarea unui cuvânt cu alte concepte și grupurile acestora, datorită cărora poate fi folosit pentru a umple bazele de cunoștințe ale sistemelor de inteligență artificială.

Tezaurii folosesc de obicei următoarele relații semantice de bază: sinonime, antonime, hiponime, hiperonime, meronime, holonime și paronime.

Sinonimele sunt cuvinte ale aceleiași părți de vorbire, diferite ca sunet și ortografie, dar având un sens lexical similar (curajos - curajos, neînfricat).

Antonimele sunt cuvinte ale aceleiași părți de vorbire, diferite ca sunet și ortografie, având sensuri lexicale direct opuse (bine - rău).

Un hiponim este un concept care exprimă o anumită entitate în raport cu un alt concept, mai general (animal - câine - buldog).

Hipernim este un cuvânt cu un sens mai larg, care exprimă un concept general, generic, denumirea unei clase de obiecte, proprietăți sau caracteristici (bulldog - câine - animal).

Un hipernim este rezultatul unei operații de generalizare logică, în timp ce un hiponim este o limitare.

Meronimul este un concept care este parte integrantă a altuia (mașină - motor, roată, capotă).

Holonimul este un concept care este un întreg deasupra altor concepte (motor, roată, capotă - mașină).

Meronimia și holonimia ca relații semantice sunt reciproc inverse una față de alta, la fel ca hiponimia și hiperonimia.

Paronimele sunt cuvinte similare ca formă, dar diferite ca semnificație (indian - indian).

Un exemplu de tezaur este WordNet. Unitatea de vocabular de bază a WordNet este o serie sinonimă (synset), care combină cuvinte cu semnificații similare. Synset-urile constau din cuvinte care aparțin aceleiași părți de vorbire ca și cuvântul original. Fiecare synset este însoțit de o mică declarație (definiție) care explică sensul său. Synseturile sunt interconectate prin diverse relații semantice, de exemplu, hiponimie, hiperonimie etc. Un exemplu cu cuvântul stilou (pen) este prezentat în Figura 1. Se poate observa că în dicționar există cinci semnificații diferite pentru acest cuvânt; aparține categoriei instrumentelor de scris și are șapte cuvinte înrudite: creion, marker, cretă de tablă, cretă de ceară etc.

WordNet conține aproximativ 155 de mii de lexeme și fraze diferite, organizate în 117 mii de sinseturi. Întreaga bază de date este împărțită în trei părți: substantive, verbe și adjective/adverbe. Un cuvânt sau o expresie poate fi în mai mult de un sinset și poate aparține mai multor categorii de părți ale vorbirii. Informații mai detaliate despre numărul de cuvinte unice, synsets și perechi cuvânt-synset din baza de date WordNet sunt date în Tabelul 1.

Avantajele WordNet față de alte resurse similare sunt deschiderea, accesibilitatea și prezența unui număr mare de conexiuni semantice diferite între synsets. WordNet este accesat direct folosind un browser (local sau prin Internet) sau biblioteci C.

Există implementări WordNet pentru alte limbi (aproximativ 16). De exemplu, EuroWordNet a fost creat pentru limbile europene, a căror legătură între diferite versiuni lingvistice se realizează printr-un index special interlingvistic. WordNet este dezvoltat și pentru limba rusă. Trebuie remarcat faptul că există metode pentru clasificarea subiecților a sinseturilor WordNet, adică determinarea ariilor de cunoaștere în care sunt utilizate. Astfel de informații pot servi ulterior la reducerea numărului de semnificații posibile ale cuvintelor dacă subiectul documentului care este prelucrat este cunoscut, făcând astfel posibilă reducerea valorii erorii atunci când se acceptă semnificația greșită a unui cuvânt.

O rețea semantică este un model al unei zone subiect care are forma unui graf direcționat, ale cărui vârfuri corespund obiectelor zonei subiectului, iar arcele (marginile) definesc relațiile dintre ele. Obiectele pot fi concepte, evenimente, proprietăți, procese. Astfel, rețeaua semantică reflectă semantica disciplinei sub formă de concepte și relații. Mai mult, conceptele pot fi fie exemple ale obiectelor, fie seturi ale acestora.

Rețelele semantice au apărut ca o încercare de a vizualiza formule matematice. În spatele reprezentării vizuale a unei rețele semantice sub forma unui graf se află un model matematic în care fiecărui vârf îi corespunde un element din mulțimea subiectului, iar un arc unui predicat. Figura 2 prezintă un exemplu de web semantic preluat de pe Wikipedia.

Terminologia folosită în acest domeniu este variată. Pentru a obține o oarecare omogenitate, nodurile conectate prin arce sunt de obicei numite grafuri, iar o structură în care există un întreg cuib de noduri sau unde există relații de diverse ordine între grafuri se numește rețea. Pe lângă terminologia folosită pentru explicație, și metodele de reprezentare diferă. Unii folosesc cercuri în loc de dreptunghiuri; unii scriu tipuri de relații deasupra sau dedesubtul arcelor, înglobându-le sau neînglodându-le în ovale; unii folosesc abrevieri precum O sau A pentru a desemna un agent sau obiect; unele folosesc diferite tipuri de săgeți.

Primele rețele semantice au fost dezvoltate ca limbaj intermediar pentru sistemele de traducere automată. Cele mai recente versiuni ale rețelelor semantice devin din ce în ce mai puternice și mai flexibile și concurează cu sistemele de cadre, programarea logică și alte limbaje de reprezentare a cunoștințelor.

În ciuda terminologiei diferite, a varietății metodelor de reprezentare a cuantificatorilor generali și de existență și a operatorilor logici, a modalităților diferite de manipulare a rețelelor și a regulilor de inferență, putem identifica asemănări semnificative inerente în aproape toate rețelele semantice:

– nodurile rețelelor semantice reprezintă concepte de obiecte, evenimente, stări;

– noduri diferite ale aceluiași concept se referă la valori diferite, cu excepția cazului în care sunt marcate ca aparținând aceluiași concept;

– arcuri de rețele semantice creează relații între nodurile de concept, semnele de deasupra arcelor indică tipul de relație;

– unele relații între concepte reprezintă roluri semantice, precum „agent”, „obiect”, „destinatar” și „instrument”; altele înseamnă relații și relații temporale, spațiale, logice între propoziții individuale;

– conceptele sunt organizate pe niveluri în funcție de gradul de generalitate, similar ierarhiei hiperonimelor din WordNet, de exemplu, entitate ® creatură vie ® animal ® carnivor.

Rețineți că, printre relațiile semantice folosite pentru a descrie rețele, pot exista nu numai relații semantice folosite în tezaure, ci și alte tipuri de relații: funcționale (definite de obicei prin verbele produce, influențează, ...), cantitative (mai mult decât, mai mic decât, egal cu, ... ), spațial (departe de, aproape de, sub, deasupra, ...), temporal (mai devreme, mai târziu, în timpul, ...), atributiv (au o proprietate, au o valoare ), logic (ȘI, SAU, NU), etc.

De exemplu, semantica propoziției Ivanov are un BMW negru poate fi reprezentată sub forma unei rețele semantice prezentate în Figura 3.

În ciuda unor diferențe, rețelele sunt ușor de citit și procesat de computer și sunt un mijloc vizual și destul de universal de reprezentare a semanticii limbajului natural. Cu toate acestea, formalizarea lor în modele specifice de reprezentare, utilizare și modificare a cunoștințelor se dovedește a fi destul de laborioasă, mai ales în prezența relațiilor multiple între elementele sale.

Luați în considerare, de exemplu, o rețea care descrie declarația pe care Nastya i-a cerut lui Dasha o carte. Să presupunem că putem atribui proprietăți obiectelor date: Nastya – „diligent”, Dasha – „curios”. Există o legătură între aceste obiecte (prin carte). Dar, pe lângă aceasta, există multe alte legături care există în lumea reală: statutul social (studenți, prietene - nu neapărat între ei), relații de familie (fiecare are părinți și/sau alte rude) etc. Se pare că, chiar și pentru un exemplu atât de simplu, rețeaua poate crește la o dimensiune mare și, ca urmare, căutarea ieșirii în ea va fi prea dificilă.

În rețelele semantice complexe, care includ multe concepte, procesul de actualizare a nodurilor și monitorizarea conexiunilor dintre ele, după cum vedem, complică procedura de procesare a informațiilor. Dorința de a elimina aceste neajunsuri a dus la apariția unor tipuri speciale de rețele semantice, cum ar fi modelele de cadru.

Modele-cadru de reprezentare a cunoștințelor au fost propuse de M. Minsky.

Un cadru este o structură pentru descrierea unui concept sau a unei situații, constând din caracteristicile acestei situații și semnificațiile acestora. Un cadru poate fi considerat ca un fragment al unei rețele semantice menit să descrie concepte cu întregul set de proprietăți inerente ale acestora. Particularitatea modelelor cadru de reprezentare a cunoștințelor este că toate conceptele descrise în fiecare dintre nodurile modelului sunt determinate de un set de atribute și valorile acestora, care sunt conținute în sloturile cadrului.< имя фрейма, слот 1, слот 2, …, слот N >. Grafic, aceasta arată similar cu rețeaua semantică, dar diferența fundamentală este că fiecare nod din modelul cadru are o structură generalizată constând din mai multe sloturi, fiecare dintre ele având un nume, un pointer de moștenire, un pointer de tip de date și o valoare. .

Un slot este un atribut asociat cu un nod într-un model bazat pe cadru; Numele slotului trebuie să fie unic în cadrul cadrului. Indicatorul de moștenire indică ce informații despre atributele despre sloturile dintr-un cadru de nivel superior sunt moștenite de sloturile cu aceleași nume într-un cadru de nivel inferior. Indicatorul de tip de date conține informații despre tipul de date incluse în slot. În mod obișnuit, sunt utilizate următoarele tipuri de date: indicator către numele cadrului de nivel superior, număr real, întreg, text, listă, tabel, procedură atașată etc. Valoarea slotului poate fi o instanță de atribut, un alt cadru sau fațetă și trebuie să se potrivească cu tipul de date specificat și cu moștenirea condiției. Pe lângă o anumită valoare, un slot poate stoca proceduri și reguli care sunt apelate atunci când este necesar să se calculeze această valoare. Astfel, un slot poate conține nu doar o anumită valoare, ci și numele unei proceduri care îi permite să fie calculată folosind un algoritm dat, precum și unul sau mai multe produse cu ajutorul cărora se determină această valoare. Un slot poate conține mai multe valori. Uneori, acest slot include o componentă numită fațetă, care specifică un interval sau o listă de valori posibile. Fațeta specifică, de asemenea, valorile limită de umplere ale slotului. Cel mai adesea, procedurile de adăugare și ștergere a informațiilor sunt asociate cu sloturi, acestea pot monitoriza alocarea informațiilor unui nod dat și pot verifica dacă se iau acțiuni adecvate atunci când valoarea se schimbă.

Există cadre de probă (prototipuri) stocate în baza de cunoștințe și cadre de instanță care sunt create pentru a afișa situații reale pe baza datelor primite. Modelele de cadru sunt destul de universale, deoarece vă permit să reflectați întreaga diversitate a cunoștințelor despre lume prin structuri-cadru (pentru a desemna obiecte și concepte: împrumut, gaj, factură), roluri-cadru (manager, casier, client), cadru. -scenarii (faliment, adunări acționarilor, sărbători onomastice), situații-cadre (alarma, accident, modul de funcționare a dispozitivului), etc. Pentru a reprezenta cunoștințele sub forma unei rețele de cadre, există limbaje și software speciale: FRL (Frame Representation Language), KRL (Knowledge Representation Language), frame Kappa shell, PILOT/2 și altele.

Cea mai importantă proprietate a teoriei cadrelor este moștenirea proprietăților împrumutate din teoria rețelelor semantice. Atât în ​​cadre, cât și în rețelele semantice, moștenirea are loc prin ISA. Un slot ISA indică un cadru la un nivel superior al ierarhiei, din care valorile sloturilor similare sunt implicit moștenite, adică transferate.

Principalul avantaj al cadrelor ca model de reprezentare a cunoștințelor este conformitatea lor cu ideile moderne despre organizarea memoriei umane pe termen lung, precum și flexibilitatea și claritatea acesteia. Avantajele modelelor cadru de reprezentare a cunoștințelor apar atunci când conexiunile generice se schimbă rar, iar domeniul de studiu are puține excepții.

Dezavantajele modelelor de cadru includ complexitatea lor relativ mare, care se manifestă printr-o scădere a vitezei mecanismului de inferență și o creștere a intensității muncii de a efectua modificări în ierarhia formată. Prin urmare, atunci când se dezvoltă sisteme de cadre, se acordă multă atenție metodelor de afișare vizuală și mijloacelor eficiente de editare a structurilor de cadre.

Se poate observa că abordarea orientată pe obiect este o dezvoltare a vederii cadru. În acest caz, șablonul cadru poate fi considerat ca o clasă, instanța cadru ca un obiect. Limbajele de programare orientate pe obiecte oferă instrumente pentru crearea de clase și obiecte, precum și instrumente pentru descrierea procedurilor de procesare a obiectelor (metode). Cu toate acestea, modelele cadru nu permit organizarea unui mecanism de inferență flexibil, astfel încât sistemele cadru sunt fie baze de date orientate pe obiect, fie necesită integrare cu alte instrumente de procesare a cunoștințelor, de exemplu, modele logice.

În ingineria cunoașterii, un model ontologic este înțeles ca o descriere detaliată a unui anumit subiect sau a unei probleme, care este folosită pentru a formula enunțuri de natură generală. Ontologiile vă permit să reprezentați concepte într-o formă potrivită pentru prelucrarea automată.

În centrul majorității ontologiilor se află clasele care descriu concepte de domeniu. Atributele descriu proprietățile claselor și ale instanțelor. Există aici analogii cu abordarea cadru a formalizării cunoștințelor. Multe concepte și principii de implementare, precum și forma grafică de reprezentare în stadiul inițial de structurare, sunt similare în ontologii cu rețelele semantice. Principala diferență este orientarea ontologiilor pentru utilizare directă de către un computer, adică structurile de date sunt descrise nu în limbaj natural (cum este comun în rețelele semantice și tezaure), ci într-un limbaj formal special. Ontologiile au, de asemenea, multe în comun cu tezaurele. Dar spre deosebire de acestea, cerințele necesare pentru modelele ontologice sunt completitudinea internă, interconectarea logică și consistența conceptelor utilizate. Este posibil ca tezaurile să nu îndeplinească aceste cerințe. Limbaje formale precum RDF, OWL, KIF, CycL, OCML și altele sunt folosite pentru a descrie ontologiile.

De obicei, se disting următoarele elemente principale ale ontologiilor:

– copii;

– clase de obiecte (concepte);

– atribute (descrieți proprietățile claselor și ale instanțelor);

– funcții (descrie dependențele dintre clase și instanțe);

– axiome (restricții suplimentare).

Ontologiile specializate (orientate pe domeniu) sunt o reprezentare a oricărui domeniu de cunoaștere sau parte a lumii reale. O astfel de ontologie conține semnificații specifice ale termenilor pentru această zonă. De exemplu, cuvântul câmp în agricultură înseamnă o bucată de pământ, în fizică înseamnă unul dintre tipurile de materie, în matematică înseamnă o clasă de sisteme algebrice.

Ontologiile generale sunt folosite pentru a reprezenta concepte comune unui număr mare de câmpuri. Astfel de ontologii conțin un set de bază de termeni, un glosar sau tezaur, folosit pentru a descrie termenii de domeniu.

Modelele ontologice moderne sunt modulare, adică constau din multe ontologii interconectate, fiecare dintre acestea descriind un domeniu sau o sarcină separată. Modelele ontologice nu sunt statice, ele sunt în continuă schimbare.

Dacă un sistem care utilizează ontologii specializate evoluează, atunci fuzionarea ontologiilor poate fi necesară. Principalul dezavantaj al modelelor ontologice este dificultatea de a le combina. Ontologiile chiar și ale domeniilor strâns înrudite pot fi incompatibile între ele. Diferența poate apărea din cauza culturii locale, ideologiei sau utilizării unui limbaj descriptiv diferit. Fuzionarea ontologiilor se realizează atât manual, cât și semi-automat. În general, acesta este un proces intensiv, lent și costisitor.

Modelele ontologice sunt utilizate pe scară largă în sistemele bazate pe cunoștințe: sisteme expert și sisteme de sprijinire a deciziilor. Un mod interesant de reprezentare a cunoștințelor despre timp ținând cont de incertitudinea în ontologii este descris în lucrarea lui A.F. Tuzovsky.

În prezent, tehnologiile Web semantic sunt destul de promițătoare și utilizate pe scară largă în practică tehnologiile de reprezentare a cunoștințelor. Conceptul central al Web-ului Semantic este ontologia - un model al unui domeniu, format dintr-un set de concepte, un set de instanțe de concepte și un set de relații (proprietăți). Setul de concepte și relații dintre ele definește o schemă generală de stocare a datelor, reprezentată ca un set de enunțuri despre instanțe de concepte sau axiome ontologice. Astfel de afirmații simple, numite triplete, au forma „subiect-predicat-obiect”. Un set de reguli specificate de utilizator este încărcat în sistemul de inferență, care, pe baza afirmațiilor conținute în ontologie, creează noi instanțe ale conceptelor și relațiilor ontologiei conform acestor reguli.

Una dintre cele mai semnificative probleme atât pentru reprezentarea cunoștințelor în contextul timpului, cât și pentru reprezentarea cunoștințelor în general, este reprezentarea cunoștințelor despre timp și despre schimbările cunoștințelor în timp. Cu toate acestea, majoritatea limbajelor de descriere a cunoștințelor utilizate în practică se bazează pe logica predicatelor de ordinul întâi și folosesc relații unare sau binare. Astfel de limbi, de exemplu, includ OWL și RDF. În acest caz, pentru a descrie relațiile binare ținând cont de timp, este necesar să se introducă în relații un parametru suplimentar corespunzător timpului. În acest caz, relațiile binare se transformă în ternare și depășesc capacitățile descriptive ale limbajului.

O altă sarcină importantă este de a descrie cunoștințele despre timp, ținând cont de posibila incompletitudine a acestor cunoștințe. De exemplu, o descriere a afirmațiilor precum: „evenimentul A se va întâmpla cândva în viitor”. Această problemă este de obicei rezolvată în cadrul logicii temporale modale, cum ar fi LTL, folosind anumiți operatori modali. Dar, deoarece limbajul de descriere a cunoștințelor OWL se bazează pe logica descriptivă, devine imposibilă utilizarea unei astfel de soluții pentru ontologiile OWL.

În lucrarea sa A.F. Tuzovsky propune să prezinte un model de descriere a cunoștințelor despre timp în următoarea formă:

< TU, VU, TP, F, Rul >, Unde

1) TU – mulțime de momente de timp TU = (T È (tØ)), unde T este o mulțime ordonată liniar, având puterea unui continuum, pe care este dată operația binară de scădere T ´ T ® R+, iar tØ este un element special corespunzător „timpul de moment nedeterminat”;

2) VU – un set de variabile care denota elementele multimii TU, precum si o variabila speciala tN corespunzatoare momentului curent in timp; valoarea variabilei tN este în continuă schimbare, reflectând trecerea timpului într-un anumit sistem, pentru a descrie contextul temporal în care este utilizată abordarea propusă;

3) TP – set de intervale de timp; intervalul de timp corespunde perechii ordonate t =< ti1, ti2 >, unde ti1 și ti2 sunt elemente ale mulțimii VU astfel încât ((ti1 £ ti2) Ù (ti1 ¹ tØ) Ù (ti2 ¹ tØ)) Ú (ti1 = tØ) Ú
(ti2 = tØ); Astfel, unei anumite zone de pe scara timpului îi corespunde o perioadă de timp, iar granița ei poate fi un anumit moment în timp, momentul actual în timp (variabila tN) sau un moment nedefinit în timp tØ, în timp ce o perioadă de timp cu limitele care coincid (ti1 = ti2) corespund unui anumit moment în timp;

4) F – un set de predicate care descriu proprietățile intervalelor de timp, precum și relațiile calitative dintre acestea;

5) Rul - un set de reguli de forma (G ® H) și (G « H), care descriu mecanismele de bază ale inferenței logice, inclusiv restricțiile asupra valorilor predicatelor F, precum și certitudinea granițelor a intervalelor de timp.

Conceptul de interval de timp este necesar pentru a descrie anumite intervale de timp, ale căror limite exacte sunt necunoscute până când apare o anumită stare a modelului. Putem spune că fiecare perioadă de timp descrie un anumit interval de timp, ale cărui limite exacte sunt încă necunoscute. În acest caz, pot fi disponibile informații despre limitele în care acest interval este garantat a fi situat pe scara de timp, iar limitele exacte ale intervalului descris de perioada de timp pot deveni cunoscute în viitor. Prin urmare, sunt introduse două tipuri de limite de interval de timp: exacte și garantate. Pentru a defini două tipuri de granițe, se folosesc predicatele EL (exactleft), ER (exactright), GL (garantatleft) și GR (garanteedright), definind exact limitele stânga/dreapta și, respectiv, garantate stânga/dreapta perioadei de timp. De exemplu, predicatul EL (ti, ti1) corespunde afirmației „limita stângă exactă a intervalului ti este momentul de timp ti1”. Pentru simplitate, tipul de graniță a unui interval de timp poate fi notat folosind diverse paranteze: un interval complet definit (ambele limite ale acestuia sunt exacte); interval .

Agentul este inițiatorul și controlorul animat al acțiunii.

Destinatar – destinatarul mesajului (poate fi combinat cu Beneficiar).

Beneficiarul (Destinatar, Posesor) este un participant ale cărui interese sunt afectate indirect în timpul situației (primește beneficii sau prejudicii).

Un instrument este un stimul al emoției sau un participant cu ajutorul căruia se realizează o acțiune.

Sursa este locul din care are loc mișcarea.

Contrapartea este o forță sau un mediu de rezistență împotriva căruia se desfășoară o acțiune.

Un obiect este un participant care se mișcă sau se schimbă în timpul unui eveniment.

Pacientul este un participant care suferă schimbări semnificative.

Rezultatul este un participant care apare ca urmare a unui eveniment.

Stimulul este o cauză sau un obiect extern care provoacă această stare.

Scopul este locul în care se efectuează mișcarea.

Un experimentator este un participant care experimentează o stare internă care nu duce la schimbări externe (un purtător de sentimente și percepții).

Un Efector este un participant neînsuflețit, adesea o forță naturală, care provoacă o schimbare în starea Pacientului.

În funcție de numărul de argumente și de proprietățile lor semantice, setul de lexeme verbale poate fi împărțit în clase. De exemplu, luați în considerare următoarele tipuri de verbe de rol: verbe de influență fizică (toc, ferăstrău, tăiați); verbe de percepție (vezi, auzi, simți); verbe de vorbire (strigăt, șoaptă, mormăi). În cadrul fiecărei clase există o împărțire mai precisă. Dintre verbele de influență fizică, verbele de forma verb (Agent, Instrument, Obiect) au o structură semantică predicat-argument similară: rupe - rupe, îndoi - îndoi, îndoi - îndoi, sparge - rupe în bucăți, crack - despica, etc. O altă structură predicat-argument caracteristică verbelor de forma verb (Agent, Instrument, Scop): lovire - lovitură, palmă - palmă, lovitură - lovitură, bump - lovitură (despre ceva), lovitură - lovitură etc.

Se poate observa că există corelații între cazuri morfologice, prepoziții, roluri sintactice, pe de o parte, și roluri semantice, pe de altă parte, de exemplu, tăiat cu un cuțit, lucru cu Ioan, stropire cu vopsea. În plus, trebuie avut în vedere că un cuvânt predicat nu poate avea doi actanți cu același rol semantic. Diferențele de seturi de roluri afectează în principal rolurile semantice periferice (antreprenor, stimulent, sursă) sau se reduc la unificarea/fragmentarea rolurilor de bază (agent vs. agent și efect; destinatar vs. destinatar, destinatar și beneficiar; pacient/subiect/obiect; vs. Pacient, subiect și rezultat).

În lucrarea sa, C. Fillmore a propus chiar o regulă pentru maparea indirectă a rolurilor semantice în cele sintactice: dacă există un Agent printre argumente, acesta devine subiect; în absența unui Agent, dacă există un Instrument, acesta devine subiect; în absenţa Agentului şi Instrumentului, subiectul devine Obiectul. De aici se naște în mod firesc o ierarhie a rolurilor semantice. Cele mai cunoscute ierarhii ale rolurilor semantice sunt: ​​Agent > Instrument > Pacient; Agent > Sursă > Țintă > Instrument > Subiect > Loc; Agent > Beneficiar > Experimentator > Instrument > Subiect > Loc și altele Ierarhia rolurilor semantice este construită în așa fel încât să fie posibil să reflecte gradul de afiliere tematică a argumentelor (actualitate) astfel încât rolurile semantice cele mai importante din punct de vedere pragmatic. sunt situate în capătul stâng al ierarhiei, iar în dreapta – roluri semantice care nu sunt caracterizate de actualitate ridicată.

Inițial, rolurile semantice trebuiau considerate primitive, nesupuse unor analize ulterioare care ar putea dezvălui structura lor internă. Cu toate acestea, în acest caz apar o serie de probleme. În primul rând, ca urmare a unei analize semantice și sintactice din ce în ce mai atente, există o creștere nelimitată a listei de roluri. În al doilea rând, listele de roluri nestructurate nu ne permit să facem predicții despre posibilele tipuri de rol ale verbelor sau să explicăm absența tipurilor neatestate. Prin urmare, teoria rolului semantic a propus definirea rolurilor în termeni de trăsături distinctive sau proto-roluri. De exemplu, D. Doughty propune să evidențieze următoarele proprietăți ale protorolului Agent: implicat voluntar într-un eveniment sau stare; este un participant conștient și/sau perceptiv; inițiază un eveniment sau o schimbare de stare pentru un alt participant; mișcări (în raport cu un punct din spațiu sau alt participant); există independent de evenimentul notat de verb.

Din păcate, în momentul de față nu se poate stabili o corespondență unu-la-unu între rolurile semantice și cazuri, adică din punct de vedere funcțional, categoria de caz este eterogenă. Situația este și mai complicată de faptul că rolurile în sine sunt legate netrivial între ele, iar în limbajele naturale sunt comune tehnici generative precum metafora și metonimia, care dau naștere la multe semnificații noi și, în principiu, nu pot. se reflectă într-un lexic static.

Modele logice de reprezentare a cunoștințelor

Ideea principală a abordării atunci când se construiesc modele logice de reprezentare a cunoștințelor este aceea că toate informațiile necesare pentru rezolvarea problemelor aplicate sunt considerate ca un set de fapte și enunțuri care sunt prezentate ca formule într-o anumită logică. Cunoașterea este reflectată de un set de astfel de formule, iar obținerea de noi cunoștințe se reduce la implementarea procedurilor de inferență logică. Modelele logice de reprezentare a cunoștințelor se bazează pe conceptul de teorie formală, definit de tuplu S =< B, F, A, R>, unde B este un set numărabil de simboluri de bază (alfabet); F – mulţime numită formule; A – subset selectat de formule a priori adevărate (axiome); R este un set finit de relații între formule, numite reguli de inferență.

Principala abordare a reprezentării semnificației în lingvistica computațională implică crearea unei reprezentări a sensului într-o formă formală. O astfel de reprezentare poate fi numită un limbaj de reprezentare a sensului. Un limbaj reprezentativ este necesar pentru a acoperi decalajul dintre limbajul natural și cunoștințele generale despre lume. Și deoarece acest limbaj este destinat a fi utilizat pentru procesarea automată a textului și în crearea sistemelor de inteligență artificială, este necesar să se țină cont de cerințele de calcul ale procesării semantice, cum ar fi necesitatea de a determina adevărul enunțurilor, de a menține lipsa de ambiguitate a reprezentare, să reprezinte enunțuri în formă canonică, să ofere inferențe logice și să fie expresive.

Limbile naturale au o mare varietate de tehnici care sunt folosite pentru a transmite sens. Printre cele mai importante este capacitatea de a transmite structura predicat-argument. Având în vedere cele de mai sus, constatăm că logica predicatelor de ordinul întâi este potrivită ca instrument de reprezentare a sensului enunțurilor. Pe de o parte, este relativ ușor de înțeles de către oameni, pe de altă parte, se pretează bine procesării (computaționale). Folosind logica de ordinul întâi, pot fi descrise clase semantice importante, inclusiv evenimente, timp și alte categorii. Cu toate acestea, trebuie amintit că enunțurile corespunzătoare unor concepte precum credințele și dorințele necesită expresii care includ operatori modali.

Rețelele și cadrele semantice discutate în secțiunea anterioară pot fi considerate în cadrul logicii predicatelor de ordinul întâi. De exemplu, sensul propoziției Am o carte poate fi scris în patru moduri diferite, folosind patru limbi diferite pentru reprezentarea sensului (vezi Fig. 4, numerotarea corespunde ordinii din figură): 1) dependență conceptuală diagramă; 2) reprezentare bazată pe cadru; 3) rețea semantică; 4) calculul predicatului de ordinul întâi.

Deși aceste patru abordări sunt toate diferite, la nivel abstract ele reprezintă o desemnare fundamentală general acceptată conform căreia reprezentarea sensului constă din structuri formate din multe simboluri. Aceste structuri simbolice corespund obiectelor și relațiilor dintre obiecte. Toate cele patru reprezentări constau din simboluri corespunzătoare unui „vorbitor”, unei „cărți” și un set de relații care denotă posesia unuia de către celălalt. Important este că toate aceste patru idei fac posibilă conectarea, pe de o parte, a trăsăturilor expresive ale limbajului natural și, pe de altă parte, a stării reale a lucrurilor din lume.

Modelele logice de reprezentare a cunoștințelor au o serie de avantaje. În primul rând, aparatul clasic al logicii matematice este folosit aici ca „fundație”, ale cărui metode sunt destul de bine studiate și justificate formal. În al doilea rând, există proceduri destul de eficiente pentru a obține afirmații corecte din punct de vedere sintactic. În al treilea rând, această abordare vă permite să stocați doar un set de axiome în baze de cunoștințe, iar toate celelalte cunoștințe (inclusiv fapte și informații despre oameni, obiecte, evenimente și procese) pot fi obținute din aceste axiome conform regulilor de inferență.

Limbajul de reprezentare a sensului, ca orice limbă, are propria sa sintaxă și semantică. Figura 5 oferă o descriere a gramaticii fără context pentru calculul predicatelor de ordinul întâi propus în .

Luați în considerare prezentarea sensului categoriilor, evenimentelor, timpului, aspectelor și credințelor date în carte.

Prezentarea categoriei. O categorie este înțeleasă ca un grup de cuvinte unite printr-o trăsătură comună, similar modului în care este organizată în tezaure. Cuvintele cu semantică asemănătoare predicatelor conțin adesea constrângeri de selecție, care sunt de obicei exprimate sub formă de categorii semantice, în care fiecare membru al categoriei are un set de caracteristici relevante.

Cel mai simplu mod de a reprezenta categorii este de a crea un predicat unar pentru fiecare categorie. Cu toate acestea, atunci va fi dificil să faci declarații despre categoriile în sine. Luați în considerare următorul exemplu. Să presupunem că, folosind limbajul logicii predicatelor de ordinul întâi, trebuie să reprezentați sensul afirmației: „Harry Potter” este cea mai populară carte pentru copii. Adică, trebuie să găsiți obiectul categoriei care apare cel mai frecvent în forma MostPopular (HarryPotter, ChildrensBook). Această formulă nu este o adevărată formulă logică de ordinul întâi, deoarece argumentele din predicate, prin definiție, trebuie să fie termeni și nu alte predicate. Pentru a rezolva această problemă, toate conceptele care participă la declarație pot fi reprezentate ca obiecte cu drepturi depline, adică categoria ChildrensBook poate fi reprezentată ca un obiect la egalitate cu HarryPotter. Apartenența la o astfel de categorie va fi indicată de relația ISA (HarryPotter, ChildrensBook). Relația ISA (este a) indică relația dintre obiecte și categoriile cărora le aparțin aceste obiecte. Această tehnică poate fi utilizată pentru a crea ierarhii de categorii. De exemplu, folosim relația AKO (ChildrensBook, Book). Aici relația AKO (un fel de) denotă includerea unei categorii în alta. Desigur, pentru o mai mare fiabilitate, categoriile trebuie să fie caracterizate printr-un set mare de fapte, adică categoriile trebuie definite ca mulțimi.

Reprezentarea evenimentului. Pentru a ne imagina semnificația unui eveniment, este suficient să-l considerăm sub forma unui predicat dintr-un set de argumente care îndeplinesc anumite roluri și sunt necesare pentru a descrie situația. Exemple de astfel de predicate sunt date în prima secțiune (acolo sunt obținute din funcții lexicale propuse de I.A. Melchuk). Un alt exemplu: Rezervare (Ascultător, Azi, 20:00, 2). Aici argumentele sunt obiecte precum persoana, restaurantul, ziua, ora si numarul de locuri pentru rezervare in restaurant. Pentru verbe, o astfel de reprezentare poate fi obținută dacă presupunem că argumentele corespund actanților sintactici. Există patru probleme cu această abordare:

– determinarea numărului corect de roluri pentru fiecare eveniment;

– reprezentarea faptelor despre roluri asociate evenimentului;

– necesitatea de a se asigura că toate concluziile corecte pot fi obținute direct dintr-o astfel de reprezentare a evenimentului;

– necesitatea de a se asigura că nu se poate trage nicio concluzie incorectă din reprezentarea evenimentului.

De exemplu, verbul „este” poate avea de la unu la patru actanți în funcție de situația descrisă de propoziție. Prin urmare, nu este clar în prealabil care ar trebui să fie localitatea predicatului. La urma urmei, în calculul predicatelor de ordinul întâi numărul de argumente trebuie să fie fix.

O soluție este să presupunem că astfel de situații sunt procesate la nivel sintactic. Este posibil să se ia în considerare subcategorii separate pentru fiecare dintre configurațiile de argument. Analogul semantic al acestei metode este de a crea cât mai multe predicate, fiecare dintre ele va corespunde situațiilor individuale. Numele predicatului este același, dar numărul de argumente este diferit:
Eating1 (w) – am mâncat; Eating2 (w, x) – Am mâncat un sandviș; Eating3 (w, x, y) – mănânc un sandviș la prânz; Eating4 (w, x, y, z) – Am mâncat un sandviș la prânz acasă. Prin urmare, ele sunt considerate diferite. Această abordare va rezolva problema numărului de argumente, dar nu este eficientă. În afară de denumirile propuse ale predicatelor, nimic nu le unește într-un singur eveniment, deși relația lor logică este evidentă. Rezultă că unele conexiuni logice nu pot fi obținute pe baza predicatelor propuse. Mai mult, va trebui să cauți aceste conexiuni logice în baza de cunoștințe.

Această problemă poate fi rezolvată folosind postulate semantice. Ele leagă în mod explicit semantica predicatelor. De exemplu, „w, x, y, z Mâncare4 (w, x, y, z) Þ Mâncare3 (w, x, y).

Predicatele pot reflecta informații morfologice, sintactice și semantice. Exemple de astfel de postulate semantice sunt formulele care conțin unele predicate lexicale din prima secțiune. Sunt prezentate postulate semantice care conțin trăsături morfologice și sintactice ale construcției cuvintelor și propozițiilor în limba rusă. Exemple de postulate semantice care poartă o încărcătură semantică se găsesc în secțiunea anterioară.

Rețineți că nu trebuie să confundăm semantica unui enunț într-un limbaj natural și semantica predicatului pe care îl introducem pentru a reflecta semantica enunțului. Postulatele semantice reflectă semantica predicatelor, adică conexiunile semantice dintre predicatele pe care le-am introdus.

În mod clar, această abordare pentru descoperirea relațiilor semantice dintre predicate este potrivită pentru domenii mici și are probleme de scalabilitate. Ar fi mai convenabil să spunem că aceste predicate se referă la un singur predicat cu argumente lipsă la unele poziții. În acest caz, puteți face fără postulate semantice. Dar această metodă are și un dezavantaj. De exemplu, dacă luăm în considerare predicatul Mâncare (w, x, y, z) și presupunem că unul dintre cuvintele din set (mic dejun, prânz, cină) trebuie să fie prezent ca al treilea argument, atunci cuantificatorul de existență atribuit altuia variabilă va însemna existența alimentelor specifice asociate fiecărei mese, ceea ce nu este adevărat.

Să ne uităm la un exemplu potrivit. Să scriem trei afirmații (am mâncat un prânz, am mâncat acasă și am mâncat un sandviș la prânz acasă) folosind logica de ordinul întâi:

$w, x Mâncare (difuzor, w, prânz, x)

$w, x Mâncare (Difuzor, w, x, Acasă)

$ w Mâncare (difuzor, w, prânz, acasă).

Să presupunem că este necesar să obținem o a treia formulă din primele două formule referitoare la un eveniment. Evenimentele independente am luat prânzul și am mâncat acasă nu ne permit să concluzionam că am mâncat prânzul acasă. Ca și în cazul reprezentării categoriilor, putem rezolva această problemă tratând evenimentele ca obiecte, astfel încât acestea să poată fi cuantificate și legate de alte obiecte folosind seturi de relații specificate. Acum, conform acestei abordări, se va obține următoarea reprezentare.

Pentru ofertă am mâncat prânzul

$ w ISA (w, Eating) Ù Eater (w, Speaker) Ù Eater (w, Pranz).

Pentru sentința am mâncat acasă

$ w ISA (w, Eating) Ù Eater (w, Speaker) Ù Loc (w, Acasă).

Pentru propoziție am mâncat un sandviș la prânz acasă

$ w ISA (w, Eating) Ù Eater (w, Speaker) Ù Eaten (w, Sandwich) Ù MealEaten (w, Pranz) Ù Loc (w, Acasă)

Abordarea prezentată ne permite să scăpăm de necesitatea de a specifica un număr fix de argumente în predicat, indiferent de roluri și alți actanți. Nu există alte roluri care să nu fie menționate în propoziție, iar conexiunile logice între predicate legate semantic nu necesită utilizarea de postulate semantice.

Reprezentarea timpului. Logica temporală este folosită pentru a descrie secvențe de evenimente și relațiile lor într-o linie temporală. În limbile naturale, un astfel de instrument este timpul verbului. Un eveniment poate fi considerat ca precede altul dacă curgerea timpului duce de la primul eveniment la al doilea. Aici apar conceptele noastre familiare despre trecut, prezent și viitor.

Logica temporală folosește două tipuri de operatori: logici și modali. Operatorii uzuali ai logicii calculului propozițional sunt utilizați ca operatori logici: conjuncție, disjuncție, negație și implicație. Operatorii modali sunt definiți după cum urmează.

N j – În continuare: j trebuie să fie adevărat în starea imediat următoare celei date.

F j – Viitorul: j trebuie să devină adevărat în cel puțin o stare în viitor.

G j – La nivel global: j trebuie să fie adevărat în toate stările viitoare.

A j – Toate: j trebuie executat pe toate ramurile începând cu aceasta.

E j – Există: Există cel puțin o ramură pe care se execută j.

j U y – Până la (puternic): y trebuie executat într-o anumită stare în viitor (eventual în cea actuală), proprietatea j trebuie executată în toate stările până la cea indicată (nu inclusiv).

j R y – Eliberare: j eliberează y dacă y este adevărat până când j devine pentru prima dată adevărat (sau întotdeauna, dacă nu are loc un astfel de moment). În caz contrar, j trebuie să devină adevărat cel puțin o dată înainte ca y să devină adevărat prima dată.

Reprezentarea aspectelor. Verbele sunt folosite pentru a descrie acțiuni în limbajele naturale. Filosoful american Z. Vendler a propus în 1957 un model de împărțire a verbelor în funcție de aspectele lexicale. El a identificat patru clase:

– stative (stări) – verbe care descriu stări statice care nu au un punct final (de exemplu, „știi”, „iubite”);

– activități (activități) – verbe care descriu stări care sunt dinamice și nu au un punct final (de exemplu, „a alerga”, „a conduce”);

– realizări (realizări) – verbe care descriu evenimente care au un punct final și sunt treptate (de exemplu, „pictează un tablou”, „construiește o casă”);

– realizări (realizări) – verbe care descriu evenimente care au un punct final și au loc instantaneu (de exemplu, „recunoaște”, „observă”).

Tabelul 2 prezintă un tabel de comparație al claselor Wendler pentru verbele engleze, luate din .

După cum puteți vedea, continuarea acțiunii este caracteristică activităților și realizărilor și este absentă din acțiuni și realizări. Poți spune că fierbea (activitate) și scriam o scrisoare (angajament), dar nu poți spune că exista (declarație) și găseam o carte (realizare). Realizările nu sunt combinate cu circumstanțele de durată. Puteți spune că a existat timp de două ore (afirmație), dar nu puteți spune că l-am găsit timp de două ore (realizare).

Realizările și realizările descriu acțiuni intenționate, acestea sunt combinate cu circumstanțele datei de finalizare, în contrast cu declarațiile și activitățile. Puteți spune că am scris o scrisoare în două ore (angajament), dar nu puteți spune că am mers în două ore (activitate).

Reprezentând credințe, dorințe și intenții. Pentru a exprima atitudinea vorbitorului față de informațiile care sunt comunicate în enunțuri în limbaj natural, sunt folosite cuvinte precum cred, vreau, cred, imaginează etc. Astfel de afirmații nu descriu o imagine obiectivă a lumii, ci caracteristicile percepției personale a vorbitorului, ideile sale „interne” despre lume. Luați în considerare afirmația despre care cred că John citește „Harry Potter”. Este greșit să încerci să-i reprezinte sensul folosind logica predicatelor: Credință (Vorbitor, Citire (John, HarryPotter). Aici al doilea argument trebuie să fie un termen, nu o formulă. Această eroare sintactică implică una semantică. În logica de ordinul întâi , predicatele conectează obiecte, nu relații între ele. Modul standard de a depăși această problemă este să adăugăm operatori care ne permit să facem afirmațiile de care avem nevoie Dacă introducem operatorul Belies, care are formule ca argumente, atunci obținem următoarea reprezentare :

Crede (Vorbitor, $ x ISA (x, Citire) Ù Cititor (x, John) Ù Citire (x, HarryPotter)).

Nu se poate spune că o astfel de reprezentare este scrisă în termeni de calcul predicat de ordinul întâi, dar este o confirmare că există un grup de verbe în limbă care joacă un rol deosebit în analiza semantică. În sistemele automate de analiză, uneori este necesar să urmăriți convingerile și intențiile utilizatorilor. Situația este complicată de faptul că credințele, dorințele și intențiile se pot schimba în timpul dialogului.

Operatorul introdus se numește modal. Există diferiți operatori modali. Modalitatea temporală a fost deja menționată puțin mai devreme când se vorbea despre reprezentarea timpului în enunțuri. Pe lângă temporal, există o modalitate spațială, logica cunoașterii („se știe că”), logica demonstrabilității („se poate dovedi că”) și altele. Logica extinsă de operatori modali se numește logică modală. În prezent, în acest domeniu rămân multe întrebări complexe neexplorate. Cum funcționează inferența în prezența unor operatori modali specifici? La ce tipuri de formule se pot aplica anumiți operatori? Cum interacționează operatorii modali cu cuantificatorii și conexiunile logice? Acestea și alte întrebări rămân de explorat. Nu ne vom opri aici asupra lor.

Derivarea afirmațiilor corecte din punct de vedere sintactic în modelele logice de reprezentare a cunoștințelor se bazează pe regula de rezoluție dezvoltată de J. Robinson în 1965. Se afirmă că, dacă un grup de expresii care formează o premisă este adevărat, atunci aplicarea unei reguli de inferență este garantată pentru a produce o expresie adevărată ca concluzie. Rezultatul aplicării regulii rezoluției se numește rezolutiv.

Metoda de rezoluție (sau regula de eliminare a contradicțiilor) vă permite să demonstrați prin contradicție adevărul sau falsitatea unei presupuneri propuse. În metoda rezoluției, un set de propoziții este de obicei considerat un predicat compus, care conține mai multe predicate conectate prin funcții logice și cuantificatori de existență și universalitate. Întrucât predicatele cu același înțeles pot avea forme diferite, propozițiile trebuie mai întâi aduse la o formă unificată (forma normală disjunctivă sau conjunctivă), în care se înlătură cuantificatorii existenței, universalității, simbolurilor implicației, echivalenței etc conține o conjuncție de disjuncte pe partea stângă. Prin urmare, aducerea premiselor folosite pentru demonstrație într-o formă care reprezintă conjuncții de disjuncte este un pas necesar în aproape orice algoritm care implementează inferența logică bazată pe metoda rezoluției.
Următorii pași sunt urmați în procesul de inferență folosind regula de rezoluție.

1. Operațiile de echivalență și implicare sunt eliminate:

A « B = (A ® B) Ù (B ® A);

A ® B = Ø A Ú B.

2. Operația de negație se deplasează în interiorul formulelor folosind legile lui De Morgan:

Ø (A Ù B) = Ø A Ú Ø B;

Ø (A Ú B) = Ø A Ù Ø B.

3. Formulele logice se reduc la forma disjunctive:

A Ú (B Ù C) = (A Ú B) Ù (A Ú C).

În logica predicatelor, pentru a aplica regula rezoluției, este necesar să se efectueze o transformare mai complexă a formulelor logice pentru a le reduce la un sistem de disjuncte. Acest lucru se datorează prezenței unor elemente de sintaxă suplimentare, în principal cuantificatori, variabile, predicate și funcții.
Algoritmul pentru unificarea formulelor logice predicate constă din următorii pași.

1. Eliminarea operațiunilor de echivalență.

2. Eliminarea operațiunilor de implicare.

3. Introducerea operațiilor de negație în cadrul formulelor.

4. Eliminarea cuantificatorilor de existență. Acest lucru se poate întâmpla la a treia etapă datorită aplicării legilor lui De Morgan, și anume, negația $ se modifică în ", dar poate avea loc și înlocuirea inversă. Apoi, pentru a elimina $, procedați astfel: toate aparițiile unei variabile asociate cu un cuantificator existențial, de exemplu ($ x), sunt înlocuite în formulă cu o nouă constantă, de exemplu a Această constantă reprezintă o valoare (necunoscută) a variabilei x pentru care afirmația scrisă prin această formulă este adevărată lucru important este că pentru toate locurile în care x este prezent, va exista aceeași valoare a lui a, chiar dacă este necunoscută în acest moment.

5. Cuantificatorii generali sunt plasați pe primul loc în formule. De asemenea, aceasta nu este întotdeauna o operație simplă, uneori, implică redenumirea variabilelor.

6. Dezvăluirea conjuncțiilor prinse în interiorul disjuncțiilor.

După parcurgerea tuturor pașilor algoritmului de unificare descris, puteți aplica regula de rezoluție.

A fost regula de rezoluție care a servit drept bază pentru crearea limbajului de programare Prolog.
În Prolog, faptele sunt descrise sub formă de predicate logice cu valori specifice. Regulile de inferență sunt descrise prin predicate logice cu definiția regulilor de inferență sub forma unei liste de predicate asupra bazelor de cunoștințe și a procedurilor de procesare a informațiilor. Interpretul Prolog însuși implementează o ieșire similară cu cea descrisă mai sus. Pentru a iniția calculele, se execută o interogare specială către baza de cunoștințe, la care sistemul de programare logică generează răspunsuri „adevărate” și „false”.

Metoda de rezoluție este ușor de programat, acesta este unul dintre cele mai importante avantaje ale sale, dar este aplicabilă doar pentru un număr limitat de cazuri, deoarece pentru aplicarea sa proba nu trebuie să aibă o adâncime mare, iar numărul de rezoluții potențiale nu trebuie să fie mare.

Pentru a face instrumentul de calcul al predicatelor de ordinul întâi mai flexibil, acesta poate fi extins cu calculul lambda. Calculul lambda este un limbaj de ordin mai înalt decât calculul predicat de ordinul întâi. În ea, funcția lambda poate funcționa nu numai cu variabile, ci și cu predicate ca argumente. Cu toate acestea, utilizarea expresiilor lambda nu crește în mod formal puterea expresivă a logicii de ordinul întâi, deoarece orice construct care conține o expresie lambda poate fi convertit într-o formă echivalentă fără ea.

După ce limbajul Prolog a câștigat o mare popularitate, termenul de „calculatoare din generația a cincea” a apărut la începutul anilor 80 ai secolului trecut. La acel moment, era de așteptat crearea următoarei generații de calculatoare axate pe calculul distribuit. În același timp, se credea că a cincea generație va deveni baza pentru crearea de dispozitive capabile să imite procesul gândirii umane. În același timp, a apărut ideea creării suportului hardware pentru bazele de date relaționale paralele Grace și Delta și inferența logică paralelă (Parallel Inference Engine, PIE), pe baza principiilor limbajului Prolog. Fiecare bloc de inferență și-a semnalat volumul de lucru actual, astfel încât munca să poată fi transferată la blocul de inferență cu cea mai mică sarcină. Dar, după cum știm, astfel de încercări nu au permis crearea inteligenței artificiale, ci au servit doar ca o altă confirmare că gândirea umană nu a fost încă suficient studiată.

Modelele logice de reprezentare a cunoștințelor vă permit să verificați corectitudinea sintactică a unui enunț. Cu toate acestea, folosind regulile care definesc sintaxa unei limbi, este imposibil să se stabilească adevărul sau falsitatea unei anumite afirmații. O afirmație poate fi construită corect din punct de vedere sintactic, dar se dovedește a fi complet lipsită de sens. În plus, modelele logice sunt dificil de utilizat atunci când se dovedește raționament care reflectă specificul unei anumite probleme de subiect, datorită gradului ridicat de uniformitate.

Sisteme cu componente de analiză semantică

Ca parte a proiectului Open Cognition, este în curs de dezvoltare analizatorul Link Grammar Parser, care este responsabil pentru procesarea limbajului natural. Link Grammar Parser a început să fie dezvoltat în anii 1990. la Universitatea Carnegie Mellon. Această abordare diferă de teoria clasică a sintaxei. Sistemul atribuie o structură sintactică unei propoziții, care constă dintr-un set de conexiuni etichetate (conectori) care conectează perechi de cuvinte. Link Grammar Parser folosește informații despre tipurile de conexiuni dintre cuvinte.

Analizorul are dicționare care conțin aproximativ 60.000 de forme de dicționar. Vă permite să analizați un număr mare de structuri sintactice, inclusiv numeroase expresii și expresii rare. Link Grammar Parser este destul de robust, poate sări peste o parte dintr-o propoziție pe care nu o înțelege și poate determina o structură pentru restul propoziției. Analizatorul este capabil să lucreze cu vocabular necunoscut și să facă presupuneri rezonabile (pe baza contextului și ortografiei) despre categoria sintactică a cuvintelor necunoscute. Are date despre nume proprii, expresii numerice și diferite semne de punctuație.

Analiza în sistem are loc în două etape.

1. Construirea reprezentărilor sintactice multiple ale unei propoziții. În această etapă, sunt luate în considerare toate opțiunile pentru conexiunile dintre cuvinte și sunt selectate cele care îndeplinesc criteriul de proiectivitate (conexiunile nu trebuie să se intersecteze) și criteriul de conectivitate minimă (graful rezultat trebuie să conțină cel mai mic număr de componente conectate; o componentă conectată de un graf este un anumit set de vârfuri de graf, astfel încât pentru oricare două vârfuri din această mulțime există o cale de la unul la altul și nu există o cale de la un vârf al acestei mulțimi la un vârf care nu este din această mulțime).

2. Post-procesare. Conceput pentru a funcționa cu structuri de propoziții alternative deja construite.

Diagramele rezultate sunt în esență un analog al arborilor de subordonare. În arborii de subordonare, puteți pune o întrebare de la cuvântul principal dintr-o propoziție la cel secundar. Astfel, cuvintele sunt aranjate într-o structură arborescentă. Un parser poate produce două sau mai multe scheme de analizare pentru aceeași propoziție. Acest fenomen se numește sinonimie sintactică.

Motivul principal pentru care analizorul este numit sistem semantic este un set unic complet de conexiuni (aproximativ 100 de conexiuni principale, dintre care unele au 3-4 opțiuni).
În unele cazuri, munca atentă asupra diferitelor contexte i-a determinat pe autorii sistemului să treacă la clasificări aproape semantice construite exclusiv pe principii sintactice. Astfel, se disting următoarele clase de adverbe englezești: adverbe situaționale, care se referă la întreaga propoziție în ansamblu (adverb clauzal); adverbe de timp (adverbe de timp); adverbe introductive, situate la începutul unei propoziții și despărțite prin virgulă (deschizători); adverbe care modifică adjective etc.

Dintre avantajele sistemului, trebuie remarcat faptul că organizarea procedurii de găsire a variantelor de reprezentare sintactică este foarte eficientă. Construcția nu se desfășoară de sus în jos (de sus în jos) și nu de jos în sus (de jos în sus), dar toate ipotezele de relații sunt luate în considerare în paralel: mai întâi, toate conexiunile posibile sunt construite folosind formule de dicționar și apoi posibile sunt identificate subseturi ale acestor conexiuni. Acest lucru, în primul rând, duce la opacitatea algoritmică a sistemului, deoarece este foarte dificil să urmăriți toate relațiile simultan și, în al doilea rând, nu duce la o dependență liniară a vitezei algoritmului de numărul de cuvinte, ci la unul exponențial, deoarece mulțimea tuturor variantelor de structuri sintactice dintr-o propoziție de cuvinte în cel mai rău caz, este echivalent cu mulțimea tuturor arborilor de bază ai unui graf complet cu vârfuri.

Ultima caracteristică a algoritmului obligă dezvoltatorii să folosească un cronometru pentru a opri prompt o procedură care rulează de prea mult timp. Cu toate acestea, toate aceste neajunsuri sunt mai mult decât compensate de transparența lingvistică a sistemului, în care valențele unui cuvânt sunt prescrise cu aceeași ușurință, iar ordinea de colectare a valențelor în cadrul algoritmului nu este specificată în mod fundamental conexiunile parcă; în paralel, ceea ce este pe deplin în concordanță cu intuiția noastră lingvistică.

Pentru fiecare cuvânt, dicționarul înregistrează ce conectori poate fi conectat cu alte cuvinte din propoziție. Un conector constă din denumirea tipului de conexiune în care poate intra unitatea de analiză în cauză. Există mai mult de 100 de conexiuni principale, cele mai importante pentru a indica direcția conexiunii, un semn „+” este atașat la dreapta conectorului și un semn „–” la stânga. Conectorii pentru stângaci și dreptaci de același tip formează o legătură. Un cuvânt i se poate atribui o formulă de conector, compusă folosind anumite conjunctive.

Să remarcăm, de asemenea, dezavantajele Link Grammar Parser.

1. Testarea practică a sistemului arată că atunci când se analizează propoziții complexe a căror lungime depășește 25–30 de cuvinte, este posibilă o explozie combinatorie. În acest caz, rezultatul muncii analizatorului este un grafic de „panică”, de obicei o variantă aleatorie a unei structuri sintactice care este inadecvată din punct de vedere lingvistic.

2. Aplicarea ideilor descrise mai sus este dificilă pentru limbile flexionale, cum ar fi rusă, din cauza volumului în creștere semnificativ de dicționare care apar din cauza dezvoltării morfologice a limbilor flexionale. Fiecare formă morfologică trebuie să fie descrisă printr-o formulă separată, unde indicele conectorului inclus în ea trebuie să ofere o procedură de potrivire. Acest lucru duce la un set mai complex de conectori și la o creștere a numărului acestora.

Proiectul Open Cognition, în cadrul căruia se dezvoltă Link Grammar Parser, este deschis și gratuit, ceea ce reprezintă un mare avantaj pentru cercetare. O descriere destul de detaliată și codul sursă pot fi găsite pe site. Open Cognition continuă să se dezvolte astăzi, ceea ce este, de asemenea, important pentru că are posibilitatea de a interacționa cu dezvoltatorii. Alături de Link Grammar este în curs de dezvoltare și analizorul RelEx, care vă permite să extrageți relații de dependență semantică în declarații în limbaj natural și, ca urmare, propozițiile sunt prezentate sub formă de arbori de dependență. Folosește mai multe seturi de reguli pentru a reconstrui graficul ținând cont de relațiile sintactice dintre cuvinte. După fiecare pas, conform unui set de reguli de potrivire, graficului rezultat se adaugă etichete de caracteristici structurale și relații dintre cuvinte. Cu toate acestea, unele reguli, dimpotrivă, pot reduce graficul. Așa se transformă graficul. Acest proces de aplicare a unei secvențe de reguli seamănă cu metoda folosită în gramaticile de constrângeri. Principala diferență este că RelEx funcționează mai degrabă cu o reprezentare grafică decât cu simple seturi de etichete (care indică relații). Această caracteristică vă permite să aplicați transformări mai abstracte atunci când analizați texte. Cu alte cuvinte, ideea de bază este să folosiți recunoașterea modelelor pentru a transforma grafice. Spre deosebire de alți analizatori care se bazează în întregime pe structura sintactică a unei propoziții, RelEx se concentrează mai mult pe reprezentarea semanticii, în special, aceasta se referă la entități, comparații, întrebări, rezoluția anaforelor și ambiguitatea lexicală a cuvintelor.

Sistem de apelare

„Dialing” este un sistem automat de traducere rusă-engleză care a fost dezvoltat între 1999 și 2002. în cadrul proiectului Procesare automată a textului (AOT). În diferite momente, 22 de specialiști au participat la lucrul la sistem, dintre care majoritatea erau lingviști cunoscuți.
Baza sistemului „Apelare” a fost sistemul de traducere automată franco-rusă (FRAP), dezvoltat la Centrul de Cultură All-Rusian împreună cu Institutul Pedagogic de Stat din Moscova, care poartă numele. M. Thorez în 1976–1986, și sistemul de analiză a textelor politice în limba rusă „Politext”, dezvoltat la Centrul pentru Cercetare Informațională în 1991–1997.

Sistemul Polytext avea ca scop analiza documentelor oficiale în limba rusă și conținea un lanț complet de analizoare de text: grafematic, morfologic, sintactic și parțial semantic. În sistemul de apelare, analiza grafematică a fost împrumutată parțial, dar adaptată la noile standarde de programare. Programul de analiză morfologică a fost redactat din nou deoarece viteza de lucru a fost scăzută, dar aparatul morfologic în sine nu s-a schimbat.

La nivel grafematic, constantele sunt descriptori grafematici. De exemplu, LE (lexem) - atribuit secvențelor formate din caractere chirilice; ILE (lexem străin) – atribuit unor secvențe de caractere latine; CC (complex digital) – atribuit unor secvențe formate din numere; CBC (complex de litere digitale) - atribuit unor secvențe formate din numere și litere etc.

La nivel morfologic, gramemele sunt folosite pentru notație - caracteristici gramaticale care raportează o formă de cuvânt la o anumită clasă morfologică. Diferitele grame din aceeași categorie se exclud reciproc și nu pot fi exprimate într-un singur cuvânt. De exemplu, zhr - genul feminin, tv - caz instrumental, pl - plural, dar - neînsuflețit, sv - formă perfectă, dst - voce activă, ne - tranzitivitatea verbului, pvl - forma imperativă a verbului, nst - timpul prezent a verbului etc. d.

Analiza fragmentării are ca scop împărțirea unei propoziții în fragmente inseparabile (unități sintactice), fraze mai mari sau egale cu ea (grup sintactic), și stabilirea unei ierarhii parțiale pe mulțimea acestor unități. Tipuri posibile de fragmente: propoziții principale, propoziții subordonate ca parte a unui complex, participial, participial și alte fraze izolate. Pentru fiecare fragment se știe ce fragmente sunt imbricate direct în el și în care este direct cuibărit.

Sistemul FRAP conținea un lanț complet de analiză a textului până la analiza semantică, care a fost implementată doar parțial. În sistemul FRAP, a fost dezvoltat și testat un aparat semantic, pe baza căruia a fost creată o metodă specială de analiză semantică în sistemul „Apelare” - metoda opțiunilor complete. FRAP nu conținea mecanisme pentru evaluările structurale ale reprezentării semantice, adică metode nu doar pentru o apariție a unui element de text, ci pentru întreaga structură în ansamblu. Ideea metodei variantelor complete este că analiza ar trebui să separe în mod clar variantele de analiză care apar în diferite etape și regulile lingvistice declarative (modele parțiale) care construiesc și evaluează variantele individuale. Această abordare, folosită anterior doar pentru analizatoarele presemantice, acum, datorită dezvoltării puterii computerului, a devenit posibilă transferarea la semantică, crescând astfel nivelul de separare a părților procedurale și declarative ale sistemului. Partea procedurală a analizei semantice se reduce în mod ideal la bucle care parcurg diferite opțiuni lingvistice. Astfel, a devenit posibilă simplificarea modelelor lingvistice datorită vitezei crescute a computerelor.

Principalele componente ale aparatului semantic utilizat în apelare sunt relațiile semantice (SR) și caracteristicile semantice (SC). Exemple de relații semantice: INSTRU – „instrument”, LOK – „locație, locație”, PRINADL – „apartenere”, REZLT – „rezultat”, etc. Sunt destul de universale și au asemănări cu predicatele discutate în prima secțiune și semantice. roluri, menționate în a treia secțiune. Caracteristicile semantice vă permit să construiți formule folosind conective logice „și” și „sau”. Fiecărui cuvânt i se atribuie o anumită formulă alcătuită din caracteristici semantice. Dicționarul semantic al „Apelare” conține aproximativ 40 de caracteristici semantice. Exemple de caracteristici semantice: ABST - un substantiv sau adjectiv abstract, LUCR - numele unei substanțe chimice sau a ceva ce poate fi măsurat prin greutate sau volum; GEOGR – obiect geografic; MOVE – verbe de mișcare; INTEL – acțiuni asociate activității mentale; COMMUNICA – verbe de vorbire; NOSINF – purtători de informații; ORG – organizație; SOBIR – tot ceea ce denotă un set de obiecte de același tip; EMOC – adjective care exprimă emoții etc. Unele caracteristici sunt compuse deoarece pot fi exprimate în termenii altora. Există caracteristici care sunt antonime. Utilizarea lor în aceeași conjuncție este interzisă. Există caracteristici care sunt variații ale altora. Caracteristicile semantice, împreună cu caracteristicile gramaticale, asigură verificarea acordului cuvântului atunci când se interpretează conexiunile din text.

În prezent, toate instrumentele dezvoltate în cadrul proiectului AOT (inclusiv sistemul de apelare) sunt software gratuit multiplatformă. O demonstrație și o documentație detaliată sunt disponibile pe site.

Sisteme de extragere a informațiilor și reprezentare a cunoștințelor

Există și alte sisteme care conțin componente de analiză semantică. Cu toate acestea, au dezavantaje semnificative pentru cercetare: este dificil să găsești descrieri care nu sunt gratuite și distribuite liber sau nu funcționează cu texte în limba rusă. Acestea includ OpenCalais (http://www.opencalais.com/opencalais-api/), RCO (http://www.rco.ru/?page_id=3554), Abbyy Compreno (https://www.abbyy.com). /ru-ru/isearch/compreno/), SemSin (http://www.dialog-21.ru/media/1394/
kanevsky.pdf), DictaScope (http://dictum.ru/), etc.

Este de menționat sistemul de extragere a datelor din texte nestructurate Pullenti (http://semantick.ru/). Ea a ocupat primul loc la pistele T1, T2, T2-m și locul doi în T1-l la conferința Dialog 2016 în competiția FactRuEval. Pe site-ul dezvoltatorilor sistemului Pullenti există și o versiune demo a unui analizor semantic care vă permite să construiți o rețea semantică bazată pe o propoziție.

Mediul instrumentului DECL (http://ipiranlogos.com/) a fost dezvoltat la sfârșitul anilor 90 și folosit pentru a construi sisteme expert (ES), shell-uri pentru ES, sisteme logico-analitice (LAS), procesoare lingvistice (LP), oferind procesare și extragerea automată a cunoștințelor din fluxuri de documente neformalizate în limbaj natural.

Sistemul de traducere automată „ETAP-3” este conceput pentru analiza și traducerea textelor în rusă și engleză. Sistemul folosește transformarea textelor în limbaj natural în reprezentarea lor semantică în limbajul de rețea universal. După cum am menționat mai devreme, marcarea corpusului sintactic „Corpusul național al limbii ruse” este efectuată de procesorul lingvistic ETAP-3, pe baza principiilor teoriei „Sens Û Text”.

Recent, au apărut tot mai multe sisteme de reprezentare a bazelor de cunoștințe sub formă de grafice. Deoarece volumul de informații crește constant cu o viteză incredibilă, astfel de sisteme trebuie să susțină construcția și actualizarea automată a bazelor de cunoștințe. Construirea automată a bazelor de cunoștințe poate fi realizată pe baza surselor de date structurate.

Exemple de astfel de sisteme: Yago (http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/), DBpedia (http://wiki.dbpedia .org/), Freebase (https://developers.
google.com/freebase/), Knowledge Graph de la Google (https://developers.google.com/knowledge-graph/), OpenCyc (http://www.opencic.org/) O altă abordare vă permite să extrageți informații din resurse deschise pe Internet fără intervenție umană: ReadTheWeb (http://rtw.ml.cmu.edu/rtw/), OpenIE (http://nlp.stanford.edu/
software/openie.html), Google Knowledge Vault (https://www.cs.ubc.ca/~murphyk/Papers/kv-kdd14.pdf). Astfel de sisteme sunt experimentale, fiecare dintre ele are propriile sale caracteristici. De exemplu, Knowledge Vault încearcă să ia în considerare incertitudinile fiecărui fapt i se atribuie un coeficient de încredere și originea informațiilor; Astfel, toate afirmațiile sunt împărțite în cele care au o mare probabilitate de a fi adevărate și cele care pot fi mai puțin probabile. Predicția faptelor și a proprietăților lor se realizează folosind metode de învățare automată bazate pe un număr foarte mare de texte și fapte existente. Knowledge Vault conține în prezent 1,6 miliarde de fapte. Sistemul NELL, dezvoltat ca parte a proiectului ReadTheWeb de la Universitatea Carnegie Mellon, conține peste 50 de milioane de declarații cu diferite grade de încredere. Aproximativ 2 milioane 800 de mii de fapte au un grad ridicat de încredere. Procesul de instruire NELL nu este încă finalizat.

Să tragem următoarele concluzii. Odată cu dezvoltarea tehnologiei informatice și creșterea constantă
volume de informaţii text, cercetările în domeniul prelucrării automate a textului s-au concentrat pe aspectul aplicat. Capacitățile majorității instrumentelor sunt limitate la analiza morfologică și sintactică în combinație cu metode din teoria probabilității și statistica matematică. Astfel, doar o parte selectată din cele mai simple probleme a fost rezolvată. Alte probleme mai trebuie rezolvate.

După cum am văzut, există multe motive pentru aceasta. De exemplu, există o opinie că fiecare regulă din sintaxă are analogul său în semantică. Acest postulat se numește ipoteza de la regulă la regulă. De fapt, această corespondență nu este unu-la-unu și aceasta este principala dificultate. Într-adevăr, fiecare regulă sintactică (parse tree) poate fi asociată cu o regulă semantică (parse tree), dar nu va fi singura. În sens invers, similar unei reguli semantice, se compară o regulă sintactică, dar nu neapărat singura. Această ambiguitate este cea care duce la probleme insolubile în prezent în domeniul procesării automate a textului. În legătură cu acest raționament, se pune problema alegerii comparației dorite dintr-un număr mare de opțiuni posibile.

Din toate cele de mai sus se poate trage încă o concluzie foarte importantă. Procesele de generare și interpretare a unei declarații nu trebuie luate în considerare separat, ele sunt indisolubil legate
tu. Când își exprimă gândurile, o persoană se concentrează pe dacă interlocutorul său îl va înțelege. În procesul de generare a unei declarații, o persoană, parcă, se „reverifică”, modelând modul în care interlocutorul va percepe informația. Un mecanism similar este prezent atunci când se interpretează o declarație. Când înțelegem ceea ce am auzit sau citit, „verificăm” din nou cu cunoștințele și ideile noastre despre lume. Doar datorită acestui lucru reușim să alegem sensul potrivit.

Cercetătorii moderni sunt înclinați să creadă că alegerea dorită poate fi făcută cu o bază suplimentară de cunoștințe despre lume. O astfel de bază de cunoștințe ar trebui să conțină informații semantice generale despre concepte și relații dintre ele, astfel încât la accesarea acesteia, contextul adecvat al enunțului să poată fi determinat automat. Ar ajuta să se țină cont de cunoștințele acumulate despre lume, care nu sunt prezente în mod explicit într-o anumită enunțare, dar afectează direct sensul acesteia.

Literatură

  1. Melchuk I.A. Experiență în teoria modelelor lingvistice „Sens-Text”. M.: Limbile culturii ruse, 1999. 346 p.
  2. Lahuti D.G., Rubashkin V.Sh. Dicționar semantic (conceptual) pentru tehnologiile informației // Informații științifice și tehnice. 2000. Nr. 7. p. 1–9.
  3. Paducheva E.V. Modele dinamice în semantica vocabularului. M.: Limbi culturii slave, 2004. 608 p.
  4. Tuzov V.A. Semantica computerizată a limbii ruse. Sankt Petersburg: Editura Universității de Stat din Sankt Petersburg, 2003. 391 p.
  5. Corpus național al limbii ruse. URL: http://www.ruscorpora.ru/ (data accesului: 22/08/2016).
  6. Apresyan V.Yu. și altele. Noul dicționar explicativ de sinonime ale limbii ruse. M. – Viena: Limbi culturii slave – Almanahul slavului Viena, 2004. 1488 p.
  7. Khoroshilov A.A. Metode de stabilire automată a proximității semantice a documentelor pe baza analizei conceptuale a acestora // Biblioteci electronice: metode și tehnologii promițătoare, colecții electronice: tr. XV întreg rusesc științific conf. RCDL" 2013. Yaroslavl: Editura YarSU, 2013. pp. 369–376.
  8. Rubașkin V.Sh. Reprezentarea și analiza semnificației în sistemele informaționale inteligente. M.: Nauka, 1989. 189 p.
  9. Lahuti D.G., Rubashkin V.Sh. Mijloace și procedură de interpretare conceptuală a mesajelor de intrare în limbaj natural // Izv. Academia de Științe a URSS. Ser. Tehnic cybern. 1987. Nr 2. P. 49–59.
  10. Rubașkin V.Sh. Componenta semantică în sistemele de înțelegere a textului // KII-2006. Tr. 10 naţionale conf. conform artificial inteligenţă cu internaţionale parte. 2006. URL: http://www.raai.org/resurs/papers/kii-2006/#dokladi (data acces: 23/08/2016).
  11. Paducheva E.V. Semantica tipului și punctul de plecare // Izv. Academia de Științe a URSS: Ser. aprins. și limbajul 1986. T. 45. Nr. 5. p. 18–25.
  12. Paducheva E.V. Nume de predicate sub aspect lexicografic // Științific și tehnic. inf. 1991. Ser. 2. Nr 5. p. 21–31.
  13. WordNet. O bază de date lexicală pentru engleză. URL: http://wordnet.princeton.edu/ (accesat 23.08.2016).
  14. Web semantic. URL: https://ru.wikipedia.org/wiki/Semantic_net (data accesului: 23/08/2016).
  15. Teoria sistemelor de cadru a lui Minsky M. Minsky // Lucrările atelierului privind problemele teoretice în procesarea limbajului natural (TINLAP "75). 1975, pp. 104–116.
  16. Khabarov S.P. Reprezentarea cunoștințelor în sistemele informaționale: note de curs. URL: http://www.habarov.spb.ru/bz/bz07.htm (data acces: 23/08/2016).
  17. Lutsenko E.V. Reprezentarea cunoștințelor în sistemele informaționale: electronică. manual manual pentru elevi. Krasnodar: Editura KubGAU, 2010. 428 p.
  18. Konstantinova I.S., Mitrofanova O.A. Ontologiile ca sisteme de stocare a cunoștințelor // Vseros. competitiv statistică de selecție. prin prioritate direcţie „Sisteme informaționale și de telecomunicații”. 2008. 54 p.
  19. Razin V.V., Tuzovsky A.F. Reprezentarea cunoștințelor despre timp ținând cont de incertitudine în ontologiile WEB semantice // Dokl. Statul Tomsk Universitatea de Sisteme de Control și Radioelectronică. 2013. Nr 2 (28). p. 157–162.
  20. Patel-Schneider P.F., Horrocks I. et al. SWRL: Un limbaj de reguli web semantic care combină OWL și RuleML // World Wide Web Consortium (W3C). 2004. URL: http://www.w3.org/Submission/SWRL (data accesului: 18/08/2016).
  21. Fillmore Ch. Cazul pentru caz. Proc. Texas Symp. on Language Universals, 1967, 134 p.
  22. Fillmore Ch. The Case of Case // Nou în lingvistica străină. M.: Progres, 1981. p. 369–495.
  23. Dowty D. Proto-roluri tematice și selecție de argumente // Limbă, 1991, voi. 67, nr. 3, pp. 547–619.
  24. Norvig P., Russell S. Inteligența artificială: o abordare modernă. M.: Williams, 2007. 1408 p.
  25. Jurafsky D., Martin J. Procesarea vorbirii și a limbajului: o introducere în procesarea limbajului natural, lingvistica computațională și recunoașterea vorbirii. 2008, 1024 p.
  26. Batura T.V., Murzin F.A. Metode logice orientate pe mașină pentru afișarea semanticii textului în limbaj natural: monografie. Novosibirsk: Editura NSTU, 2008. 248 p.
  27. Logica temporală. URL: https://ru.wikipedia.org/wiki/Temporal_logic (data accesării: 23/08/2016).
  28. Vendler Z. Verbe și timpi. The Philosophical Review, 1957, voi. 66, nr. 2, pp. 143–160.
  29. Paducheva E.V. Aspectualitatea lexicală și clasificarea predicatelor după Maslov-Vendler // Questions of linguistics. 2009. Nr 6. P. 3–21.
  30. Inferența în modele logice. Metoda de rezoluție. URL: http://www.aiportal.ru/articles/knowledge-models/method-resolution.html (data acces: 08/11/2016).
  31. Boral H., Redfield S. Database Machine Morphology. Proc. al 11-lea intern. Conf. Baze de date foarte mari, 1985, pp. 59–71.
  32. Fushimi S., Kitsuregawa M., Tanaka H. O privire de ansamblu asupra sistemului unei mașini de baze de date relaționale paralele GRACE. Proc. al 12-lea intern. Conf. Baze de date foarte mari, 1986, pp. 209–219.
  33. Tanaka H. Motor de inferență paralelă. IOS Press Publ., 2000, 296 p.
  34. Cunoașterea deschisă. URL: http://opencog.org/ (data accesului: 23/08/2016).
  35. Link Grammar Parser. AbiWord, 2014. URL: http://www.abisource.com/projects/link-grammar/ (data accesului: 20/08/2016).
  36. Analizatorul de limbaj natural CMU Link Grammar. URL: https://github.com/opencog/link-grammar/ (data accesului: 22/08/2016).
  37. Extractor de relații de dependență RelEx. OpenCog. URL: http://wiki.opencog.org/wikihome/index.php/Relex (data accesului: 22/08/2016).
  38. Sokirko A.V. Dicționare semantice în procesarea automată a textului (pe baza materialelor din sistemul de Apelare). Insulta. ...cad. acestea. Sci. M.: MGPIIYA, 2001. 120 p.
  39. Procesare automată a textului. URL: http://www.aot.ruhttp://aot.ru/ (data accesului: 23/08/2016).
  40. Prószéky G. Traducere automată și ipoteza de la regulă la regulă. Noi tendințe în studiile de traducere (În onoarea lui Kinga Klaudy). Budapesta: Akademiai Kiadó, 2005, pp. 207–218.

N.S Pospelov a identificat principala diferență dintre două tipuri de propoziții complexe. Este în felul următor: partea subordonată fie se corelează cu partea principală în întregime, fie face parte din partea principală, atașată unui cuvânt și răspândindu-l. El a numit propozițiile de primul tip doi termeni, propozițiile de al doilea tip - un singur termen.

Un exemplu de propoziție cu doi termeni: Vom fi de acord cu totul dacă vii la mine. Părțile predicative ale unei propoziții complexe conțin două situații care sunt corelate în ansamblu: a doua situație este o condiție pentru implementarea primei situații. Partea subordonată este conectată cu partea principală ca întreg. O relație similară se observă în propozițiile cu alte conjuncții semantice: Vom fi de acord cu totul când vii să mă vezi. Vom fi de acord cu totul pentru că ne înțelegem. Vom fi de acord cu toate, deși nu va fi ușor.

Exemplu de propoziție cu un singur termen: Am convenit să ne întâlnim seara.

Partea subordonată nu se referă la întreaga parte principală, ci la un cuvânt „de acord”, răspândindu-l, compensând insuficiența sa informativă. Această conexiune este comparabilă cu conexiunea din fraza: face o programare(Am fost de acord să ne întâlnim).

O altă diferență importantă între propozițiile cu un termen și două termene apare în mijloacele de comunicare. În propozițiile cu un singur termen, conjuncțiile asemantice sunt folosite ca mijloace de conexiune sintactică (conjuncția „acea”, unele conjuncții folosite ca asemantice - „parcă”, „ca și cum”, „să”) și cuvinte conexe, de exemplu. astfel de indicatori care doar formalizează legătura, dar nu stabilesc relații sintactice (relațiile sintactice sunt exprimate prin alte mijloace). În propozițiile binomiale, conjuncțiile semantice sunt folosite ca mijloace de comunicare sintactică - indicatori ai relațiilor sintactice (temporale, condiționale, cauzale, țintă etc.).

Clasificarea propozițiilor complexe dezvoltate de N.S Pospelov a fost dezvoltată în continuare în lucrările altor oameni de știință, în special V.A. Beloshapkova, care a introdus clarificări importante în această clasificare. În primul rând, termenii au fost înlocuiți: propozițiile cu un termen și, respectiv, cu două termene sunt desemnate prin termenii propoziții nedivizate și dezmembrate. Motivul schimbării termenilor este asemănarea termenilor anteriori cu denumirile tipurilor de propoziții simple (o parte - două părți) și posibila confuzie a acestora în utilizare.

V.A Beloshapkova a făcut o clarificare importantă pentru propunerile unei structuri disecate (după Pospelov - binom). Ea a stabilit că în aceste propoziții există o legătură nu între părțile predicative în ansamblu, ci între predicate: partea subordonată se referă la predicatul principal, iar acest predicat nu este neapărat un predicat, poate fi și un predicat suplimentar, pt. de exemplu, un gerunziu sau un participiu în fraze izolate și chiar un predicat semantic (un cuvânt cu semantică predicat). De exemplu: Și-a ținut fiul strâns de mână, ca să nu fugă. Partea subordonată cu semnificație țintă se referă la predicatul-predicat „păstrat” (păstrat - cu ce scop?). A ieșit, ținându-și fiul strâns de mână, ca să nu fugă. Propoziția subordonată se referă la un predicat suplimentar exprimat prin gerunziul „derzha” (derzha - în ce scop?)

Un alt pas important făcut de V.A Beloshapkova în dezvoltarea clasificării structural-semantice este determinarea metodelor de conectare între componentele unei propoziții complexe. Există trei metode de comunicare: convențională, determinantă și corelativă.

O legătură verbală este o legătură predictivă; este predeterminată de valența cuvântului în partea principală, de trăsăturile sale morfologice sau lexicale. Această conexiune este similară conexiunii dintr-o frază. De exemplu: Încrederea pe care o avea la început dispăruse acum. O conexiune verbală este determinată de caracteristicile morfologice ale cuvântului de referință - apartenența acestuia la o anumită parte a vorbirii - un substantiv (cf. în sintagma: „încrederea inițială”). Încrederea că nu mă va dezamăgi mi-a dat putere.În acest caz, legătura verbală este determinată nu de apartenența cuvântului la o parte a vorbirii, ci de particularitatea semnificației sale lexicale: cuvântul „încredere” este răspândit aici ca sinsemantic, necesitând distribuție obligatorie - printr-o propoziție sau cuvânt subordonat. formă („încrederea în dreptate”). O conexiune verbală este un semn al unei structuri nediferențiate.

O conexiune de determinant este o conexiune nepredictivă, este asemănătoare conexiunii unui determinant adverbial într-o propoziție simplă: determinantul se referă la baza predicativă a unei propoziții simple; propoziţia subordonată se referă la predicatul propoziţiei principale (principală sau suplimentară). De exemplu: Te-am înțeles când te-am cunoscut mai bine. miercuri: Cu timpul Te-am inteles. O legătură similară cu orice uniune semantică: Te-am înțeles pentru că așa cred și eu. Te inteleg, desi am un alt punct de vedere. Conexiunea determinantă este un semn al unei structuri dezmembrate.

Legătura de corelație nu are analogi în fraze și propoziții simple este o legătură care este caracteristică specific unei propoziții complexe. Un caz clasic de corelare este un cuvânt T în partea principală și cuvântul K corespunzător în partea subordonată: euAcea , pe cine nimănui nu-i place. Alte manifestări ale corelației: cuvânt T în partea principală - conjuncție asemantică ( A fostAsa de Fierbinte,Ce asfaltul se topea); Cuvântul K din propoziția subordonată se corelează cu întreaga propoziție principală ( Astăzi Vasia a întârziat,ce nu i s-a mai întâmplat niciodată). Corelația este posibilă atât în ​​structurile nedivizate, cât și în cele disecate.

204
Două ramuri ale științei limbajului sunt dedicate înregistrării vorbirii în scris: grafica și ortografie. Acești termeni au și un al doilea sens. Termenul de grafică se referă la un set de instrumente de scriere folosite pentru a înregistra vorbirea. Principalele mijloace de grafică sunt literele.
Al doilea sens al termenului ortografie este un set de reguli care oferă un mod uniform de scriere a cuvintelor și a formelor acestora.
Ortografia și grafica sunt strâns legate între ele, prin urmare aceste secțiuni din știința limbajului sunt considerate interconectate.1
Regulile de ortografie sunt stabilite pe baza principiilor ortografice.
Autorii diferiți identifică un număr diferit de principii (adesea cu nume diferite și cu interpretări și ilustrații diferite).
Deci, L.V. Shcherba a identificat 4 principii de ortografie:

  1. fonetic; 2) etimologic, sau producție de cuvinte, altfel morfologic; 3) istoric;
  1. ideografic.2
LL. Kasatkin identifică următoarele principii de ortografie: ortografii fonematice (de bază), morfematice (sau morfologice), tradiționale, fonetice, lexicosintactice și diferențiatoare.3
Principalele principii de ortografie distinse în mod tradițional sunt fonetice, morfologice, tradiționale.
Potrivit lui V.F. Ivanova, „...principiile de ortografie sunt idei de reglementare pentru alegerea literelor în care un sunet (fonem) poate fi indicat variabil.”4
PRINCIPII DE ORTOGRAFIE RUSĂ
Având în vedere varietatea de „idei” care reglementează scrisul modern, este recomandabil să evidențiem următoarele principii de ortografie:
  1. fonetică (ortografii fonetice);
  2. morfemică;
  3. morfologic;
  4. sintactic;
  5. tradiţional;
  6. semantice.5
205
Principiile identificate sunt determinate de organizarea structurală și semantică a sistemului lingvistic, de structura și sensul unităților sale.6
Să luăm în considerare principiile evidențiate.
Principiul fonetic este caracteristic atât graficului, cât și ortografiei.
Scrierea rusă în ansamblu este fonetică, deoarece sunetele din ea corespund de obicei literelor „lor”. Deci, cuvintele [masă], [casă], [cadou], [vela] și altele asemenea sunt scrise în conformitate cu pronunția. Acest tip de scriere se numește sunet-scrisoare sau literă-sunet. Numele diferite se datorează abordărilor diferite: „de la sunet la literă” sau „de la literă la sunet”. Mai științifică, desigur, este abordarea sunet-la-litera.7
Abordarea de la literă la sunet este esențială pentru carte.
V.F. Ivanova „Limba rusă modernă. Grafică și ortografie” (Moscova, 1976).
Abordarea de la literă la sunet este cea principală în partea teoretică a manualelor școlare, deși există și o altă abordare, de exemplu: indicarea moliciunii consoanelor în scris.8
Principiul fonetic este principiul principal al graficii rusești. Având în vedere influența pronunției (sunetului) asupra unor grafii, principiul fonetic este inclus și printre principiile ortografiei ruse.
Principiul fonetic reglementează scrierea literelor 3 și C în prefixe: fără-, voz-, vz-, din-, raz-, roz-, niz-, prin-, prin-. Litera 3 se scrie dacă este urmată de o consoană sonoră, iar C - dacă este fără voce: cf. mediocritate – prostie.
În prefixele raz- (ras-) și roz- (ros-), A se scrie sub accent, iar O în poziție neaccentuată.
PROBLEME DE ORTOGRAFIE ȘI PUNCTUAȚIE
Influența pronunției se reflectă și în ortografii precum căutare, glumă, căutare, lipsă de artă etc.
Discrepanța de frecvență dintre sunet și literă determină necesitatea altor principii, dintre care principalul este morfemic.
Cercetătorii au numit principiul morfemic al ortografiei morfologic și l-au recunoscut drept principalul principiu principal al ortografiei. Este recomandabil să se diferențieze principiile morfemice și morfologice, deoarece fiecare dintre ele servește drept justificare pentru diferite ortografii.
Principiul morfemic determină păstrarea unității grafice a morfemelor (rădăcini, prefixe, sufixe). Unitatea grafică a acestor morfeme nu este de obicei asociată 206 cu locul accentului, ceea ce determină schimbările de poziție ale vocalelor.
în rădăcini: grădină, grădini, grădinar; în prefixe: notează, notează, notează; în sufixe: cântăreț, hotel, pui.
Abaterile de la ortografia uniformă a morfemelor sunt asociate în primul rând cu alternarea sunetelor (foneme) determinată de pronunția lor (acțiunea principiului fonetic), poziție, motive istorice etc.
Un număr mare de reguli de ortografie țin cont de unitatea grafică (literală) a morfemelor. Astfel, regula principală care determină scrierea vocalelor în rădăcini fără accent este selectarea cuvintelor cu aceeași rădăcină cu o vocală accentuată. De exemplu, apă - apă, fereastră - ferestre etc.
Cele mai multe prefixe mențin ortografia uniformă, indiferent de accent, parte de vorbire sau sensul lexical al cuvintelor. Astfel de prefixe includ prefixe in-, for-, on-, to-, from- etc. Cu toate acestea, există prefixe care reacționează la sunetul următor. Prefixul s- se păstrează înaintea consoanelor voce: [s[begat - fugi, dar, de exemplu, prefixul nu își va schimba aspectul grafic înaintea consoanelor sonore: neliniştit - neliniştit.
Gst și prefixe, a căror ortografie este reglementată de sensurile lexicale ale cuvintelor. Astfel de prefixe includ când- și ire-: a ajunge (= a ajunge), dar a rămâne (a fi undeva), etc.
Majoritatea sufixelor păstrează unitatea ortografiei indiferent de accent, de exemplu: -liv- - vorbăreț, de ajutor; -din- - muncă, bunătate; -nick- - călăreț, dirijor, navigator etc.
PRINCIPII DE ORTOGRAFIE RUSĂ
Există sufixe, a căror grafie depinde de o serie de condiții: de consoana anterioară (de exemplu, pui de urs, dar mânz); de la locul stresului din cuvânt (bulgăre de zăpadă, dar râpă) etc.
Uniformitatea literală a rădăcinilor poate fi determinată de combinarea rusismelor și slavonismelor bisericești într-un singur cuib: cap - cap, coastă - coastă; consilier - conducător, haine - haine; noapte - noapte, fiică - fiică etc.
207
Astfel de alternanțe sunt posibile în prefixe (de exemplu, ridicați-vă - ridicați-vă) și sufixe (de exemplu, în picioare - în picioare).
Principiul morfologic9 determină ortografia terminațiilor de cuvinte atunci când acestea se schimbă. Acest principiu se bazează pe o serie de reguli legate de declinarea și conjugarea cuvintelor modificate.
Desinența, spre deosebire de alte morfeme (cele formatoare de cuvinte), este un morfem flexiv. Regulile de scriere a terminațiilor într-un număr semnificativ de cazuri sunt determinate de apartenența cuvântului la partea de vorbire.
Există un număr mare de reguli care determină ortografia terminațiilor cuvintelor flexate, reglementate de principiul morfologic al ortografiei.
Principiul sintactic al ortografiei reglementează scrierea continuă, cu cratime și separate a cuvintelor evidențiate „în fluxul vorbirii” în conexiunile lor sintactice.
Să notăm câteva cazuri de ortografie reglementate de condiții sintactice:
  1. scrierea cuvintelor incluse în zona de tranziție formată prin interacțiunea părților de vorbire10;
  2. unele ortografii îmbinate, cu cratime și separate.
Ortografia cuvintelor incluse în zona de tranziție și
caracterizat prin proprietăți sincretice, este călcâiul lui Ahile al graficii și ortografiei rusești.
Cu acest grup de cuvinte sunt asociate în primul rând problemele ortografiei continue, cu cratime și separate,
care „au rămas deja în urma corbilor, dar nu au ajuns încă la păuni”. Determinarea locului unor astfel de cuvinte pe scara tranzitivității nu este întotdeauna ușoară.
PROBLEME DE ORTOGRAFIE ȘI PUNCTUAȚIE
Legăturile de opoziție sunt legătura A (sursa este ortografia separată a cuvintelor care păstrează independență sintactică și semantică deplină) și legătura B, care prezintă ortografii fuzionate și cu cratime.
Cel mai mare număr de cuvinte „dificile” de scris este asociat cu adverbializarea combinațiilor prepozițional-caz. Astfel de cuvinte ocupă verigi sincretice pe scara tranzitivității: Ab, AB și aB.
Ortografii separate sunt tipice pentru cuvintele legăturii Ab atunci când adverbializarea este abia la început, adică atunci când combinația prepozițional-caz mai păstrează componentele substanțiale în semantică, îndeplinind funcțiile adverbialelor. Prezența seme-urilor de fond poate fi evidențiată prin definiții agreate și inconsecvente: în (foarte) vârful acoperișului.
În legătura AB, ortografia combinațiilor sincretice este cea mai discutabilă: sub braț și sub brațe, sub braț și sub brațe. Posibilitatea scrierii continue se datorează slăbirii sau chiar pierderii sensului lexical al cuvântului mouse.11
În legătura aB sunt cuvinte în care componenta substantivală a semanticii substantivului este slăbită, dar... prezența ei, deși slabă, permite în unele cazuri definiții, cel puțin sub forma cuvântului cel mai mult, ceea ce întărește substantivul. seme în substantivul „fost”: pe (mai )zbură; De fapt...
Absența unor markeri distincti pentru cuvinte în legăturile zonei sincretice, procesul activ de adverbializare, păstrarea sursei originale (baza formării adverbelor) etc. - toate acestea (și nu numai asta!) creează dificultăți în diferențierea ortografiilor separate și combinate ale combinațiilor prepoziționale în funcție de circumstanțe.
Nu există uniformitate în scrierea prepozițiilor seminominale. Miercuri: într-o oră, timp de o săptămână, dar din cauza unei boli etc. 12 Comparați:
(a avea) în minte - a însemna într-un fel - ca
la întâlnire - spre cu cheltuiala - cam în ciuda - în ciuda zburei - spre moarte de rău - din ciuda cu cheltuiala - cam în depărtare - în depărtare în primul rând - în jur
PRINCIPII DE ORTOGRAFIE RUSĂ
Ortografiile separate și combinate ale cuvintelor de mai sus sunt determinate de funcțiile lor sintactice, compatibilitatea cu alte cuvinte (cf.: a întâlni un prieten - a cunoaște un prieten).
209
Incertitudinea ortografiilor combinate și separate menționate mai sus se datorează poziției lor în zona de tranziție formată de opoziția: A - substantiv cu prepoziții - B - adverb.
Nu mai puțin greu de scris sunt participiile pasive ale timpurilor prezent și trecut, care au suferit adjectivare. Zona de tranziție, reprezentată de o scară în care A este un participiu, B - (sau aB) este un adjectiv, se caracterizează printr-un număr mare de cazuri în care este dificil de rezolvat problema ortografiei continue și separate a lui NOT chiar și în prezența cuvintelor marcatoare luminoase dependente de „participiu” (? ) sau „adjectiv”.
Vom da doar exemple de fraze cu cuvinte dependente postpozitive și prepozitive pentru a arăta diferitele grade de adjectivare ale formelor convenite.
  1. (nu) lacrimi vizibile lumii (nu) gânduri exprimate în cuvinte (nu) o reflexie perceptibilă ochiului (nu) porumbei jignit (nu) un sentiment comparabil
  2. nimeni (nu) văzut ciudat (nu) iarbă cu pene revoltat de vânt (nu) admis la examen student (nu) învins de medici oameni
(nu) o infracțiune dovedită de anchetator de către oricine (nu) cuvânt rostit
Compoziția morfemică a formelor de cuvinte convenite (sufixe formatoare de cuvinte ale participiilor pasive ale timpului prezent și trecut) și prezența cuvintelor dependente
le menține în sistemul participiilor, dar în sensul lor categoric semes verbale sunt în mod clar slăbite. Găsirea locului unor astfel de cuvinte pe scara tranzitivității nu este ușoară și, prin urmare, este dificil de stabilit dacă să scrieți NU împreună sau separat.
PROBLEME DE ORTOGRAFIE ȘI PUNCTUAȚIE
Diferențierea ortografiilor continue și cu cratime ale unui număr mare de adjective complexe este asociată cu distincția dintre sintagmele coordonate și subordonate.
Adjectivele complexe formate din locuțiuni subordonate se scriu împreună: agricultură - agricol (institut); cale ferată - cale ferată (tren); marmura alba - marmura alba (palat); capabil să plătească - solvent (fabrică); rezistent la îngheț - rezistent la îngheț (varietate), etc.
Adjectivele complexe formate din sintagme de coordonare se scriu cu cratima: sah 210 si dame - sah-dame (turneu); comercial și industrial - comercial și industrial (complex); search and rescue - căutare și salvare (muncă); întrebare și răspuns - întrebare și răspuns (replici), etc.
În unele cazuri, adjectivele dintr-o frază de coordonare pot fi conectate prin conjuncția nu numai..., ci și... De exemplu: nu numai electronice, ci și informatice - computere electronice (mașini).
Expresiile sunt scrise printr-o cratimă, incluzând un cuvânt definit (mai general în sens) și o aplicație (mai specifică în sens): filolog, inginer civil, student corespondentă, vultur vultur, iepure alb etc. Astfel de formațiuni se caracterizează prin grade diferite. de unitate: vagon restaurante, muzeu case, muzeu imobiliar, canapea extensibilă, balansoar etc.
Unele cuvinte complexe se formează ca urmare a fuziunii frazelor subordonate: nebun, nebun, cu privirea înainte (dar privind înainte), cu curgere rapidă, veșnic verde, de lungă durată, de cinci zile, de o mie de ani etc.
Exemplele date nu epuizează lista mare de ortografii, care se bazează pe unități sintactice, cel mai adesea diverse feluri de fraze. Acest lucru se explică prin apropierea funcțională și sistemică a frazei și a cuvântului.
Principiul tradițional (istoric, etimologic) reglementează „scrierile care... nu mai au suport în formarea cuvintelor și relațiile formative moderne sau în sistemul fonetic, ci se păstrează doar prin tradiție.”13
PRINCIPII DE ORTOGRAFIE RUSĂ
Ortografiile tradiționale sunt:
a) zhi, shi: viață - [zhyztg], con - [pgypgk];
b) un semn moale după sibilante (un semn moale, care denota odinioară moliciunea consoanei precedente, este în prezent un mijloc de diferențiere a substantivelor masculine și feminine): minge - secară, mantie - ajutor etc.
c) qi: circ - [tsirk] (se împrumută cuvinte în care se scrie qi (ciclu, cilindru, zinga, citat, figură), dar țigan, pui, tsyts, în vârful picioarelor;
d) „g” la terminațiile adjectivelor și altor cuvinte adjectivale: alb - [bolvъ], al meu - [myievo] etc.;
e) scrierea cuvintelor așa-numite „dicționar” cu vocală neaccentuată neverificată la rădăcină: cizmă, berbec, câine, fier etc.
Principiul semantic diferențiază sensurile lexicale și gramaticale ale cuvintelor:
a) sensuri lexicale: dezvolta - flutura, companie (de prieteni) - campanie (electorală);
b) sensuri lexicale și gramaticale: arde (mâinile) - arde (mâna), (acționează) la întâmplare - (speranță) de noroc, plâns (copil) - (nu) plâns.
Lucrările despre ortografie nu ilustrează întotdeauna principiile ortografiei în același mod. Unul dintre motivele acestei discrepanțe este că multe ortografii sunt guvernate de mai mult de un principiu. Deci, adesea principiul fonetic îl completează pe cel principal - cel ortografic propriu-zis.
Uneori, scrierile aceluiași grup sunt guvernate de principii diferite. Astfel, transferul unei părți a cuvintelor pe o altă linie este determinat de principiile fonetice (transfer peste silabe) și morfemic (conservarea integrității morfemelor).
Ortografia particulelor NOT și NI este reglementată de toate principiile de mai sus (și nu numai de ele!).14 Astfel, principiul fonetic determină scrierea de NOT și NI (cu accent se scrie NOT, fără accent - NI): cineva - nimeni,
ceva - nimic, nicăieri - nicăieri, o dată - niciodată etc. Aceste ortografii diferențiază și semnificațiile lexicale ale pronumelor corespunzătoare.
PROBLEME DE ORTOGRAFIE ȘI PUNCTUAȚIE
Principiul morfemic reglementează ortografiile combinate și separate ale pronumelor precum: nimeni - nimeni, nimeni - purtat de cine etc.
Influența principiului morfologic este deosebit de semnificativă. Regula: „Nu cu verbe, gerunzii, cu participii scurte, cu numerale și, de asemenea, (cel mai adesea) cu nume de state este scrisă separat” este una dintre regulile de bază ale sistemului.
Principiul sintactic reglementează ortografia NOT și NI atât ca parte a propozițiilor, cât și ca parte a combinațiilor stabile de cuvinte. Să notăm câteva cazuri.
a) Particula NU este scrisă în întrebări retorice: Cine 212 dintre noi nu se înșală? Învățăm din greșeli. (M. Bubenkov.)
Care scriitor nu a folosit metafora! (V. Kataev.)
b) Particula NI este caracteristică propozițiilor subordonate cu cuvinte conjunctive care nici, că nici, cum nici, unde nici, oriunde etc.: Whatever you think about me, I don’t care. (N. Pomyalovsky.)
Regula despre scrierea separată cu opoziție implicită poate fi interpretată subiectiv. Miercuri: Drumul nu este lung, ci scurt. Drumul nu este lung dacă aștepți cu un prieten.
O propoziție fără markeri de opoziție poate fi interpretată subiectiv.
c) Particula NU este scrisă în propoziții interogative cu cadru rematic NE... LI (L)?15:
Baieti! Moscova nu este în spatele nostru? (M. Lermontov.)
Am întrebat: este un demon al discordiei?
Ți-a mișcat mâna batjocoritor? (N. Nekrasov.)
Nu ți-e rușine să suferi atât de mult?
Eu cu o așteptare crudă goală? (A. Pușkin.)
Nu-i așa că te-am cunoscut... (A. Pușkin.)
- Cu toții suntem oameni. Nu-i așa? (Ch. Aitmatov.)
d) Particula care se repetă NI îndeplinește funcțiile unei conjuncții de coordonare:
Nici puterea, nici viața nu mă amuză. (A. Pușkin.)
Nu pot vedea lumina soarelui,
Nu este loc pentru rădăcinile mele. (I. Krylov.)
Particula de conjuncție NI este adesea inclusă în combinații stabile formate pe baza sintagmelor de coordonare: nici pește, nici carne; nici da, nici lua; pentru nimic, despre nimic; nici mai mult, nici mai putin etc.
PRINCIPII DE ORTOGRAFIE RUSĂ
Condițiile sintactice transformă particula NI într-o conjuncție. Și invers - uniunea se transformă într-o particulă în combinații stabile. Aceste transformări sunt rezultatul interacțiunii dintre sintaxă și morfologie.
213
Principiul semantic guvernează ortografia particulelor NOT și NI. Semantica diferențiază ortografia NOT și NI ca parte a unei propoziții: NOT exprimă negația atributului predicativ (parte a predicatului), iar NI întărește negația principală (amplificarea NI poate face parte din pronumele negative): Nici un singur om. piciorul a călcat încă pe domeniul său extraordinar . (A. Gaidar.)
a) NOT și NOR sunt scrise împreună cu cuvinte care nu se folosesc fără ele: ignorant, perplex, subgropat, imposibil, mireasă etc.; fără valoare, fără valoare, trimis jos etc.
b) NOT și NOR sunt folosite ca deosebitori de sens: nimeni altcineva, dar nimic mai mult decât...; cineva – nimeni, o dată – niciodată... Adesea ortografii diferite sunt corectate prin accent (principiul fonetic).
O propoziție poate avea mai multe ortografii, a căror ortografie este guvernată de diferite principii de ortografie. Deci, în propoziția Ce se învârte vine în jur, ortografia pronumelui care (ce, la ce...), prefixele po- (cf. chemați, înțelegeți etc.) se supun principiului morfemic.
Vocala de la sfârșitul verbului la persoana a II-a singular sow este reglementată de un principiu morfologic.
Semnul moale după cele șuierate (ceea ce se învârte vine în jur) se explică din motive istorice.
În alte cazuri, se aplică principiul fonetic al graficii: fiecare sunet este desemnat prin „propria” literă.
Ortografia unor cuvinte poate defini mai multe principii. Astfel, în cuvântul fără vânt, ortografia rădăcinii -vânt- este determinată de principiul fonetic; scrierea prefixului nu este reglementată de principii morfemice (litera e) și fonetice (litera b din); Ortografia sufixului -enn- se explică prin particularitățile producției de cuvinte: cuvântul bezvetrenny este format din verbul arhaic vetrit.
PROBLEME DE ORTOGRAFIE ȘI PUNCTUAȚIE
Chiar și cuvintele monosilabice pot ilustra acțiunea mai multor principii: secară, șoarece, grindină, căruță etc.
Pe baza principiilor ortografiei, se formulează reguli de ortografie, grupate pe grupe care corespund principiilor de bază. Cunoașterea regulilor de ortografie și chiar a principiilor de ortografie nu este o garanție a scrierii competente.16
Nu toate cazurile pot fi supuse acestor principii. În scrierea rusă există multe cuvinte cu ortografii individuale (printre astfel de cuvinte există multe împrumuturi). Astfel de cazuri se reflectă în dicționarele de ortografie.

Limbi străine, filologie și lingvistică

Principiul obiectivității: o propoziție trebuie să vorbească despre obiectele notate de numele incluse în ea și nu despre aceste nume în sine. Propoziția Chair este un substantiv construit corect. Principiul interschimbabilității: la înlocuirea numelor cu același sens, propoziția în care se efectuează această înlocuire nu trebuie să-și schimbe valoarea de adevăr o propoziție adevărată trebuie să rămână adevărată și o propoziție falsă trebuie să rămână falsă; Să fie dată propoziția că Pământul se învârte în jurul Soarelui.

Principii semantice

Principiul lipsei de ambiguitate:fiecare nume trebuie să aibă un singur sens (extensional). Încălcarea acestui principiu este asociată cu o eroare numită „substituirea valorii».

Existența lui Pluto a fost dovedită de astronomi.

Pluto este un zeu.

Existența lui Dumnezeu a fost dovedită de astronomi.

Aici cuvântul „Pluto” este folosit în două sensuri: în prima premisă înseamnă o planetă a sistemului solar, în a doua înseamnă o zeitate din mitologia greacă veche. Când semnificațiile unui cuvânt diferă atât de clar, înlocuirea este ușor de observat. Dar dacă cel puțin parțial coincid unul cu celălalt, de exemplu, unul este obișnuit, iar celălalt este extensiv (sau, dimpotrivă, specializat), eroarea poate trece neobservată. Uneori, valoarea este schimbată în mai mulți pași, fiecare dintre acestea în sine nu ridică suspiciuni.

Principiul obiectivității:propoziția trebuie să vorbească despre obiectele notate prin numele incluse în ea (și nu despre aceste nume în sine). Încălcarea acestui principiu este asociată cu o eroare numită „utilizarea autonomă a numelor».

Comparați două propoziții: 1)Un scaun este o piesă de mobilier 2) Chair este un substantiv.În primul, cuvântul „scaun” este folosit corect, deoarece vorbim despre un obiect, iar în al doilea, este folosit în mod autonom, deoarece vorbim despre acest cuvânt în sine. Pentru a evita astfel de greșeli, ar trebui să folosiți întotdeauna ghilimele în cazurile în care trebuie să spuneți ceva despre expresiile limbajului. Oferta "„Chair” este un substantiv„construit corect. Dacă ignorăm ghilimele, riscăm să ajungem la o concluzie destul de ridicolă:

Chair este un substantiv.

Unele scaune au patru picioare

Unele substantive au patru tulpini.

Principiul interschimbabilității:la înlocuirea numelor cu același sens, propoziția în care se efectuează această înlocuire nu trebuie să-și schimbe valoarea de adevăr (o propoziție adevărată trebuie să rămână adevărată, iar o propoziție falsă trebuie să rămână falsă).

Să fie dată propoziția „Pământul se învârte în jurul Soarelui”. Să înlocuim „Soarele” cu „corpul central al Sistemului Solar”. Este evident că semnificațiile acestor expresii sunt aceleași. Ca urmare a acestei înlocuiri, dintr-o propoziție adevărată obținem o altă propoziție adevărată: „Pământul se rotește în jurul corpului central al Sistemului Solar”.

Principiul interschimbabilității pare de la sine înțeles, dar există contexte lingvistice în care înlocuirea egalului cu egal duce la o contradicție. Luați în considerare propoziția „Ptolemeu credea că Soarele se învârte în jurul Pământului”. El a crezut că acest lucru este adevărat. Hai să verificăm. Să înlocuim cuvântul „Soare” cu expresia „corp central al sistemului solar”, care are același sens. Obținem concluzia: „Ptolemeu credea că corpul central al sistemului solar se învârte în jurul Pământului”, ceea ce este absurd.

În logică, astfel de situații sunt cunoscute ca „antinomii ale relaţiei de numire» apar atunci când un anumit obiect este cunoscut (plăcut, accesibil etc.) subiectului sub un aspect, iar necunoscut (neplăcut, inaccesibil etc.) în altul. Aceasta duce uneori la aparenta incompatibilitate a două denumiri pentru același obiect.

Cum să păstrăm principiul interschimbabilității și să evităm antinomiile? Este necesar să se facă distincția între două moduri de utilizare a expresiilor lingvistice. Primulextensivă, în care expresiile pur și simplu evidențiază obiecte. Al doileaintensional: obiectele notate prin expresii sunt considerate într-un anumit sens, aspect (un indicator al căruia poate fi așa-numituloperatori epistemicicuvintele „știe”, „crede”, „căută”, „gândește”, etc.). Dacă o expresie este folosită într-un anumit aspect, atunci ea poate fi înlocuită cu o altă expresie cu același sens numai dacă obiectele sunt luate în considerare în a doua expresie. in acelasi aspect.


Precum și alte lucrări care te-ar putea interesa

81121. Oceanele pământului 41,5 KB
Continuați să vă formați o idee despre suprafața pământului și imaginea acesteia pe glob și hartă; introduceți conceptul de ocean cu numele oceanelor; îmbunătățiți-vă capacitatea de a lucra cu o hartă folosind un manual; dezvolta capacitatea de a explica, compara, analiza conceptele unei situatii...
81122. „Pivnik și două ținte” (basmul popular ucrainean) 51 KB
Meta: învață elevii să înțeleagă profund basmele și eroii buni, să învețe viclenia, medicina și să lupte cu ei în viața de zi cu zi; dezvolta capacitatea de a citi pentru oameni, parafraza; vikhovuvati bazhanna pentru a-i ajuta pe alții, pentru a crește la fel de zelos. Posesie: ilustrații înainte de basm, desen animat „Spikelet”.
81123. La regatul roslinilor 44,5 KB
Meta: cunoașteți elevii din dimensiunile trandafirilor; formulați conceptul de copac, tufiș, tufă erbacee; citește fructele pomilor; dezvoltați precauție activă la copii; pentru a capta dragostea față de natura plantei, pentru a o proteja și a-i spori frumusețea.
81124. Vremea din regiune este în contradicție cu soarta. Pre-bachenya așteptați semnele populare 51,5 KB
Meta: continuă să formulezi înțelegerea pământului tău natal; formulați concepte despre vremea din țara natală; familiarizați elevii cu procesul de creare a vântului; crește gradul de conștientizare a copiilor cu privire la cădere; vorbiți despre prognoza meteo pentru oameni; dezvoltarea interesului cognitiv, prudență...
81125. Motanka lyalka „Dzvinochok” 39 KB
Dotare: Bucati de stofa de forma rotunda si dimensiuni diferite (una mai mica decat cealalta), benzi elastice pentru rasucire, ziar, fasii de stofa de culoare alba in forma dreptunghiulara, resturi de stofa de forma tricotata in culoarea taiata. Păpuși pentru demonstrație: ritualuri – 3 bucăți, altele – 4 bucăți.
81126. Stitch „gol înainte”, yogo znachennya, yomi vikonannya. Cusătură servită 43 KB
Meta: învață să coasi cusătura înainte pe gât și bucură-te de ea cu țesătura, dezvoltă respectul față de gândurile și gusturile estetice ale culturii iubirii și iubirii pentru mamă, concentrează-te pe măiestria profesiei de broderie și cusut. De ce vrei să înveți să coasi și să brodezi?
81127. casă ucraineană. Farmece 73 KB
Meta: învață să disecționezi o casă veche ucraineană din Budynki de astăzi; extinde și aprofundează cunoștințele copiilor despre particularitățile semnificației amuletei în internaționalul ucrainean; dezvoltă-ți abilitățile lingvistice, dobândește un vocabular bogat, învață numele obiectelor din viața de zi cu zi ucraineană...
81128. Comportament sigur acasă. Utilizarea aparatelor electrocasnice. Cauzele incendiilor și accidentelor. Fii atent la medicamente 61 KB
Scop: generalizarea și sistematizarea cunoștințelor copiilor despre comportamentul în situații de urgență; invata elevii sa actioneze in situatii extreme; Lucrați cu instrucțiuni privind manipularea în siguranță a focului, a aparatelor electrice, a medicamentelor, a gazelor, a comportamentului într-o situație „Singur acasă”...
81129. Virtuțile umane. Bunătatea începe cu tine 43 KB
Scop: continuarea introducerii elevilor în virtuțile umane; învață să caracterizezi acțiunile și fenomenele ca manifestări ale binelui și răului; dezvăluie conținutul moral al bunătății; cultivați un sentiment de bunătate, empatie și generozitate.

PRINCIPIUL SEMANTIC DE CLASIFICARE A PĂRȚILOR DE VORBA

Există mai multe principii pentru împărțirea cuvintelor cu valoare deplină în categorii. Unul dintre aceste principii este principiul semantic. S-a luat în considerare, în special, (Panov M.V. Despre părți de vorbire în limba rusă // Rapoarte științifice ale școlii superioare. Științe filologice, 1960, nr. 4). Conform ideii, părțile de vorbire ar trebui să aibă o anumită comunitate, iar această comunitate nu ar trebui să fie rădăcină, ci afixală și să se raporteze nu la sunetul afixelor (forma), ci la sensul (conținutul) acestora. De fapt, formele de cuvinte laș, laș,fricos, deși au un morfem comun de rădăcină, ele nu pot fi clasificate ca o singură parte a vorbirii. Forme de cuvinte a scrisȘi sperietoare, somnorosȘi push, inghetataȘi mare, deşi conţin elemente afixale formal identice -l-, -n~, -oe, aparțin evident unor părți diferite de vorbire. Prin urmare, este necesar să descoperim o comunitate afixală semnificativă, care ar trebui să servească drept bază pentru împărțirea cuvintelor în părți de vorbire.

Clasificarea se bazează pe o semnificație extrem de generală - participarea la funcția de numire. Există mai multe astfel de funcții. Unul din ei - proceduralitatea- se vede sub orice formă verbală a cuvântului, indiferent de sensul rădăcinii, care poate să nu aibă un sens procedural. Altă funcție - semn. Vine după proces în ierarhia funcțiilor. Pe baza absenței funcției procedurale și a prezenței funcției de atribut, adjectivul se distinge ca parte a vorbirii. În același timp, participiul nu este evidențiat ca parte a vorbirii, deoarece are o funcție procedurală. Această circumstanță stă la baza clasificării formelor participiilor ca părți de vorbire. A treia funcție este relația directă sau indirectă cu obiectul. Pe această bază, adjectivul și verbul sunt puse în contrast cu adverbul. Primele caracterizează direct obiectul: adjectivul este neprocesual, verbul (cu participiu!) este procedural. Un adverb nu caracterizează direct un obiect; el îndeplinește funcția unei caracteristici a caracteristicii în sine, adică un verb sau un adjectiv. Aceeași funcție a atributului atributului este îndeplinită și de gerunziu. Totuși, spre deosebire de adverbe, gerunzii au o natură procedurală.

Formele de cuvinte care nu au niciunul dintre semnificațiile indicate în partea lor de afix sunt substantive, care, atunci când pun întrebarea în acest fel, includ numere cardinale și colective. Toate celelalte diferențe gramaticale dintre formele de cuvinte nu afectează identificarea părților de vorbire.

O abordare similară - funcțional-semantică - pentru identificarea părților de vorbire în limba rusă a fost efectuată anterior . El a fost înclinat să distingă patru părți independente de vorbire în limba rusă: substantiv, adjectiv, verb și adverb. Totuși, pe baza luării în considerare a categoriilor semantico-funcționale de lexeme pe care le-a identificat, a fost posibil să se descopere un loc tensionat în sistemul părților de vorbire rusești identificate în acest fel. Se uită la fraze alerga o cursăȘi alergând o cursă. Prima frază este firească atât lexical, cât și gramatical. A doua frază este, de asemenea, naturală din punct de vedere lexical. Dar din punct de vedere gramatical este ilegal: rasă- adverb, adică un semn al unui semn, dar alerga- un substantiv, adică din punct de vedere gramatical nu este un semn sau un proces. Colocare aleargă repede- consistentă atât lexical, cât și gramatical. Colocare alergare rapida gramatical și logic, dar lexical - nu, pentru că lexical alerga nu este ceva obiectiv. Astfel, opoziția adjectivelor și adverbelor în aspectul luat în considerare se dovedește oarecum neclară. Se pot da multe exemple atunci când un adverb acţionează ca un semn în raport cu

direct la un substantiv: omletă,părul tuns echipajul, coada mâzgălașă etc.

În comparație cu părțile de vorbire identificate în mod tradițional, schema propusă diferă în unele caracteristici. Nu există pronume sau numere în această schemă. Cu toate acestea, aceste pierderi sunt un rezultat logic inevitabil al aplicării consecvente a principiului semantico-funcțional al diviziunii. În conformitate cu acest principiu, toate pronumele alocate în mod tradițional sunt distribuite între substantive, adjective și adverbe. Numeralele au aceeași soartă. Cele ordinale sunt incluse în adjective, cele cantitative și colective sunt incluse în substantive, iar formele de cuvinte precum de două ori, de trei ori, deși sunt asociate cu numărarea, întrucât erau în mod tradițional legate de adverbe, rămân printre adverbe chiar și cu abordarea indicată. Clasificarea conform principiului „funcției de numire” numai în semnificațiile sale extrem de generale oferă o schemă care amintește de părțile tradiționale de vorbire. În principiu, clasificarea bazată pe acest principiu poate fi detaliată. Apoi va duce la identificarea unor grupuri de lexeme (sau forme de cuvinte) care au comunalitate funcțională și semantică. Deci, de exemplu, grupurile de verbe personale și impersonale pot fi distinse în cadrul verbelor în cadrul adverbelor, un grup de adverbe care denotă un atribut caracteristic și un grup de adverbe care denotă o stare; (Mi-e frig, nu are timp), etc.

În ciuda valorii obiective a clasificării luate în considerare și a importanței sale deosebite pentru semantică și sintaxă, aceasta nu poate satisface pe deplin un specialist în domeniul morfologiei, întrucât nu ține cont suficient de categoriile morfologice reprezentate sau nereprezentate într-un anumit grup de lexeme. sau forme de cuvinte. Această ultimă împrejurare - caracteristicile morfologice reale ale cuvintelor - poate fi folosită ca bază pentru o identificare diferită a părților de vorbire.

PRINCIPIUL MORFOLOGIC DE CLASIFICARE A PĂRȚILOR DE GORGI

ACEEAȘI SET DE CATEGORII MORFOLOGICE. Clasificarea lexemelor se poate baza pe exprimarea acelorași categorii morfologice. În acest caz, lexemele casă, animal, iarnă formează un singur grup, deoarece toate formele lor de cuvinte exprimă categoriile morfologice de număr, caz și numai aceste categorii. Pe de altă parte, toate aceste lexeme vor fi opuse lexemelor amabil, vechi, mare, deoarece toate formele de cuvânt ale acestuia din urmă exprimă categorii morfologice precum gen, număr, caz, concizie-completitudine.

Cu toate acestea, clasificarea după principiul „severității aceluiași set de categorii morfologice” nu duce întotdeauna la rezultate atât de clare ca în cazul descris mai sus al substantivelor și adjectivelor contrastante. Principal

Dificultăți majore apar atunci când diferite forme de cuvânt ale unui lexem exprimă seturi diferite de categorii morfologice.

Cea mai complexă structură în acest sens în limba rusă este formele de cuvânt incluse în mod tradițional în verb. Chiar și formele timpurilor prezent și trecut diferă în setul categoriilor morfologice exprimate. Prezentul exprimă o categorie de persoane dispărute în trecut. Și în trecut se exprimă categoria de gen care este absentă în prezent. Categoriile morfologice ale verbelor la indicativ, conjunctiv și imperativ nu coincid. Și mai izbitoare sunt diferențele dintre seturile de categorii morfologice ale formelor personale ale verbului și infinitivului, formelor personale ale verbului și participiilor, infinitivului și participiilor. Cu toate acestea, atât infinitivul, cât și formele personale ale tuturor dispozițiilor, precum și participiul și gerunziul ar trebui considerate forme de cuvânt ale unui lexem, deoarece semnificațiile care disting aceste forme de cuvânt pot fi considerate obligatorii și regulate (vezi mai multe despre aceasta în secțiunea „Verb”). Din această împrejurare rezultă că clasificarea după principiul „expresiei aceluiași set de categorii morfologice” poate fi efectuată în mod consecvent numai pentru formele de cuvinte. Pentru lexeme o astfel de clasificare este imposibilă în principiu.

O altă împrejurare face dificilă aplicarea acestui criteriu. Constă în faptul că printre lexemele rusești există multe care constau dintr-o formă de cuvânt și, prin urmare, nu exprimă o singură categorie morfologică. Jetoane precum haină, taxi, hidro, conform principiului „expresiei categoriilor morfologice”, ele se opun puternic majorității substantivelor rusești, care exprimă categorii morfologice atât de număr, cât și de caz în formele lor de cuvinte. Jetoane de tip bej, kaki, identice semantic cu adjectivele, nu posedă categorii morfologice inerente adjectivelor. Prin urmare, clasificarea după principiul „expresiei categoriilor morfologice” este posibilă numai pentru formele de cuvinte formate gramatical.

În acest caz, vor fi prezentate următoarele tipuri de forme de cuvinte:

1) substantive (cazuri și număr expres); Aceasta include și cifrele cantitative și colective;

2) adjective (cazul expres, numărul, genul și concizia/completitudinea);

3) infinitive (exprimă aspect și voce);

4) participii (aspect expres);

5) participii (cazul expres, număr, gen, concizie/completitudine, tip, voce, timp);

6) verbe ale modului indicativ al timpului prezent/viitor (exprima număr, aspect, voce, timp, persoană, mod);

7) verbe de la modul indicativ al timpului trecut (exprima număr, gen, aspect, voce, timp, mod);

8) verbe ale modului conjunctiv (exprimă număr, gen, aspect, voce, mod);

9) verbe imperative (exprimă număr, aspect, voce, persoană, dispoziție);

10) forme de cuvinte necaracterizate din punct de vedere gramatical: substantive și adjective indeclinabile, grad comparativ și adverbe.

Exact așa ar trebui să arate părțile independente de vorbire în limba rusă dacă identificarea lor s-ar baza pe o singură trăsătură - prezența unor trăsături morfologice comune exprimate în forma cuvântului în sine.

În comparație cu părțile tradiționale de vorbire, această clasificare se dovedește a fi mai compactă pentru un nume (nu există categorii diferite de pronume, numere cardinale și ordinale) și mult mai puțin compactă pentru un verb.

ACEEAȘI SET DE MEMBRI PARADIGM. În cadrul abordării morfologice a identificării părților de vorbire, este posibilă o altă clasificare. Se poate baza pe caracteristicile structurale ale paradigmei. Este clar că în acest caz substantivele, de exemplu, ar fi opuse adjectivelor. La urma urmei, paradigma acestuia din urmă include opoziția formelor de cuvinte după gen, care este absentă în substantive. Adevărat, în acest caz nici substantivele, nici adjectivele nu și-ar putea menține unitatea. Mai mult, o astfel de fragmentare s-ar produce nu numai din cauza substantivelor și adjectivelor neschimbabile. Printre substantive, un grup mare de lexeme care au forme ale unui singur număr (singular sau plural, nu contează) ar trebui să fie puse în contrast cu lexeme care au forme ale ambelor numere. (case-caseȘi tinerețe, lapte). Apoi în categoria lexemelor ca tinerețe, lapte Ar fi necesar să se includă numerale - colective și cantitative, precum și pronume personale și interogative. La urma urmei, toate aceste lexeme au forme de cuvinte de un singur număr.

Lexemele adjectivale ar fi împărțite în trei părți: lexeme cu forme scurte și complete de cuvinte (alb), lexeme numai cu forme de cuvinte întregi (mare), lexeme numai cu forme scurte de cuvinte (bucuros).

Contrar substantivelor și adjectivelor prin însăși natura setului de forme ale cuvintelor, verbul ar trebui în acest caz împărțit în mai multe grupuri în funcție de prezența sau absența unei perechi aspectuale, de forma personală a vocii pasive, de anumite participii și gerunzii. , etc.

PRINCIPIUL SINTACTIC DE CLASIFICARE A PĂRȚILOR DE GORGI

Nu trebuie să uităm că abordarea morfologică reală a identificării părților de vorbire rămâne complet neputincioasă în raport cu cuvintele neschimbabile. Aici sunt posibile doar abordări semantice și sintactice.

Când este aplicat cuvintelor neschimbabile, adică lexemelor formate dintr-o formă de cuvânt, principiul sintactic se dovedește a fi foarte eficient. Esența acestui principiu este de a determina acele tipuri de lexeme cu care cuvintele care ne interesează pot sau nu pot fi combinate, precum și de a înțelege funcțiile pe care aceste cuvinte le îndeplinesc într-o propoziție. Astfel, printre cuvintele neschimbabile, substantivele sunt combinate cu substantive, adjective și verbe (HPP din Siberia, Krasnoyarskcentrală hidroelectrică, construirea unei centrale hidroelectrice), sunt subiect, predicat, obiect, definiție, împrejurare; adjectivele se combină cu substantive (costumul bej), sunt o definiție sau un predicat; adverbele se combină cu verbe și adjective (imbracat ca vara, cald ca vara), sunt circumstanțe de diferite tipuri.

În plus, acest principiu al diviziunii necesită recunoașterea între cuvintele neschimbabile ca o clasă specială de așa-numitele forme de grad comparativ, comparativ. Aceste cuvinte, spre deosebire de substantive, adjective și adverbe, sunt combinate numai cu verbe și substantive (o sutăîmbătrânesc, fratele este mai mare decât sora).În plus, utilizarea unui criteriu sintactic necesită selectarea unui grup de cuvinte care se referă doar la propoziția în ansamblu. (poate poatenu, desigur, ce bine etc.). Aceste cuvinte sunt de obicei numite cuvinte modale. Astfel, utilizarea unui criteriu sintactic ne permite să identificăm părți de vorbire din cuvintele neschimbabile. Este important de menționat că selecția substantivelor și adjectivelor dintre cuvintele neschimbabile ar putea fi efectuată pe baza unui criteriu semantic. Criteriul semantic distinge cu ușurință adverbele de cuvintele neschimbabile. Cu toate acestea, doar aplicarea unui criteriu sintactic introduce diverse gradații printre adverbe.

O încercare de a izola o parte specială a vorbirii bazată pe principiul sintactic al clasificării formelor de cuvinte a fost discutată pe scară largă în literatura gramaticală rusă. Vorbim despre forme de cuvinte care nu sunt verbale, ci sunt folosite ca predicat (e rece, ne bucurăm, ar trebui, prea lene să lucrezi, prea lene să vorbești etc.). Aceste forme de cuvinte au primit statutul unei părți speciale de vorbire, așa-numita categorie de stat. Combinarea tuturor acestor forme de cuvânt într-o singură parte a discursului ține cont de comunitatea funcției lor sintactice și de o anumită omogenitate semantică asociată cu această comunalitate, notă chiar în numele „categorie de stat”. Din punct de vedere morfologic, toate aceste forme de cuvinte sunt caracterizate diferit: Rece nu exprimă categorii morfologice, bucuros, ar trebui au un număr lenea, lipsa de timp- număr, caz.

Aplicarea consecventă a principiului sintactic la toate formele de cuvinte duce la concluzii paradoxale. Deci, adjectivele scurte, de exemplu, ar trebui să fie contrastate cu cele complete. Primul poate acționa atât ca definiție, cât și ca predicat, în timp ce cel din urmă poate acționa doar ca predicat. Funcțiile sintactice ale diferitelor forme verbale - personal, participial, participial - vor fi definite diferit. Adevărat, pe baza funcțiilor sintactice, formele de cuvânt ale numeralelor cardinale și colective pot fi contrastate cu formele de cuvânt ale substantivelor în sine: se știe că numeralele cardinale și colective nu pot fi combinate cu adjective.

Poate că definirea funcțiilor sintactice în raport cu lexemele ar putea da rezultate mai familiare? Este gresit. În cadrul unui lexem, coexistă forme de cuvinte concepute diferit morfologic. Exact în același mod, diferite forme de cuvânt ale aceluiași lexem pot îndeplini diferite funcții sintactice. Prin urmare, clasificarea bazată pe principiul „funcției sintactice” pentru lexeme este imposibilă în principiu, la fel cum este imposibilă clasificarea bazată pe design morfologic omogen pentru lexeme.

REZULTATELE DIFERITELOR CLASIFICARI

Putem trage câteva concluzii. Problema identificării părților de vorbire este problema clasificării formelor de cuvinte.

Criteriul semantic în sensurile sale cele mai generalizate evidenţiază patru clase forme de cuvânt cu sens complet - substantiv, adjectiv, verb și adverb.

Criteriul morfologic evidenţiază nouă clase forme de cuvinte formalizate și forme de cuvinte neformate.

Criteriul sintactic, aplicat unui grup morfologic necaracterizat, ne permite să distingem între acestea din urmă substantive, adjective, adverbe, comparative (gradul comparativ), categorie de stare și cuvinte modale. În principiu, este posibil să se aplice criteriul sintactic formelor de cuvinte, dar rezultatele acestuia vor intra în conflict cu rezultatele analizei morfologice și semantice.

PRINCIPII DE CLASIFICARE ȘI DE PREDARE TRADIȚIONALĂ DESPRE PĂRȚI DE GORGI

Din cele de mai sus reiese clar că doctrina tradițională a părților de vorbire este o clasificare a priori, ale cărei fundamente logice sunt foarte eterogene. Cu toate acestea, această clasificare face posibilă plasarea oricărei forme de cuvânt sau lexem într-o categorie adecvată. Există un loc pentru substantive, adjective, numere, verbe și adverbe. În același timp, din cauza imperfecțiunii logice, clasificarea tradițională separă ceea ce, din anumite motive logice, ar trebui să fie împreună.

Numerale școlare, de exemplu, care combină numerele colective cardinale și ordinale pe o bază semantică, separă pe acestea din urmă de adjective, în ciuda comunității lor morfologice și sintactice. Dorința de a distinge categoria de stat între părțile de vorbire rusești se explică prin faptul că unități cu aceleași funcții sintactice există și în categoria „substantive” (lipsa de timp, lenea), iar în secțiunea „adjective”. (bucuros, mult) iar în secțiunea „adverbe”. (plictisitor, distractiv).

Tocmai în natura „a priori” stau atât puterea doctrinei tradiționale a părților de vorbire – capacitatea de a caracteriza orice obiect, verificată de-a lungul secolelor – cât și slăbiciunea ei, deschiderea către critica a fundamentelor logice care stau la baza clasificării. .

Nu se poate să nu remarcăm încă un avantaj al clasificării tradiționale a părților de vorbire. Unele unități, deși rămân destul de logice, pot fi plasate simultan într-una și alta categorie. Acest lucru este foarte convenabil, deoarece într-o serie de zone ale sistemului de părți de vorbire există tranziții constante (adjective în substantive, participii în adjective etc.).

Toate aceste circumstanțe predetermina viabilitatea doctrinei tradiționale a părților de vorbire.

După cum sa menționat deja, doctrina părților de vorbire este importantă nu numai pentru morfologie, ci și pentru alte secțiuni ale descrierii limbii ruse. Doctrina tradițională a părților de vorbire nu reflectă rezultatele niciunei dintre clasificările de mai sus (comparați cu criteriile de definire a unui cuvânt), dar reprezintă un fel de compromis între toate aceste principii. Un rol semnificativ în realizarea unui astfel de compromis îl joacă faptul că părțile de vorbire identificate din motive diferite formează grupuri de dimensiuni foarte diferite. Comparați, de exemplu, substantivele și așa-numita categorie de stat, verbe și cuvinte modale.

LITERATURA PE TEMA

„PĂRȚI DE DISCURS CA CLASE LEXICO-GRAMATICALE DE CUVINTE”

Zhirmunskiy V.M. Despre natura părților de vorbire și clasificarea lor - În cartea: Întrebări ale teoriei părților de vorbire bazate pe materialul limbilor de diferite tipuri. L., 1965.

P a n o v M. V. Despre părți de vorbire în limba rusă - Rapoarte științifice ale școlii superioare. Philol. Științe, 1960, nr. 4.

S t e b l i n - Kamenskiy M.I Despre chestiunea părților de vorbire - Vestnik a Universității de Stat din Leningrad, 1954, nr.

Shcherba L.V. Despre părți de vorbire în limba rusă - În carte: Lucrări alese despre limba rusă. M., 1957. .-



Articole similare

  • Ce este semantica în cuvinte simple?

    Limbi străine, filologie și lingvistică Principiul obiectivității: o propoziție trebuie să vorbească despre obiectele desemnate de numele incluse în ea și nu despre aceste nume în sine. Propoziția Chair este un substantiv construit corect. Principiu...

  • Principiul semantic al clasificării părților de vorbire

    Rezumat Articolul este consacrat problemelor analizei semantice a textelor. Sunt luate în considerare diverse metode: diagrame de dependență conceptuală și rețele semantice; abordări bazate pe funcții lexicale și clase de subiecte; rama si...

  • Tragedia trupei de infanterie a Poloniei în timpul celui de-al doilea război mondial

    Strângere de mână între mareșalul polonez Edward Rydz-Śmigła și atașatul german colonelul Bogislaw von Studnitz la parada de Ziua Independenței de la Varșovia, pe 11 noiembrie 1938. Ar fi interesant de înțeles de ce parte a frontului al doilea război mondial...

  • Cum să alegi profesionistul perfect de frumusețe: Ghidul suprem

    Piața modernă a serviciilor de înfrumusețare oferă o gamă largă de profesioniști care pot satisface cele mai diverse nevoi ale clienților. De la coafor și make-up artiști la manichiuriști și cosmetologi - fiecare specialist are propriul său...

  • Biserica Ortodoxă Florența

    Biserica Ortodoxă Nașterea Domnului Hristos și Sfântul Nicolae Făcătorul de Minuni din Florența s-a întors în stâna Bisericii Ortodoxe Ruse. Nu ar exista fericire, dar nenorocirea ar ajuta.” Cuvintele acestui proverb rus arată perfect că Dumnezeu...

  • Kossov Georgy Alekseevici

    Viața: Născut la 4 aprilie 1855 în satul Androsovo, raionul Dmitrov, provincia Oryol, în familia unui preot. După ce a absolvit o școală rurală, a intrat la Seminarul Teologic Oryol. În clasele superioare ale seminarului a devenit fiul spiritual al bătrânului Optina...