Magyar Nemzeti Szövegtár
|
Megnyílt az MNSZ
felújított, kibővített, új funkciókkal ellátott változata.
Kattintson!
Kérjük, ezentúl az új felületet használják.
A korábbi regisztrációk
az új szövegtárra is érvényesek.
Kérjük, az új változatot bemutató
2014-es LREC publikációnkra hivatkozzanak.
|
Ez a Magyar Nemzeti Szövegtár régi változatának oldala.
A Magyar Nemzeti Szövegtár (MNSZ) munkálatai 1998 elején kezdődtek el a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán Váradi Tamás vezetésével. A cél egy 100 millió szavas szövegkorpusz létrehozása volt, amely lehetőségeihez mérten reprezentatívan tartalmazza a mai magyar nyelv jellegzetes megnyilvánulásait.
A munkálatok 2002-től a Kárpát-medencei Magyar Nyelvi Korpusz projekt
keretében kiegészültek a teljes Kárpát-medence magyar nyelvhasználatára
kiterjedő gyűjtéssel.
Itt a cél egy 15 millió szavas határon túli korpusz létrehozása volt.
2005 novemberében mutatkozott be a
szlovákiai, kárpátaljai, erdélyi és vajdasági nyelvváltozatokkal
kiegészült, valóban nemzetivé váló
Magyar Nemzeti Szövegtár.
A Nyelvi Irodák és a Korpusznyelvészeti Osztály
együttműködésének
köszönhetően az első olyan magyar nyelvi korpusz jött létre, amely a magyarországiak
mellett a határon túli magyar nyelvváltozatokat is felöleli.
Mit nevezünk korpusznak?
A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nemcsak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat).
Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.
Automatikus elemzés
Az MNSZ lényegi tulajdonsága,
hogy minden szó mellett feltünteti a
szótövet, a szófajt és a szó morfológiai elemzését is.
A szótő, szófaj és elemzés megállapítása
és az elemzések egyértelműsítése automatikus gépi eszközökkel történik.
A rendszer megbízhatósága kb. 97,5%-os, így az összes szóalak kb. 2,5%-a hibásan van elemezve.
Ennél jobb eredményt csak a kézi elemzés biztosíthatna,
ami ekkora méretű anyag esetén megvalósíthatatlan.
Hogyan épül fel?
Az MNSZ jelenleg 187,6 millió szövegszót tartalmaz.
Egyrészt öt regionális nyelvváltozatra oszlik, másrészt ezen belül
öt stílusrétegből tartalmaz szövegeket.
Az aktuálisan vizsgálandó alkorpuszt
ezek tetszőleges variációjaként választhatjuk ki.
A határon túli nyelvváltozatokkal kiegészülve a Szövegtár tehát
alkalmassá vált nemcsak stílusrétegek,
hanem nyelvváltozatok szerinti összehasonlító vizsgálatok elvégzésére is.
Az MNSZ felépítése a következő
(a számszerű adatok millió szóban vannak megadva, százezer szóra kerekítve):
|
magyarországi |
szlovákiai |
kárpátaljai |
erdélyi |
vajdasági |
összesen |
|
sajtó |
71,0 |
5,7 |
0,7 |
5,5 |
1,5 |
84,5 |
A sajtószövegek a korpusz majdnem felét teszik ki. Széles skáláját mutatják be a nyelvi változatoknak, vertikálisan és horizontálisan is. |
szépirodalom |
35,5 |
1,4 |
0,4 |
0,8 |
0,2 |
38,2 |
2005. őszén készült el a
Digitális Irodalmi Akadémia
anyagainak teljes feldolgozása. Ez adja a magyarországi szépirodalmi alkorpuszt. |
tudományos |
20,5 |
2,3 |
0,7 |
1,6 |
0,3 |
25,5 |
A magyarországi tudományos szövegek
a Magyar Elektronikus Könyvtárból származnak. |
hivatalos |
19,9 |
0,2 |
0,3 |
0,6 |
0,1 |
20,9 |
Ezek a szövegek szabályokat, törvényeket, rendeleteket, parlamenti vitákat tartalmaznak. |
személyes |
17,8 |
— |
0,4 |
0,4 |
0,1 |
18,6 |
Ez az alkorpusz internetes fórumok
(az index.hu fórumainak és
több kárpátaljai fórum) beszélgetéseit tartalmazza.
Ez a nyelvi változat azért fontos, mert ez áll a legközelebb a spontán nyelvi kommunikációhoz, bizonyos esetekben nagyon hasonlít a beszélt, élő kommunikációhoz. |
összesen |
164,7 |
9,5 |
2,5 |
8,9 |
2,0 |
187,6 |
|
Kik használhatják?
A Magyar Nemzeti Szövegtárat bárki használhatja,
aki kitölti a regisztrációs űrlapot
és az ott leírt feltételeket elfogadja.
Gyakorisági adatok
| szótő | szófaj | db | db / 1000 szó | | | szótő | szófaj | db | db / 1000 szó | | | szótő | szófaj | db | db / 1000 szó | | 1. | a | Det | 11128421 | 72,40 | | 34. | ki | Pre | 305480 | 1,99 | | 67. | között | NU | 159583 | 1,04 | |
2. | az | Det | 3716414 | 24,18 | | 35. | ami | Pro | 287999 | 1,87 | | 68. | első | Num | 158569 | 1,03 | |
3. | és | Con | 2544751 | 16,56 | | 36. | nagy | A | 281134 | 1,83 | | 69. | nap | N | 157310 | 1,02 | |
4. | hogy | Con | 2166004 | 14,09 | | 37. | mond | V | 276868 | 1,80 | | 70. | ad | V | 154537 | 1,01 | |
5. | A | Det | 2103970 | 13,69 | | 38. | mi | Pro | 275076 | 1,79 | | 71. | 99 | DIG | 154526 | 1,01 | |
6. | az | Pro | 1803814 | 11,74 | | 39. | maga | Pro | 263983 | 1,72 | | 72. | azonban | Con | 154150 | 1,00 | |
7. | nem | Adv | 1693748 | 11,02 | | 40. | mert | Con | 258962 | 1,68 | | 73. | sok | Num | 152907 | 0,99 | |
8. | is | Con | 1677108 | 10,91 | | 41. | én | Pro | 245386 | 1,60 | | 74. | ők | Pro | 151718 | 0,99 | |
9. | van | V | 1418113 | 9,23 | | 42. | -e | Clit | 237612 | 1,55 | | 75. | más | Pro | 151698 | 0,99 | |
10. | ez | Pro | 1204269 | 7,84 | | 43. | olyan | Pro | 232947 | 1,52 | | 76. | kérdés | N | 151477 | 0,99 | |
11. | egy | Num | 899832 | 5,85 | | 44. | jó | A | 232826 | 1,51 | | 77. | hanem | Con | 150702 | 0,98 | |
12. | Az | Det | 730287 | 4,75 | | 45. | több | Num | 232803 | 1,51 | | 78. | Ha | Con | 147117 | 0,96 | |
13. | meg | Pre | 592986 | 3,86 | | 46. | magyar | A | 229934 | 1,50 | | 79. | eset | N | 146803 | 0,96 | |
14. | kell | V | 499659 | 3,25 | | 47. | minden | Pro | 225130 | 1,46 | | 80. | elnök | N | 146500 | 0,95 | |
15. | csak | Adv | 477956 | 3,11 | | 48. | úgy | Adv | 221524 | 1,44 | | 81. | forint | N | 144629 | 0,94 | |
16. | lesz | V | 469189 | 3,05 | | 49. | pedig | Con | 216513 | 1,41 | | 82. | egyik | Pro | 143627 | 0,93 | |
17. | de | Con | 462508 | 3,01 | | 50. | új | A | 215765 | 1,40 | | 83. | kormány | N | 139493 | 0,91 | |
18. | már | Adv | 452814 | 2,95 | | 51. | tesz | V | 211798 | 1,38 | | 84. | akar | V | 138696 | 0,90 | |
19. | Ez | Pro | 447310 | 2,91 | | 52. | két | Num | 211077 | 1,37 | | 85. | ország | N | 137225 | 0,89 | |
20. | amely | Pro | 417945 | 2,72 | | 53. | 00 | DIG | 205993 | 1,34 | | 86. | kerül | V | 135554 | 0,88 | |
21. | ha | Con | 402593 | 2,62 | | 54. | ember | N | 198039 | 1,29 | | 87. | De | Con | 135062 | 0,88 | |
22. | még | Adv | 396207 | 2,58 | | 55. | Az | Pro | 194263 | 1,26 | | 88. | százalék | N | 132780 | 0,86 | |
23. | vagy | Con | 381098 | 2,48 | | 56. | után | NU | 190805 | 1,24 | | 89. | lát | V | 131866 | 0,86 | |
24. | mint | Con | 370507 | 2,41 | | 57. | Nem | Adv | 185338 | 1,21 | | 90. | törvény | N | 129485 | 0,84 | |
25. | szerint | NU | 369481 | 2,40 | | 58. | idő | N | 178374 | 1,16 | | 91. | 98 | DIG | 128540 | 0,84 | |
26. | el | Pre | 362004 | 2,36 | | 59. | majd | Adv | 177497 | 1,15 | | 92. | sor | N | 128311 | 0,83 | |
27. | tud | V | 356833 | 2,32 | | 60. | be | Pre | 175615 | 1,14 | | 93. | kap | V | 127841 | 0,83 | |
28. | s | Con | 356453 | 2,32 | | 61. | tart | V | 173048 | 1,13 | | 94. | fog | V | 127768 | 0,83 | |
29. | aki | Pro | 350819 | 2,28 | | 62. | rész | N | 170894 | 1,11 | | 95. | alap | N | 127632 | 0,83 | |
30. | év | N | 338213 | 2,20 | | 63. | most | Adv | 168334 | 1,10 | | 96. | 2 | DIG | 127461 | 0,83 | |
31. | sem | Adv | 329570 | 2,14 | | 64. | fel | Pre | 164467 | 1,07 | | 97. | itt | Adv | 127399 | 0,83 | |
32. | lehet | V | 310500 | 2,02 | | 65. | szó | N | 162929 | 1,06 | | 98. | hely | N | 124262 | 0,81 | |
33. | ő | Pro | 306621 | 1,99 | | 66. | 1 | DIG | 162486 | 1,06 | | 99. | vesz | V | 123583 | 0,80 | |
Partnereink
A morfológiai elemzés a
MorphoLogic Kft. Humor nevű programjával készült,
az egyértelműsítés Thorsten Brants
TnT tagger-jén alapul,
korpuszkezelő eszközünk az
IMS Corpus Workbench.
Támogatóink
A szövegtár összeállítását
az OTKA a T 026091 sz. pályázatban,
az internetes megjelenést
az IHM az SZT-IS-7 sz. pályázatban támogatta, a Kárpát-medencei Magyar Nyelvi Korpusz munkálatai pedig
az NKFP/044/2002 pályázat keretében folytak.
Kérjük, ha észrevétele van, tudassa velünk.
MTA
Nyelvtudományi Intézet, 1998-2006.
|
|