БСО мәтіндерінде
Мәтін көлемі мен сөз жиілігі: ақпараттылыққа әсері
Алдыңғы зерттеулер көрсеткендей, мәтіндегі сөздердің белгілі бір жиілікпен қайталануы зерттеліп отырған мәтіннің көлеміне тікелей байланысты. Көлемі шағын оқулықтар статистикалық тұрғыдан ақпаратты аз береді: жиілік сөздіктің бастапқы, яғни ең жиі кездесетін аумақтарында ақпарат көлемі төмен болады. Мысалы, 1950 жылдардағы БСО мәтіндерінде «ол» есімдігінің жиілігі 3609 ретке жетеді.
Негізгі бақылау
Жиілігі өте жоғары сөздер мәтіннің елеулі бөлігін жауып, жаңа ақпараттың көлемін қысқартады. Сондықтан сөздердің қолданылу жиілігі мен мәтіннің ақпараттық қызметі арасында кері қатынас бар деуге болады.
Жиілігі жоғары лексикалық бірліктердің үлесі
Зерттелген оқулықтарда жиі кездесетін лексикалық бірліктермен қамтылу деңгейі жалпы алғанда төмен: жиілігі F>4 болатын сөздер көбіне мәтіннің шамамен 30–40%-ын ғана қамтиды. Бұл көрсеткіш жылдар бойынша салыстырғанда айтарлықтай тұрақты көрінеді.
| Корпус | N (мәтін көлемі) | L (түбір сөз) | F>4 | Үлес, % |
|---|---|---|---|---|
| Балалар әдебиеті | 97 260 | 11 068 | 3 376 | 30,51 |
| 50 ж. оқулықтары (БСО) | 185 961 | 10 298 | 4 199 | 40,77 |
| 70 ж. оқулықтары (БСО) | 241 984 | 12 281 | 4 908 | 39,96 |
| 90 ж. оқулықтары (БСО) | 226 374 | 12 813 | 5 162 | 40,28 |
| 2000 ж. оқулықтары (БСО) | 368 965 | 13 869 | 5 566 | 40,13 |
| Абай шығармалары | 49 819 | 6 017 | 3 877 | 64,43 |
Неліктен F>4 шегі маңызды?
Белгілі бір сыныпқа тиесілі, жиілігі F>4 болатын сөздер жиынтығын бөліп алу арқылы біз мәтіннің шамамен 30–40%-ын жабатын «негізгі қабатын» анықтай аламыз. Біздің пайымдауымызша, абсолютті жиілігі 4-ке тең немесе одан жоғары сөздер қайталана қолданылу нәтижесінде бала жадында ұзақ сақталып, толық меңгерілу ықтималдығы жоғары болады.
Мысал
«ағай» сөзі 50 жылдар оқулықтарында 36 рет, 70 жылдар оқулықтарында 40 рет, ал балалар әдебиеті мәтіндерінде 60 рет қолданылған.
Бірақ жиі сөздердің шамадан тыс көп болуы оқушыға берілетін ақпарат көлемін азайтады: жаңа ұғымдар мен жаңа мағыналық реңктерді білдіретін сөздер сирегірек енеді.
Сан мен сапа: белсенді сөздік қорға өту
Жиі сөздерді санау жеткіліксіз: олардың сапалық тұрғыда меңгерілуі, яғни оқушының белсенді сөздік қорына айналуы да маңызды. Сөздің лексикалық мағынасы көп мәрте қайталанып қолданылу арқылы санаға сіңіп, тұрақтанады; сол сөз атаған заттың не құбылыстың негізгі қасиеттері санамызда мағынаның басты көрсеткіштері ретінде орнығады.
Аумақтар бойынша сөзбен қамтылу: 1–500, 1–1000, 1–2000, 1–3000
Жиілік сөздікті аумақтарға бөліп (ең жиі 100, 500, 1000, 2000, 3000 бірлік), әр мәтіннің осы аумақтармен қамтылу деңгейін салыстыру мәтіннің статистикалық «тығыздығын» және сөздік қорының алуан түрлілігін көруге мүмкіндік береді.
| Мәтін/корпус | N | L | 1–500, % | 1–1000, % | 1–2000, % | 1–3000, % |
|---|---|---|---|---|---|---|
| Балалар әдебиеті | 97 260 | 11 068 | 25,1 | 59,41 | 72,04 | 80,00 |
| 50 ж. БСО | 185 961 | 10 298 | 38,51 | 77,57 | 87,07 | 91,38 |
| 70 ж. БСО | 241 984 | 12 281 | 41,87 | 83,29 | 88,76 | 90,08 |
| 90 ж. БСО | 226 374 | 12 813 | 39,41 | 79,51 | 84,17 | 91,12 |
| 2000 ж. БСО | 386 965 | 13 869 | 38,62 | 81,63 | 82,61 | 93,33 |
| Абай жолы (1–4 т.) | 465 591 | 17 188 | 39,20 | 71,55 | 79,92 | 84,00 |
| Газеттер (публицистика) | 146 764 | 12 423 | 31,40 | 72,85 | 83,88 | 88,88 |
| Өзбек көркем әдебиеті | 95 550 | 8 052 | 44,81 | 77,83 | — | — |
| Өзбек тіліндегі газеттер | 209 485 | 12 996 | 35,19 | 75,14 | 85,47 | — |
| Орысша сөздік (Засорина, 1966) | 120 843 | 14 206 | 28,89 | 58,00 | 69,01 | 76,50 |
Түсіндірме
- 1–1000 аумағында балалар әдебиеті мәтіннің шамамен 59%-ын ғана қамтыса, 1950–2000 жж. БСО мәтіндері 78–83% деңгейіне дейін барады.
- Бұл айырмашылық көбіне тіл типіне емес, мәтіннің стилі мен тақырыбына, сондай-ақ оқулық тілінің «қайталамалылығына» байланысты.
Сирек сөздер және мәтін байлығы
Әртүрлі тілдердің жиілік сөздіктерін салыстыру нәтижесі мынаған әкеледі: сирек қолданылатын бірліктердің негізгі бөлігі жиілігі 1 немесе 2 болатын сөздерден тұрады. Мәтін көлемі ұлғайған сайын мұндай сөздердің абсолют саны өседі, бірақ олардың жиынтық қатынасты жиілігі шамамен 0,60% деңгейінде сақталуы мүмкін.
Сирек сөздердің молдығы көбіне автордың тіл байлығын көрсетеді деп есептеледі. Бірақ бұл тұжырым таңдама көлемдері бірдей болған жағдайда ғана салыстырмалы түрде дұрыс.
Ранг–жиілік тәуелділігі және Эсту–Ципф–Мандельброт заңы
Қазіргі статистикалық лингвистика мәтіннің құрылымын дәлелді бағалауға мүмкіндік беретін әдістерге бай. Әдетте мәтіннің статистикалық құрылымы деп сөздер саны мен олардың жиілігі арасындағы байланысты айтады. Мұндай байланыстың классикалық моделі — жиілік сөздіктегі сөз рангісі мен жиілігі арасында кері тәуелділік қалыптастыратын заңдылық.
Заңның идеясы
Эсту (1916) стенографияны жетілдіру барысында ранг пен жиілік арасындағы тәуелділікті байқаған. Кейін бұл заңды Ципф пен Мандельброт және өзге зерттеушілер дамытып, «Эсту–Ципф–Мандельброт заңы» ретінде ғылымда орнықтырды. Заң мәтіннен кездейсоқ алынған сөздің пайда болу ықтималдығын шамамен бағалауға және сөздің рангі мен жиілігі арасындағы пропорцияны сипаттауға мүмкіндік береді.
Формула (жұмыс үлгісі):
Fi = N K (i + p)−γ
Мұнда: Fi — сөздің абсолютті жиілігі, i — рангі (реттік нөмірі), N — таңдама көлемі, K, p, γ — параметрлер.
Кестелік үзінділер: жиілігі ең жоғары сөздер
Төмендегі үзінділерде рангі артқан сайын жиіліктің төмендейтіні көрінеді: ең жиі сөздер тізімнің басында орналасады, ал сирегірек сөздер төменгі қатарларға ығысады.
50 ж. БСО: алғашқы 10 сөз
| Ранг | Сөз | Fi |
|---|---|---|
| 1 | ол | 3609 |
| 2 | де | 3374 |
| 3 | бол | 3142 |
| 4 | да | 2301 |
| 5 | бір | 2024 |
| 6 | бала | 1769 |
| 7 | е | 1510 |
| 8 | кел | 1462 |
| 9 | неше | 1371 |
| 10 | күн | 1270 |
70 ж. БСО: алғашқы 10 сөз
| Ранг | Сөз | Fi |
|---|---|---|
| 1 | ол | 4982 |
| 2 | бол | 3736 |
| 3 | де | 2935 |
| 4 | бір | 2188 |
| 5 | е | 2029 |
| 6 | сан | 1965 |
| 7 | шығар | 1804 |
| 8 | жаз | 1798 |
| 9 | сөз | 1707 |
| 10 | кел | 1705 |
Оқулық мәтіндерінің грамматикалық бейнесі
Салыстыру нәтижелері жиілігі ең жоғары сөздердің ішінде табиғаттағы заттар мен құбылыстарды, олардың арасындағы байланыстарды және жай-күйін білдіретін есімдіктер, зат есімдер, етістіктер және көмекші сөздердің үлесі басым екенін көрсетеді. Осы категориялардың жүйелі қабаттасуы оқушы тіліндегі грамматикалық дағдылардың қалыптасуына ықпал етеді.
Редакциялық ұсыныс
Болашақта оқулық мәтіндерін құрастыруда жиі сөздермен қатар, сирек қолданылатын, мағыналық құндылығы жоғары сөздерге де назар аудару қажет. Олар жаңа ұғымдарды дәл беру арқылы оқушының танымдық көкжиегін кеңейтеді және белсенді сөздік қорын байытады.