БСО мәтіндерінде

Мәтін көлемі мен сөз жиілігі: ақпараттылыққа әсері

Алдыңғы зерттеулер көрсеткендей, мәтіндегі сөздердің белгілі бір жиілікпен қайталануы зерттеліп отырған мәтіннің көлеміне тікелей байланысты. Көлемі шағын оқулықтар статистикалық тұрғыдан ақпаратты аз береді: жиілік сөздіктің бастапқы, яғни ең жиі кездесетін аумақтарында ақпарат көлемі төмен болады. Мысалы, 1950 жылдардағы БСО мәтіндерінде «ол» есімдігінің жиілігі 3609 ретке жетеді.

Негізгі бақылау

Жиілігі өте жоғары сөздер мәтіннің елеулі бөлігін жауып, жаңа ақпараттың көлемін қысқартады. Сондықтан сөздердің қолданылу жиілігі мен мәтіннің ақпараттық қызметі арасында кері қатынас бар деуге болады.

Жиілігі жоғары лексикалық бірліктердің үлесі

Зерттелген оқулықтарда жиі кездесетін лексикалық бірліктермен қамтылу деңгейі жалпы алғанда төмен: жиілігі F>4 болатын сөздер көбіне мәтіннің шамамен 30–40%-ын ғана қамтиды. Бұл көрсеткіш жылдар бойынша салыстырғанда айтарлықтай тұрақты көрінеді.

Корпус N (мәтін көлемі) L (түбір сөз) F>4 Үлес, %
Балалар әдебиеті 97 260 11 068 3 376 30,51
50 ж. оқулықтары (БСО) 185 961 10 298 4 199 40,77
70 ж. оқулықтары (БСО) 241 984 12 281 4 908 39,96
90 ж. оқулықтары (БСО) 226 374 12 813 5 162 40,28
2000 ж. оқулықтары (БСО) 368 965 13 869 5 566 40,13
Абай шығармалары 49 819 6 017 3 877 64,43

Неліктен F>4 шегі маңызды?

Белгілі бір сыныпқа тиесілі, жиілігі F>4 болатын сөздер жиынтығын бөліп алу арқылы біз мәтіннің шамамен 30–40%-ын жабатын «негізгі қабатын» анықтай аламыз. Біздің пайымдауымызша, абсолютті жиілігі 4-ке тең немесе одан жоғары сөздер қайталана қолданылу нәтижесінде бала жадында ұзақ сақталып, толық меңгерілу ықтималдығы жоғары болады.

Мысал

«ағай» сөзі 50 жылдар оқулықтарында 36 рет, 70 жылдар оқулықтарында 40 рет, ал балалар әдебиеті мәтіндерінде 60 рет қолданылған.

Бірақ жиі сөздердің шамадан тыс көп болуы оқушыға берілетін ақпарат көлемін азайтады: жаңа ұғымдар мен жаңа мағыналық реңктерді білдіретін сөздер сирегірек енеді.

Сан мен сапа: белсенді сөздік қорға өту

Жиі сөздерді санау жеткіліксіз: олардың сапалық тұрғыда меңгерілуі, яғни оқушының белсенді сөздік қорына айналуы да маңызды. Сөздің лексикалық мағынасы көп мәрте қайталанып қолданылу арқылы санаға сіңіп, тұрақтанады; сол сөз атаған заттың не құбылыстың негізгі қасиеттері санамызда мағынаның басты көрсеткіштері ретінде орнығады.

Аумақтар бойынша сөзбен қамтылу: 1–500, 1–1000, 1–2000, 1–3000

Жиілік сөздікті аумақтарға бөліп (ең жиі 100, 500, 1000, 2000, 3000 бірлік), әр мәтіннің осы аумақтармен қамтылу деңгейін салыстыру мәтіннің статистикалық «тығыздығын» және сөздік қорының алуан түрлілігін көруге мүмкіндік береді.

Мәтін/корпус N L 1–500, % 1–1000, % 1–2000, % 1–3000, %
Балалар әдебиеті 97 260 11 068 25,1 59,41 72,04 80,00
50 ж. БСО 185 961 10 298 38,51 77,57 87,07 91,38
70 ж. БСО 241 984 12 281 41,87 83,29 88,76 90,08
90 ж. БСО 226 374 12 813 39,41 79,51 84,17 91,12
2000 ж. БСО 386 965 13 869 38,62 81,63 82,61 93,33
Абай жолы (1–4 т.) 465 591 17 188 39,20 71,55 79,92 84,00
Газеттер (публицистика) 146 764 12 423 31,40 72,85 83,88 88,88
Өзбек көркем әдебиеті 95 550 8 052 44,81 77,83
Өзбек тіліндегі газеттер 209 485 12 996 35,19 75,14 85,47
Орысша сөздік (Засорина, 1966) 120 843 14 206 28,89 58,00 69,01 76,50

Түсіндірме

  • 1–1000 аумағында балалар әдебиеті мәтіннің шамамен 59%-ын ғана қамтыса, 1950–2000 жж. БСО мәтіндері 78–83% деңгейіне дейін барады.
  • Бұл айырмашылық көбіне тіл типіне емес, мәтіннің стилі мен тақырыбына, сондай-ақ оқулық тілінің «қайталамалылығына» байланысты.

Сирек сөздер және мәтін байлығы

Әртүрлі тілдердің жиілік сөздіктерін салыстыру нәтижесі мынаған әкеледі: сирек қолданылатын бірліктердің негізгі бөлігі жиілігі 1 немесе 2 болатын сөздерден тұрады. Мәтін көлемі ұлғайған сайын мұндай сөздердің абсолют саны өседі, бірақ олардың жиынтық қатынасты жиілігі шамамен 0,60% деңгейінде сақталуы мүмкін.

Сирек сөздердің молдығы көбіне автордың тіл байлығын көрсетеді деп есептеледі. Бірақ бұл тұжырым таңдама көлемдері бірдей болған жағдайда ғана салыстырмалы түрде дұрыс.

Ранг–жиілік тәуелділігі және Эсту–Ципф–Мандельброт заңы

Қазіргі статистикалық лингвистика мәтіннің құрылымын дәлелді бағалауға мүмкіндік беретін әдістерге бай. Әдетте мәтіннің статистикалық құрылымы деп сөздер саны мен олардың жиілігі арасындағы байланысты айтады. Мұндай байланыстың классикалық моделі — жиілік сөздіктегі сөз рангісі мен жиілігі арасында кері тәуелділік қалыптастыратын заңдылық.

Заңның идеясы

Эсту (1916) стенографияны жетілдіру барысында ранг пен жиілік арасындағы тәуелділікті байқаған. Кейін бұл заңды Ципф пен Мандельброт және өзге зерттеушілер дамытып, «Эсту–Ципф–Мандельброт заңы» ретінде ғылымда орнықтырды. Заң мәтіннен кездейсоқ алынған сөздің пайда болу ықтималдығын шамамен бағалауға және сөздің рангі мен жиілігі арасындағы пропорцияны сипаттауға мүмкіндік береді.

Формула (жұмыс үлгісі):

Fi = N K (i + p)−γ

Мұнда: Fi — сөздің абсолютті жиілігі, i — рангі (реттік нөмірі), N — таңдама көлемі, K, p, γ — параметрлер.

Кестелік үзінділер: жиілігі ең жоғары сөздер

Төмендегі үзінділерде рангі артқан сайын жиіліктің төмендейтіні көрінеді: ең жиі сөздер тізімнің басында орналасады, ал сирегірек сөздер төменгі қатарларға ығысады.

50 ж. БСО: алғашқы 10 сөз

Ранг Сөз Fi
1ол3609
2де3374
3бол3142
4да2301
5бір2024
6бала1769
7е1510
8кел1462
9неше1371
10күн1270

70 ж. БСО: алғашқы 10 сөз

Ранг Сөз Fi
1ол4982
2бол3736
3де2935
4бір2188
5е2029
6сан1965
7шығар1804
8жаз1798
9сөз1707
10кел1705

Оқулық мәтіндерінің грамматикалық бейнесі

Салыстыру нәтижелері жиілігі ең жоғары сөздердің ішінде табиғаттағы заттар мен құбылыстарды, олардың арасындағы байланыстарды және жай-күйін білдіретін есімдіктер, зат есімдер, етістіктер және көмекші сөздердің үлесі басым екенін көрсетеді. Осы категориялардың жүйелі қабаттасуы оқушы тіліндегі грамматикалық дағдылардың қалыптасуына ықпал етеді.

Редакциялық ұсыныс

Болашақта оқулық мәтіндерін құрастыруда жиі сөздермен қатар, сирек қолданылатын, мағыналық құндылығы жоғары сөздерге де назар аудару қажет. Олар жаңа ұғымдарды дәл беру арқылы оқушының танымдық көкжиегін кеңейтеді және белсенді сөздік қорын байытады.