Eugene Peskin (eugenegp) wrote,
Eugene Peskin
eugenegp

Categories:

разнообразие картины мира

Одной из характеристик языков, очень важной для изучающего язык, является размер частотного словарного ядра. Например, считается, что самые часто употребляемые 2000 английских слов (корневых) дают в среднем 80% всех слов в английском печатном тексте ообщего назначения. Соответственно, зная эти 2000 слов, человек будет понимать 80% письменной речи. При таком словарном запасе каждое пятое напечатанное слово будет незнакомым, и для понимания остального по контексту это считается недостаточным. Вроде бы для разумного уровня понимания английского текста нужно знать 95% употребленных слов. Для понимания устного неформального разговора этих же 2000 слов оказывается достаточно; а вот для общего письменного текста, чтобы набрать 95%, понадобится, по разным данным, от 3000 до 5000; для свободного понимания научных материалов - аж до 15000 слов.

Всего в самом большом (без учета устаревших слов) английском словаре насчитали больше 53000 гнезд, т.е. корневых слов (word families). Так что вроде бы хорошая новость - можно выучить только десятую часть, и вперед.

Опять же грубо можно считать, что человек, у которого данный язык родной, вводит в свой личный словарь около 1000 корневых слов в год. В 5-6 лет, у дошкольника, словарный запас составляет 5-6 тыс. слов, а у выпускников американских университетов - 20 тыс. (Понятно, что эти цифры средние, есть довольно большой разброс).

Отсюда следуют соответствующие методики изучения иностранных языков, и т.п.

Но - есть такой язык малалаям, на котором говорят 37 млн. человек, в основном в Индии.
И кочинские (малабарские) евреи на нем говорили. Те самые евреи, которые завели у себя три "касты" (черные, белые и коричневые), и три синагоги для каждой; и которые служили в войске раджи, но не сражались по субботам. (http://www.eleven.co.il/article/12210)

Так вот - в языке малалаям, родственном тамильскому, совершенно другой частотный расклад. Для понимания 80% текста надознать 126 тысяч разных слов. У говорящих рядом на хинди - всё как обычно, 80% текста - 2800 слов.
Это, конечно, если компьютер при подсчете не напутал со словоформами :)
http://ltrc.iiit.ac.in/MachineTrans/publications/technicalReports/tr022/camera-187.pdf
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 4 comments