Слово прерывается на языках без пробелов между словами (например, азиатскими)? Что если бы в китайском языке ввели пробел между словами при письме? Преимущества введения пробелов при письме на китайском языке

1.В китайском языке существует 2 вида запятых: один вид разделяет однородные члены предложения, а другой используетя в остальных случаях. Приэтом следует заметить, что пробелов между словами в китайском языке нет , поэтому человек, не знающий языка, не сможе определить, где заканчивается одно слово и начинается другое;

2. Письменность китайского языка насчитывает более 40 000 иероглифов ;

3. В Китае насчитывается от 5 до 12 диалектных групп , разница между ними сильнее, чем, например, разница между русским, украиским и белорусским языками: жители Шахая, Фучжоу, Сямэня и Гуанчжоу, общаясь на своих диалектах, практически не поймут дуг друга. При этом, несмотря на такое разнообразие диалектов, письменность во ВСЕХ районах Китая ОДНА;

4. Существующий в транскрипции китайского языка звук "r" совсем не похож на русский "р", при транслитерации на русский язык он передается звуком "ж": например, название самой известной газеты КНР renmin ribao известно на русском как "Жэнминь Жибао ";

5. Если точно передать китайскими иероглифами название напитка «кока-кола», то получится фраза «кусай воскового головастика ». Маркетологам компании кока-кола ничего не оставалось, как изменить название на «ко-ку-ко-ле », что в переводе с китайского языка означает «полный рот счастья»;

6. Одно слово в китайском языке может иметь несколько десятков значений в зависимости от интонации, с которой оно произносится. Так слово «чианг» может означать «должен», «командовать», «генерал», «река», «соевый соус», «механик», «ронять», «спускаться» или «окружать»;

7. Территория Китая составляет 9 596 960 кв. км. Это четвертая по площади страна мира. Крупнейшие города Китая - Шанхай и Пекин. В Китае также находится самая большая площадь в мире - площадь Тянанмэнь ;

8. 56-летний житель г. Шанхай подал в суд на издателей самого популярного толкового словаря китайского языка «синьхуа цзыдянь». Истец заявляет, что нашел в словаре 4 000 ошибок;

9. В Китае действует государственная программа поддержки китайского языка «мост китайского языка», в рамках которой в мире уже открыто 322 китайских языковых центра «институт Конфуция» и 369 классов Конфуция. В перспективе(на 2020) таких центров должно стать 1000;

10. В переводе евангелия на китайский язык фраза «вначале было слово» звучит как «вначале было дао», а «я - хлеб жизни» как «я - рис жизни». Перевод православного нового завета на китайский язык был завершен архимандритом Гурием (Карповым) в 1864 году. В настоящий момент сохранился только один экземпляр этой книги;

11. Во время олимпийских игр 2008 все надписи и указатели в Пекине были переведены с китайского языка на английский. В результате появились такие перлы, как «racist park» («парк расизма») вместо «парк национальных меньшинств», табличка «в мирное время не входить» на аварийном выходе из здания и надпись «остерегайся проточной воды», запрещающая купание в одном из городских прудов;

12. Большая часть из 4100 китайских фамилий пишутся одним иероглифом.

Преимущества введения пробелов при письме на китайском языке

1. Улучшится читабельность: Добавление границ слов снижает когнитивную нагрузку при чтении текста на китайском языке. Если текст написан без пробелов, читающему нужно анализировать, где слова начинаются и заканчиваются, в то же время стремясь понять смысл текста, усложняя, таким образом, и без того непростую задачу.

2. Более точная машинная обработка текстов, написанных на китайском языке: перед началом такой обработки китайского текста необходимо сначала сегментировать текст. Это нелегкая задача при обработке языков, использующих иероглифическую письменость. Есть быстрые методы машинной обработки, которые не очень точны (~ 90%) , и есть медленные методы, которые являются более точными (~ 94-97%), но ни один метод не является совершенным.
Если бы в китайском письме были пробелы между словами, то отпала бы необходимость в сегментировании, и машинная обработка китайского текста стала бы намного проще. В результате, значительно упростится и задача по переводу с китайского языка.

3. Облегчение изучения китайского языка для студентов: пробелы между словами упрощают понимание слов и предложений. Когда я только начал изучать китайский язык, я потратил немало времени на поиск в словаре несуществующих слов, потому что отсутствие пробелов между словами мешало понять границы слов в китайском языке. Введение пробелов между словами позволило бы изучающим китайский язык быстрее и эффективнее нарабатывать словарный запас.

Почему в китайском тексте не нужны пробелы между словами?

1. Что такое слово? Понятие «слова» в китайском языке довольно размыто. Где слово начинается и заканчивается? Простой вопрос для носителя русского языка (и любого другого языка, имеющего в основе алфавит) способен поставить в тупик носителя китайского языка. Например, считать ли частью слова частицу 了, указывающую на прошедшее время?
Например, в предложении 小刘来了 где поставить пробел – 小刘_来了 или 小刘来_了?Для самих носителей китайского языка, не привыкших читать тексты с пробелами между словами, введение пробелов только усложнит понимание письменного языка.

2. Традиция: китайская письменность существует более 3000 лет, и за это время пробелы между словами не вводились. Зачем вводить их сейчас?

3. Китайский текст выглядит красивее без пробелов между словами. Введение пробелов облегчило бы понимание изучающим китайский, но никто не станет приспосабливать систему языка для удобства тех, кто его только изучает.

P.S. 1. В древних европейских текстах также не было пробелов между словами.

P.S. 2: В русском языке нужны пробелы, так как без них изменяется смысл высказывания.
Сравните: Несуразные_вещи и Несу_разные_вещи.

P.S. 3.: Русскийтексттакжепрекрасновоспринимаетсяносителемязыкаеслинаписанбезпробеловсначалатрудновосприниматьнопотомнашмозгадаптируется….

16

Я хотел бы сделать MySQL полнотекстового поиска работы с японским и китайским текстом, а также с любым другим языком. Проблема в том, что эти языки и, возможно, другие обычно не имеют пробела между словами. Поиск не полезен, когда вы должны ввести то же предложение, что и в тексте.

Я не могу просто поставить пробел между каждым персонажем, потому что английский тоже должен работать. Я хотел бы решить эту проблему с PHP или MySQL.

Могу ли я настроить MySQL для распознавания символов, которые должны быть их собственными индексами? Есть ли модуль PHP, который может распознавать эти символы, чтобы я мог просто выбросить пробелы вокруг индекса?

Частичное решение:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

Это делает класс символов из, по крайней мере, некоторые из персонажей мне нужно лечить специально. Я должен, вероятно, упомянуть, допустимо пропустить индексированный текст.

Кто-нибудь знает все диапазоны символов, которые мне нужно будет вставлять в пробе?

Кроме того, должен быть лучший, переносимый способ представления этих символов в PHP? Исходный код в Literal Unicode не идеален; Я не узнаю всех персонажей; они могут не отображаться на всех машинах, которые я должен использовать.

3

Другие современные языки, которые не используют пробелы между словами тайский, Лао, кхмерский (камбоджийский), и бирманский (Мьянма). На вьетнамском языке существует связанная с этим проблема, что пробелы используются между всеми слогами, за исключением иностранных слов. - hippietrail 18 дек. 10 2010-12-18 12:48:10

  • 2 ответа
  • Сортировка:

    Активность

15

Слово нарушение для языков, упомянутых требуют лингвистического подхода , например, тот, который использует словарь наряду с пониманием основного правил, вытекающих .

Я слышал об относительно успешных приложениях полнотекстового поиска, которые просто разделяют каждый отдельный символ как отдельное слово на китайском языке, просто применяя ту же «токенизацию» критериев поиска, предоставляемых конечными пользователями. Затем поисковая система обеспечивает лучший рейтинг для документов, которые снабжают символы-слова в том же порядке, что и критерии поиска. Я не уверен, что это может быть распространено на такие языки, как японский, поскольку наборы символов Хиракана и Катаганы делают текст более похожим на европейские языки с коротким алфавитом.

EDIT :
Ресурсы
Это слово ломать проблемы, а также связанные с ними вопросы, так нетривиальной , что целые книги написаны об этом. См. Например, CJKV Information Processing (CJKV означает китайский, японский, корейский и вьетнамский языки, вы также можете использовать ключевое слово CJK, поскольку во многих текстах вьетнамский язык не обсуждается). См. Также Word Breaking in Japanese is hard для одного пейджера на эту тему.
Понятно, что большинство материалов, охватывающих эту тему, написано на одном из основных языков на родном языке и поэтому ограничено для людей без относительной владения этими языками. По этой причине, а также чтобы помочь вам проверить систему поиска, как только вы начнете внедрять логику прерывания слова, вам следует обратиться за помощью к носителю или двум носителям.

Различные идеи
Ваша идея идентифицирующих признаков, которые систематически подразумевают слово разорвать (скажем, цитаты, круглые скобки, дефис, как символы и такие) хорошо, и это, вероятно, один эвристический используется некоторыми из профессиональные разрывы слов. Тем не менее, вы должны искать авторитетный источник для такого списка, а не собирать его с нуля, основываясь на анекдотических выводах.
Родственная идея заключается в том, чтобы разбить слова на Kana-к-кандзи переходы (но я предполагаю, что не наоборот), и, возможно, в хирагане-к-катакан или наоборот переходов.
Несвязанный со сломанным правильным, индекс может [-или не может- ;-)] извлекать выгоду из систематического преобразования каждого, скажем, характера хираганы, в соответствующий характер катакана. Просто необразованная идея! Я не знаю достаточно о японском языке, чтобы знать, поможет ли это; интуитивно, это было бы слабо связано с систематической конверсией подчеркнутых букв и, таким образом, в соответствующее не акцентированное письмо, как это практикуется на нескольких европейских языках.

Возможно, идея, о которой я упоминал ранее, систематически индексировать индивидуальный характер (и ранжировать результаты поиска на основе их приближения по критерию поиска) может быть слегка изменена, например, сохраняя последовательные символы каны вместе, а затем некоторые другие правила... и создать несовершенную, но достаточно практичную поисковую систему.

Не разочаровывайтесь, если это не так... Как указано, это далеко не тривиально, и это может сэкономить вам время и деньги в долгосрочной перспективе, сделав паузу и прочитав книгу или две. Еще одна причина, чтобы попытаться узнать больше о «теории» и передового опыта, является то, что в данный момент вы, кажется, сосредоточены на слова нарушения , но в ближайшее время, поисковая система также может извлечь выгоду из вытекающих сознательность ; действительно, эти два вопроса, по крайней мере, связаны с лингвистикой, и могут быть полезны при обработке в тандеме.

Удачи вам в этом неприятном, но достойном стремлении.

0

@Joe: Добро пожаловать. У меня, похоже, интерес к лингвистике и НЛП, но очень, очень мало знаний, характерных для языков CJK. Прочитайте мое редактирование, добавив несколько ключевых слов и онлайн-ссылок, которые могут помочь вашему поиску.Удачи:-) - mjv 22 окт. 09

Любой, кто работал с проектом из Китая или запускал там кампанию, знает, что местное представление о дизайне отличается от западного. За примерами далеко ходить не нужно — если вы работаете на международный бренд в Поднебесной или создаете какой-то продукт, который продается там, то посмотрите через Baidu.com или QQ.com, как ваша марка представлена в китайском online-пространстве.

Самое сильное различие заключается в том, что их сайты выглядят очень перегруженными. Много текстов, ссылок и даже анимации, которые, кажется, спроектированы так, чтобы страницу было невозможно читать.

Может быть, это и выглядит как цифровой хаос, однако китайские сайты создаются именно такими по нескольким причинам. Если вы планируете запустить свой бизнес в Китае, советуем вам узнать некоторые особенности местного веб-опыта.

Китайский язык совсем другой

Для начала перечислим несколько фактов, которые стоит знать:

1. В китайском языке нет заглавных букв. Западные читатели приучены выявлять большие буквы в тексте, чтобы найти начало и конец предложения. Именно поэтому китайские сайты могут выглядеть набором однотипных символов

2. Нет пробелов между символами. Западные языки используют пространство, чтобы отделить слова — этого в китайском тоже нет. Здесь длинная строка символов совершенно нормальна, в то время как западных пользователей она приводит в замешательство

3. Вы вдеили подбоыне тесткы? В принципе, все понятно, не так ли? Слова с перепутанными местами буквами легко читать, если первая и последняя буква находятся на своем месте и если они не написаны полностью в обратном порядке. Из-за этого люди скользят по тексту глазами, а не читают каждое слово. Но так как они не могут так же пробегать глазами по китайским текстам, (предполагается, что символы им незнакомы), строки таких символов кажутся им особенно хаотичными.

4. Китайские иероглифы гораздо более «плотные», чем латинские буквы или буквы кириллицы — 10 черточек в одном символе в среднем против одной или двух. Из-за этого опять же китайский текст выглядит «перегруженным» для западного пользователя.

Следующая особенность, которая приводит в недоумение — типичный китайский сайт выглядит как одна большая ссылка. На сайте Sohu.com буквально каждый символ является частью ссылки.

Есть две теории на этот счет. Первая заключается в том, что китайские иероглифы трудно печатать на клавиатуре с алфавитной раскладкой, поэтому вместо того, чтобы использовать поисковое окно, пользователи предпочитают кликать на ссылки.

Это довольно разумно, так как набор текста китайскими иероглифами включает либо рисование символов, либо использование западных букв для транскрипции пиньинь.

После того, как иероглиф написан или напечатана его транскрипция, появляются варианты символов, среди которых пользователю нужно выбрать правильный. Похоже, что делать это снова и снова для поиска достаточно тяжело.

Но есть еще одна теория. И с учетом популярности поискового сервиса Baidu, который предлагает китайский эквивалент поиску Google, есть причины в нее верить. По этой теории многие китайцы до сих пор пользуются низкоскоростным интернетом. А статистические данные исследования компании Akamai подтверждают это.

Процент онлайн-популяции в зависимости от страны и скорости Интернета: ниже 4 Мбайт/сек, выше 4 Мбайт/сек, ниже 10 Мбайт/сек, выше 10 Мбайт/сек

Как видно, две трети китайцев пользуются интернетом, скорость соединения которого ниже 4 Мб/с — это значительно ниже средней скорости в мире и почти неслыханно для западных стран.

В итоге, с такой относительно медленной скоростью интернета, разумно загружать одну страницу с большим количеством ссылок, а затем открывать их в новых вкладках. Это позволяет пользователям просматривать страницы параллельно вместо мучительно долгой загрузки страниц по очереди. Те, кто помнит интернет-соединение по телефонной линии, поймут, о чем идет речь.

И, наконец, на китайских сайтах используется множество мигающих текстов и баннеров.

Причина, по-видимому, кроется в том, что привлечь внимание, используя различные шрифты, в китайском намного сложнее, нежели в западных текстах. И у этого есть целый ряд причин, включая:

1. Имеется всего несколько шрифтов для китайских иероглифов
2. Курсив не существует, а выделение жирным обычно не используется
3. Минимальный размер шрифта — 12 пикселей

Более того (здесь мы обратимся к культурной составляющей), похоже, что китайцев мигающая графика просто заботит меньше, чем жителей Запада. В итоге, то, что нам кажется перегруженным, нормально для них.

И, кроме того, с учетом появления всплывающих окон на западных сайтах, китайские ресурсы уже не выглядят настолько отличающимися от них, как было раньше.

В заключение