Chuẩn hóa tiếng việt (VN Normalize)

Java/Windows/.NET conversion utility

Moderator: quân

Chuẩn hóa tiếng việt (VN Normalize)

Postby inforium » Fri Jan 14, 2005 9:53 am

Tôi muốn chuẩn hóa dấu một chuỗi tiếng việt
ví dụ: từ "tóan hoá" chuẩn hóa thành "toán hóa"
Bạn nào có đoạn code bằng Java post cho tôi với

thanks
inforium
 
Posts: 1
Joined: Fri Jan 14, 2005 9:47 am

Postby quân » Fri Jan 28, 2005 6:03 am

1 câu hỏi lý thú! Bạn đã có ý tưởng nào chưa về hướng giải quyết? Tôi nghĩ có thể phân rã decompose chuỗi string rồi search tìm các pattern có thể đi ngoài chuẩn TV, rồi di chuyển dấu tới đúng vị trí, sau cùng compose trở lại (normalize thành NFC). Việc search và di chuyển hay replace có thể thực hiện với Regular Expression. Việc compose hay decompose ta có thể dùng thư viện Unicode của IBM's ICU.

Bạn cứ thử nghiệm và đưa thêm ý kiến. Ta có thể bàn thảo thêm ở đây. Chúc may mắn.
quân
 
Posts: 236
Joined: Sat Nov 16, 2002 1:51 am
Location: Oxnard, CA - USA

Postby quân » Fri Jun 17, 2005 6:10 pm

Công việc này đã được thực hiện trong VietPad như tính năng Bình thường hóa dấu (Normalize Diacritics).
quân
 
Posts: 236
Joined: Sat Nov 16, 2002 1:51 am
Location: Oxnard, CA - USA


Return to UnicodeConverter

Who is online

Users browsing this forum: No registered users and 1 guest