Hội thảo về Xử lý tiếng Việt

Hội thảo về Xử lý tiếng Việt

Postby phuonglh » Thu Apr 21, 2005 7:18 am

Hiện tại tôi đang tham gia vào một dự án xây dựng các tools cơ bản phục vụ cho việc xử lý tiếng Việt, gồm cả văn bản (text) và tiếng nói (voice). Tôi quan tâm chủ yếu tới phần văn bản. Nhiệm vụ trước mắt cần làm là xây dựng tài nguyên ngôn ngữ tiếng Việt. Các hệ thống Treebank cho các thứ tiếng khác như Anh, Pháp, Hoa... đã được thế giới xây dựng từ lâu, nhưng Việt Nam, theo tôi biết, thì những dự án như vậy chưa được khởi động vì nhiều nguyên nhân khác nhau.

Ngày 29/03 vừa qua, tại Hà Nội, Viện Công nghệ Thông tin (thuộc Trung tâm Khoa học Tự nhiên và Công nghệ Quốc gia VN) đã tổ chức một hội thảo nhằm tập hợp lực lượng các nhóm nghiên cứu về xử lý tiếng Việt trên cả nước, cùng bàn và hoạch định những nhiệm vụ trước mắt và lâu dài về vấn đề xử lý tiếng Việt ; tiến tới xây dựng một dự án quốc gia về vấn đề này đệ trình Bộ Khoa học và Công nghệ. Rõ ràng những sản phẩm phục vụ xử lý tiếng Việt chỉ có thể do người Việt làm, không thể mua được từ nước ngoài như hầu hết các phần mềm khác ; đồng thời vấn đề xử lý tiếng Việt không thể do một cá nhân hay một nhóm nhỏ thực hiện được.

Hội thảo được tổ chức trên tinh thần tự nguyện, đã tập hợp được hầu hết các nhóm nghiên cứu về NLP từ khắp nơi trên cả nước tham dự, có sự tham gia của không chỉ những người làm công nghệ thông tin, mà còn cả những nhà ngôn ngữ học và từ điển học, đến từ Viện Ngôn ngữ và Trung tâm Từ điển học, một số công ty tin học tham gia.

Tôi hi vọng là dự án lớn nêu trên sẽ được Bộ Khoa học Công nghệ hỗ trợ tích cực. Một khi dự án được phê duyệt thì tôi nghĩ những diễn đàn như thế này sẽ là cơ hội tốt để mọi người cùng chia sẻ thông tin với nhau. Viện CNTT cũng có ý định lập một website và diễn đàn dành riêng cho dự án.
phuonglh
 
Posts: 15
Joined: Thu Apr 07, 2005 1:14 pm
Location: Hanoi University of Science, Vietnam

Postby phuonglh » Thu Apr 21, 2005 7:22 am

Tôi copy lại một email của BTC thông báo về Hội thảo :

Kính gửi các anh chị,

Tôi xin viết thư này với chữ có dấu font unicode để tránh mọi nhầm lẫn.

Sau một thời gian trao đổi và được sự đóng góp ý kiến nhiệt tình của các anh chị, Hội thảo "Xây dựng Chương trình Nghiên cứu - Phát triển về Xử lý ngôn ngữ và tiếng nói Tiếng Việt" (Kick-off Workshop on R&D in Vietnamese Language and Speech Processing) sẽ được tổ chức vào ngày 29/3/2005 tại Viện Công nghệ Thông tin, Hà nội. Thời gian bắt đầu từ 8:30.

Xin các anh chị xem kỹ nội dung trong file gửi kèm theo.

Chúng tôi cũng xin lưu ý, trong phần tên gọi và nội dung của Hội thảo, qua trao đổi ý kiến với các anh chị, có một số thay đổi để làm rõ hơn Mục tiêu chung. Hội thảo của chúng ta sẽ bàn bạc thảo luận cả hai khía cạnh ngôn ngữ và tiếng nói. Vì vậy đề nghị các anh chị đại diện cho các đon vị lưu ý để trình bày đầy đủ.

Mục tiêu của chúng ta là xây dựng chương trình chung cho nghiên cứu và phát triển dựa trên:

- Nhìn nhận của chúng ta về mục tiêu phát triển cho Xử lý ngôn ngữ và tiếng nói tiếng Việt.
- Xác định lộ trình và nội dung
- Lực lượng và khả năng cụ thể
- Xây dựng kế hoạch và phân công nhiệm vụ cho hợp tác để thực hiện mục tiêu.

Đề nghị các anh chị đăng ký và gửi nội dung tóm tắt trình bày cho chúng tôi trước ngày 25/03/2005 (Thú Sáu) - xem file đính kèm. Chúng tôi sẽ dựa trên đăng ký của các anh chị để xây dựng chương trình lần cuối cho phù hợp.

Thân kính,

BTC Hội thảo
Hồ Tú Bảo, Lương Chi Mai
phuonglh
 
Posts: 15
Joined: Thu Apr 07, 2005 1:14 pm
Location: Hanoi University of Science, Vietnam

Postby quân » Fri Apr 22, 2005 2:55 am

Vậy anh cho biết bây giờ các nhà phát triển open-source software có thể giúp được gì 1 cách cụ thể?
quân
 
Posts: 236
Joined: Sat Nov 16, 2002 1:51 am
Location: Oxnard, CA - USA

Postby phuonglh » Fri Apr 22, 2005 7:12 am

Tôi nghĩ rằng không phải tất cả những người phát triển phần mềm nguồn mở đều quan tâm đến tiếng Việt. Theo tôi, cách tốt nhất để những người quan tâm đến vấn đề này là tham gia vào dự án với tư cách là một nhóm. Anh Quân có thể liên hệ trực tiếp với BTC hội thảo. Tôi nghĩ rằng việc tham gia luôn được hoan nghênh. Trước đây tôi cũng thế. Tôi cũng không phải trong ban tổ chức hội thảo.
phuonglh
 
Posts: 15
Joined: Thu Apr 07, 2005 1:14 pm
Location: Hanoi University of Science, Vietnam

Postby quân » Thu Apr 28, 2005 6:00 am

Anh có thể cho biết kết quả của cuộc hội thảo chứ? Để chờ xem website đó sẽ đề cập rõ ràng những gì cụ thể cho dự án.
quân
 
Posts: 236
Joined: Sat Nov 16, 2002 1:51 am
Location: Oxnard, CA - USA

Postby phuonglh » Thu Apr 28, 2005 11:07 am

Tôi chép lại Kiến nghị sơ bộ của BTC Hội nghị, vì diễn đàn không cho phép upload tệp :

KIẾN NGHỊ SƠ BỘ SAU HỘI THẢO

“Xây dựng Chương trình Nghiên cứu-Phát triển về Xử lý Ngôn ngữ và Tiếng nói tiếng Việt”

Nhu cầu:

Xử lý ngôn ngữ viết (văn bản) và nói (tiếng) là bài toán nền tảng của CNTT.
Hai yếu tố quan trọng
- Lượng dữ liệu dạng văn bản và tiếng nói đang tăng lên rất nhanh.
- Xử lý ngôn ngữ tiếng Việt chỉ có thể do người Việt làm

Hiện trạng:

Trên thế giới phương pháp có hiệu quả vượt trội đã rõ ràng: học bằng thống kê trên các kho ngữ liệu lớn.

Ở Việt Nam đã có một số nhóm nghiên cứu, tuy nhiên các nhóm đều làm riêng rẽ, chưa có lộ trình chung, thiếu hợp tác, kế thừa, và khó đạt được kết quả dùng trong thực tế do công việc khó và phức tạp, đòi hỏi phải qua nhiều giai đoạn trong các kế hoạch ngắn và dài hạn..

Kiến nghị:

Nhà nước tài trợ xây dựng một dự án (chương trình nghiên cứu) về nghiên cứu-phát triển về xử lý ngôn ngữ nói và viết tiếng Việt, tập trung 30-40 cán bộ chọn lọc của nhiều tập thể, cá nhân trong và ngoài nước.

Ba nội dung cơ bản của dự án:

- Nghiên cứu-phát triển các phương pháp xử lý cho ngôn ngữ nói và viết tiếng Việt.
- Xây dựng các công cụ và tài nguyên thiết yếu cho xử lý ngôn ngữ tiếng Việt: các công cụ nền tảng (phần mềm), các kho ngữ liệu cơ bản, các từ điển điện tử chính.
- Từng bước phát triển các ứng dụng chọn lọc, tiêu biểu có thể dùng trong quản lý hành chính nhà nước, trong khoa học, văn hóa xã hội, v.v.

Ngày 31/3/2005
Hồ Tú Bảo, Lương Chi Mai, Viện Công nghệ Thông tin
Viện Công nghệ thông tin
Viện Khoa học và Công nghệ Tiên tiến Nhật bản
phuonglh
 
Posts: 15
Joined: Thu Apr 07, 2005 1:14 pm
Location: Hanoi University of Science, Vietnam

Postby quân » Fri Apr 29, 2005 1:39 am

Cám ơn anh. Nhờ anh post URL đến trang web của dự án để độc giả trực tiếp tham cứu và hiểu rõ thêm. Khi có thông tin đầy đủ và chi tiết, hy vọng họ biết sẽ cần phải làm gì để tham gia và đóng góp 1 cách hữu hiệu.

Ngoài diễn đàn này, còn nhiều diễn đàn tin học/nghiên cứu khác, cả trong và ngoài nước, có đông đảo các chuyên gia lập trình hoặc ngôn ngữ tham gia. Nếu anh chịu khó post kêu gọi tại các diễn đàn đó, phổ biến rộng rãi về dự án này, chắc sẽ có thêm nhiều người tham gia. Chúc nhiều may mắn.
quân
 
Posts: 236
Joined: Sat Nov 16, 2002 1:51 am
Location: Oxnard, CA - USA

Postby phuonglh » Fri Apr 29, 2005 6:52 am

Theo tôi được biết thì hiện tại BTC đang soạn thảo dự án để trình Bộ Khoa học Công nghệ, chưa có trang web riêng cho dự án.

Hiện tại và trong thời gian tới tôi không ở Việt Nam, nên chắc khó cập nhật nhanh những thông tin thêm về dự án. Nếu có thể, tôi sẽ đưa thông tin lên box này. Tôi cũng không có ý định "tuyên truyền" về dự án chưa được duyệt này. :-)
phuonglh
 
Posts: 15
Joined: Thu Apr 07, 2005 1:14 pm
Location: Hanoi University of Science, Vietnam


Return to Tiêu Chuẩn - Standard

Who is online

Users browsing this forum: No registered users and 1 guest

cron