Chuyển đến nội dung chính

Vietnamese treebank construction and entropy-based error detection

 http://repository.vnu.edu.vn/handle/VNU_123/28373
Treebanks, especially the Penn treebank for natural language processing (NLP) in English, play an essential role in both research into and the application of NLP.
\


However, many languages still lack treebanks and building a treebank can be very complicated and difficult.
This work has a twofold objective.
Firstly, to share our results in constructing a large Vietnamese treebank (VTB) with three levels of annotation including word segmentation, part-of-speech tagging, and syntactic analysis.
Major steps in the treebank construction process are described with particular regard to specific Vietnamese properties such as lack of word delimiter and isolation.
Those properties make sentences highly syntactically ambiguous, and therefore it is difficult to ensure a high level of agreement among annotators.
Various studies of Vietnamese syntax were employed not only to define annotations but also to systematically deal with ambiguities.

Title: Vietnamese treebank construction and entropy-based error detection
Authors: Nguyen, Phuong-Thai
Le, Anh-Cuong
Ho, Tu-Bao
Keywords: Treebank
Error detection
Entropy
Issue Date: 2015
Publisher: Đại học Quốc gia Hà Nội
Citation: ISIKNOWLEDGE
Abstract: Treebanks, especially the Penn treebank for natural language processing (NLP) in English, play an essential role in both research into and the application of NLP. However, many languages still lack treebanks and building a treebank can be very complicated and difficult. This work has a twofold objective. Firstly, to share our results in constructing a large Vietnamese treebank (VTB) with three levels of annotation including word segmentation, part-of-speech tagging, and syntactic analysis. Major steps in the treebank construction process are described with particular regard to specific Vietnamese properties such as lack of word delimiter and isolation. Those properties make sentences highly syntactically ambiguous, and therefore it is difficult to ensure a high level of agreement among annotators. Various studies of Vietnamese syntax were employed not only to define annotations but also to systematically deal with ambiguities.
Description: LANGUAGE RESOURCES AND EVALUATION Volume: 49 Issue: 3 Pages: 487-519 Published: SEP 2015 ; TNS05625
URI: http://repository.vnu.edu.vn/handle/VNU_123/28373
Appears in Collections:Bài báo của ĐHQGHN trong Web of Science

Nhận xét

Bài đăng phổ biến từ blog này

Vấn đề kết hôn của phụ nữ Việt Nam với nam giới Đài Loan

Trong bối cảnh toàn cầu hóa và việc Việt Nam gia nhập WTO, chắc chắn quan hệ kinh tế -văn hóa giữa Việt Nam với các nước trên thế giới trong đó có khu vực Đông Bắc Á sẽ ngày một phát triển hơn. Cùng với sự gia tăng đầu tư trực tiếp,quan hệ buôn bán, trao đổi văn hóa,v.v.. số lượng người từ các nước thuộc khu vực Đông Bắc Á đến Việt Nam làm ăn cũng ngày một gia tăng, kéo theo sự gia tăng các cuộc hôn nhân giữa người Việt Nam với công dân của các quốc gia trong khu vực. Bài viết này đề cập cụ thể tới hôn nhân giữa phụ nữ Việt Nam và đàn ông Đài Loan. Về phía Đài Loan, vấn đề kết hôn giữa đàn ông Đài Loan với các cô gái Việt Nam đã được Văn phòng Cục lãnh sự Bộ ngoại giao Đài Loan thống kê sớm nhất vào năm 1994 với 530 người, và những số liệu từ năm 1997 trở về trước được thống kê đầy đủ hơn so với số liệu của Văn phòng Kinh tế - Văn hóa Đài Bắc ở thµnh phè Hồ Chí Minh. Trái lại, số liệu của Văn phòng kinh tế -Văn hóa Đài Bắc ở TP Hồ Chí Minh từ những năm 1998 lại đây lại có ...

Ảnh hưởng của báo điện tử đối với lối sống của giới trẻ Việt Nam hiện nay

Giới thiệu luận văn “Ảnh hưởng của báo điện tử đối với lối sống của giới trẻ Việt Nam hiện nay” Tác giả: Nguyễn Thị Huyền Chinh http://repository.vnu.edu.vn/handle/VNU_123/23593 Việc báo chí và truyền thông đại chúng (TTĐC) đóng vai trò quan trọng trong việc hình thành nhân cách, lối sống của học sinh – sinh viên nói riêng và giới trẻ nói chung không phải là vấn đề lạ lẫm. Trên thế giới cũng đã có rất nhiều tài liệu đề cập đến sự ảnh hưởng của TTĐC đến hành vi của trẻ em, đến giới trẻ. Tại Việt Nam, với sự ra đời của 105 báo, tạp chí điện tử đã tạo ra môi trường thông tin rộng lớn và đa dạng đối với giới trẻ. Không chỉ đóng vai trò là nơi cung cấp thông tin hữu ích, báo điện tử tại Việt Nam còn đóng vai trò định hướng dư luận xã hội, định hướng nhận thức, hành vi và lối sống cho giới trẻ. Tuy nhiên, báo điện tử vẫn chưa thực sự làm tốt vai trò của mình. Do sức ép từ doanh thu, một số báo điện tử đã “bất chấp” đưa ra những thông tin thiếu trung thực, rẻ tiền, xoáy quá sâu...

Thác triển khai toán tử ngẫu nhiên trong không gian banach khả ly

http://repository.vnu.edu.vn/handle/VNU_123/36998 Keywords Xác suất, Thống kê toán học, Toán tử ngẫu nhiên, Không gian Banach Citation Trần, M. C. (2011). Thác triển khai toán tử ngẫu nhiên trong không gian banach khả ly. Luận án Tiến sỹ, Đại học Quốc gia Hà Nội, Việt Nam Publisher Trường Đại học Khoa học Tự nhiên Appears in Collections: HUS - Dissertations