Chuyển đến nội dung chính

Vietnamese treebank construction and entropy-based error detection

 http://repository.vnu.edu.vn/handle/VNU_123/28373
Treebanks, especially the Penn treebank for natural language processing (NLP) in English, play an essential role in both research into and the application of NLP.
\


However, many languages still lack treebanks and building a treebank can be very complicated and difficult.
This work has a twofold objective.
Firstly, to share our results in constructing a large Vietnamese treebank (VTB) with three levels of annotation including word segmentation, part-of-speech tagging, and syntactic analysis.
Major steps in the treebank construction process are described with particular regard to specific Vietnamese properties such as lack of word delimiter and isolation.
Those properties make sentences highly syntactically ambiguous, and therefore it is difficult to ensure a high level of agreement among annotators.
Various studies of Vietnamese syntax were employed not only to define annotations but also to systematically deal with ambiguities.

Title: Vietnamese treebank construction and entropy-based error detection
Authors: Nguyen, Phuong-Thai
Le, Anh-Cuong
Ho, Tu-Bao
Keywords: Treebank
Error detection
Entropy
Issue Date: 2015
Publisher: Đại học Quốc gia Hà Nội
Citation: ISIKNOWLEDGE
Abstract: Treebanks, especially the Penn treebank for natural language processing (NLP) in English, play an essential role in both research into and the application of NLP. However, many languages still lack treebanks and building a treebank can be very complicated and difficult. This work has a twofold objective. Firstly, to share our results in constructing a large Vietnamese treebank (VTB) with three levels of annotation including word segmentation, part-of-speech tagging, and syntactic analysis. Major steps in the treebank construction process are described with particular regard to specific Vietnamese properties such as lack of word delimiter and isolation. Those properties make sentences highly syntactically ambiguous, and therefore it is difficult to ensure a high level of agreement among annotators. Various studies of Vietnamese syntax were employed not only to define annotations but also to systematically deal with ambiguities.
Description: LANGUAGE RESOURCES AND EVALUATION Volume: 49 Issue: 3 Pages: 487-519 Published: SEP 2015 ; TNS05625
URI: http://repository.vnu.edu.vn/handle/VNU_123/28373
Appears in Collections:Bài báo của ĐHQGHN trong Web of Science

Nhận xét

Bài đăng phổ biến từ blog này

Vấn đề kết hôn của phụ nữ Việt Nam với nam giới Đài Loan

Trong bối cảnh toàn cầu hóa và việc Việt Nam gia nhập WTO, chắc chắn quan hệ kinh tế -văn hóa giữa Việt Nam với các nước trên thế giới trong đó có khu vực Đông Bắc Á sẽ ngày một phát triển hơn. Cùng với sự gia tăng đầu tư trực tiếp,quan hệ buôn bán, trao đổi văn hóa,v.v.. số lượng người từ các nước thuộc khu vực Đông Bắc Á đến Việt Nam làm ăn cũng ngày một gia tăng, kéo theo sự gia tăng các cuộc hôn nhân giữa người Việt Nam với công dân của các quốc gia trong khu vực. Bài viết này đề cập cụ thể tới hôn nhân giữa phụ nữ Việt Nam và đàn ông Đài Loan. Về phía Đài Loan, vấn đề kết hôn giữa đàn ông Đài Loan với các cô gái Việt Nam đã được Văn phòng Cục lãnh sự Bộ ngoại giao Đài Loan thống kê sớm nhất vào năm 1994 với 530 người, và những số liệu từ năm 1997 trở về trước được thống kê đầy đủ hơn so với số liệu của Văn phòng Kinh tế - Văn hóa Đài Bắc ở thµnh phè Hồ Chí Minh. Trái lại, số liệu của Văn phòng kinh tế -Văn hóa Đài Bắc ở TP Hồ Chí Minh từ những năm 1998 lại đây lại có ...

Mối quan hệ giữa đạo Cao Đài và văn hóa Nam Bộ

Đạo Cao Đài là một tôn giáo được thành lập ở Việt Nam vào đầu thế kỷ XX, năm 1926. Tên gọi Cao Đài theo nghĩa đen chỉ "một nơi cao", nghĩa bóng là nơi cao nhất ở đó Thượng đế ngự trị; cũng là danh xưng rút gọn của Thượng đế trong tôn giáo Cao Đài, vốn có danh xưng đầy đủ là Cao Đài Tiên Ông Đại Bồ Tát Ma Ha Tát. Để tỏ lòng tôn kính, một số các tín đồ Cao Đài thường gọi tôn giáo của mình là Đạo Trời.        Tín đồ Cao Đài tin rằng Thượng đế là Đấng sáng lập ra các tôn giáo và cả vũ trụ này. Tất cả giáo lý, hệ thống biểu tượng và tổ chức đều được "Đức Cao Đài" trực tiếp chỉ định. Và đạo Cao Đài chính là được Thượng đế trực tiếp khai sáng thông qua Cơ bút cho các tín đồ với nhiệm vụ Đại Đạo Tam Kỳ Phổ Độ, có nghĩa là Nền đạo lớn phổ độ lần thứ Ba. Cao Đài là một tôn giáo mới, có tính dung hợp các tôn giáo lớn mà chủ yếu là Phật giáo, Đạo giáo, Nho giáo, Hồi giáo và Cơ Đốc giáo. Các tín đồ thi hành những giáo điều của Đạo như không sát sinh, s...

Thác triển khai toán tử ngẫu nhiên trong không gian banach khả ly

http://repository.vnu.edu.vn/handle/VNU_123/36998 Keywords Xác suất, Thống kê toán học, Toán tử ngẫu nhiên, Không gian Banach Citation Trần, M. C. (2011). Thác triển khai toán tử ngẫu nhiên trong không gian banach khả ly. Luận án Tiến sỹ, Đại học Quốc gia Hà Nội, Việt Nam Publisher Trường Đại học Khoa học Tự nhiên Appears in Collections: HUS - Dissertations