Chuyển đến nội dung chính

Vietnamese treebank construction and entropy-based error detection

 http://repository.vnu.edu.vn/handle/VNU_123/28373
Treebanks, especially the Penn treebank for natural language processing (NLP) in English, play an essential role in both research into and the application of NLP.
\


However, many languages still lack treebanks and building a treebank can be very complicated and difficult.
This work has a twofold objective.
Firstly, to share our results in constructing a large Vietnamese treebank (VTB) with three levels of annotation including word segmentation, part-of-speech tagging, and syntactic analysis.
Major steps in the treebank construction process are described with particular regard to specific Vietnamese properties such as lack of word delimiter and isolation.
Those properties make sentences highly syntactically ambiguous, and therefore it is difficult to ensure a high level of agreement among annotators.
Various studies of Vietnamese syntax were employed not only to define annotations but also to systematically deal with ambiguities.

Title: Vietnamese treebank construction and entropy-based error detection
Authors: Nguyen, Phuong-Thai
Le, Anh-Cuong
Ho, Tu-Bao
Keywords: Treebank
Error detection
Entropy
Issue Date: 2015
Publisher: Đại học Quốc gia Hà Nội
Citation: ISIKNOWLEDGE
Abstract: Treebanks, especially the Penn treebank for natural language processing (NLP) in English, play an essential role in both research into and the application of NLP. However, many languages still lack treebanks and building a treebank can be very complicated and difficult. This work has a twofold objective. Firstly, to share our results in constructing a large Vietnamese treebank (VTB) with three levels of annotation including word segmentation, part-of-speech tagging, and syntactic analysis. Major steps in the treebank construction process are described with particular regard to specific Vietnamese properties such as lack of word delimiter and isolation. Those properties make sentences highly syntactically ambiguous, and therefore it is difficult to ensure a high level of agreement among annotators. Various studies of Vietnamese syntax were employed not only to define annotations but also to systematically deal with ambiguities.
Description: LANGUAGE RESOURCES AND EVALUATION Volume: 49 Issue: 3 Pages: 487-519 Published: SEP 2015 ; TNS05625
URI: http://repository.vnu.edu.vn/handle/VNU_123/28373
Appears in Collections:Bài báo của ĐHQGHN trong Web of Science

Nhận xét

Bài đăng phổ biến từ blog này

Nghiên cứu chiết tách và chuyển hóa zerumbone trong một số cây thuốc thuộc họ Gừng (Zingiberaceae) Việt Nam và khảo sát hoạt tính gây độc tế bào ung thư

http://repository.vnu.edu.vn/handle/VNU_123/36955 Citation Vương, V. T. (2016). Nghiên cứu chiết tách và chuyển hóa zerumbone trong một số cây thuốc thuộc họ Gừng (Zingiberaceae) Việt Nam và khảo sát hoạt tính gây độc tế bào ung thư. Luận án Tiến sỹ, Đại học Quốc gia Hà Nội, Việt Nam Publisher Trường Đại học Khoa học Tự nhiên Appears in Collections: HUS - Dissertations

Phân tích, đánh giá điều kiện địa lý và tài nguyên phục vụ tổ chức lãnh thổ du lịch tỉnh Vĩnh Phúc

http://repository.vnu.edu.vn/handle/VNU_123/36956 Citation Lương, C. L. (2016). Phân tích, đánh giá điều kiện địa lý và tài nguyên phục vụ tổ chức lãnh thổ du lịch tỉnh Vĩnh Phúc. Luận án Tiến sỹ, Đại học Quốc gia Hà Nội, Việt Nam Publisher Trường Đại học Khoa học Tự nhiên Appears in Collections: HUS - Dissertations

Nghiên cứu sự tạo phức của một số nguyên tố đất hiếm với Isolơxin và thăm dò hoạt tính sinh học của chúng

http://repository.vnu.edu.vn/handle/VNU_123/37005 Keywords Hóa vô cơ, Nguyên tố hóa học, Đất hiếm, Hoạt tính sinh học Citation Lê, M. T. (2011). Nghiên cứu sự tạo phức của một số nguyên tố đất hiếm với Isolơxin và thăm dò hoạt tính sinh học của chúng. Luận án Tiến sỹ, Đại học Quốc gia Hà Nội, Việt Nam Publisher Trường Đại học Khoa học Tự nhiên Appears in Collections: HUS - Dissertations