Chuyển đến nội dung chính

Vietnamese treebank construction and entropy-based error detection

 http://repository.vnu.edu.vn/handle/VNU_123/28373
Treebanks, especially the Penn treebank for natural language processing (NLP) in English, play an essential role in both research into and the application of NLP.
\


However, many languages still lack treebanks and building a treebank can be very complicated and difficult.
This work has a twofold objective.
Firstly, to share our results in constructing a large Vietnamese treebank (VTB) with three levels of annotation including word segmentation, part-of-speech tagging, and syntactic analysis.
Major steps in the treebank construction process are described with particular regard to specific Vietnamese properties such as lack of word delimiter and isolation.
Those properties make sentences highly syntactically ambiguous, and therefore it is difficult to ensure a high level of agreement among annotators.
Various studies of Vietnamese syntax were employed not only to define annotations but also to systematically deal with ambiguities.

Title: Vietnamese treebank construction and entropy-based error detection
Authors: Nguyen, Phuong-Thai
Le, Anh-Cuong
Ho, Tu-Bao
Keywords: Treebank
Error detection
Entropy
Issue Date: 2015
Publisher: Đại học Quốc gia Hà Nội
Citation: ISIKNOWLEDGE
Abstract: Treebanks, especially the Penn treebank for natural language processing (NLP) in English, play an essential role in both research into and the application of NLP. However, many languages still lack treebanks and building a treebank can be very complicated and difficult. This work has a twofold objective. Firstly, to share our results in constructing a large Vietnamese treebank (VTB) with three levels of annotation including word segmentation, part-of-speech tagging, and syntactic analysis. Major steps in the treebank construction process are described with particular regard to specific Vietnamese properties such as lack of word delimiter and isolation. Those properties make sentences highly syntactically ambiguous, and therefore it is difficult to ensure a high level of agreement among annotators. Various studies of Vietnamese syntax were employed not only to define annotations but also to systematically deal with ambiguities.
Description: LANGUAGE RESOURCES AND EVALUATION Volume: 49 Issue: 3 Pages: 487-519 Published: SEP 2015 ; TNS05625
URI: http://repository.vnu.edu.vn/handle/VNU_123/28373
Appears in Collections:Bài báo của ĐHQGHN trong Web of Science

Nhận xét

Bài đăng phổ biến từ blog này

Xây dựng nền văn hóa trong kháng chiến chống Pháp (1945-1954)

Mời các bạn quan tâm tìm hiểu luận văn “Xây dựng nền văn hóa trong kháng chiến chống Pháp (1945-1954)” của tác giả Hoàng Thị Hồng Nga tại đường link http://repository.vnu.edu.vn/handle/VNU_123/19976 Luận văn bao gồm các nội dung sau - Tái hiện lại những yếu tố bối cảnh quốc tế (ảnh hưởng từ Liên Xô, Trung Quốc) và trong nước (đời sống kháng chiến, đời sống văn hóa) tới quá trình xây dựng lý luận của nền văn hóa mới: văn hóa dân chủ nhân dân trong thời kỳ đất nước có chiến tranh.  - Phân tích và làm sáng rõ những thành tựu nổi bật của các ngành, các lĩnh vực của nền văn hóa mới trong kháng chiến như: tiếp tục xây dựng lý luận của nền văn hóa kháng chiến trên nền tảng cơ bản của Bản “Đề cương văn hóa Việt Nam” (1943) (2/9/1945 - 7/1948); từng bước phát triển lý luận văn hóa, phục vụ kháng chiến – kiến quốc (7/1948 - 1954); xây dựng thiết chế văn hóa trong các lĩnh vực. Từ đó, khẳng định được những đóng góp to lớn của Đảng, cũng như giới văn hóa, nghệ sĩ trong v...

Đặc thù trong giải quyết tranh chấp thuế bằng thủ tục khiếu nại ở Việt Nam

http://repository.vnu.edu.vn/handle/VNU_123/972 Tranh chấp thuế là tranh chấp hành chính có liên quan đến quyết định thu thuế và quyết định xử phạt đối với người nộp thuế. Hiện nay, giải quyết tranh chấp thuế bằng khiếu nại theo Luật Khiếu nại, Luật Quản lý thuế và các văn bản hướng dẫn thi hành. Cơ quan giải quyết tranh chấp thuế là Cơ quan thuế, Cơ quan Hải quan, Bộ Tài chính và cơ quan có thẩm quyền khác. Do tranh chấp về thuế có ảnh hưởng trực tiếp đến lợi ích của người nộp thuế, đặc biệt là ảnh hưởng đến thực hiện quyền sở hữu tài sản của doanh nghiệp và lợi ích của người góp vốn nên thời hạn giải quyết cần được rút ngắn và khắc phục tình trạng “Luật khung” trong xác định căn cứ tính thuế và phương pháp tính thuế. Title:  Đặc thù trong giải quyết tranh chấp thuế bằng thủ tục khiếu nại ở Việt Nam Authors:  Nguyễn, Thị Lan Hương Keywords:  Luật thuế;người nộp thuế;tranh chấp thuế;cơ quan thuế;đánh thuế Issue Date:  2015 Publisher:  ĐHQ...

Thấy gì qua năng lực giao tiếp bằng tiếng Anh của sơn nữ Sapa: Nghiên cứu điển hình về giao tiếp liên văn hoá

http://repository.vnu.edu.vn/handle/VNU_123/3827 Bài viết là một nghiên cứu điển hình về năng lực giao tiếp bằng tiếng Anh của các sơn nữ Sapa thông qua phân tích năm đoạn video trên mạng xã hội.  Nghiên cứu hướng đến trả lời câu hỏi “Thấy gì từ kĩ năng giao tiếp tiếng Anh của những phụ nữ người dân bản địa Sapa nhìn từ khía cạnh giao tiếp liên văn hoá?”.  Nghiên cứu nhằm đóng góp thêm một số quan điểm ngôn ngữ học ứng dụng trong việc dạy, học và sử dụng tiếng Anh hiện nay như ngôn ngữ giao tiếp chung toàn cầu. Title:  Thấy gì qua năng lực giao tiếp bằng tiếng Anh của sơn nữ Sapa: Nghiên cứu điển hình về giao tiếp liên văn hoá Authors:  Ngô, Hữu Hoàng Keywords:  Giao tiếp (GT);năng lực giao tiếp (NLGT);iao tiếp liên văn hoá (GTLVH);tiếng Anh,ngôn ngữ chung/trung gian/toàn cầu, ngoại ngữ, Sapa. Issue Date:  2015 Publisher:  H.: ĐHQGHN Citation:  tr.56-63 Series/Report no.:  Tập 31, số 3; Abstract:  Bài viết...