Bài đăng

PhoBERT là gì

  PhoBERT là một mô hình ngôn ngữ (Language Model) dựa trên kiến trúc BERT nhưng được huấn luyện chuyên biệt cho tiếng Việt . Nó được phát triển bởi đội ngũ nghiên cứu tại VinAI Research và được công bố rộng rãi vào khoảng năm 2020. Nếu coi các mô hình AI là những "học giả", thì PhoBERT chính là vị học giả có bằng cấp chuyên sâu nhất về ngôn ngữ học tiếng Việt hiện nay. 1. Tại sao PhoBERT lại ra đời? Trước khi có PhoBERT, các nhà nghiên cứu thường dùng mô hình mBERT (Multilingual BERT) – một mô hình đa ngôn ngữ được huấn luyện trên 104 quốc gia. Tuy nhiên, vì phải "học" quá nhiều thứ cùng lúc, mBERT không hiểu sâu được các đặc thù của tiếng Việt như: Cách tách từ phức (ví dụ: "học sinh" thay vì "học" và "sinh"). Ngữ cảnh của từ Hán-Việt. Cấu trúc câu đơn lập. PhoBERT ra đời để giải quyết vấn đề đó bằng cách tập trung 100% vào dữ liệu tiếng Việt. 2. Các điểm kỹ thuật nổi bật Kiến trúc RoBERTa: PhoBERT sử dụng kiến trúc của RoBERTa (...

PhoNLP là gì

  PhoNLP là một bộ công cụ (toolkit) mã nguồn mở chuyên dụng để xử lý ngôn ngữ tự nhiên (NLP) cho tiếng Việt, được phát triển bởi các nghiên cứu viên tại VinAI Research . Nếu bạn hình dung NLP là quá trình máy tính học đọc và hiểu văn bản, thì PhoNLP giống như một "con dao đa năng" giúp máy tính thực hiện nhiều tác vụ cùng một lúc một cách nhanh chóng và chính xác. Dưới đây là những đặc điểm cốt lõi giúp PhoNLP trở nên nổi bật: 1. Kiến trúc "Tất cả trong một" (All-in-one) Điểm khác biệt lớn nhất của PhoNLP là khả năng xử lý đa tác vụ (Multi-task learning) . Trong một lần chạy duy nhất, nó có thể thực hiện đồng thời 3 công việc quan trọng: Word Segmentation (Tách từ): Xác định ranh giới các từ (ví dụ: biến "học sinh" thành một đơn vị thay vì hai chữ rời rạc). POS Tagging (Gán nhãn từ loại): Xác định đâu là danh từ, động từ, tính từ... trong câu. Named Entity Recognition (Nhận diện thực thể có tên - NER): Phát hiện các tên riêng như tên người, địa danh, ...

Sử lý ngôn ngữ tự nhiên tiếng Việt

 Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) cho tiếng Việt là một lĩnh vực đầy thách thức nhưng cũng rất phát triển trong những năm gần đây. Tiếng Việt có những đặc thù riêng biệt so với tiếng Anh, đòi hỏi các kỹ thuật xử lý chuyên sâu hơn. Dưới đây là các giai đoạn và thách thức cốt lõi trong NLP tiếng Việt: 1. Các bước tiền xử lý đặc thù (Preprocessing) Trong NLP tiếng Anh, các từ thường được phân tách bằng dấu cách. Tuy nhiên, trong tiếng Việt, dấu cách không phải là ranh giới từ (ví dụ: "học sinh" là một từ nhưng có hai chữ). Tách từ (Word Segmentation): Đây là bước quan trọng nhất. Phải xác định đâu là từ đơn, đâu là từ phức. Ví dụ: "Thành phố Hồ Chí Minh" phải được nhận diện là một thực thể duy nhất thay vì các từ rời rạc. Chuẩn hóa tiếng Việt: Xử lý cách đặt dấu thanh (ví dụ: "hòa" hay "hoà"), xử lý từ viết tắt, tiếng lóng hoặc lỗi chính tả phổ biến trên mạng xã hội. Gán nhãn từ loại (POS Tagging): Xác định danh từ, độ...