PhoBERT là gì
PhoBERT là một mô hình ngôn ngữ (Language Model) dựa trên kiến trúc BERT nhưng được huấn luyện chuyên biệt cho tiếng Việt . Nó được phát triển bởi đội ngũ nghiên cứu tại VinAI Research và được công bố rộng rãi vào khoảng năm 2020. Nếu coi các mô hình AI là những "học giả", thì PhoBERT chính là vị học giả có bằng cấp chuyên sâu nhất về ngôn ngữ học tiếng Việt hiện nay. 1. Tại sao PhoBERT lại ra đời? Trước khi có PhoBERT, các nhà nghiên cứu thường dùng mô hình mBERT (Multilingual BERT) – một mô hình đa ngôn ngữ được huấn luyện trên 104 quốc gia. Tuy nhiên, vì phải "học" quá nhiều thứ cùng lúc, mBERT không hiểu sâu được các đặc thù của tiếng Việt như: Cách tách từ phức (ví dụ: "học sinh" thay vì "học" và "sinh"). Ngữ cảnh của từ Hán-Việt. Cấu trúc câu đơn lập. PhoBERT ra đời để giải quyết vấn đề đó bằng cách tập trung 100% vào dữ liệu tiếng Việt. 2. Các điểm kỹ thuật nổi bật Kiến trúc RoBERTa: PhoBERT sử dụng kiến trúc của RoBERTa (...