Microsoft AI giới thiệu DeBERTa-V3: Mô hình đào tạo trước mới lạ cho các mô hình ngôn ngữ dựa trên sự kết hợp giữa DeBERTa và ELECTRA
Xử lý ngôn ngữ tự nhiên (NLP) và Hiểu ngôn ngữ tự nhiên (NLU) là hai trong số các mục tiêu chạy chính trong lĩnh vực Trí tuệ nhân tạo. Với việc giới thiệu các Mô hình Ngôn ngữ Lớn (LLM), đã có rất nhiều tiến bộ và tiến bộ trong các lĩnh vực này. Các mô hình ngôn ngữ thần kinh được đào tạo trước này thuộc họ AI tổng quát và đang thiết lập các tiêu chuẩn mới như khả năng hiểu ngôn ngữ, tạo dữ liệu văn bản và trả lời câu hỏi bằng cách bắt chước con người.
Mô hình BERT (Đại diện bộ mã hóa hai chiều từ Transformers) nổi tiếng, có thể trình bày các kết quả hiện đại nhất trong một loạt các nhiệm vụ NLP, đã được ứng biến bởi một kiến trúc mô hình mới vào năm trước. Mô hình này, được gọi là DeBERTa (BERT tăng cường giải mã với khả năng chú ý không bị rối), do Microsoft Research phát hành, ứng biến trên các mô hình BERT và RoBERTa bằng cách sử dụng hai kỹ thuật mới. Đầu tiên là cơ chế chú ý tháo rời, trong đó mỗi từ được đặc trưng bằng hai vectơ riêng biệt: một vectơ mã hóa nội dung của nó và một vectơ khác mã hóa vị trí của nó. Điều này cho phép mô hình nắm bắt tốt hơn mối quan hệ giữa các từ và vị trí của chúng trong một câu. Kỹ thuật thứ hai là một bộ giải mã mặt nạ cải tiến thay thế lớp SoftMax đầu ra để dự đoán các mã thông báo được đeo mặt nạ để đào tạo trước mô hình.
Bây giờ có một phiên bản cải tiến hơn nữa của mô hình DeBERTa có tên là DeBERTaV3. Phiên bản mã nguồn mở này cải thiện mô hình DeBERTa ban đầu với nhiệm vụ đào tạo mẫu trước tốt hơn và hiệu quả hơn. DeBERTaV3, so với các phiên bản trước, có các tính năng mới giúp hiểu ngôn ngữ tốt hơn và theo dõi thứ tự các từ trong câu. Nó sử dụng một phương pháp gọi là “tự chú ý” để xem tất cả các từ trong một câu và tìm ngữ cảnh của từng từ dựa trên các từ xung quanh từ đó.
Tham gia Cộng đồng ML Reddit đang phát triển nhanh nhất
DeBERTaV3 cải thiện mô hình ban đầu bằng cách thử hai cách. Đầu tiên, bằng cách thay thế mô hình ngôn ngữ mặt nạ (MLM) bằng phát hiện mã thông báo thay thế (RTD), giúp chương trình học tốt hơn. Thứ hai, tạo ra một phương thức chia sẻ thông tin mới trong chương trình giúp nó hoạt động tốt hơn. Các nhà nghiên cứu phát hiện ra rằng việc chia sẻ thông tin theo cách cũ thực sự khiến chương trình hoạt động kém hơn vì các phần khác nhau của chương trình đang cố gắng học những điều khác nhau. Kỹ thuật được gọi là chia sẻ nhúng vani được sử dụng trong một mô hình ngôn ngữ khác có tên ELECTRA đã làm giảm hiệu quả và hiệu suất của mô hình. Điều đó khiến các nhà nghiên cứu phát triển một cách mới để chia sẻ thông tin giúp chương trình hoạt động tốt hơn. Phương pháp mới này, được gọi là chia sẻ nhúng phân tách độ dốc, cải thiện cả hiệu quả và chất lượng của mô hình được đào tạo trước.
Các nhà nghiên cứu đã đào tạo ba phiên bản của mô hình DeBERTaV3 và thử nghiệm chúng trên các nhiệm vụ khác nhau của NLU. Những mô hình này vượt trội so với những mô hình trước đó trên các điểm chuẩn khác nhau. DeBERTaV3[large] có điểm chuẩn GLUE cao hơn 1,37%, DeBERTaV3[base] hoạt động tốt hơn trên MNLI-matched và SQuAD v2.0 lần lượt là 1,8% và 2,2%, và DeBERTaV3[small] hoạt động tốt hơn trên MNLI- khớp và SQuAD v2.0 lần lượt là hơn 1,2% về độ chính xác và 1,3% ở F1.
DeBERTaV3 chắc chắn là một tiến bộ đáng kể trong lĩnh vực NLP với nhiều trường hợp sử dụng. Nó cũng có khả năng xử lý tới 4.096 mã thông báo trong một lần. Con số này cao hơn theo cấp số nhân so với các mô hình như BERT và GPT-3. Điều này làm cho DeBERTaV3 trở nên hữu ích đối với các tài liệu dài yêu cầu xử lý hoặc phân tích khối lượng văn bản lớn. Do đó, tất cả các so sánh đều cho thấy các mô hình DeBERTaV3 hiệu quả và đã đặt nền tảng vững chắc cho nghiên cứu trong tương lai về hiểu ngôn ngữ.