66B là một mô hình ngôn ngữ quy mô lớn có khoảng 66 tỷ tham số, được thiết kế để xử lý văn bản, trả lời câu hỏi, sinh văn bản và tham gia vào các tác vụ ngôn ngữ phức tạp. So với các phiên bản lớn hơn, 66B nhấn mạnh sự cân bằng giữa hiệu suất và khả năng triển khai trên phần cứng vừa phải. Mô hình có khả năng hiểu ngữ cảnh từ nhiều ngôn ngữ và được huấn luyện trên tập dữ liệu đa dạng.
66B dựa trên kiến trúc Transformer. Nó dùng nhiều lớp tự chú ý và feed-forward, với phân bổ tham số được tối ưu cho khả năng nắm bắt mối quan hệ dài hạn mà không tốn quá nhiều bộ nhớ. Quá trình tinh chỉnh tham số và các biện pháp chuẩn hoá được áp dụng để ổn định huấn luyện và giảm rủi ro xuất hiện các lỗi hành vi.
66B được huấn luyện trên tập dữ liệu đa ngôn ngữ và nhiều nguồn, bao gồm văn bản trên web, sách, và dữ liệu sách kỹ thuật. Công suất tính toán lớn với nhiều giờ đào tạo, và quá trình này dùng kỹ thuật tối ưu như Adam và các biến thể. Việc cân bằng giữa dữ liệu chất lượng và độ rộng ngôn ngữ là thách thức về mặt đạo đức và rủi ro phát sinh nguy cơ thiên vị.
Ứng dụng: trợ lý ảo, hỗ trợ viết nội dung, tóm tắt văn bản, hỗ trợ lập trình, dịch ngôn ngữ, và phân tích dữ liệu. Giới hạn: vẫn có thể tạo ra thông tin sai lệch, hiểu sai ngữ cảnh, yêu cầu kiểm chứng và cần nguồn tham chiếu; cần hạ độ trễ và tối ưu chi phí để triển khai.
Nhìn về phía trước, các mô hình 66B có thể đóng vai trò kết nối giữa khả năng ngôn ngữ và tích hợp ứng dụng thực tế, khi chúng được cải thiện về khả năng kiểm soát, an toàn, và hiệu quả tính toán. Việc kết hợp với hệ thống người dùng và công cụ sẽ mở ra nhiều ứng dụng hữu ích.