Sentence Similarity
sentence-transformers
Safetensors
gemma3_text
feature-extraction
Generated from Trainer
dataset_size:507152
loss:CachedMultipleNegativesRankingLoss
text-embeddings-inference
Instructions to use minhnguyent546/cotu-legal-retriever-KaLM-Embedding-Gemma3-12B-2511-stage1 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use minhnguyent546/cotu-legal-retriever-KaLM-Embedding-Gemma3-12B-2511-stage1 with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("minhnguyent546/cotu-legal-retriever-KaLM-Embedding-Gemma3-12B-2511-stage1") sentences = [ "Nếu một người vi phạm các quy định về vệ sinh nơi công cộng, họ sẽ bị xử lý như thế nào?", "2. Kiểm tra, xác nhận các nội dung liên quan đến công tác quay số mở thưởng bao gồm: a) Đối với hình thức quay số mở thưởng bằng lồng cầu: - Kiểm tra, xác nhận Hội đồng giám sát xổ số đã thực hiện nhiệm vụ kiểm tra việc khóa máy chủ để đảm bảo toàn bộ hệ thống không phát hành được vé ngay sau thời điểm kết thúc thời gian phát hành; - Kiểm tra, xác nhận việc tuân thủ quy trình quay số mở thưởng được quy định tại Thể lệ quay số mở thưởng đã được công bố công khai và quy định tại Thông tư này; - Kiểm tra, xác nhận công ty xổ số điện toán ký xác nhận bảng tổng hợp doanh thu; - Kiểm tra, xác nhận việc sao lưu và niêm phong dữ liệu bộ số dự thưởng của các kỳ quay số mở thưởng; - Kiểm tra, xác nhận việc xác nhận kết quả quay số mở thưởng của Hội đồng giám sát trùng khớp với kết quả quay số mở thưởng trên thực tế.", "Chương 10. KHEN THƯỞNG VÀ XỬ LÝ CÁC VI PHẠM Điều 52. Khen thưởng.. Địa phương, đơn vị, cá nhân có thành tích trong công tác bảo vệ sức khoẻ nhân dân được Nhà nước khen thưởng vật chất và tinh thần. Thầy thuốc, lương y, dược sĩ và nhân viên y tế khác có nhiều cống hiến trong sự nghiệp bảo vệ sức khoẻ nhân dân, có trình độ nghiệp vụ, chuyên môn kỹ thuật giỏi, có đạo đức, được nhân dân và đồng nghiệp tín nhiệm thì được xét tặng danh hiệu cao quý của Nhà nước. Điều 53. Xử lý các vi phạm. Người nào có những hành vi sau đây thì tuỳ theo mức độ nhẹ hoặc nặng sẽ bị xứ lý kỷ luật, bị xử lý hành chính hoặc bị truy cứu trách nhiệm hình sự. 1- Vi phạm các quy định về giữ gìn vệ sinh nơi công cộng, phòng và chống dịch, bệnh. 2- Vi phạm các quy định về khám bệnh, chữa bệnh, sản xuất thuốc và bán thuốc. 3- Vi phạm các quy định về vệ sinh lương thực, thực phẩm, vệ sinh lao động và các quy định khác của Luật bảo vệ sức khoẻ nhân dân.", "Điều 4. Mẫu các văn bản ban hành kèm theo Thông tư liên tịch 1. Đơn xin hoãn, miễn chấp hành án phạt tù (Mẫu số 01). 2. Quyết định hoãn chấp hành án phạt tù (Mẫu số 02). 3. Quyết định hủy Quyết định hoãn chấp hành án phạt tù (Mẫu số 03). 4. Quyết định hủy Quyết định hoãn chấp hành án phạt tù và áp dụng biện pháp bắt buộc chữa bệnh (Mẫu số 04). 5. Quyết định mở phiên họp xem xét miễn chấp hành án phạt tù (Mẫu số 05). 6. Quyết định về việc xét miễn chấp hành án phạt tù (Mẫu số 06)." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:507152
- loss:CachedMultipleNegativesRankingLoss
base_model: tencent/KaLM-Embedding-Gemma3-12B-2511
widget:
- source_sentence: >-
Nếu một người vi phạm các quy định về vệ sinh nơi công cộng, họ sẽ bị xử
lý như thế nào?
sentences:
- >-
2. Kiểm tra, xác nhận các nội dung liên quan đến công tác quay số mở
thưởng bao gồm: a) Đối với hình thức quay số mở thưởng bằng lồng cầu: -
Kiểm tra, xác nhận Hội đồng giám sát xổ số đã thực hiện nhiệm vụ kiểm
tra việc khóa máy chủ để đảm bảo toàn bộ hệ thống không phát hành được
vé ngay sau thời điểm kết thúc thời gian phát hành; - Kiểm tra, xác nhận
việc tuân thủ quy trình quay số mở thưởng được quy định tại Thể lệ quay
số mở thưởng đã được công bố công khai và quy định tại Thông tư này; -
Kiểm tra, xác nhận công ty xổ số điện toán ký xác nhận bảng tổng hợp
doanh thu; - Kiểm tra, xác nhận việc sao lưu và niêm phong dữ liệu bộ số
dự thưởng của các kỳ quay số mở thưởng; - Kiểm tra, xác nhận việc xác
nhận kết quả quay số mở thưởng của Hội đồng giám sát trùng khớp với kết
quả quay số mở thưởng trên thực tế.
- >-
Chương 10. KHEN THƯỞNG VÀ XỬ LÝ CÁC VI PHẠM Điều 52. Khen thưởng.. Địa
phương, đơn vị, cá nhân có thành tích trong công tác bảo vệ sức khoẻ
nhân dân được Nhà nước khen thưởng vật chất và tinh thần. Thầy thuốc,
lương y, dược sĩ và nhân viên y tế khác có nhiều cống hiến trong sự
nghiệp bảo vệ sức khoẻ nhân dân, có trình độ nghiệp vụ, chuyên môn kỹ
thuật giỏi, có đạo đức, được nhân dân và đồng nghiệp tín nhiệm thì được
xét tặng danh hiệu cao quý của Nhà nước. Điều 53. Xử lý các vi phạm.
Người nào có những hành vi sau đây thì tuỳ theo mức độ nhẹ hoặc nặng sẽ
bị xứ lý kỷ luật, bị xử lý hành chính hoặc bị truy cứu trách nhiệm hình
sự. 1- Vi phạm các quy định về giữ gìn vệ sinh nơi công cộng, phòng và
chống dịch, bệnh. 2- Vi phạm các quy định về khám bệnh, chữa bệnh, sản
xuất thuốc và bán thuốc. 3- Vi phạm các quy định về vệ sinh lương thực,
thực phẩm, vệ sinh lao động và các quy định khác của Luật bảo vệ sức
khoẻ nhân dân.
- >-
Điều 4. Mẫu các văn bản ban hành kèm theo Thông tư liên tịch 1. Đơn xin
hoãn, miễn chấp hành án phạt tù (Mẫu số 01). 2. Quyết định hoãn chấp
hành án phạt tù (Mẫu số 02). 3. Quyết định hủy Quyết định hoãn chấp hành
án phạt tù (Mẫu số 03). 4. Quyết định hủy Quyết định hoãn chấp hành án
phạt tù và áp dụng biện pháp bắt buộc chữa bệnh (Mẫu số 04). 5. Quyết
định mở phiên họp xem xét miễn chấp hành án phạt tù (Mẫu số 05). 6.
Quyết định về việc xét miễn chấp hành án phạt tù (Mẫu số 06).
- source_sentence: >-
Trước khi tiến hành nhận dạng, thực nghiệm điều tra, nhận biết giọng nói,
Điều tra viên phải thông báo cho Kiểm sát viên biết trước bao nhiêu giờ?
sentences:
- >-
Khoản 1. Việc nhận dạng, thực nghiệm điều tra, nhận biết giọng nói được
thực hiện theo quy định tại các điều 190, 191, 204 và 421 của Bộ luật Tố
tụng hình sự. Chậm nhất 24 giờ trước khi tiến hành, Điều tra viên báo
cho Kiểm sát viên biết thời gian, địa điểm nhận dạng, thực nghiệm điều
tra, nhận biết giọng nói. Kiểm sát viên phải có mặt để kiểm sát. Điều
tra viên và Kiểm sát viên phối hợp kiểm tra, đánh giá kết quả nhận dạng,
thực nghiệm điều tra, nhận biết giọng nói để đề ra các yêu cầu điều tra
tiếp theo. Trường hợp vì lý do khách quan không có mặt để kiểm sát trực
tiếp thì Kiểm sát viên báo cho Điều tra viên trước khi tiến hành 02 giờ.
- >-
Khoản 2. Giám định viên, tổ chức được trưng cầu giám định có trách nhiệm
như sau: a) Giám định và ban hành kết luận giám định trong thời hạn 05
ngày kể từ ngày nhận được quyết định trưng cầu giám định. Trường hợp
không thể tiến hành trong thời hạn thì kịp thời thông báo bằng văn bản
để cơ quan trưng cầu giám định biết, nêu rõ lý do, thời gian dự kiến ban
hành kết luận giám định; b) Gửi kết luận giám định cho cơ quan đã trưng
cầu giám định trong thời hạn quy định tại khoản 2 Điều 213 của Bộ luật
Tố tụng hình sự; c) Kịp thời có mặt để thực hiện kiểm tra dấu vết, thu
mẫu giám định trong trường hợp quy định tại điểm a khoản 1 Điều này;
trường hợp không thể có mặt thì phải thông báo ngay và nêu rõ lý do cho
Điều tra viên biết; d) Khi tiến hành giám định, nếu thấy nội dung yêu
cầu giám định chưa rõ ràng thì yêu cầu cơ quan trưng cầu giám định giải
thích và bổ sung tài liệu. Khi cơ quan trưng cầu đề nghị, Giám định viên
kịp thời giải thích cụ thể các vấn đề trong kết luận giám định.
- >-
Điều 19. Hệ thống quay số mở thưởng điện tử 1. Hệ thống quay số mở
thưởng điện tử bao gồm: a) Thiết bị quay số mở thưởng tự động, bao gồm:
Hệ thống phần cứng và phần mềm quay số tự động; b) Hệ thống camera, màn
hình phục vụ cho việc giám sát được thiết bị quay số mở thưởng tự động.
2. Yêu cầu đối với thiết bị quay số mở thưởng tự động: a) Có xuất xứ rõ
ràng, đảm bảo các tiêu chuẩn và thông số kỹ thuật theo đúng thiết kế của
nhà sản xuất và được kiểm định bởi công ty kiểm định độc lập; b) Vận
hành an toàn, ổn định và đảm bảo hoàn toàn ngẫu nhiên, không có bất kỳ
sự can thiệp nào từ bên ngoài vào kết quả mở thưởng; c) Có ít nhất một
(01) thiết bị dự phòng; d) Được lắp đặt và vận hành tại khu vực riêng
biệt và được niêm phong trong suốt quá trình hoạt động để đảm bảo tất cả
các đối tượng không có nhiệm vụ không được can thiệp vào phần cứng, phần
mềm của thiết bị quay số mở thưởng tự động;
- source_sentence: >-
Bộ Tài chính quy định thế nào về thành phần và cấu trúc của Hội đồng giám
sát xổ số trong công ty xổ số điện toán?
sentences:
- >-
Khoản 2. Thành phần Hội đồng giám sát xổ số bao gồm Chủ tịch, một số Phó
chủ tịch và các thành viên Hội đồng giám sát xổ số như sau: a) Chủ tịch
Hội đồng giám sát xổ số: là Chủ tịch hoặc Tổng giám đốc của công ty xổ
số điện toán; b) Phó chủ tịch Hội đồng giám sát xổ số: là Phó tổng giám
đốc hoặc Kế toán trưởng của công ty xổ số điện toán; c) Các thành viên
Hội đồng giám sát xổ số: là lãnh đạo một số phòng, ban nghiệp vụ của
công ty xổ số điện toán; d) Công ty xổ số điện toán có thể mời đại diện
một số tổ chức chính trị - xã hội tham gia Hội đồng giám sát xổ số với
vai trò là thành viên Hội đồng giám sát xổ số.
- >-
Điều 9. Công nhận điều chỉnh hạng, công nhận lại hạng nhà chung cư 1.
Việc công nhận điều chỉnh hạng hoặc công nhận lại hạng nhà chung cư được
thực hiện theo đề nghị của tổ chức, cá nhân quy định tại Điều 4 của
Thông tư này. 2. Trường hợp quyết định công nhận hạng nhà chung cư chưa
hết thời hạn theo quy định mà tổ chức, cá nhân quy định tại Điều 4 của
Thông tư có nhu cầu điều chỉnh hạng nhà chung cư thì phải nộp 01 bộ hồ
sơ quy định tại Khoản 3 Điều này tại Sở Xây dựng để được xem xét, kiểm
tra và công nhận điều chỉnh hạng nhà chung cư. Trình tự, thủ tục công
nhận điều chỉnh hạng nhà chung cư được thực hiện theo quy định tại Khoản
2 Điều 8 của Thông tư này. Khi giao quyết định công nhận hạng nhà chung
cư (đã điều chỉnh), Sở Xây dựng phải thu hồi bản gốc quyết định công
nhận hạng đang còn thời hạn để lưu hồ sơ và đăng tải thông tin, văn bản
quyết định trên Cổng thông tin điện tử của Sở Xây dựng. 3. Hồ sơ đề nghị
điều chỉnh hạng nhà chung cư bao gồm: a) Đơn đề nghị điều chỉnh hạng nhà
chung cư theo mẫu hướng dẫn tham khảo quy định tại phụ lục số 03 ban
hành kèm theo Thông tư này;
- >-
Điều 7. Hồ sơ đề nghị công nhận hạng nhà chung cư 1. Đơn đề nghị công
nhận hạng nhà chung cư theo mẫu hướng dẫn tham khảo quy định tại phụ lục
số 03 ban hành kèm theo Thông tư này. 2. Bản sao có chứng thực Giấy phép
xây dựng nhà chung cư (đối với nhà chung cư thuộc diện phải có Giấy phép
xây dựng theo quy định của pháp luật về xây dựng). 3. Bản sao có chứng
thực quyết định phê duyệt quy hoạch chi tiết tỷ lệ 1/500 hoặc văn bản
chấp thuận tổng mặt bằng khu vực có nhà chung cư (đối với trường hợp
không phải lập quy hoạch chi tiết tỷ lệ 1/500) kèm theo bản vẽ tổng mặt
bằng nhà chung cư đã được cơ quan có thẩm quyền phê duyệt. 4. Bản sao có
chứng thực văn bản thẩm định của cơ quan có thẩm quyền kèm theo bản vẽ
thiết kế cơ sở nhà chung cư theo quy định của pháp luật về xây dựng. 5.
Bản sao có chứng thực văn bản thông báo kết quả kiểm tra công tác nghiệm
thu hoàn thành công trình nhà chung cư của cơ quan chuyên môn về xây
dựng. 6. Bản tự kê khai, đánh giá phân hạng nhà chung cư của tổ chức, cá
nhân đề nghị công nhận hạng nhà chung cư theo mẫu hướng dẫn tham khảo
quy định tại phụ lục số 04 ban hành kèm theo Thông tư này.
- source_sentence: >-
Nếu đại lý xổ số tự chọn số điện toán không vận hành thiết bị bán vé đúng
hướng dẫn, họ sẽ phải chịu trách nhiệm gì?
sentences:
- >-
Khoản 1. Tổ chức vận hành hệ thống xổ số tự chọn số điện toán: a) Công
ty xổ số điện toán chịu trách nhiệm tổ chức quản lý và vận hành hệ thống
xổ số tự chọn số điện toán theo quy định của pháp luật. Các đại lý xổ số
tự chọn số điện toán vận hành các thiết bị bán vé xổ số tự chọn số điện
toán theo hướng dẫn của công ty xổ số điện toán và chịu trách nhiệm về
các thiết bị được giao quản lý theo hợp đồng ký kết giữa các bên. Các
doanh nghiệp cung cấp dịch vụ mạng xã hội trực tuyến, doanh nghiệp viễn
thông tham gia vào hoạt động kinh doanh xổ số tự chọn số điện toán chịu
trách nhiệm đảm bảo an ninh mạng, an toàn thông tin theo quy định của
pháp luật; b) Hệ thống xổ số tự chọn số điện toán (máy chủ, thiết bị đầu
cuối và các thiết bị đồng bộ khác) phải được kiểm tra, bảo dưỡng, bảo
trì theo khuyến cáo của nhà sản xuất và quy định của công ty xổ số điện
toán để đảm bảo yêu cầu vận hành an toàn, chính xác;
- >-
2. Kiểm tra, xác nhận các nội dung liên quan đến công tác quay số mở
thưởng bao gồm: a) Đối với hình thức quay số mở thưởng bằng lồng cầu: -
Kiểm tra, xác nhận Hội đồng giám sát xổ số đã thực hiện nhiệm vụ kiểm
tra việc khóa máy chủ để đảm bảo toàn bộ hệ thống không phát hành được
vé ngay sau thời điểm kết thúc thời gian phát hành; - Kiểm tra, xác nhận
việc tuân thủ quy trình quay số mở thưởng được quy định tại Thể lệ quay
số mở thưởng đã được công bố công khai và quy định tại Thông tư này; -
Kiểm tra, xác nhận công ty xổ số điện toán ký xác nhận bảng tổng hợp
doanh thu; - Kiểm tra, xác nhận việc sao lưu và niêm phong dữ liệu bộ số
dự thưởng của các kỳ quay số mở thưởng; - Kiểm tra, xác nhận việc xác
nhận kết quả quay số mở thưởng của Hội đồng giám sát trùng khớp với kết
quả quay số mở thưởng trên thực tế.
- >-
Khoản 3. Cấp công trình của một tổ hợp các công trình hoặc một dây
chuyền công nghệ gồm nhiều hạng mục được xác định như sau: a) Trường hợp
tổ hợp các công trình hoặc dây chuyền công nghệ gồm nhiều hạng mục có
quy định trong Phụ lục I Thông tư này thì cấp công trình được xác định
theo Phụ lục I Thông tư này; b) Trường hợp tổ hợp các công trình hoặc
dây chuyền công nghệ gồm nhiều hạng mục không quy định trong Phụ lục I
Thông tư này thì cấp công trình được xác định theo cấp của công trình
chính (thuộc tổ hợp các công trình hoặc dây chuyền công nghệ) có cấp cao
nhất. Cấp của công trình chính xác định theo quy định tại khoản 2 Điều
này.
- source_sentence: >-
Bộ Tài chính quy định công ty xổ số điện toán phải kiểm tra, bảo dưỡng hệ
thống xổ số điện toán bao nhiêu lần trong một năm?
sentences:
- >-
Điều 10. Tổ chức kiểm tra việc phân hạng và công nhận hạng nhà chung cư
1. Cục Quản lý nhà và thị trường bất động sản tổ chức thực hiện kiểm tra
hoặc chủ trì, phối hợp với các cơ quan, đơn vị chức năng thuộc Bộ Xây
dựng và các Bộ, ngành có liên quan tổ chức kiểm tra định kỳ hoặc đột
xuất việc phân hạng và công nhận hạng nhà chung cư trên phạm vi cả nước.
2. Sở Xây dựng các tỉnh, thành phố trực thuộc trung ương tổ chức thực
hiện kiểm tra hoặc chủ trì, phối hợp với các cơ quan chức năng tại địa
phương tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công
nhận hạng nhà chung cư trên địa bàn.
- >-
đ) Được công ty xổ số điện toán kiểm tra, bảo dưỡng định kỳ theo khuyến
cáo của nhà sản xuất và quy định của công ty xổ số điện toán nhưng tối
đa sáu (06) tháng một lần. 3. Hệ thống camera, màn hình để phục vụ cho
việc giám sát quay số mở thưởng điện tử được bố trí ở những vị trí đảm
bảo có thể giám sát quay số mở thưởng. Hình ảnh theo dõi qua camera được
lưu giữ trong thời gian tối thiểu là sáu mươi (60) ngày, kể từ ngày quay
số mở thưởng.
- >-
Khoản 1. Cấp công trình quy định tại Thông tư này được xác định theo các
tiêu chí sau: a) Mức độ quan trọng, quy mô công suất: Áp dụng cho từng
công trình độc lập hoặc một tổ hợp các công trình hoặc một dây chuyền
công nghệ gồm nhiều hạng mục thuộc dự án đầu tư xây dựng công trình theo
các loại công trình quy định tại Phụ lục I Thông tư này; b) Quy mô kết
cấu: Áp dụng cho từng công trình độc lập thuộc dự án đầu tư xây dựng
công trình theo các loại kết cấu quy định tại Phụ lục II Thông tư này.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
SentenceTransformer based on tencent/KaLM-Embedding-Gemma3-12B-2511
This is a sentence-transformers model finetuned from tencent/KaLM-Embedding-Gemma3-12B-2511. It maps sentences & paragraphs to a 3840-dimensional dense vector space and can be used for retrieval.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: tencent/KaLM-Embedding-Gemma3-12B-2511
- Maximum Sequence Length: 131072 tokens
- Output Dimensionality: 3840 dimensions
- Similarity Function: Cosine Similarity
- Supported Modality: Text
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'Gemma3TextModel'})
(1): Pooling({'embedding_dimension': 3840, 'pooling_mode': 'lasttoken', 'include_prompt': True})
(2): Normalize({})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
queries = [
'Bộ Tài chính quy định công ty xổ số điện toán phải kiểm tra, bảo dưỡng hệ thống xổ số điện toán bao nhiêu lần trong một năm?',
]
documents = [
'đ) Được công ty xổ số điện toán kiểm tra, bảo dưỡng định kỳ theo khuyến cáo của nhà sản xuất và quy định của công ty xổ số điện toán nhưng tối đa sáu (06) tháng một lần. 3. Hệ thống camera, màn hình để phục vụ cho việc giám sát quay số mở thưởng điện tử được bố trí ở những vị trí đảm bảo có thể giám sát quay số mở thưởng. Hình ảnh theo dõi qua camera được lưu giữ trong thời gian tối thiểu là sáu mươi (60) ngày, kể từ ngày quay số mở thưởng.',
'Khoản 1. Cấp công trình quy định tại Thông tư này được xác định theo các tiêu chí sau: a) Mức độ quan trọng, quy mô công suất: Áp dụng cho từng công trình độc lập hoặc một tổ hợp các công trình hoặc một dây chuyền công nghệ gồm nhiều hạng mục thuộc dự án đầu tư xây dựng công trình theo các loại công trình quy định tại Phụ lục I Thông tư này; b) Quy mô kết cấu: Áp dụng cho từng công trình độc lập thuộc dự án đầu tư xây dựng công trình theo các loại kết cấu quy định tại Phụ lục II Thông tư này.',
'Điều 10. Tổ chức kiểm tra việc phân hạng và công nhận hạng nhà chung cư 1. Cục Quản lý nhà và thị trường bất động sản tổ chức thực hiện kiểm tra hoặc chủ trì, phối hợp với các cơ quan, đơn vị chức năng thuộc Bộ Xây dựng và các Bộ, ngành có liên quan tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công nhận hạng nhà chung cư trên phạm vi cả nước. 2. Sở Xây dựng các tỉnh, thành phố trực thuộc trung ương tổ chức thực hiện kiểm tra hoặc chủ trì, phối hợp với các cơ quan chức năng tại địa phương tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công nhận hạng nhà chung cư trên địa bàn.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 3840] [3, 3840]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[ 0.6481, -0.0205, 0.1290]])
Training Details
Training Dataset
Unnamed Dataset
- Size: 507,152 training samples
- Columns:
queryandcontext - Approximate statistics based on the first 1000 samples:
query context type string string details - min: 43 characters
- mean: 117.84 characters
- max: 318 characters
- min: 444 characters
- mean: 790.51 characters
- max: 1195 characters
- Samples:
query context Bộ Giao thông vận tải quy định các đơn vị kinh doanh vận tải nào phải lắp đặt thiết bị giám sát hành trình trên xe ô tô?Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam.Bộ Giao thông vận tải giải thích như thế nào về các từ ngữ như 'hệ thống thông tin' và 'dữ liệu' trong quy định về thiết bị giám sát hành trình?Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam.Pháp luật quy định như thế nào về việc thu nhận, quản lý và khai thác dữ liệu từ thiết bị giám sát hành trình của xe ô tô?Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam. - Loss:
CachedMultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 8, "gather_across_devices": true, "directions": [ "query_to_doc" ], "partition_mode": "joint", "hardness_mode": null, "hardness_strength": 0.0 }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 256num_train_epochs: 1learning_rate: 1e-05lr_scheduler_type: cosine_with_min_lrlr_scheduler_kwargs: {'min_lr_rate': 0.1}warmup_steps: 0.04gradient_accumulation_steps: 4bf16: Truetorch_compile: Truetorch_compile_backend: inductoruse_liger_kernel: Truelog_level: debugdataloader_num_workers: 8dataloader_persistent_workers: Trueremove_unused_columns: Falseddp_find_unused_parameters: Falseprompts: {'query': 'Instruct: Given a user query related to law, retrieve the most relevant legal passages that directly answer the question.\nQuery: ', 'context': ''}batch_sampler: no_duplicates
All Hyperparameters
Click to expand
per_device_train_batch_size: 256num_train_epochs: 1max_steps: -1learning_rate: 1e-05lr_scheduler_type: cosine_with_min_lrlr_scheduler_kwargs: {'min_lr_rate': 0.1}warmup_steps: 0.04optim: adamw_torch_fusedoptim_args: Noneweight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08optim_target_modules: Nonegradient_accumulation_steps: 4average_tokens_across_devices: Truemax_grad_norm: 1.0label_smoothing_factor: 0.0bf16: Truefp16: Falsebf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Nonetorch_compile: Truetorch_compile_backend: inductortorch_compile_mode: Noneuse_liger_kernel: Trueliger_kernel_config: Noneuse_cache: Falseneftune_noise_alpha: Nonetorch_empty_cache_steps: Noneauto_find_batch_size: Falselog_on_each_node: Truelogging_nan_inf_filter: Trueinclude_num_input_tokens_seen: nolog_level: debuglog_level_replica: warningdisable_tqdm: Falseproject: huggingfacetrackio_space_id: trackioper_device_eval_batch_size: 8prediction_loss_only: Trueeval_on_start: Falseeval_do_concat_batches: Trueeval_use_gather_object: Falseeval_accumulation_steps: Noneinclude_for_metrics: []batch_eval_metrics: Falsesave_only_model: Falsesave_on_each_node: Falseenable_jit_checkpoint: Falsepush_to_hub: Falsehub_private_repo: Nonehub_model_id: Nonehub_strategy: every_savehub_always_push: Falsehub_revision: Noneload_best_model_at_end: Falseignore_data_skip: Falserestore_callback_states_from_checkpoint: Falsefull_determinism: Falseseed: 42data_seed: Noneuse_cpu: Falseaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedataloader_drop_last: Truedataloader_num_workers: 8dataloader_pin_memory: Truedataloader_persistent_workers: Truedataloader_prefetch_factor: Noneremove_unused_columns: Falselabel_names: Nonetrain_sampling_strategy: randomlength_column_name: lengthddp_find_unused_parameters: Falseddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falseddp_backend: Noneddp_timeout: 1800fsdp: []fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}deepspeed: Nonedebug: []skip_memory_metrics: Truedo_predict: Falseresume_from_checkpoint: Nonewarmup_ratio: Nonelocal_rank: -1prompts: {'query': 'Instruct: Given a user query related to law, retrieve the most relevant legal passages that directly answer the question.\nQuery: ', 'context': ''}batch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss |
|---|---|---|
| 0.0242 | 3 | 0.6319 |
| 0.0485 | 6 | 0.2005 |
| 0.0727 | 9 | 0.1443 |
| 0.0970 | 12 | 0.1130 |
| 0.1212 | 15 | 0.1057 |
| 0.1455 | 18 | 0.0985 |
| 0.1697 | 21 | 0.0986 |
| 0.1939 | 24 | 0.0921 |
| 0.2182 | 27 | 0.0837 |
| 0.2424 | 30 | 0.0845 |
| 0.2667 | 33 | 0.0793 |
| 0.2909 | 36 | 0.0752 |
| 0.3152 | 39 | 0.0797 |
| 0.3394 | 42 | 0.0745 |
| 0.3636 | 45 | 0.0812 |
| 0.3879 | 48 | 0.0711 |
| 0.4121 | 51 | 0.0803 |
| 0.4364 | 54 | 0.0761 |
| 0.4606 | 57 | 0.0785 |
| 0.4848 | 60 | 0.0714 |
| 0.5091 | 63 | 0.0719 |
| 0.5333 | 66 | 0.0736 |
| 0.5576 | 69 | 0.0745 |
| 0.5818 | 72 | 0.0718 |
| 0.6061 | 75 | 0.0720 |
| 0.6303 | 78 | 0.0750 |
| 0.6545 | 81 | 0.0690 |
| 0.6788 | 84 | 0.0719 |
| 0.7030 | 87 | 0.0716 |
| 0.7273 | 90 | 0.0723 |
| 0.7515 | 93 | 0.0731 |
| 0.7758 | 96 | 0.0670 |
| 0.8 | 99 | 0.0682 |
| 0.8242 | 102 | 0.0727 |
| 0.8485 | 105 | 0.0717 |
| 0.8727 | 108 | 0.0695 |
| 0.8970 | 111 | 0.0669 |
| 0.9212 | 114 | 0.0699 |
| 0.9455 | 117 | 0.0697 |
| 0.9697 | 120 | 0.0736 |
| 0.9939 | 123 | 0.0665 |
Training Time
- Training: 2.9 hours
Framework Versions
- Python: 3.12.13
- Sentence Transformers: 5.4.1
- Transformers: 5.5.4
- PyTorch: 2.11.0+cu130
- Accelerate: 1.13.0
- Datasets: 2.19.1
- Tokenizers: 0.22.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}