2D Matryoshka Sentence Embeddings
Paper • 2402.14776 • Published • 8
How to use akhooli/sbert_nli_test_m with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("akhooli/sbert_nli_test_m")
sentences = [
"كم فدان بحيرة رونكونكوما",
"أبعاد بحيرة Ronkonkoma - تختلف من 215 فدانًا عندما يكون هناك جفاف إلى 275 فدانًا عندما تكون هناك ظروف غمرتها المياه. - متوسط العمق 14.5 قدم. - أعمق أعماق 45 قدم. و 90 قدمًا. في المناطق الجنوبية الغربية.",
"يقع Alpine Lake Resort في أعالي جبال West Virginia Alleghenies ، على بعد 25 دقيقة فقط من مناطق الجذب السياحي Deep Creek Lake وساعة واحدة من Morgantown WV ، ويقع على مساحة 2000 فدان مشجرة بكثافة مع ملعب غولف من 18 حفرة حائز على جوائز وبحيرة نقية مساحتها 150 فدانًا تغذيها الينابيع والجداول الجبلية كنقطة محورية للمنتجع.",
"إجابة جيكم يونغ. صوت الثقة 36.1 ألف. مايكل دي هيغينز هو رئيس أيرلندا. تم انتخابه كرئيس 9th لأيرلندا وتولى منصبه في 11 نوفمبر 2011 لمدة 7 سنوات ، وبالتالي يجب أن يظل في منصبه حتى نوفمبر 2018."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from aubmindlab/bert-base-arabertv02. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'هل يمكنك تناول lortab أثناء الحمل',
'نعم ، هل يمكنني تناول عقار لورتاب 10 طوال فترة حملي بسبب وجود ورم في مبيضي وفي كثير من الألم بسبب نمو الطفل والضغط عليه ، لذلك لمدة 9 أشهر كنت أعاني من مسكنات الألم كنت قلقة من البداية ولكن بعد ذلك بالتحدث مع طبيبي وحماتي التي هي RN وجدت الأمر على ما يرام.',
'حتى أن بعض النساء لا يلاحظن نزيفًا أو تشنجًا عند الانغراس ، لذلك لا تقلقي إذا كنتِ تحاولين الحمل ولا تعانين من هذه الأعراض ؛ لا يزال من الممكن أن تكوني حامل. الدورة الشهرية المتأخرة أو الفائتة: تأخر الدورة الشهرية أو ضياعها هو أكثر أعراض الحمل شيوعًا التي تدفع المرأة إلى اختبار الحمل. عندما تصبحي حاملاً ، يجب تفويت الدورة التالية. ومع ذلك ، يمكن أن تنزف بعض النساء أثناء الحمل ، ولكن عادةً ما يكون هذا النزيف أقصر أو أخف من الدورة العادية.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
eval_strategy: stepsper_device_train_batch_size: 16per_device_eval_batch_size: 16learning_rate: 2e-05num_train_epochs: 1warmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseeval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseeval_use_gather_object: Falsebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss |
|---|---|---|
| 0.032 | 100 | 3.9312 |
| 0.064 | 200 | 2.1973 |
| 0.096 | 300 | 1.523 |
| 0.128 | 400 | 1.1944 |
| 0.16 | 500 | 1.0914 |
| 0.192 | 600 | 1.0172 |
| 0.224 | 700 | 0.8261 |
| 0.256 | 800 | 0.9473 |
| 0.288 | 900 | 0.9046 |
| 0.32 | 1000 | 0.815 |
| 0.352 | 1100 | 0.7333 |
| 0.384 | 1200 | 0.813 |
| 0.416 | 1300 | 0.8193 |
| 0.448 | 1400 | 0.8222 |
| 0.48 | 1500 | 0.7751 |
| 0.512 | 1600 | 0.7857 |
| 0.544 | 1700 | 0.7048 |
| 0.576 | 1800 | 0.7802 |
| 0.608 | 1900 | 0.7697 |
| 0.64 | 2000 | 0.697 |
| 0.672 | 2100 | 0.697 |
| 0.704 | 2200 | 0.6942 |
| 0.736 | 2300 | 0.6768 |
| 0.768 | 2400 | 0.6977 |
| 0.8 | 2500 | 0.6711 |
| 0.832 | 2600 | 0.6951 |
| 0.864 | 2700 | 0.7179 |
| 0.896 | 2800 | 0.6223 |
| 0.928 | 2900 | 0.7334 |
| 0.96 | 3000 | 0.6948 |
| 0.992 | 3100 | 0.6982 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{li20242d,
title={2D Matryoshka Sentence Embeddings},
author={Xianming Li and Zongxi Li and Jing Li and Haoran Xie and Qing Li},
year={2024},
eprint={2402.14776},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
aubmindlab/bert-base-arabertv02