paraphrase-multilingual-MiniLM-L12-v2 fine-tuned on German mMARCO
This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the csv dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for retrieval.
Model Details
Model Description
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'BertModel'})
(1): Pooling({'embedding_dimension': 384, 'pooling_mode': 'mean', 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("tomaarsen/paraphrase-multilingual-MiniLM-L12-v2-de-mmarco")
queries = [
'Welche Grafschaft ist Los Lunas?',
]
documents = [
'Gesponserte Themen. Los Lunas ist ein Dorf im Landkreis Valencia, New Mexico, in den Vereinigten Staaten. Bei der Volkszählung von 2010 beträgt die Dorfbevölkerung 24.877 innerhalb der Dorfgrenzen aufgrund der neuen Wohnsiedlungen bei El Cerro de Los Lunas (Huning Ranch). Es ist die Kreisstadt des Landkreises Valencia. Los Lunas ist Teil des statistischen Metropolitangebiets von Albuquerque. Der Name Los Lunas ist eine teilweise Anglisierung des Namens der Familie Luna, die sich ursprünglich in der Gegend niederließ (los Luna, auf Spanisch).',
'Der VISA-Fragebogen zu Achillessehnenschmerzen wurde entwickelt, um Symptome während der Rehabilitation zu messen. Eine MRT- oder Ultraschalluntersuchung kann das Ausmaß der Verletzung bestimmen und eine genaue Diagnose anzeigen. Lesen Sie mehr über Achilles-Symptome und Diagnose. Was ist eine Achillessehnenentzündung? Die Achillessehne ist die große Sehne an der Rückseite des Sprunggelenks. Es verbindet die großen Wadenmuskeln an der Rückseite des Unterschenkels mit dem Fuß und setzt an der Rückseite der Ferse oder des Fersenbeins ein. Es liefert die Kraft in der Abstoßphase des Gehens und Laufens, bei der enorme Kräfte über die Achillessehne übertragen werden. Eine Achillessehnenentzündung ist in der Regel eine Überlastungsverletzung, die dadurch verursacht wird, dass zu früh zu viel getan wird.',
'Ein Erkältungsmittel, das in vielen Kulturen verwendet wird und warme Flüssigkeiten wie Hühnersuppe, Tee oder warmer Apfelsaft einnimmt, kann beruhigend sein und Verstopfungen lindern, indem es den Schleimfluss erhöht. Füge der Luft Feuchtigkeit hinzu. Ein Kaltnebel-Verdampfer oder -Luftbefeuchter kann Ihrem Zuhause Feuchtigkeit hinzufügen, was dazu beitragen kann, Staus zu lösen.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
Evaluation
Metrics
Information Retrieval
| Metric |
Value |
| cosine_accuracy@1 |
0.8134 |
| cosine_accuracy@10 |
0.9516 |
| cosine_precision@10 |
0.0952 |
| cosine_recall@10 |
0.9516 |
| cosine_ndcg@10 |
0.8855 |
| cosine_mrr@10 |
0.8641 |
| cosine_map@100 |
0.8656 |
Training Details
Training Dataset
csv
- Dataset: csv
- Size: 532,751 training samples
- Columns:
query and passage
- Approximate statistics based on the first 100 samples:
|
query |
passage |
| type |
string |
string |
| modality |
text |
text |
| details |
- min: 4 tokens
- mean: 11.54 tokens
- max: 44 tokens
|
- min: 40 tokens
- mean: 92.6 tokens
- max: 228 tokens
|
- Samples:
| query |
passage |
) Welche unmittelbaren Auswirkungen hatte der Erfolg des Manhattan-Projekts? |
Die Präsenz der Kommunikation unter wissenschaftlichen Köpfen war für den Erfolg des Manhattan-Projekts ebenso wichtig wie der wissenschaftliche Intellekt. Über der beeindruckenden Leistung der Atomforscher und -ingenieure schwebt nur, was ihr Erfolg wirklich bedeutete; Hunderttausende unschuldiger Leben ausgelöscht. |
Die _________ Gerechtigkeit dient dazu, den Schaden, der dem Opfer, der Gemeinschaft und dem Täter durch die Straftat des Täters entstanden ist, wiedergutzumachen. Frage 19 Optionen: |
Der Ansatz basiert auf einer Gerechtigkeitstheorie, die Verbrechen und Fehlverhalten als eine Straftat gegen eine Person oder eine Gemeinschaft und nicht gegen den Staat betrachtet. Restorative Justice, die den Dialog zwischen Opfern und Tätern fördert, hat die höchsten Raten bei der Opferzufriedenheit und der Verantwortlichkeit des Täters gezeigt. |
welche farbe hat bernstein urin |
Farbe Urin kann eine Vielzahl von Farben haben, meistens Gelbtöne, von sehr blass oder farblos bis sehr dunkel oder bernsteinfarben. Ungewöhnliche oder abnormale Urinfarben können das Ergebnis eines Krankheitsprozesses, mehrerer Medikamente (z. B. Multivitamine können den Urin hellgelb färben) oder das Ergebnis des Verzehrs bestimmter Lebensmittel sein. |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Evaluation Dataset
csv
- Dataset: csv
- Size: 5,000 evaluation samples
- Columns:
query and passage
- Approximate statistics based on the first 100 samples:
|
query |
passage |
| type |
string |
string |
| modality |
text |
text |
| details |
- min: 4 tokens
- mean: 11.24 tokens
- max: 47 tokens
|
- min: 19 tokens
- mean: 87.72 tokens
- max: 222 tokens
|
- Samples:
| query |
passage |
Wie viele Jahre war William Bradford Gouverneur der Plymouth-Kolonie? |
http://en.wikipedia.org/wiki/William_Bradford_(Plymouth_Colony_governor) William Bradford (c.1590 –) war ein englischer Separatistenführer in Leiden, Holland und in der Plymouth Colony war ein Unterzeichner des Mayflower Compact. Zwischen 1621 und 1657 diente er fünfmal als Gouverneur der Kolonie Plymouth, etwa dreißig Jahre lang. |
präventiv definieren |
Adjektiv[Bearbeiten] präventiv âÂâ'¬Ã‚Ž (Vergleich präventiver, Superlativ am präventivsten) 1 Verhindern, behindern oder als Hindernis fungieren. Ausgeführt, um militärische Aggressionen abzuschrecken. |
Farbüberlagerung Photoshop |
Photoshop: Farbüberlagerung. In meinem Tutorial zum Nachbessern bei Sonnenlicht habe ich Ihnen gezeigt, wie Sie Ihrem Foto einen Hauch von Farbe verleihen und ihm gleichzeitig einen zusätzlichen Schub verleihen. Manchmal kann ein Foto jedoch von ein wenig Farbe profitieren, aber es braucht diesen zusätzlichen Schub einfach nicht. Oder sogar eine kleine leichte Optimierung. Diese einfache Farbüberlagerung ist eine großartige Möglichkeit, einen Hauch von Farbe hinzuzufügen, ohne Ihr Foto aussehen zu lassen, als hätten Sie es bearbeitet. Oder um Schwarzweißfotos ein wenig Leben einzuhauchen. Hinweis: Dies funktioniert in Elements genauso wie in Photoshop. |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 128
num_train_epochs: 1
learning_rate: 2e-05
warmup_steps: 0.1
weight_decay: 0.01
bf16: True
per_device_eval_batch_size: 128
load_best_model_at_end: True
seed: 12
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
per_device_train_batch_size: 128
num_train_epochs: 1
max_steps: -1
learning_rate: 2e-05
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_steps: 0.1
optim: adamw_torch_fused
optim_args: None
weight_decay: 0.01
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
optim_target_modules: None
gradient_accumulation_steps: 1
average_tokens_across_devices: True
max_grad_norm: 1.0
label_smoothing_factor: 0.0
bf16: True
fp16: False
bf16_full_eval: False
fp16_full_eval: False
tf32: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
use_liger_kernel: False
liger_kernel_config: None
use_cache: False
neftune_noise_alpha: None
torch_empty_cache_steps: None
auto_find_batch_size: False
log_on_each_node: True
logging_nan_inf_filter: True
include_num_input_tokens_seen: no
log_level: passive
log_level_replica: warning
disable_tqdm: False
project: huggingface
trackio_space_id: None
trackio_bucket_id: None
trackio_static_space_id: None
per_device_eval_batch_size: 128
prediction_loss_only: True
eval_on_start: False
eval_do_concat_batches: True
eval_use_gather_object: False
eval_accumulation_steps: None
include_for_metrics: []
batch_eval_metrics: False
save_only_model: False
save_on_each_node: False
enable_jit_checkpoint: False
push_to_hub: False
hub_private_repo: None
hub_model_id: None
hub_strategy: every_save
hub_always_push: False
hub_revision: None
load_best_model_at_end: True
ignore_data_skip: False
restore_callback_states_from_checkpoint: False
full_determinism: False
seed: 12
data_seed: None
use_cpu: False
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_pin_memory: True
dataloader_persistent_workers: False
dataloader_prefetch_factor: None
remove_unused_columns: True
label_names: None
train_sampling_strategy: random
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
ddp_static_graph: None
ddp_backend: None
ddp_timeout: 1800
fsdp: []
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
deepspeed: None
debug: []
skip_memory_metrics: True
do_predict: False
resume_from_checkpoint: None
warmup_ratio: None
local_rank: -1
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}
Training Logs
Click to expand
| Epoch |
Step |
Training Loss |
Validation Loss |
mmarco-de-dev_cosine_ndcg@10 |
| -1 |
-1 |
- |
- |
0.6720 |
| 0.0002 |
1 |
0.8093 |
- |
- |
| 0.0101 |
42 |
0.8158 |
- |
- |
| 0.0202 |
84 |
0.6453 |
- |
- |
| 0.0303 |
126 |
0.5415 |
- |
- |
| 0.0404 |
168 |
0.4446 |
- |
- |
| 0.0504 |
210 |
0.4240 |
- |
- |
| 0.0605 |
252 |
0.4242 |
- |
- |
| 0.0706 |
294 |
0.3941 |
- |
- |
| 0.0807 |
336 |
0.3653 |
- |
- |
| 0.0908 |
378 |
0.3574 |
- |
- |
| 0.1002 |
417 |
- |
0.2585 |
0.8378 |
| 0.1009 |
420 |
0.3457 |
- |
- |
| 0.1110 |
462 |
0.3402 |
- |
- |
| 0.1211 |
504 |
0.3277 |
- |
- |
| 0.1312 |
546 |
0.3081 |
- |
- |
| 0.1412 |
588 |
0.3077 |
- |
- |
| 0.1513 |
630 |
0.3170 |
- |
- |
| 0.1614 |
672 |
0.2975 |
- |
- |
| 0.1715 |
714 |
0.2807 |
- |
- |
| 0.1816 |
756 |
0.2831 |
- |
- |
| 0.1917 |
798 |
0.2741 |
- |
- |
| 0.2003 |
834 |
- |
0.2218 |
0.8584 |
| 0.2018 |
840 |
0.2715 |
- |
- |
| 0.2119 |
882 |
0.2706 |
- |
- |
| 0.2220 |
924 |
0.2700 |
- |
- |
| 0.2320 |
966 |
0.2780 |
- |
- |
| 0.2421 |
1008 |
0.2691 |
- |
- |
| 0.2522 |
1050 |
0.2734 |
- |
- |
| 0.2623 |
1092 |
0.2646 |
- |
- |
| 0.2724 |
1134 |
0.2572 |
- |
- |
| 0.2825 |
1176 |
0.2411 |
- |
- |
| 0.2926 |
1218 |
0.2555 |
- |
- |
| 0.3005 |
1251 |
- |
0.2058 |
0.8656 |
| 0.3027 |
1260 |
0.2379 |
- |
- |
| 0.3128 |
1302 |
0.2456 |
- |
- |
| 0.3228 |
1344 |
0.2359 |
- |
- |
| 0.3329 |
1386 |
0.2336 |
- |
- |
| 0.3430 |
1428 |
0.2340 |
- |
- |
| 0.3531 |
1470 |
0.2277 |
- |
- |
| 0.3632 |
1512 |
0.2334 |
- |
- |
| 0.3733 |
1554 |
0.2517 |
- |
- |
| 0.3834 |
1596 |
0.2357 |
- |
- |
| 0.3935 |
1638 |
0.2221 |
- |
- |
| 0.4007 |
1668 |
- |
0.1900 |
0.8718 |
| 0.4036 |
1680 |
0.2196 |
- |
- |
| 0.4136 |
1722 |
0.2041 |
- |
- |
| 0.4237 |
1764 |
0.2259 |
- |
- |
| 0.4338 |
1806 |
0.2294 |
- |
- |
| 0.4439 |
1848 |
0.2267 |
- |
- |
| 0.4540 |
1890 |
0.2100 |
- |
- |
| 0.4641 |
1932 |
0.2259 |
- |
- |
| 0.4742 |
1974 |
0.2258 |
- |
- |
| 0.4843 |
2016 |
0.2259 |
- |
- |
| 0.4944 |
2058 |
0.1948 |
- |
- |
| 0.5008 |
2085 |
- |
0.1821 |
0.8760 |
| 0.5044 |
2100 |
0.2061 |
- |
- |
| 0.5145 |
2142 |
0.2259 |
- |
- |
| 0.5246 |
2184 |
0.2321 |
- |
- |
| 0.5347 |
2226 |
0.2163 |
- |
- |
| 0.5448 |
2268 |
0.2155 |
- |
- |
| 0.5549 |
2310 |
0.2245 |
- |
- |
| 0.5650 |
2352 |
0.2206 |
- |
- |
| 0.5751 |
2394 |
0.2137 |
- |
- |
| 0.5852 |
2436 |
0.2228 |
- |
- |
| 0.5952 |
2478 |
0.2066 |
- |
- |
| 0.6010 |
2502 |
- |
0.1754 |
0.8802 |
| 0.6053 |
2520 |
0.2183 |
- |
- |
| 0.6154 |
2562 |
0.1991 |
- |
- |
| 0.6255 |
2604 |
0.1922 |
- |
- |
| 0.6356 |
2646 |
0.2000 |
- |
- |
| 0.6457 |
2688 |
0.2089 |
- |
- |
| 0.6558 |
2730 |
0.2033 |
- |
- |
| 0.6659 |
2772 |
0.2089 |
- |
- |
| 0.6760 |
2814 |
0.2045 |
- |
- |
| 0.6860 |
2856 |
0.1893 |
- |
- |
| 0.6961 |
2898 |
0.1995 |
- |
- |
| 0.7012 |
2919 |
- |
0.1690 |
0.8838 |
| 0.7062 |
2940 |
0.1980 |
- |
- |
| 0.7163 |
2982 |
0.2013 |
- |
- |
| 0.7264 |
3024 |
0.2121 |
- |
- |
| 0.7365 |
3066 |
0.2061 |
- |
- |
| 0.7466 |
3108 |
0.1934 |
- |
- |
| 0.7567 |
3150 |
0.1882 |
- |
- |
| 0.7668 |
3192 |
0.1934 |
- |
- |
| 0.7768 |
3234 |
0.2033 |
- |
- |
| 0.7869 |
3276 |
0.1947 |
- |
- |
| 0.7970 |
3318 |
0.1962 |
- |
- |
| 0.8013 |
3336 |
- |
0.1665 |
0.8840 |
| 0.8071 |
3360 |
0.2070 |
- |
- |
| 0.8172 |
3402 |
0.1874 |
- |
- |
| 0.8273 |
3444 |
0.1828 |
- |
- |
| 0.8374 |
3486 |
0.1753 |
- |
- |
| 0.8475 |
3528 |
0.1944 |
- |
- |
| 0.8576 |
3570 |
0.1932 |
- |
- |
| 0.8676 |
3612 |
0.2011 |
- |
- |
| 0.8777 |
3654 |
0.1971 |
- |
- |
| 0.8878 |
3696 |
0.1948 |
- |
- |
| 0.8979 |
3738 |
0.2059 |
- |
- |
| 0.9015 |
3753 |
- |
0.1643 |
0.8848 |
| 0.9080 |
3780 |
0.1812 |
- |
- |
| 0.9181 |
3822 |
0.1950 |
- |
- |
| 0.9282 |
3864 |
0.1835 |
- |
- |
| 0.9383 |
3906 |
0.1943 |
- |
- |
| 0.9484 |
3948 |
0.1940 |
- |
- |
| 0.9584 |
3990 |
0.1934 |
- |
- |
| 0.9685 |
4032 |
0.1847 |
- |
- |
| 0.9786 |
4074 |
0.1824 |
- |
- |
| 0.9887 |
4116 |
0.1901 |
- |
- |
| 0.9988 |
4158 |
0.2035 |
- |
- |
| 1.0 |
4163 |
- |
0.1637 |
0.8856 |
| -1 |
-1 |
- |
- |
0.8855 |
- The bold row denotes the saved checkpoint.
Training Time
- Training: 21.7 minutes
- Evaluation: 1.2 minutes
- Total: 23.0 minutes
Framework Versions
- Python: 3.11.6
- Sentence Transformers: 5.5.0
- Transformers: 5.6.2
- PyTorch: 2.10.0+cu128
- Accelerate: 1.13.0.dev0
- Datasets: 4.8.4
- Tokenizers: 0.22.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}