paraphrase-multilingual-MiniLM-L12-v2 fine-tuned on German mMARCO

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the csv dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for retrieval.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity
  • Supported Modality: Text
  • Training Dataset:
    • csv
  • Language: de
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'BertModel'})
  (1): Pooling({'embedding_dimension': 384, 'pooling_mode': 'mean', 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("tomaarsen/paraphrase-multilingual-MiniLM-L12-v2-de-mmarco")
# Run inference
queries = [
    'Welche Grafschaft ist Los Lunas?',
]
documents = [
    'Gesponserte Themen. Los Lunas ist ein Dorf im Landkreis Valencia, New Mexico, in den Vereinigten Staaten. Bei der Volkszählung von 2010 beträgt die Dorfbevölkerung 24.877 innerhalb der Dorfgrenzen aufgrund der neuen Wohnsiedlungen bei El Cerro de Los Lunas (Huning Ranch). Es ist die Kreisstadt des Landkreises Valencia. Los Lunas ist Teil des statistischen Metropolitangebiets von Albuquerque. Der Name Los Lunas ist eine teilweise Anglisierung des Namens der Familie Luna, die sich ursprünglich in der Gegend niederließ (los Luna, auf Spanisch).',
    'Der VISA-Fragebogen zu Achillessehnenschmerzen wurde entwickelt, um Symptome während der Rehabilitation zu messen. Eine MRT- oder Ultraschalluntersuchung kann das Ausmaß der Verletzung bestimmen und eine genaue Diagnose anzeigen. Lesen Sie mehr über Achilles-Symptome und Diagnose. Was ist eine Achillessehnenentzündung? Die Achillessehne ist die große Sehne an der Rückseite des Sprunggelenks. Es verbindet die großen Wadenmuskeln an der Rückseite des Unterschenkels mit dem Fuß und setzt an der Rückseite der Ferse oder des Fersenbeins ein. Es liefert die Kraft in der Abstoßphase des Gehens und Laufens, bei der enorme Kräfte über die Achillessehne übertragen werden. Eine Achillessehnenentzündung ist in der Regel eine Überlastungsverletzung, die dadurch verursacht wird, dass zu früh zu viel getan wird.',
    'Ein Erkältungsmittel, das in vielen Kulturen verwendet wird und warme Flüssigkeiten wie Hühnersuppe, Tee oder warmer Apfelsaft einnimmt, kann beruhigend sein und Verstopfungen lindern, indem es den Schleimfluss erhöht. Füge der Luft Feuchtigkeit hinzu. Ein Kaltnebel-Verdampfer oder -Luftbefeuchter kann Ihrem Zuhause Feuchtigkeit hinzufügen, was dazu beitragen kann, Staus zu lösen.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 384] [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[ 0.8540,  0.0020, -0.1023]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.8134
cosine_accuracy@10 0.9516
cosine_precision@10 0.0952
cosine_recall@10 0.9516
cosine_ndcg@10 0.8855
cosine_mrr@10 0.8641
cosine_map@100 0.8656

Training Details

Training Dataset

csv

  • Dataset: csv
  • Size: 532,751 training samples
  • Columns: query and passage
  • Approximate statistics based on the first 100 samples:
    query passage
    type string string
    modality text text
    details
    • min: 4 tokens
    • mean: 11.54 tokens
    • max: 44 tokens
    • min: 40 tokens
    • mean: 92.6 tokens
    • max: 228 tokens
  • Samples:
    query passage
    ) Welche unmittelbaren Auswirkungen hatte der Erfolg des Manhattan-Projekts? Die Präsenz der Kommunikation unter wissenschaftlichen Köpfen war für den Erfolg des Manhattan-Projekts ebenso wichtig wie der wissenschaftliche Intellekt. Über der beeindruckenden Leistung der Atomforscher und -ingenieure schwebt nur, was ihr Erfolg wirklich bedeutete; Hunderttausende unschuldiger Leben ausgelöscht.
    Die _________ Gerechtigkeit dient dazu, den Schaden, der dem Opfer, der Gemeinschaft und dem Täter durch die Straftat des Täters entstanden ist, wiedergutzumachen. Frage 19 Optionen: Der Ansatz basiert auf einer Gerechtigkeitstheorie, die Verbrechen und Fehlverhalten als eine Straftat gegen eine Person oder eine Gemeinschaft und nicht gegen den Staat betrachtet. Restorative Justice, die den Dialog zwischen Opfern und Tätern fördert, hat die höchsten Raten bei der Opferzufriedenheit und der Verantwortlichkeit des Täters gezeigt.
    welche farbe hat bernstein urin Farbe Urin kann eine Vielzahl von Farben haben, meistens Gelbtöne, von sehr blass oder farblos bis sehr dunkel oder bernsteinfarben. Ungewöhnliche oder abnormale Urinfarben können das Ergebnis eines Krankheitsprozesses, mehrerer Medikamente (z. B. Multivitamine können den Urin hellgelb färben) oder das Ergebnis des Verzehrs bestimmter Lebensmittel sein.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Evaluation Dataset

csv

  • Dataset: csv
  • Size: 5,000 evaluation samples
  • Columns: query and passage
  • Approximate statistics based on the first 100 samples:
    query passage
    type string string
    modality text text
    details
    • min: 4 tokens
    • mean: 11.24 tokens
    • max: 47 tokens
    • min: 19 tokens
    • mean: 87.72 tokens
    • max: 222 tokens
  • Samples:
    query passage
    Wie viele Jahre war William Bradford Gouverneur der Plymouth-Kolonie? http://en.wikipedia.org/wiki/William_Bradford_(Plymouth_Colony_governor) William Bradford (c.1590 –) war ein englischer Separatistenführer in Leiden, Holland und in der Plymouth Colony war ein Unterzeichner des Mayflower Compact. Zwischen 1621 und 1657 diente er fünfmal als Gouverneur der Kolonie Plymouth, etwa dreißig Jahre lang.
    präventiv definieren Adjektiv[Bearbeiten] präventiv âÂâ'¬Ã‚Ž (Vergleich präventiver, Superlativ am präventivsten) 1 Verhindern, behindern oder als Hindernis fungieren. Ausgeführt, um militärische Aggressionen abzuschrecken.
    Farbüberlagerung Photoshop Photoshop: Farbüberlagerung. In meinem Tutorial zum Nachbessern bei Sonnenlicht habe ich Ihnen gezeigt, wie Sie Ihrem Foto einen Hauch von Farbe verleihen und ihm gleichzeitig einen zusätzlichen Schub verleihen. Manchmal kann ein Foto jedoch von ein wenig Farbe profitieren, aber es braucht diesen zusätzlichen Schub einfach nicht. Oder sogar eine kleine leichte Optimierung. Diese einfache Farbüberlagerung ist eine großartige Möglichkeit, einen Hauch von Farbe hinzuzufügen, ohne Ihr Foto aussehen zu lassen, als hätten Sie es bearbeitet. Oder um Schwarzweißfotos ein wenig Leben einzuhauchen. Hinweis: Dies funktioniert in Elements genauso wie in Photoshop.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 128
  • num_train_epochs: 1
  • learning_rate: 2e-05
  • warmup_steps: 0.1
  • weight_decay: 0.01
  • bf16: True
  • per_device_eval_batch_size: 128
  • load_best_model_at_end: True
  • seed: 12
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 128
  • num_train_epochs: 1
  • max_steps: -1
  • learning_rate: 2e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 1
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: True
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: None
  • trackio_bucket_id: None
  • trackio_static_space_id: None
  • per_device_eval_batch_size: 128
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 12
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_static_graph: None
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss mmarco-de-dev_cosine_ndcg@10
-1 -1 - - 0.6720
0.0002 1 0.8093 - -
0.0101 42 0.8158 - -
0.0202 84 0.6453 - -
0.0303 126 0.5415 - -
0.0404 168 0.4446 - -
0.0504 210 0.4240 - -
0.0605 252 0.4242 - -
0.0706 294 0.3941 - -
0.0807 336 0.3653 - -
0.0908 378 0.3574 - -
0.1002 417 - 0.2585 0.8378
0.1009 420 0.3457 - -
0.1110 462 0.3402 - -
0.1211 504 0.3277 - -
0.1312 546 0.3081 - -
0.1412 588 0.3077 - -
0.1513 630 0.3170 - -
0.1614 672 0.2975 - -
0.1715 714 0.2807 - -
0.1816 756 0.2831 - -
0.1917 798 0.2741 - -
0.2003 834 - 0.2218 0.8584
0.2018 840 0.2715 - -
0.2119 882 0.2706 - -
0.2220 924 0.2700 - -
0.2320 966 0.2780 - -
0.2421 1008 0.2691 - -
0.2522 1050 0.2734 - -
0.2623 1092 0.2646 - -
0.2724 1134 0.2572 - -
0.2825 1176 0.2411 - -
0.2926 1218 0.2555 - -
0.3005 1251 - 0.2058 0.8656
0.3027 1260 0.2379 - -
0.3128 1302 0.2456 - -
0.3228 1344 0.2359 - -
0.3329 1386 0.2336 - -
0.3430 1428 0.2340 - -
0.3531 1470 0.2277 - -
0.3632 1512 0.2334 - -
0.3733 1554 0.2517 - -
0.3834 1596 0.2357 - -
0.3935 1638 0.2221 - -
0.4007 1668 - 0.1900 0.8718
0.4036 1680 0.2196 - -
0.4136 1722 0.2041 - -
0.4237 1764 0.2259 - -
0.4338 1806 0.2294 - -
0.4439 1848 0.2267 - -
0.4540 1890 0.2100 - -
0.4641 1932 0.2259 - -
0.4742 1974 0.2258 - -
0.4843 2016 0.2259 - -
0.4944 2058 0.1948 - -
0.5008 2085 - 0.1821 0.8760
0.5044 2100 0.2061 - -
0.5145 2142 0.2259 - -
0.5246 2184 0.2321 - -
0.5347 2226 0.2163 - -
0.5448 2268 0.2155 - -
0.5549 2310 0.2245 - -
0.5650 2352 0.2206 - -
0.5751 2394 0.2137 - -
0.5852 2436 0.2228 - -
0.5952 2478 0.2066 - -
0.6010 2502 - 0.1754 0.8802
0.6053 2520 0.2183 - -
0.6154 2562 0.1991 - -
0.6255 2604 0.1922 - -
0.6356 2646 0.2000 - -
0.6457 2688 0.2089 - -
0.6558 2730 0.2033 - -
0.6659 2772 0.2089 - -
0.6760 2814 0.2045 - -
0.6860 2856 0.1893 - -
0.6961 2898 0.1995 - -
0.7012 2919 - 0.1690 0.8838
0.7062 2940 0.1980 - -
0.7163 2982 0.2013 - -
0.7264 3024 0.2121 - -
0.7365 3066 0.2061 - -
0.7466 3108 0.1934 - -
0.7567 3150 0.1882 - -
0.7668 3192 0.1934 - -
0.7768 3234 0.2033 - -
0.7869 3276 0.1947 - -
0.7970 3318 0.1962 - -
0.8013 3336 - 0.1665 0.8840
0.8071 3360 0.2070 - -
0.8172 3402 0.1874 - -
0.8273 3444 0.1828 - -
0.8374 3486 0.1753 - -
0.8475 3528 0.1944 - -
0.8576 3570 0.1932 - -
0.8676 3612 0.2011 - -
0.8777 3654 0.1971 - -
0.8878 3696 0.1948 - -
0.8979 3738 0.2059 - -
0.9015 3753 - 0.1643 0.8848
0.9080 3780 0.1812 - -
0.9181 3822 0.1950 - -
0.9282 3864 0.1835 - -
0.9383 3906 0.1943 - -
0.9484 3948 0.1940 - -
0.9584 3990 0.1934 - -
0.9685 4032 0.1847 - -
0.9786 4074 0.1824 - -
0.9887 4116 0.1901 - -
0.9988 4158 0.2035 - -
1.0 4163 - 0.1637 0.8856
-1 -1 - - 0.8855
  • The bold row denotes the saved checkpoint.

Training Time

  • Training: 21.7 minutes
  • Evaluation: 1.2 minutes
  • Total: 23.0 minutes

Framework Versions

  • Python: 3.11.6
  • Sentence Transformers: 5.5.0
  • Transformers: 5.6.2
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.13.0.dev0
  • Datasets: 4.8.4
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}
Downloads last month
7
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for tomaarsen/paraphrase-multilingual-MiniLM-L12-v2-de-mmarco

Papers for tomaarsen/paraphrase-multilingual-MiniLM-L12-v2-de-mmarco

Evaluation results