paraphrase-multilingual-MiniLM-L12-v2 fine-tuned on German mMARCO

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the csv dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for retrieval.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
Maximum Sequence Length: 256 tokens
Output Dimensionality: 384 dimensions
Similarity Function: Cosine Similarity
Supported Modality: Text
Training Dataset:
- csv
Language: de
License: apache-2.0

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'BertModel'})
  (1): Pooling({'embedding_dimension': 384, 'pooling_mode': 'mean', 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("tomaarsen/paraphrase-multilingual-MiniLM-L12-v2-de-mmarco")
# Run inference
queries = [
    'Welche Grafschaft ist Los Lunas?',
]
documents = [
    'Gesponserte Themen. Los Lunas ist ein Dorf im Landkreis Valencia, New Mexico, in den Vereinigten Staaten. Bei der Volkszählung von 2010 beträgt die Dorfbevölkerung 24.877 innerhalb der Dorfgrenzen aufgrund der neuen Wohnsiedlungen bei El Cerro de Los Lunas (Huning Ranch). Es ist die Kreisstadt des Landkreises Valencia. Los Lunas ist Teil des statistischen Metropolitangebiets von Albuquerque. Der Name Los Lunas ist eine teilweise Anglisierung des Namens der Familie Luna, die sich ursprünglich in der Gegend niederließ (los Luna, auf Spanisch).',
    'Der VISA-Fragebogen zu Achillessehnenschmerzen wurde entwickelt, um Symptome während der Rehabilitation zu messen. Eine MRT- oder Ultraschalluntersuchung kann das Ausmaß der Verletzung bestimmen und eine genaue Diagnose anzeigen. Lesen Sie mehr über Achilles-Symptome und Diagnose. Was ist eine Achillessehnenentzündung? Die Achillessehne ist die große Sehne an der Rückseite des Sprunggelenks. Es verbindet die großen Wadenmuskeln an der Rückseite des Unterschenkels mit dem Fuß und setzt an der Rückseite der Ferse oder des Fersenbeins ein. Es liefert die Kraft in der Abstoßphase des Gehens und Laufens, bei der enorme Kräfte über die Achillessehne übertragen werden. Eine Achillessehnenentzündung ist in der Regel eine Überlastungsverletzung, die dadurch verursacht wird, dass zu früh zu viel getan wird.',
    'Ein Erkältungsmittel, das in vielen Kulturen verwendet wird und warme Flüssigkeiten wie Hühnersuppe, Tee oder warmer Apfelsaft einnimmt, kann beruhigend sein und Verstopfungen lindern, indem es den Schleimfluss erhöht. Füge der Luft Feuchtigkeit hinzu. Ein Kaltnebel-Verdampfer oder -Luftbefeuchter kann Ihrem Zuhause Feuchtigkeit hinzufügen, was dazu beitragen kann, Staus zu lösen.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 384] [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[ 0.8540,  0.0020, -0.1023]])

Evaluation

Metrics

Information Retrieval

Dataset: mmarco-de-dev
Evaluated with InformationRetrievalEvaluator

Metric	Value
cosine_accuracy@1	0.8134
cosine_accuracy@10	0.9516
cosine_precision@10	0.0952
cosine_recall@10	0.9516
cosine_ndcg@10	0.8855
cosine_mrr@10	0.8641
cosine_map@100	0.8656

Training Details

Training Dataset

csv

Dataset: csv
Size: 532,751 training samples
Columns: query and passage
Approximate statistics based on the first 100 samples:
query passage
type string string

modality text text
details
min: 4 tokens
mean: 11.54 tokens
max: 44 tokens

min: 40 tokens
mean: 92.6 tokens
max: 228 tokens

	query	passage
type	string	string
modality	text	text
details	min: 4 tokens mean: 11.54 tokens max: 44 tokens	min: 40 tokens mean: 92.6 tokens max: 228 tokens

Samples:

query	passage
`) Welche unmittelbaren Auswirkungen hatte der Erfolg des Manhattan-Projekts?`	`Die Präsenz der Kommunikation unter wissenschaftlichen Köpfen war für den Erfolg des Manhattan-Projekts ebenso wichtig wie der wissenschaftliche Intellekt. Über der beeindruckenden Leistung der Atomforscher und -ingenieure schwebt nur, was ihr Erfolg wirklich bedeutete; Hunderttausende unschuldiger Leben ausgelöscht.`
`Die _________ Gerechtigkeit dient dazu, den Schaden, der dem Opfer, der Gemeinschaft und dem Täter durch die Straftat des Täters entstanden ist, wiedergutzumachen. Frage 19 Optionen:`	`Der Ansatz basiert auf einer Gerechtigkeitstheorie, die Verbrechen und Fehlverhalten als eine Straftat gegen eine Person oder eine Gemeinschaft und nicht gegen den Staat betrachtet. Restorative Justice, die den Dialog zwischen Opfern und Tätern fördert, hat die höchsten Raten bei der Opferzufriedenheit und der Verantwortlichkeit des Täters gezeigt.`
`welche farbe hat bernstein urin`	`Farbe Urin kann eine Vielzahl von Farben haben, meistens Gelbtöne, von sehr blass oder farblos bis sehr dunkel oder bernsteinfarben. Ungewöhnliche oder abnormale Urinfarben können das Ergebnis eines Krankheitsprozesses, mehrerer Medikamente (z. B. Multivitamine können den Urin hellgelb färben) oder das Ergebnis des Verzehrs bestimmter Lebensmittel sein.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false,
    "directions": [
        "query_to_doc"
    ],
    "partition_mode": "joint",
    "hardness_mode": null,
    "hardness_strength": 0.0
}

Evaluation Dataset

csv

Dataset: csv
Size: 5,000 evaluation samples
Columns: query and passage
Approximate statistics based on the first 100 samples:
query passage
type string string

modality text text
details
min: 4 tokens
mean: 11.24 tokens
max: 47 tokens

min: 19 tokens
mean: 87.72 tokens
max: 222 tokens

	query	passage
type	string	string
modality	text	text
details	min: 4 tokens mean: 11.24 tokens max: 47 tokens	min: 19 tokens mean: 87.72 tokens max: 222 tokens

Samples:

query	passage
`Wie viele Jahre war William Bradford Gouverneur der Plymouth-Kolonie?`	`http://en.wikipedia.org/wiki/William_Bradford_(Plymouth_Colony_governor) William Bradford (c.1590 ÃƒÂ¢Ã‚â‚¬Ã‚â€œ) war ein englischer Separatistenführer in Leiden, Holland und in der Plymouth Colony war ein Unterzeichner des Mayflower Compact. Zwischen 1621 und 1657 diente er fünfmal als Gouverneur der Kolonie Plymouth, etwa dreißig Jahre lang.`
`präventiv definieren`	`Adjektiv[Bearbeiten] präventiv ÃƒÂ¢Ã‚â'¬Ã‚Å½ (Vergleich präventiver, Superlativ am präventivsten) 1 Verhindern, behindern oder als Hindernis fungieren. Ausgeführt, um militärische Aggressionen abzuschrecken.`
`Farbüberlagerung Photoshop`	Photoshop: Farbüberlagerung. In meinem Tutorial zum Nachbessern bei Sonnenlicht habe ich Ihnen gezeigt, wie Sie Ihrem Foto einen Hauch von Farbe verleihen und ihm gleichzeitig einen zusätzlichen Schub verleihen. Manchmal kann ein Foto jedoch von ein wenig Farbe profitieren, aber es braucht diesen zusätzlichen Schub einfach nicht. Oder sogar eine kleine leichte Optimierung. Diese einfache Farbüberlagerung ist eine großartige Möglichkeit, einen Hauch von Farbe hinzuzufügen, ohne Ihr Foto aussehen zu lassen, als hätten Sie es bearbeitet. Oder um Schwarzweißfotos ein wenig Leben einzuhauchen. Hinweis: Dies funktioniert in Elements genauso wie in Photoshop.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false,
    "directions": [
        "query_to_doc"
    ],
    "partition_mode": "joint",
    "hardness_mode": null,
    "hardness_strength": 0.0
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 128
num_train_epochs: 1
learning_rate: 2e-05
warmup_steps: 0.1
weight_decay: 0.01
bf16: True
per_device_eval_batch_size: 128
load_best_model_at_end: True
seed: 12
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

per_device_train_batch_size: 128
num_train_epochs: 1
max_steps: -1
learning_rate: 2e-05
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_steps: 0.1
optim: adamw_torch_fused
optim_args: None
weight_decay: 0.01
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
optim_target_modules: None
gradient_accumulation_steps: 1
average_tokens_across_devices: True
max_grad_norm: 1.0
label_smoothing_factor: 0.0
bf16: True
fp16: False
bf16_full_eval: False
fp16_full_eval: False
tf32: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
use_liger_kernel: False
liger_kernel_config: None
use_cache: False
neftune_noise_alpha: None
torch_empty_cache_steps: None
auto_find_batch_size: False
log_on_each_node: True
logging_nan_inf_filter: True
include_num_input_tokens_seen: no
log_level: passive
log_level_replica: warning
disable_tqdm: False
project: huggingface
trackio_space_id: None
trackio_bucket_id: None
trackio_static_space_id: None
per_device_eval_batch_size: 128
prediction_loss_only: True
eval_on_start: False
eval_do_concat_batches: True
eval_use_gather_object: False
eval_accumulation_steps: None
include_for_metrics: []
batch_eval_metrics: False
save_only_model: False
save_on_each_node: False
enable_jit_checkpoint: False
push_to_hub: False
hub_private_repo: None
hub_model_id: None
hub_strategy: every_save
hub_always_push: False
hub_revision: None
load_best_model_at_end: True
ignore_data_skip: False
restore_callback_states_from_checkpoint: False
full_determinism: False
seed: 12
data_seed: None
use_cpu: False
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_pin_memory: True
dataloader_persistent_workers: False
dataloader_prefetch_factor: None
remove_unused_columns: True
label_names: None
train_sampling_strategy: random
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
ddp_static_graph: None
ddp_backend: None
ddp_timeout: 1800
fsdp: []
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
deepspeed: None
debug: []
skip_memory_metrics: True
do_predict: False
resume_from_checkpoint: None
warmup_ratio: None
local_rank: -1
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Click to expand

Epoch	Step	Training Loss	Validation Loss	mmarco-de-dev_cosine_ndcg@10
-1	-1	-	-	0.6720
0.0002	1	0.8093	-	-
0.0101	42	0.8158	-	-
0.0202	84	0.6453	-	-
0.0303	126	0.5415	-	-
0.0404	168	0.4446	-	-
0.0504	210	0.4240	-	-
0.0605	252	0.4242	-	-
0.0706	294	0.3941	-	-
0.0807	336	0.3653	-	-
0.0908	378	0.3574	-	-
0.1002	417	-	0.2585	0.8378
0.1009	420	0.3457	-	-
0.1110	462	0.3402	-	-
0.1211	504	0.3277	-	-
0.1312	546	0.3081	-	-
0.1412	588	0.3077	-	-
0.1513	630	0.3170	-	-
0.1614	672	0.2975	-	-
0.1715	714	0.2807	-	-
0.1816	756	0.2831	-	-
0.1917	798	0.2741	-	-
0.2003	834	-	0.2218	0.8584
0.2018	840	0.2715	-	-
0.2119	882	0.2706	-	-
0.2220	924	0.2700	-	-
0.2320	966	0.2780	-	-
0.2421	1008	0.2691	-	-
0.2522	1050	0.2734	-	-
0.2623	1092	0.2646	-	-
0.2724	1134	0.2572	-	-
0.2825	1176	0.2411	-	-
0.2926	1218	0.2555	-	-
0.3005	1251	-	0.2058	0.8656
0.3027	1260	0.2379	-	-
0.3128	1302	0.2456	-	-
0.3228	1344	0.2359	-	-
0.3329	1386	0.2336	-	-
0.3430	1428	0.2340	-	-
0.3531	1470	0.2277	-	-
0.3632	1512	0.2334	-	-
0.3733	1554	0.2517	-	-
0.3834	1596	0.2357	-	-
0.3935	1638	0.2221	-	-
0.4007	1668	-	0.1900	0.8718
0.4036	1680	0.2196	-	-
0.4136	1722	0.2041	-	-
0.4237	1764	0.2259	-	-
0.4338	1806	0.2294	-	-
0.4439	1848	0.2267	-	-
0.4540	1890	0.2100	-	-
0.4641	1932	0.2259	-	-
0.4742	1974	0.2258	-	-
0.4843	2016	0.2259	-	-
0.4944	2058	0.1948	-	-
0.5008	2085	-	0.1821	0.8760
0.5044	2100	0.2061	-	-
0.5145	2142	0.2259	-	-
0.5246	2184	0.2321	-	-
0.5347	2226	0.2163	-	-
0.5448	2268	0.2155	-	-
0.5549	2310	0.2245	-	-
0.5650	2352	0.2206	-	-
0.5751	2394	0.2137	-	-
0.5852	2436	0.2228	-	-
0.5952	2478	0.2066	-	-
0.6010	2502	-	0.1754	0.8802
0.6053	2520	0.2183	-	-
0.6154	2562	0.1991	-	-
0.6255	2604	0.1922	-	-
0.6356	2646	0.2000	-	-
0.6457	2688	0.2089	-	-
0.6558	2730	0.2033	-	-
0.6659	2772	0.2089	-	-
0.6760	2814	0.2045	-	-
0.6860	2856	0.1893	-	-
0.6961	2898	0.1995	-	-
0.7012	2919	-	0.1690	0.8838
0.7062	2940	0.1980	-	-
0.7163	2982	0.2013	-	-
0.7264	3024	0.2121	-	-
0.7365	3066	0.2061	-	-
0.7466	3108	0.1934	-	-
0.7567	3150	0.1882	-	-
0.7668	3192	0.1934	-	-
0.7768	3234	0.2033	-	-
0.7869	3276	0.1947	-	-
0.7970	3318	0.1962	-	-
0.8013	3336	-	0.1665	0.8840
0.8071	3360	0.2070	-	-
0.8172	3402	0.1874	-	-
0.8273	3444	0.1828	-	-
0.8374	3486	0.1753	-	-
0.8475	3528	0.1944	-	-
0.8576	3570	0.1932	-	-
0.8676	3612	0.2011	-	-
0.8777	3654	0.1971	-	-
0.8878	3696	0.1948	-	-
0.8979	3738	0.2059	-	-
0.9015	3753	-	0.1643	0.8848
0.9080	3780	0.1812	-	-
0.9181	3822	0.1950	-	-
0.9282	3864	0.1835	-	-
0.9383	3906	0.1943	-	-
0.9484	3948	0.1940	-	-
0.9584	3990	0.1934	-	-
0.9685	4032	0.1847	-	-
0.9786	4074	0.1824	-	-
0.9887	4116	0.1901	-	-
0.9988	4158	0.2035	-	-
1.0	4163	-	0.1637	0.8856
-1	-1	-	-	0.8855

The bold row denotes the saved checkpoint.

Training Time

Training: 21.7 minutes
Evaluation: 1.2 minutes
Total: 23.0 minutes

Framework Versions

Python: 3.11.6
Sentence Transformers: 5.5.0
Transformers: 5.6.2
PyTorch: 2.10.0+cu128
Accelerate: 1.13.0.dev0
Datasets: 4.8.4
Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}

Downloads last month: 7

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for tomaarsen/paraphrase-multilingual-MiniLM-L12-v2-de-mmarco

Base model

sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

Finetuned

(307)

this model

Papers for tomaarsen/paraphrase-multilingual-MiniLM-L12-v2-de-mmarco

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Paper • 1908.10084 • Published Aug 27, 2019 • 14

Representation Learning with Contrastive Predictive Coding

Paper • 1807.03748 • Published Jul 10, 2018 • 1

Evaluation results

Cosine Accuracy@1 on mmarco de dev
self-reported

0.813
Cosine Accuracy@10 on mmarco de dev
self-reported

0.952
Cosine Precision@10 on mmarco de dev
self-reported

0.095
Cosine Recall@10 on mmarco de dev
self-reported

0.952
Cosine Ndcg@10 on mmarco de dev
self-reported

0.885
Cosine Mrr@10 on mmarco de dev
self-reported

0.864
Cosine Map@100 on mmarco de dev
self-reported

0.866