Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 15
How to use HiTZ/jina-reranker-v2-base-multilingual-contrastive-berria-5ep with sentence-transformers:
from sentence_transformers import CrossEncoder
model = CrossEncoder("HiTZ/jina-reranker-v2-base-multilingual-contrastive-berria-5ep", trust_remote_code=True)
query = "Which planet is known as the Red Planet?"
passages = [
"Venus is often called Earth's twin because of its similar size and proximity.",
"Mars, known for its reddish appearance, is often referred to as the Red Planet.",
"Jupiter, the largest planet in our solar system, has a prominent red spot.",
"Saturn, famous for its rings, is sometimes mistaken for the Red Planet."
]
scores = model.predict([(query, passage) for passage in passages])
print(scores)This is a Cross Encoder model finetuned from jinaai/jina-reranker-v2-base-multilingual using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
# Download from the 🤗 Hub
model = CrossEncoder("cross_encoder_model_id")
# Get scores for pairs of texts
pairs = [
['Zer ondorio izan ditzake euskarazko hiztegi zientifiko modernorik ez izateak euskal komunitate akademikoarentzat?', 'Hiztegi zientifiko modernoa garatzea\n\nBestalde, euskarazko hiztegi zientifiko modernoa garatzea ezinbestekoa da. Medikuntzatik adimen artifizialera, fisikatik soziologiara, jakintza-arlo guztiek behar dituzte kontzeptu egokiak euskaraz adierazteko. Hori gabe, ikertzaile euskaldunek gero eta gehiago joko dute ingelesera, eta belaunaldi berrientzat zailagoa izango da euskarazko ekoizpen akademikoari eustea. Terminologia egokirik gabe, esparru askotan euskara erabilgarritasuna galtzen ari da, eta horrek ondorio sakonak izan ditzake.\n\nZientziaren eta teknologiaren esparruetan terminologia adostu eta garatzeko lanak martxan jarri behar dira, eta horretarako, instituzioek eta adituek lankidetza estua izan behar dute. Esaterako, EHUren UZEI hiztegi terminologikoa eta Euskaltzaindiaren terminologia-batzordeak ezinbestekoak dira lan honetan. Baina ahaleginak ez dira nahikoak: adituen, irakasleen eta ikertzaileen komunitateak aktiboki parte hartu behar du hiztegi hori osatzeko eta eguneratzeko.\n\nIngelesaren menpekotasunak dakartzan arriskuak\n\nIngelesez soilik argitaratzearen arriskua ez da hizkuntzaren erabilera galtzea bakarrik; ezagutza bera ere galtzen da. Euskal komunitate akademikoak ingelesa erabiltzen badu, baina euskarazko bertsiorik ez badago, gure gizartean jakintza horren transmisioa mugatua izango da. Horrek eragin zuzena du unibertsitateko ikasketetan, baita ikerketa-lanen dibulgazioan ere.\n\nGainera, hizkuntza bakoitzak mundua ulertzeko modu propioa du; pentsatzeko eta ikertzeko moduak baldintzatzen ditu. Ingelesak pentsamendu zientifikoa estandarizatzen badu, euskara bezalako hizkuntzek beren ekarpen propioak galtzeko arriskua dute. Pentsamendu kritikoa sustatu nahi bada, ezinbestekoa da hizkuntza ezberdinetan ikertu eta pentsatzea.\n\nHonekin batera, kontuan hartu behar da hizkuntza hegemoniko bakarra erabiltzeak norbanakoen eta komunitateen menpekotasuna handitzen duela. Ingelesaren nagusitasunak jakintza-iturriak kontrolatzen dituzten erakundeen esku uzten du ezagutza, eta euskaldunek gero eta zailtasun handiagoak dituzte informazioa eskuratzeko eta sortzeko.\n\nEuskarazko ikerketa sustatu'],
['Zein dira Bertsozale Elkartearen gogoeta estrategikoaren ardatz nagusiak?', '«[Elkartea] Noizean behin jende berria lantaldeetara ekartzen saiatu behar da. Jende desberdina igaro dadila, bertsolaritzaren ertz desberdinetatik».\n\nAINHOA URIEN Gai jartzailea\n\nElkartearen gogoeta estrategikoa aipatu duzue. Zeintzuk dira bertan azaltzen diren ildoak?\n\nURIEN: 2018an egindako gogoeta estrategikoan, erabaki zen feminismoaren, lurraldetasunaren eta belaunaldi-artekotasunaren ardatzen gainean lan egingo zela. Nabarmendu nahiko nuke ez dela paperaren gainean geratu zen zerbait. Feminismoari dagokionez, ahalduntze bertso-eskolak daude. Lurraldetasunaren ikuspegitik, Euskal Herriko Txapelketako finala Iruñean egitea apustua izan zen. Belaunaldien arteko harremana bermatzeko, bertso udalekuak antolatzen dira, esaterako. Elkarteak egiten duen beste lan garrantzitsu bat da bertso munduan sortzen diren beste proiektu autonomo batzuk bultzatzea. Horrek ez du esan nahi bertsolaritzarekin zerikusia duen guztia elkarteak hartu behar duenik. Bertsolaritza mugimenduan dagoen zerbait da, eta momentu honetan indar handia du.\n\nMugimendu hori aberasgarria izango da elkartearentzat.\n\nENBEITA: Elkartearen ezaugarri onetako bat da mugimendu horretara egokitzen dela. Bertsolaritza askotarikoa da, mugimenduan dago, eta kontrolaezina da. Egiten utzi behar da, eta laguntza behar duenari, laguntza eman. Oso ona da jakitea elkarte batek babesa ematen digula horren inguruan mugitzen garen guztiok behar dugun edozer gauzatarako.\n\nURIEN: Elkartearen lana ere bada gauza batzuk eragitea eta sustatzea: txapelketak, proiektuak... Baina autoeratu diren beste mugimendu batzuen lokarri lana egin behar du; azken finean, Bertsozale Elkartea autoeratu den mugimendu bat da.\n\nHorregatik dago, azken finean, elkartea orain dagoen tokian.'],
['Zein film laburrek irabazi dute Sail Ofizialeko Film Luzerik Onenarentzako Publikoaren Saria eta Epaimahai Gaztearen Sail Ofizialeko Film Onenaren Saria?', 'Ikuspegia izeneko atalean ere hiru sari izan dira. Daniel Moreno Garciaren He soñado con olas filmarentzat izan da Film Luzerik Onenaren Saria, eta Victor Wamerdamen Ik ben geen robot lanarentzat laburrik onenarena. Tamara Garcia ekoizlea, Marta Salvador gidoigilea eta Oscar Salazar kazetaria izan dira sail horretako epaimahaiko kideak. Eta kalitate orokorra nabarmendu dute haiek ere. Edonola ere, erabakia «ia aho batez» hartu dutela ere zehaztu dute.\n\nBestalde, Siyi Liu zuzendariaren San gui Quing Shi filma bereziki nabarmendu da. Hark jaso du Sail Ofizialeko Film Luzerik Onenarentzako Publikoaren Saria, bai eta Epaimahai Gaztearen Sail Ofizialeko Film Onenaren Saria ere. Eta Raul Mongeren La ley del más fuerte izan da ikusleen ustez Sail Ofizialeko laburrik onena.\n\nHorrez gain, Usue Alvarez eta Urko Olazabal aktoreek jaso dute Euskal Film Laburretako Interpretazio Onenaren Saria, Deadly Draw filmean egindako lanagatik. Pascal Plante zuzendariaren Red rooms filmaren gidoia nabarmendu du Euskal Gidoigileen Elkartearen Sariak.\n\nBeka eta saritutako lanen proiekzioa\n\nAldaketa egin du antolakuntzak sariekin aurten. Saritutako film laburrek bakarrik jaso dute sari ekonomikoa. Sail Ofizialeko irabazleak eta ikusleek aukeratutakoak, esaterako, 3.000 eurokoa; euskal film laburrik onenak, 2.500 eurokoa; eta Ikuspegi saileko film laburrik onenak, 1.750 eurokoa. Hala, euskarazko film bat egiteko beka bat sortzeko baliatu dute orain arte film luzeentzat izan ohi ziren sariak. Horregatik, 5.000 euroko laguntza jasoko du Amaia San Sebastianek Olentzerori eskatu nion filma ekoizteko.\n\nSeizeren banpiroak ez ezik, saritutako gainerako lanak ere proiektatuko ditu jaialdiak bihar. BBK Salan izango da hori. 17:00etan emango dituzte Ikuspegi sailekoak, eta 19:00etan Sail Ofizialekoak.\n\n\n\nLamberto Bava: «Zuzendari bakoitzak du bere kontatzeko modua»'],
['Zein dira Pilota Zazpi Haizetara taldearen helburu nagusiak Euskadiko Pilota Federazioa zuzentzeko?', 'JOXE MARI MITXELENA. Pilota Zazpi Haizetara taldearen hautagaia.\n\n«Kluben kluba izan nahi dugu, eta euskara federazioaren esparru guztietan indartu»\n\n\n\nJoxe Mari Mitxelena. BERRIA\n\n1. «Pilotaren mesedetan zerbait egin dezakegula uste dugulako aurkeztu gara. Ideia berriak ditugu, eta horiek egiteko gogoa eta ilusioa; lan egiteko prest gaude. Lantaldeko hamalau pertsonetatik bederatzi gabiltza klubetako zuzendaritza batzordeetan; hau da, oinarritik sortutako mugimendu bat da gurea».\n\n2. «Batetik, kluben kluba izan nahi dugu, eta klub baten gisan jardun. Asko hitz egiten da euskal selekzioaz eta pilota profesionalaz, baina klubik gabe hori guztia ez litzateke posible izango. Hori dela eta, klubak indartu, babestu eta lagundu nahi ditugu, eta haien kezkak entzun eta aurrera eraman. Bestetik, euskara indartu nahi dugu federazioaren esparru guztietan, guretzat pilota eta euskara bat direlako; kirol bakarra da gure herriaren hizkuntza eta izena daramatzana. Lan hori egiteko oso aproposak diren bi lagun ditugu lantaldean: bata, Asier Amondo hamar urtez Korrikako arduradun izandakoa, eta bestea, Oier Zearra pilotari ohia. Euskadiko Pilota Federazioak Bikain ziurtagiria du, baina horretatik haratago joan nahi dugu».\n\n3. «Pixkanaka-pixkanaka, lizentzia kopurua behera egiten ari da. Horri buelta eman nahi diogu, pentsatzen baitugu oraindik egin daitezkeela gauzak edo egiten ari direnak hobetu daitezkeela joera horri buelta emateko. Nagusiki, gure txapelketak indartu nahi ditugu, Euskal Herrikoak. Ez dugu nahi gure pilotariek Espainiako Txapelketak jokatzea diru sariengatik edo mailagatik. Bote luzeak, adibidez, azpiegitura sendoa du, eta finkatuta dago. Hego eta Ipar Euskal Herriko pilotariek jokatzen dute. Horixe egin nahi dugu beste modalitateetan».'],
['Zein ordutan hasiko da haurren danborrada Azpeitian San Sebastian egunean?', 'Azken urteetan egin duten bezala, karroza handi bat aterako da haur danborradarekin batera, XIX. mendeko pertsonaiak irudikatzeko: alkatea, notarioa, batelaria, arrantzalea, irulea... Santa Teresa ikastetxeko ikasleei egokitu zaie aurten horien rola jokatzeko ardura.\n\nBaina Donostia ez da San Sebastian eguna ospatzen duen leku bakarra. Urtero bezala, Azpeitiko (Gipuzkoa) herritarrek ere gogoz astinduko dituzte upelak eta danborrak etzi. 30 konpainiak parte hartuko dute. Elkarteetan afaldu ostean, 22:00etan hasiko dute festa, Olazko Andre Mariaren plazatik abiatuta. Gauerdian elkartuko dira talde guztiak herriko plazan, San Sebastian martxa eta danborradako gainerako piezak jotzeko. Azpeitian ere egingo dute haurren danborrada, etzi, 12:30ean hasita; Arana Kaletik eta Artzubia hiribidetik atera, eta kalez kale ibiliko dira hamar talde.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)
# Or rank different texts based on similarity to a single text
ranks = model.rank(
'Zer ondorio izan ditzake euskarazko hiztegi zientifiko modernorik ez izateak euskal komunitate akademikoarentzat?',
[
'Hiztegi zientifiko modernoa garatzea\n\nBestalde, euskarazko hiztegi zientifiko modernoa garatzea ezinbestekoa da. Medikuntzatik adimen artifizialera, fisikatik soziologiara, jakintza-arlo guztiek behar dituzte kontzeptu egokiak euskaraz adierazteko. Hori gabe, ikertzaile euskaldunek gero eta gehiago joko dute ingelesera, eta belaunaldi berrientzat zailagoa izango da euskarazko ekoizpen akademikoari eustea. Terminologia egokirik gabe, esparru askotan euskara erabilgarritasuna galtzen ari da, eta horrek ondorio sakonak izan ditzake.\n\nZientziaren eta teknologiaren esparruetan terminologia adostu eta garatzeko lanak martxan jarri behar dira, eta horretarako, instituzioek eta adituek lankidetza estua izan behar dute. Esaterako, EHUren UZEI hiztegi terminologikoa eta Euskaltzaindiaren terminologia-batzordeak ezinbestekoak dira lan honetan. Baina ahaleginak ez dira nahikoak: adituen, irakasleen eta ikertzaileen komunitateak aktiboki parte hartu behar du hiztegi hori osatzeko eta eguneratzeko.\n\nIngelesaren menpekotasunak dakartzan arriskuak\n\nIngelesez soilik argitaratzearen arriskua ez da hizkuntzaren erabilera galtzea bakarrik; ezagutza bera ere galtzen da. Euskal komunitate akademikoak ingelesa erabiltzen badu, baina euskarazko bertsiorik ez badago, gure gizartean jakintza horren transmisioa mugatua izango da. Horrek eragin zuzena du unibertsitateko ikasketetan, baita ikerketa-lanen dibulgazioan ere.\n\nGainera, hizkuntza bakoitzak mundua ulertzeko modu propioa du; pentsatzeko eta ikertzeko moduak baldintzatzen ditu. Ingelesak pentsamendu zientifikoa estandarizatzen badu, euskara bezalako hizkuntzek beren ekarpen propioak galtzeko arriskua dute. Pentsamendu kritikoa sustatu nahi bada, ezinbestekoa da hizkuntza ezberdinetan ikertu eta pentsatzea.\n\nHonekin batera, kontuan hartu behar da hizkuntza hegemoniko bakarra erabiltzeak norbanakoen eta komunitateen menpekotasuna handitzen duela. Ingelesaren nagusitasunak jakintza-iturriak kontrolatzen dituzten erakundeen esku uzten du ezagutza, eta euskaldunek gero eta zailtasun handiagoak dituzte informazioa eskuratzeko eta sortzeko.\n\nEuskarazko ikerketa sustatu',
'«[Elkartea] Noizean behin jende berria lantaldeetara ekartzen saiatu behar da. Jende desberdina igaro dadila, bertsolaritzaren ertz desberdinetatik».\n\nAINHOA URIEN Gai jartzailea\n\nElkartearen gogoeta estrategikoa aipatu duzue. Zeintzuk dira bertan azaltzen diren ildoak?\n\nURIEN: 2018an egindako gogoeta estrategikoan, erabaki zen feminismoaren, lurraldetasunaren eta belaunaldi-artekotasunaren ardatzen gainean lan egingo zela. Nabarmendu nahiko nuke ez dela paperaren gainean geratu zen zerbait. Feminismoari dagokionez, ahalduntze bertso-eskolak daude. Lurraldetasunaren ikuspegitik, Euskal Herriko Txapelketako finala Iruñean egitea apustua izan zen. Belaunaldien arteko harremana bermatzeko, bertso udalekuak antolatzen dira, esaterako. Elkarteak egiten duen beste lan garrantzitsu bat da bertso munduan sortzen diren beste proiektu autonomo batzuk bultzatzea. Horrek ez du esan nahi bertsolaritzarekin zerikusia duen guztia elkarteak hartu behar duenik. Bertsolaritza mugimenduan dagoen zerbait da, eta momentu honetan indar handia du.\n\nMugimendu hori aberasgarria izango da elkartearentzat.\n\nENBEITA: Elkartearen ezaugarri onetako bat da mugimendu horretara egokitzen dela. Bertsolaritza askotarikoa da, mugimenduan dago, eta kontrolaezina da. Egiten utzi behar da, eta laguntza behar duenari, laguntza eman. Oso ona da jakitea elkarte batek babesa ematen digula horren inguruan mugitzen garen guztiok behar dugun edozer gauzatarako.\n\nURIEN: Elkartearen lana ere bada gauza batzuk eragitea eta sustatzea: txapelketak, proiektuak... Baina autoeratu diren beste mugimendu batzuen lokarri lana egin behar du; azken finean, Bertsozale Elkartea autoeratu den mugimendu bat da.\n\nHorregatik dago, azken finean, elkartea orain dagoen tokian.',
'Ikuspegia izeneko atalean ere hiru sari izan dira. Daniel Moreno Garciaren He soñado con olas filmarentzat izan da Film Luzerik Onenaren Saria, eta Victor Wamerdamen Ik ben geen robot lanarentzat laburrik onenarena. Tamara Garcia ekoizlea, Marta Salvador gidoigilea eta Oscar Salazar kazetaria izan dira sail horretako epaimahaiko kideak. Eta kalitate orokorra nabarmendu dute haiek ere. Edonola ere, erabakia «ia aho batez» hartu dutela ere zehaztu dute.\n\nBestalde, Siyi Liu zuzendariaren San gui Quing Shi filma bereziki nabarmendu da. Hark jaso du Sail Ofizialeko Film Luzerik Onenarentzako Publikoaren Saria, bai eta Epaimahai Gaztearen Sail Ofizialeko Film Onenaren Saria ere. Eta Raul Mongeren La ley del más fuerte izan da ikusleen ustez Sail Ofizialeko laburrik onena.\n\nHorrez gain, Usue Alvarez eta Urko Olazabal aktoreek jaso dute Euskal Film Laburretako Interpretazio Onenaren Saria, Deadly Draw filmean egindako lanagatik. Pascal Plante zuzendariaren Red rooms filmaren gidoia nabarmendu du Euskal Gidoigileen Elkartearen Sariak.\n\nBeka eta saritutako lanen proiekzioa\n\nAldaketa egin du antolakuntzak sariekin aurten. Saritutako film laburrek bakarrik jaso dute sari ekonomikoa. Sail Ofizialeko irabazleak eta ikusleek aukeratutakoak, esaterako, 3.000 eurokoa; euskal film laburrik onenak, 2.500 eurokoa; eta Ikuspegi saileko film laburrik onenak, 1.750 eurokoa. Hala, euskarazko film bat egiteko beka bat sortzeko baliatu dute orain arte film luzeentzat izan ohi ziren sariak. Horregatik, 5.000 euroko laguntza jasoko du Amaia San Sebastianek Olentzerori eskatu nion filma ekoizteko.\n\nSeizeren banpiroak ez ezik, saritutako gainerako lanak ere proiektatuko ditu jaialdiak bihar. BBK Salan izango da hori. 17:00etan emango dituzte Ikuspegi sailekoak, eta 19:00etan Sail Ofizialekoak.\n\n\n\nLamberto Bava: «Zuzendari bakoitzak du bere kontatzeko modua»',
'JOXE MARI MITXELENA. Pilota Zazpi Haizetara taldearen hautagaia.\n\n«Kluben kluba izan nahi dugu, eta euskara federazioaren esparru guztietan indartu»\n\n\n\nJoxe Mari Mitxelena. BERRIA\n\n1. «Pilotaren mesedetan zerbait egin dezakegula uste dugulako aurkeztu gara. Ideia berriak ditugu, eta horiek egiteko gogoa eta ilusioa; lan egiteko prest gaude. Lantaldeko hamalau pertsonetatik bederatzi gabiltza klubetako zuzendaritza batzordeetan; hau da, oinarritik sortutako mugimendu bat da gurea».\n\n2. «Batetik, kluben kluba izan nahi dugu, eta klub baten gisan jardun. Asko hitz egiten da euskal selekzioaz eta pilota profesionalaz, baina klubik gabe hori guztia ez litzateke posible izango. Hori dela eta, klubak indartu, babestu eta lagundu nahi ditugu, eta haien kezkak entzun eta aurrera eraman. Bestetik, euskara indartu nahi dugu federazioaren esparru guztietan, guretzat pilota eta euskara bat direlako; kirol bakarra da gure herriaren hizkuntza eta izena daramatzana. Lan hori egiteko oso aproposak diren bi lagun ditugu lantaldean: bata, Asier Amondo hamar urtez Korrikako arduradun izandakoa, eta bestea, Oier Zearra pilotari ohia. Euskadiko Pilota Federazioak Bikain ziurtagiria du, baina horretatik haratago joan nahi dugu».\n\n3. «Pixkanaka-pixkanaka, lizentzia kopurua behera egiten ari da. Horri buelta eman nahi diogu, pentsatzen baitugu oraindik egin daitezkeela gauzak edo egiten ari direnak hobetu daitezkeela joera horri buelta emateko. Nagusiki, gure txapelketak indartu nahi ditugu, Euskal Herrikoak. Ez dugu nahi gure pilotariek Espainiako Txapelketak jokatzea diru sariengatik edo mailagatik. Bote luzeak, adibidez, azpiegitura sendoa du, eta finkatuta dago. Hego eta Ipar Euskal Herriko pilotariek jokatzen dute. Horixe egin nahi dugu beste modalitateetan».',
'Azken urteetan egin duten bezala, karroza handi bat aterako da haur danborradarekin batera, XIX. mendeko pertsonaiak irudikatzeko: alkatea, notarioa, batelaria, arrantzalea, irulea... Santa Teresa ikastetxeko ikasleei egokitu zaie aurten horien rola jokatzeko ardura.\n\nBaina Donostia ez da San Sebastian eguna ospatzen duen leku bakarra. Urtero bezala, Azpeitiko (Gipuzkoa) herritarrek ere gogoz astinduko dituzte upelak eta danborrak etzi. 30 konpainiak parte hartuko dute. Elkarteetan afaldu ostean, 22:00etan hasiko dute festa, Olazko Andre Mariaren plazatik abiatuta. Gauerdian elkartuko dira talde guztiak herriko plazan, San Sebastian martxa eta danborradako gainerako piezak jotzeko. Azpeitian ere egingo dute haurren danborrada, etzi, 12:30ean hasita; Arana Kaletik eta Artzubia hiribidetik atera, eta kalez kale ibiliko dira hamar talde.',
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
jina-reranker-v2-base-multilingual-contrastive-berria-5epCrossEncoderRerankingEvaluator with these parameters:{
"at_k": 10,
"always_rerank_positives": false
}
| Metric | Value |
|---|---|
| map | 0.6179 (+0.0081) |
| mrr@10 | 0.7386 (+0.1342) |
| ndcg@10 | 0.7582 (+0.0979) |
query and positive| query | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| query | positive |
|---|---|
Zer ekitaldi berezi antolatu nahi ditu Supelaur kultur elkarteak datorren urterako? |
Jose Angel Aramendi Supelaur kultur elkarteko presidentea. OSKAR MATXIN / FOKU |
Nortzuk dira etziko mobilizaziorako berariaz sortutako margolanak eta ilustrazioak egin dituzten ilustratzaileak? |
«Masiboa» izatea nahi duten manifestazio horren ibilbidean, dozenaka esku hartze artistiko egongo dira, formatu txikian, kaleko artisten gisa ia-ia. Gaur zehaztu dute zeintzuk izango diren esku hartuko dutenak; dozenaka izango dira, eta hona hemen batzuk: Olatz Salvador eta Mikel Urdangarin abeslariak, Amets Arzallus eta Maialen Lujanbio bertsolariak, Malmo eta Maitane Azurmendi ilustratzaileak, eta Noe Viana eta Leire Otamendi dantzariak. Martxaren bukaeran giza irudi erraldoi bat osatu nahi dute, manifestariak lurrean etzanda, Haizearen Orrazitik Ondarretaraino, Gazan hildakoak irudikatzeko. |
Zein konpositore aukeratu ditu Thierry Malandainek "Urtaroak" koreografiarako? |
Dantza |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 10.0,
"num_negatives": null,
"activation_fn": "torch.nn.modules.activation.Sigmoid",
"mini_batch_size": 16
}
query and positive| query | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| query | positive |
|---|---|
Zer ondorio izan ditzake euskarazko hiztegi zientifiko modernorik ez izateak euskal komunitate akademikoarentzat? |
Hiztegi zientifiko modernoa garatzea |
Zein dira Bertsozale Elkartearen gogoeta estrategikoaren ardatz nagusiak? |
«[Elkartea] Noizean behin jende berria lantaldeetara ekartzen saiatu behar da. Jende desberdina igaro dadila, bertsolaritzaren ertz desberdinetatik». |
Zein film laburrek irabazi dute Sail Ofizialeko Film Luzerik Onenarentzako Publikoaren Saria eta Epaimahai Gaztearen Sail Ofizialeko Film Onenaren Saria? |
Ikuspegia izeneko atalean ere hiru sari izan dira. Daniel Moreno Garciaren He soñado con olas filmarentzat izan da Film Luzerik Onenaren Saria, eta Victor Wamerdamen Ik ben geen robot lanarentzat laburrik onenarena. Tamara Garcia ekoizlea, Marta Salvador gidoigilea eta Oscar Salazar kazetaria izan dira sail horretako epaimahaiko kideak. Eta kalitate orokorra nabarmendu dute haiek ere. Edonola ere, erabakia «ia aho batez» hartu dutela ere zehaztu dute. |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 10.0,
"num_negatives": null,
"activation_fn": "torch.nn.modules.activation.Sigmoid",
"mini_batch_size": 16
}
eval_strategy: epochper_device_train_batch_size: 16per_device_eval_batch_size: 16learning_rate: 2e-05num_train_epochs: 5warmup_ratio: 0.1load_best_model_at_end: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: epochprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 5max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss | jina-reranker-v2-base-multilingual-contrastive-berria-5ep_ndcg@10 |
|---|---|---|---|---|
| 0.0723 | 200 | 0.113 | - | - |
| 0.1446 | 400 | 0.0718 | - | - |
| 0.2168 | 600 | 0.0335 | - | - |
| 0.2891 | 800 | 0.0205 | - | - |
| 0.3614 | 1000 | 0.0217 | - | - |
| 0.4337 | 1200 | 0.0188 | - | - |
| 0.5060 | 1400 | 0.0179 | - | - |
| 0.5782 | 1600 | 0.0137 | - | - |
| 0.6505 | 1800 | 0.018 | - | - |
| 0.7228 | 2000 | 0.01 | - | - |
| 0.7951 | 2200 | 0.0194 | - | - |
| 0.8674 | 2400 | 0.0173 | - | - |
| 0.9396 | 2600 | 0.0112 | - | - |
| 1.0 | 2767 | - | 0.0158 | 0.7662 (+0.1058) |
| 1.0119 | 2800 | 0.014 | - | - |
| 1.0842 | 3000 | 0.0127 | - | - |
| 1.1565 | 3200 | 0.0095 | - | - |
| 1.2288 | 3400 | 0.016 | - | - |
| 1.3010 | 3600 | 0.0154 | - | - |
| 1.3733 | 3800 | 0.0169 | - | - |
| 1.4456 | 4000 | 0.0157 | - | - |
| 1.5179 | 4200 | 0.0103 | - | - |
| 1.5902 | 4400 | 0.0132 | - | - |
| 1.6625 | 4600 | 0.0143 | - | - |
| 1.7347 | 4800 | 0.0107 | - | - |
| 1.8070 | 5000 | 0.0174 | - | - |
| 1.8793 | 5200 | 0.014 | - | - |
| 1.9516 | 5400 | 0.0108 | - | - |
| 2.0 | 5534 | - | 0.0146 | 0.7574 (+0.0971) |
| 2.0239 | 5600 | 0.0086 | - | - |
| 2.0961 | 5800 | 0.0091 | - | - |
| 2.1684 | 6000 | 0.0144 | - | - |
| 2.2407 | 6200 | 0.0129 | - | - |
| 2.3130 | 6400 | 0.0148 | - | - |
| 2.3853 | 6600 | 0.0135 | - | - |
| 2.4575 | 6800 | 0.0136 | - | - |
| 2.5298 | 7000 | 0.0131 | - | - |
| 2.6021 | 7200 | 0.0117 | - | - |
| 2.6744 | 7400 | 0.0109 | - | - |
| 2.7467 | 7600 | 0.0115 | - | - |
| 2.8189 | 7800 | 0.0122 | - | - |
| 2.8912 | 8000 | 0.013 | - | - |
| 2.9635 | 8200 | 0.0124 | - | - |
| 3.0 | 8301 | - | 0.0145 | 0.7581 (+0.0978) |
| 3.0358 | 8400 | 0.0148 | - | - |
| 3.1081 | 8600 | 0.0123 | - | - |
| 3.1803 | 8800 | 0.0139 | - | - |
| 3.2526 | 9000 | 0.0146 | - | - |
| 3.3249 | 9200 | 0.0118 | - | - |
| 3.3972 | 9400 | 0.012 | - | - |
| 3.4695 | 9600 | 0.0108 | - | - |
| 3.5417 | 9800 | 0.0132 | - | - |
| 3.6140 | 10000 | 0.0094 | - | - |
| 3.6863 | 10200 | 0.0127 | - | - |
| 3.7586 | 10400 | 0.0126 | - | - |
| 3.8309 | 10600 | 0.0131 | - | - |
| 3.9031 | 10800 | 0.0099 | - | - |
| 3.9754 | 11000 | 0.012 | - | - |
| 4.0 | 11068 | - | 0.0145 | 0.7583 (+0.0980) |
| 4.0477 | 11200 | 0.0107 | - | - |
| 4.1200 | 11400 | 0.0102 | - | - |
| 4.1923 | 11600 | 0.0121 | - | - |
| 4.2645 | 11800 | 0.0118 | - | - |
| 4.3368 | 12000 | 0.0122 | - | - |
| 4.4091 | 12200 | 0.0091 | - | - |
| 4.4814 | 12400 | 0.0095 | - | - |
| 4.5537 | 12600 | 0.0124 | - | - |
| 4.6259 | 12800 | 0.0106 | - | - |
| 4.6982 | 13000 | 0.0107 | - | - |
| 4.7705 | 13200 | 0.0138 | - | - |
| 4.8428 | 13400 | 0.0134 | - | - |
| 4.9151 | 13600 | 0.0101 | - | - |
| 4.9874 | 13800 | 0.0148 | - | - |
| 5.0 | 13835 | - | 0.0145 | 0.7582 (+0.0979) |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Base model
jinaai/jina-reranker-v2-base-multilingual