Matryoshka Representation Learning
Paper • 2205.13147 • Published • 27
How to use yosefw/gte-multilingual-base-finetuned-amharic with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("yosefw/gte-multilingual-base-finetuned-amharic", trust_remote_code=True)
sentences = [
"በከፍተኛ ትምህርትና ስልጠና ተቋማት ከኮሮና ቫይረስ ጋር የተገናኙ ጉዳዮችን የሚከታተል ግብረ ሃይል ተቋቋመ",
"በመተማ ዮሐንስ ቤት ውስጥ ተደብቀው ተኩስ በከፈቱ አካላት በሰዎች ላይ የሞትና የአካል መቁሰል አደጋ መድረሱን የምዕራብ ጎንደር ዞን ፖሊስ መምሪያ አስታወቀ።የመምሪያው ኃላፊ ኮማንደር ጌትነት አልታሰብ እንደገለፁት ግለሰቦቹ በከፈቱት ተኩስ የ3 ሰዎች ህይወት ሲያልፍ በ20 ሰዎች ላይ ቀላልና ከባድ የአካል ጉዳት ደርሷል።ከተጎጂዎች መካከልም አንድ የፀጥታ አካልን ጨምሮ ሴቶችና ወጣቶች ይገኙበታል ብለዋል።የቅማንት ማህበረሰብ ተቆርቋሪ ነን በሚሉ አካላት ጉዳቱ ሊደርስ መቻሉንም ኃላፊው ገልፀዋል።ጉዳቱን ካደረሱት አካላት መካከልም አራቱ እጃቸውን የሠጡ ሲሆን ቀሪዎቹም በሰላማዊ መንገድ ለፀጥታ ኃይሎች እጃቸውን እንዲሠጡ እየተጠየቁ ስለመሆኑ ኃላፊው ተናግረዋል፡፡ጉዳት ካደረሱት ግለሰቦችም 9 የክላሽንኮቭ፣ አንድ ኤፍ ኤን መሳሪያ፣አንድ ሽጉጥ፣ አንድ ቦንብና በርካታ ጥይቶች በቁጥጥር ስራ መዋላቸውን ኮማንደር ጌትነት አስታውቀዋል።ጉዳት የደረሰባቸው ሰዎች በመተማ ዮሐንስ ጤና ጣቢያ፣ በገንዳ ውሃ ሆስፒታልና በጎንደር ሪፈራል ሆስፒታል ህክምና እየተደረጋላቸ ነው ብለዋል።ለዘመናት ተሳስሮ በኖረው የአማራና የቅማንት ማህበረሰብ መካከል ግጭት ለመፍጠር የሚንቀሳቀሱ አካላት ከድርጊታቸው እንዲቆጠቡ ያሳሰቡት ኮማንደሩ፤ ችግሩ እስኪበርድ የአካባቢው የሃይማኖት አባቶችና የሃገር ሽማግሌዎች ህብረተሰቡን በማስተማር የድርሻቸውን ሊወጡ ይገባል ብለዋል።ወጣቱ የአካባቢውን ሰላም በመጠበቅና ከፀጥታ ሃይሉ ጎን በመሰለፍ ጥፋተኞችን በመለየት ለህግ እንዲያቀርብ ጥሪ አቅርበዋል።የተፈጠረውን ግጭት ላማረጋጋት የመከላከያ ሰራዊት፣ የክልሉ ልዩ ኃይል፣ የፖሊስ አባላትና የአካባቢ ሚሊሻዎች በጋራ በመሆን ወደ እየሰሩ ናቸው ሲሉ ኮማንደሩ ጠቅሰዋል፡፡(ኢዜአ) ",
"አዲስ አበባ፣ መጋቢት 9፣ 2012(ኤፍ.ቢ.ሲ) በሁሉም ከፍተኛ ትምህርትና ስልጠና ተቋማት ከኮሮና ቫይረስ ጋር የተገናኙ ጉዳዮችን የሚከታተል ግብረ ሃይል በሳይንስና ከፍተኛ ትምህርት ሚኒስቴር ተቋቁሞ እየሰራ እንደሚገኝ ተገለጸ።ግብረ ሃይሉ ከመጋቢት 7 ቀን 2012 ዓ.ም ጀምሮ የከፍተኛ ትምህርትና ስልጠና ተቋማት ተማሪዎች የክፍል ውስጥ ትምህርት አቁመው አጋዥ መፅሐፍት (ሃንድ አውት)፣ ማጣቃሻ መፅሐፍት፣ በበይነ መረብ በመታገዝ እና ሶፍት ኮፒ ለቀጣዮቹ 2 ሳምንታት በግላቸው እንዲያነቡ አቅርቧል።በዩኒቨርሲቲዎች ተማሪዎች እጃቸውን አዘውትረው እንዲያፀዱም የውሃ አቅርቦትን የማሻሻል፣ የመታጠቢያ ሳሙናዎችንና አስፈላጊ ግብዓቶችን የማሟላትና የማቅረብ ስራዎች እየተከናወኑ መሆኑንም ሚኒስቴሩ ገልጿል።ከዚህ ባለፈም ስለቫይረሱ ለተማሪዎች እና ለከፍተኛ ትምህርት ተቋማት ማህበረሰቡ ግንዛቤ ለመፍጠር ዩኒቨርሲቲዎች የተለያዩ መንገዶችን እየተከተሉ መሆኑ ተጠቁሟል።በሁለት ሳምንታ እድሜያቸው ከ60 ዓመት በላይ የሆኑና የልብ ወይም የካንሰር እንዲሁም የስኳርና ሌሎች ተዛማጅ ህመሞች ያሉባቸው፣ የአስምና የመተንፈሻ አካላት ችግር ያሉባቸው ሠራተኞች ከሌሎች የበለጠ ጥንቃቄ ማድረግ እንደሚገባቸው መመከሩን ከሳይንስና ከፍተኛ ትምህርት ሚኒስቴር ያገኘነው መረጃ ያመለክታል።",
"አዲስ አበባ፤ ነሐሴ 3/2005 (ዋኢማ) – በትግራይ ክልል በሚገኙ ሦስት ታሪካዊና ጥንታዊ ቦታዎች ላይ የቅርሶች ጥበቃ፣ የመካነ ቅርስ ቁፋሮና የምርምር ስራዎች እያካሄደ መሆኑን የመቀሌ ዩኒቨርስቲ አስታወቀ፡፡የዩኒቨርስቲው ፕሬዚዳንት ዶክተር ክንደያ ገብረ ህይወት እንደገለጹት ዩኒቨርስቲው ምርምሩን በማካሄድ ላይ ያለው ከዚህ በፊት በሌሎች አካላት የቅርስ ጥበቃ፣ የመካነ ቅርስ ቁፋሮና የምርምር ስራዎች ባልተካሄዱባቸው አካባቢዎች ነው፡በዚህም ዩኒቨርስቲው በሓውዜን ወረዳ ዓንዛ ማሪያም ጥንታዊ ቤተክርስትያን ያሉ ጥንታዊ መካነ ቅርሶች ላይ ተገቢውን ጥበቃ በማድረግ አከባቢውን አስመልክቶ የሚነገሩ አፈ ታሪኮችን ትክክለኛነት ለማረጋገጥ በቁፋሮ ጥልቅ የምርምር ስራ እያካሄደ ነው።እንዲሁም በእንደርታ ወረዳ ልዩ ስሙ ”ዓዲ መዓር(ድርባ)”በተባለ ቦታ ላይ በአውነ አሳይ ጥንታዊ ቤትክርስትያን ላይ በተለያዩ ምክንያቶች የደረሰበትን የመፍረስ አደጋ መልሶ በመገንባት በውስጡ የሚገኙ የተንቀሳቃሽ ቅርሶች ጥበቃ እያካሄደ ሲሆን፣ በአፈ ታሪክ የሚነገሩ ድንቅ ታሪኮቹም በሳይንሳዊ መንገድ ተጠንተው ለቱሪዝም ልማት ጥቅም ላይ እንዲውሉ እየሰራ መሆኑን ዶክተር ክንደያ ተናግረዋል።በተጨማሪ ዩኒቨርስቲው የጣሊያን ወራሪ ሃይል የኢትዮጵያ አባት አርበኞች ትግል ለመመከት በመቀሌ ከተማ በእንዳ እየሱስ ተራራ ላይ ”ፎርቶ” በሚል ስም የሚታወቀው ስፍራ ላይ ታሪካዊነቱ በሚያጎላ መልኩ እድሳት ተደርጎለት ለመዝናኛ አገልግሎት እንዲውል የተለያዩ ግንባታዎች እያካሄደ መሆኑን ፕሬዚዳንቱ ገልጸዋል።ዩኒቨርስቲው በትግራይ ክልል የሚገኙ ታሪካዊና ጥንታዊ ቅርሶች ተገቢው ጥበቃ እንዲደረግላቸውና በመካነ ቅርስ ቁፋሮ የምርምር ስራ የበኩሉን ድርሻ እንዲወጣ በዩኒቨርስቲው የባህልና ቅርስ ጥበቃ የትምህርት ክፍል ከፍቶ በመጀመሪያ ዲግሪ እያሰለጠ ይገኛል።ዩኒቨርስቲው በኢትዮጵያ ውሰጥ ያሉ የተለያዩ ብሄር ብሄረሰቦች ባህሎችና ጥንታዊ ቅርሶች እንዲጠበቁ በማድረግ ለቱሪዝም ልማት እንዲውሉ ለማድረግ ባለፈው ሳምንት ዓለም አቀፍ አውደ ጥናት በማዘጋጀት የተለያዩ ጠቃሚ ልምዶች ማግኘቱን ዶክተር ክንደያ ገብረ ህይወት ገልጸዋል ሲል ኢዜአ ዘግቧል።"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/gte-multilingual-base-finetuned-amharic")
# Run inference
sentences = [
'ሁለት የብአዴን አመራሮች ላይ ያነጣጠረ ጥቃት በደብረ ማርቆስ መፈጸሙ ተሰማ',
'ሁለት የብሔረ አማራ ዴሞክራሲያዊ ንቅናቄ (ብአዴን) ከፍተኛ አመራሮች ላይ ያነጣጠረ የጥቃት ሙከራ በደብረ ማርቆስ ከተማ መፈጸሙ ተሰማ።የጥቃት ሙከራው የብአዴን መስራችና የቀድሞ የፖሊሲ ጥናትና ምርምር ማዕከል ምክትል ዋና ዳይሬክተርና የመንግሥት ኮሙዩኒኬሽን ጉዳዮች ሚኒስትር የነበሩት አቶ በረከት ስምዖንና ሌላ የብአዴን ማዕከላዊ ኮሚቴ አባል በሆኑት አቶ ምግባሩ ከበደ ላይ መሆኑን ከክልሉ መንግሥት የኮሙዩኒኬሽን ጉዳዮች ቢሮ ኃላፊ አቶ ንጉሡ ጥላሁን ያገኘነው መረጃ ያመለክታል።ሁለቱ የብአዴን አባላት በከተማው ታይተዋል የሚል ወሬ በማኅበራዊ ድረ ገጾች መናፈሱን ተከትሎ፣ ግለሰቦቹ ለሌላ ተልዕኮ እየተንቀሳቀሱ እንደሆኑ የጠረጠሩ የከተማው ነዋሪዎች በደብረ ማርቆስ ሆቴል ላይ ጉዳት ሲያደርሱ ትኩረት ከተደረገባቸው ፖለቲከኞች የአንዱ ነው ተብሎ የተጠረጠረ ተሽከርካሪ በእሳት ማቃጠላቸውንም ለማወቅ ተችሏል።አቶ ንጉሡ ድርጊቱን ያወገዙ ሲሆን፣ በከተማው ታይተዋል ከተባሉ አመራሮች አንዱ አቶ ምግባሩ በባህር ዳር የክልሉ ምክር ቤት ስብሰባ ላይ አብረዋቸው እየተሳተፉ እንደሚገኙ ገልጸዋል።‹‹ማንኛውም አመራርም ሆነ ዜጋ በየትኛውም ቦታ የመንቀሳቀስ መብቱን ሊገድብ የሚችል ነገር ሊኖር አይገባም፤›› ያሉት አቶ ንጉሡ፣ ‹‹ሰሞኑን የአንዳንድ አመራሮች ስም እየተጠቀሰ ሕዝቡን በማደናገርና ብጥብጥ በማንገስ በክልላችን የተገኘውን ሰላም ለመቀልበስ የሐሰት መረጃዎች እየተናፈሱ በመሆኑ ሕዝባችን ታላቅ ጥንቃቄ ማድረግ ይገባዋል፤›› ሲሉ አሳስበዋል።ሁለቱ የብአዴን ፖለቲከኞች ለራሳቸው የፖለቲካ ፍላጎት በደብረ ማርቆስ ከተማ በድብቅ ሕዝብ በማወያየት ላይ እንደሚገኙ የሚገልጽ ሐሰተኛ ወሬ የጥቃቱ ምክንያት እንደሆነ ተገልጿል።',
'የእንግሊዙ ጠቅላይ ሚኒስትር ቦሪስ ጆንሰን የጣሉትን ጥብቅ የእንቅስቃሴ እና የጉዞ እገዳ በመተላለፍ ወደ ቤተሰባቸው አቅንተዋል የተባሉ አማካሪያቸውን ከኃላፊነት እንዲያነሱ የቀረበላቸውን ጥሪ ውድቅ አድርገዋል፡፡\nየ2016ቱን የእንግሊዝን ከአውሮፓ ህብረት የመነጠል ሂደት (ብሬግዚት) በበላይነት የመሩት ዶሚኒኪ ከሚንግስ 400 ኪሎ ሜትሮችን አቆራርጠው በሰሜናዊ እንግሊዝ ዱርሃም ወደሚገኙ ቤተሰቦቻቸው ያቀኑት ጆንሰን እገዳውን ባስተላለፉበት ባሳለፍነው ወርሃ መጋቢት ነበር፡፡\nበወቅቱ የከሚንግስ ባለቤት የኮሮና ህመም ምልክቶችን ያሳዩ ነበር የተባለ ሲሆን የአንድ ልጃቸውን ሁኔታ ለመመልከት ወደ ቤተሰባቸው ማቅናታቸውም ይነገራል፡፡\nሆኖም የልጃቸውን ሁኔታ ቤተሰባቸው ሊከታተል እንደሚችል የሚናገሩ የተፎካካሪ ፖለቲካ ፓርቲዎች እገዳውን በመተላለፋቸው ከኃላፊነት ሊነሱ ይገባል ሲሉ ድምጻቸውን አሰምተዋል፡፡\nየጠቅላይ ሚኒስትሩ ጽህፈት ቤት ግን ጥያቄውን አልተቀበለም ሮይተርስ እንደዘገበው ከሆነ፡፡\nአማካሪው የጥንቃቄ መርሆዎችን አክብረው የልጃቸውን ሁኔታ ለመመልከት ወደ ቤተሰባቸው ቢያቀኑም በአጎራባች መንደሮች ሆነው ሁኔታዎችን ከመከታተል ውጪ ከቤተሰባቸው እንዳልተቀላቀሉም አስታውቋል፡፡\nከአማካሪያቸው ጉዞ ጥቂት ቀናት በፊት እገዳ ስለመጣላቸው አስታውቀው የነበሩት ጆንሰን ራሳቸው በቫይረሱ ተይዘው እንደነበር የሚታወስ ነው፡፡\n',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
dim_768 and dim_128InformationRetrievalEvaluator| Metric | dim_768 | dim_128 |
|---|---|---|
| cosine_accuracy@1 | 0.7183 | 0.6866 |
| cosine_accuracy@3 | 0.8348 | 0.8024 |
| cosine_accuracy@5 | 0.8691 | 0.8402 |
| cosine_accuracy@10 | 0.9034 | 0.8816 |
| cosine_precision@5 | 0.1738 | 0.168 |
| cosine_precision@10 | 0.0903 | 0.0882 |
| cosine_precision@50 | 0.0192 | 0.0189 |
| cosine_precision@100 | 0.0098 | 0.0096 |
| cosine_recall@5 | 0.8691 | 0.8402 |
| cosine_recall@10 | 0.9034 | 0.8816 |
| cosine_recall@50 | 0.9618 | 0.9464 |
| cosine_recall@100 | 0.9791 | 0.9644 |
| cosine_ndcg@10 | 0.8131 | 0.784 |
| cosine_ndcg@100 | 0.8292 | 0.8018 |
| cosine_mrr@10 | 0.7839 | 0.7528 |
| cosine_mrr@100 | 0.7872 | 0.7564 |
| cosine_map@100 | 0.7872 | 0.7564 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
የዱር እንስሳት ከሰዎች ጋር በሚኖራቸው ቁርኝት ለኮሮናቫይረስ ተጋላጭ እንዳይሆኑ የመከላከል ተግባራትን እያከናወኑ መሆኑን ባለስልጣኑ አስታወቀ፡፡ |
ባሕርዳር፡ ግንቦት 18/2012 ዓ.ም (አብመድ) የአማራ ክልል የአካባቢ፣ የደንና የዱር እንስሳት ጥበቃና ልማት ባለስልጣን በሚያስተዳድራቸው ብሔራዊ ፓርኮች እና የማኅበረሰብ ጥብቅ ሥፍራዎች ከኮሮናቫይረስ ተጋላጭነት ለመከላከል እየሠራ መሆኑን አስታውቋል፡፡የባለስልጣኑ የኮሙዩኒኬሽን ዳይሬክተር ጋሻው እሸቱ 10 በሚሆኑ ብሔራዊ ፓርኮችና የማኅበረሰብ ጥብቅ ሥፍራዎች የኮሮና ቫይረስን መከላከል በሚቻልባቸው ቅድመ ተግባራት እና ርምጃዎች ላይ መምከራቸውን ተናግረዋል፡፡ የዱር እንስሳት በመንጋ የሚኖሩ፣ እርስ በርሳቸው ተመጋጋቢ፣ ከሰዎች እና ከቤት እንስሳቶች ጋር ሊቀላቀሉ የሚችሉ በመሆናቸው በኮሮናቫይረስ ከተጋለጡ ‘‘የኮሮናቫይረስ ተጋላጭነት በብርቅየ የዱር እንስሳት ብዝኃ ሕይወት ላይ ስጋት መሆን የለበትም’’ ያሉት አቶ ጋሻው በፓርኮቹ ውስጥ ለሚሠሩ የጥበቃ፣ ስካውት እና ለጽሕፈት ቤት ሠራተኞች በዘርፉ ላይ ያተኮረ የኮሮናቫይረስ መከላከያ ትምህርቶችን እና የቁሳቁስ ድጋፎችን ማድረጋቸውን አስታውቀዋል፡፡ |
የትግራይ ክልል የአየር መሥመር ለአገልግሎት ክፍት ሆነ፡፡ |
|
የአውሮፓ ኢንቨስትመንት ባንክ ለመንግሥት 76 ሚሊዮን ዶላር ሊያበድር ነው |
በዳዊት እንደሻውየአውሮፓ ኢንቨስትመንት ባንክ ጽሕፈት ቤቱን በአዲስ አበባ ከከፈተ ከሁለት ዓመት በኋላ ትልቅ ነው የተባለለትን የ76 ሚሊዮን ዶላር ብድር ስምምነት ለመፈራረም፣ ኃላፊዎቹን ወደ ኢትዮጵያ ይልካል፡፡ከወር በፊት በኢትዮጵያ መንግሥትና በባንኩ መካከል የተደረገው ይኼ የብድር ስምምነት፣ የኢትዮጵያ ልማት ባንክ በሊዝ ፋይናንሲንግ ለአነስተኛና ለመካከለኛ ኢንተርፕራይዞች ለሚያደርገው እገዛ ይውላል፡፡የአውሮፓ ኢንቨስትመንት ባንክ ምክትል ፕሬዚዳንት ፒም ቫን በሌኮም፣ እንዲሁም ሌሎች ኃላፊዎች ይመጣሉ ተብሎ ይጠበቃል፡፡በዚህም መሠረት የባንኩ ኃላፊዎች ከገንዘብና ኢኮኖሚ ትብብር ሚኒስቴር ጋር አድርገውት ከነበረው ስምምነት የሚቀጥልና ተመሳሳይ የሆነ ስምምነት፣ ከኢትዮጵያ ልማት ባንክ ጋር እንደሚያደርጉ ይጠበቃል፡፡እ.ኤ.አ. እስከ 2022 ድረስ የሚቀጥለው አነስተኛና መካከለኛ ኢንተርፕራይዞችን የማገዝ ፕሮጀክት 276 ሚሊዮን ዶላር ወጪ የሚያስወጣ ሲሆን፣ ባለፈው ዓመት የዓለም ባንክ ወደ 200 ሚሊዮን ዶላር ብድር ሰጥቷል፡፡በአውሮፓ ኢንቨስትመንት ባንክ የሚሰጠው ብድር፣ የኢትዮጵያ ልማት ባንክን የሊዝ ፋይናንሲንግ ሥራ እንደሚያግዝ ጉዳዩ የሚመለከታቸው የልማት ባንክ ኃላፊዎች ለሪፖርተር ተናግረዋል፡፡ ‹‹በተጨማሪም የውጭ ምንዛሪ እጥረቱን ለማቃለል ያግዛል፤›› ሲሉ ኃላፊው ገልጸዋል፡፡በልማት ባንክ በኩል የሚደረገው እገዛ በሁለት መስኮቶች የሚወጣ ሲሆን፣ አንደኛው በቀጥታ በባንክ እንደ ሊዝ ፋይናንሲንግ ሲሰጥ ሌላው ደግሞ እንደ መሥሪያ ካፒታል ልማት ባንክ ለመረጣቸው 12 ባንኮችና ዘጠኝ ማይክሮ ፋይናንሶች ይሰጣል፡፡የአውሮፓ ኢንቨስትመንት ባንክ በኢትዮጵያ መንቀሳቀስ ከጀመረ ከ1980ዎቹ ጀምሮ ወደ ግማሽ ቢሊዮን ዶላር የሚጠጋ ለኃይል፣ ለኮሙዩኒኬሽንና ለግሉ ዘርፍ ኢ... |
MatryoshkaLoss with these parameters:{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
128
],
"matryoshka_weights": [
1,
1
],
"n_dims_per_step": -1
}
eval_strategy: epochper_device_train_batch_size: 32per_device_eval_batch_size: 64gradient_accumulation_steps: 4lr_scheduler_type: cosinewarmup_ratio: 0.1fp16: Trueload_best_model_at_end: Trueoptim: adamw_torch_fusedbatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: epochprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 4eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | dim_768_cosine_ndcg@100 | dim_128_cosine_ndcg@100 |
|---|---|---|---|---|
| 0.0456 | 10 | 4.4431 | - | - |
| 0.0912 | 20 | 2.9024 | - | - |
| 0.1368 | 30 | 1.6097 | - | - |
| 0.1824 | 40 | 1.1869 | - | - |
| 0.2281 | 50 | 1.2144 | - | - |
| 0.2737 | 60 | 0.9749 | - | - |
| 0.3193 | 70 | 1.0655 | - | - |
| 0.3649 | 80 | 1.1162 | - | - |
| 0.4105 | 90 | 0.9775 | - | - |
| 0.4561 | 100 | 1.034 | - | - |
| 0.5017 | 110 | 0.9311 | - | - |
| 0.5473 | 120 | 0.8444 | - | - |
| 0.5929 | 130 | 0.7158 | - | - |
| 0.6385 | 140 | 0.8255 | - | - |
| 0.6842 | 150 | 0.9804 | - | - |
| 0.7298 | 160 | 0.7188 | - | - |
| 0.7754 | 170 | 0.7155 | - | - |
| 0.8210 | 180 | 0.7736 | - | - |
| 0.8666 | 190 | 0.6608 | - | - |
| 0.9122 | 200 | 0.7058 | - | - |
| 0.9578 | 210 | 0.691 | - | - |
| 1.0 | 220 | 0.5458 | 0.8138 | 0.7827 |
| 1.0456 | 230 | 0.3499 | - | - |
| 1.0912 | 240 | 0.3814 | - | - |
| 1.1368 | 250 | 0.3523 | - | - |
| 1.1824 | 260 | 0.2445 | - | - |
| 1.2281 | 270 | 0.3511 | - | - |
| 1.2737 | 280 | 0.3602 | - | - |
| 1.3193 | 290 | 0.3312 | - | - |
| 1.3649 | 300 | 0.4093 | - | - |
| 1.4105 | 310 | 0.312 | - | - |
| 1.4561 | 320 | 0.3038 | - | - |
| 1.5017 | 330 | 0.3356 | - | - |
| 1.5473 | 340 | 0.3174 | - | - |
| 1.5929 | 350 | 0.2237 | - | - |
| 1.6385 | 360 | 0.3872 | - | - |
| 1.6842 | 370 | 0.3198 | - | - |
| 1.7298 | 380 | 0.3592 | - | - |
| 1.7754 | 390 | 0.3249 | - | - |
| 1.8210 | 400 | 0.2903 | - | - |
| 1.8666 | 410 | 0.3085 | - | - |
| 1.9122 | 420 | 0.3823 | - | - |
| 1.9578 | 430 | 0.348 | - | - |
| 2.0 | 440 | 0.2489 | 0.8275 | 0.8001 |
| 2.0456 | 450 | 0.1428 | - | - |
| 2.0912 | 460 | 0.1459 | - | - |
| 2.1368 | 470 | 0.1268 | - | - |
| 2.1824 | 480 | 0.1414 | - | - |
| 2.2281 | 490 | 0.1485 | - | - |
| 2.2737 | 500 | 0.149 | - | - |
| 2.3193 | 510 | 0.1755 | - | - |
| 2.3649 | 520 | 0.2325 | - | - |
| 2.4105 | 530 | 0.1779 | - | - |
| 2.4561 | 540 | 0.1273 | - | - |
| 2.5017 | 550 | 0.1587 | - | - |
| 2.5473 | 560 | 0.1881 | - | - |
| 2.5929 | 570 | 0.167 | - | - |
| 2.6385 | 580 | 0.204 | - | - |
| 2.6842 | 590 | 0.1544 | - | - |
| 2.7298 | 600 | 0.1869 | - | - |
| 2.7754 | 610 | 0.1854 | - | - |
| 2.8210 | 620 | 0.1731 | - | - |
| 2.8666 | 630 | 0.1575 | - | - |
| 2.9122 | 640 | 0.1527 | - | - |
| 2.9578 | 650 | 0.1554 | - | - |
| 2.9897 | 657 | - | 0.8292 | 0.8018 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
Alibaba-NLP/gte-multilingual-base