The benchmark includes 30 documents (3071 sentences, 69.7k words) translated from English into 37 languages: Amharic, Arabic (Modern Standard), Bengali, Chinese (Simplified), Dari, Dinka, Farsi, French (European), Hausa, Hindi, Indonesian, Kanuri, Khmer (Central), Kinyarwanda, Kurdish Kurmanji, Kurdish Sorani, Lingala, Luganda, Malay, Marathi, Myanmar, Nepali, Nigerian Fulfulde, Nuer, Oromo, Pashto, Portuguese (Brazilian), Russian, Somali, Spanish (Latin American), Swahili, Tagalog, Tamil, Ethiopian Tigrinya, Eritrean Tigrinya, Urdu, Zulu.
Download all data (with pre-defined dev/test splits) here: zip.
The paper describing the dataset is here: pdf. (Please use this BibTeX file if you end up using the dataset in an academic paper.)
We will maintain a matrix of the best reported results (BLEU scores) and systems on each language pair. If you evaluate your MT systems against the benchmark reach out to us!
am | ar | bn | ckb | din | en | es-LA | fa | fr | fuv-Latn-NG | ha | hi | id | km | kr | ku | lg | ln | mr | ms | my | ne | nus | om | prs | pt-BR | pus | ru | rw | so | sw | ta | ti-ET | ti-ER | tl | ur | zh | zu | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
am | –– | |||||||||||||||||||||||||||||||||||||
ar | –– | 28.56 source | ||||||||||||||||||||||||||||||||||||
bn | –– | |||||||||||||||||||||||||||||||||||||
ckb | –– | |||||||||||||||||||||||||||||||||||||
din | –– | |||||||||||||||||||||||||||||||||||||
en | 15.16 source | –– | 49.25 source | 8.48 source | 37.59 source | 6.43 source | 41.27 source | 2.96 source | 7.85 source | 0.21 source | 6.26 source | 0.57 source | 9.49 source | 47.27 source | 28.88 source | 22.62 source | 2.79 source | 33.70 source | 11.73 | |||||||||||||||||||
es-LA | 52.78 source | –– | 29.21 source | |||||||||||||||||||||||||||||||||||
fa | 15.07 source | –– | ||||||||||||||||||||||||||||||||||||
fr | 42.12 source | 34.95 source | –– | 1.48 source | 6.14 source | 15.11 source | 3.83 source | |||||||||||||||||||||||||||||||
fuv-Latn-NG | –– | |||||||||||||||||||||||||||||||||||||
ha | –– | |||||||||||||||||||||||||||||||||||||
hi | 18.92 source | –– | ||||||||||||||||||||||||||||||||||||
id | 34.86 source | 18.95 source | –– | |||||||||||||||||||||||||||||||||||
km | –– | |||||||||||||||||||||||||||||||||||||
kr | –– | |||||||||||||||||||||||||||||||||||||
ku | –– | |||||||||||||||||||||||||||||||||||||
lg | 5.62 source | 2.91 source | –– | |||||||||||||||||||||||||||||||||||
ln | 6.71 source | 4.77 source | –– | |||||||||||||||||||||||||||||||||||
mr | 1.16 source | –– | ||||||||||||||||||||||||||||||||||||
ms | –– | |||||||||||||||||||||||||||||||||||||
my | –– | |||||||||||||||||||||||||||||||||||||
ne | –– | |||||||||||||||||||||||||||||||||||||
nus | –– | |||||||||||||||||||||||||||||||||||||
om | 2.11 source | –– | ||||||||||||||||||||||||||||||||||||
prs | 15. 16 source | –– | ||||||||||||||||||||||||||||||||||||
pt-BR | 48.56 source | –– | ||||||||||||||||||||||||||||||||||||
pus | –– | |||||||||||||||||||||||||||||||||||||
ru | 28.53 source | 17.62 source | –– | |||||||||||||||||||||||||||||||||||
rw | 8.29 source | 5.62 source | –– | |||||||||||||||||||||||||||||||||||
so | –– | |||||||||||||||||||||||||||||||||||||
sw | –– | |||||||||||||||||||||||||||||||||||||
ta | –– | |||||||||||||||||||||||||||||||||||||
ti-ET | –– | |||||||||||||||||||||||||||||||||||||
ti-ER | –– | |||||||||||||||||||||||||||||||||||||
tl | –– | |||||||||||||||||||||||||||||||||||||
ur | –– | |||||||||||||||||||||||||||||||||||||
zh | 28.94 source | –– | ||||||||||||||||||||||||||||||||||||
zu | 25.52 source | –– |