back to main page

The benchmark includes 30 documents (3071 sentences, 69.7k words) translated from English into 37 languages: Amharic, Arabic (Modern Standard), Bengali, Chinese (Simplified), Dari, Dinka, Farsi, French (European), Hausa, Hindi, Indonesian, Kanuri, Khmer (Central), Kinyarwanda, Kurdish Kurmanji, Kurdish Sorani, Lingala, Luganda, Malay, Marathi, Myanmar, Nepali, Nigerian Fulfulde, Nuer, Oromo, Pashto, Portuguese (Brazilian), Russian, Somali, Spanish (Latin American), Swahili, Tagalog, Tamil, Ethiopian Tigrinya, Eritrean Tigrinya, Urdu, Zulu.

Download all data (with pre-defined dev/test splits) here: zip.

The paper describing the dataset is here: pdf. (Please use this BibTeX file if you end up using the dataset in an academic paper.)

We will maintain a matrix of the best reported results (BLEU scores) and systems on each language pair. If you evaluate your MT systems against the benchmark reach out to us!

  am ar bn ckb din en es-LA fa fr fuv-Latn-NG ha hi id km kr ku lg ln mr ms my ne nus om prs pt-BR pus ru rw so sw ta ti-ET ti-ER tl ur zh zu
am ––                                                                          
ar   ––       28.56 source                                                                
bn     ––                                                                      
ckb       ––                                                                    
din         ––                                                                  
en   15.16 source       –– 49.25 source 8.48 source 37.59 source     6.43 source 41.27 source       2.96 source 7.85 source 0.21 source 6.26 source       0.57 source 9.49 source 47.27 source   28.88 source     22.62 source         2.79 source 33.70 source 11.73
es-LA           52.78 source ––   29.21 source                                                          
fa           15.07 source   ––                                                            
fr           42.12 source 34.95 source   ––               1.48 source 6.14 source                   15.11 source 3.83 source                  
fuv-Latn-NG                   ––                                                        
ha                     ––                                                      
hi           18.92 source           ––                                                    
id           34.86 source     18.95 source       ––                                                  
km                           ––                                                
kr                             ––                                              
ku                               ––                                            
lg           5.62 source     2.91 source               ––                                          
ln           6.71 source     4.77 source                 ––                                        
mr           1.16 source                         ––                                      
ms                                       ––                                    
my                                         ––                                  
ne                                           ––                                
nus                                             ––                              
om           2.11 source                                   ––                            
prs           15. 16 source                                     ––                          
pt-BR           48.56 source                                       ––                        
pus                                                     ––                      
ru           28.53 source     17.62 source                                     ––                    
rw           8.29 source     5.62 source                                       ––                  
so                                                           ––                
sw                                                             ––              
ta                                                               ––            
ti-ET                                                                 ––          
ti-ER                                                                   ––        
tl                                                                     ––      
ur                                                                       ––    
zh           28.94 source                                                             ––  
zu           25.52 source                                                               ––

Updates: