Closed Bug 1434854 Opened 6 years ago Closed 6 years ago

Verify language and region names based on CLDR

Categories

(Mozilla Localizations :: it / Italian, defect)

defect
Not set
normal

Tracking

(Not tracked)

RESOLVED FIXED

People

(Reporter: flod, Assigned: flod)

References

Details

(Whiteboard: cldr-data)

Attachments

(1 file)

For regions, some differences are due to the different spelling used in English, but it's still worth cleaning up

LOCALE: it

Different values:
ab
  CLDR: abcaso
  Mozilla: abkhazian
ach
  CLDR: acioli
  Mozilla: acholi
av
  CLDR: avaro
  Mozilla: avaric
ay
  CLDR: aymara
  Mozilla: ayamara
ba
  CLDR: baschiro
  Mozilla: bashkir
ce
  CLDR: ceceno
  Mozilla: chechen
csb
  CLDR: kashubian
  Mozilla: casciubo
cu
  CLDR: slavo della chiesa
  Mozilla: church slavic
cv
  CLDR: ciuvascio
  Mozilla: chuvash
dsb
  CLDR: basso sorabo
  Mozilla: lusaziano inferiore
dz
  CLDR: dzongkha
  Mozilla: bhutanese
fj
  CLDR: figiano
  Mozilla: fijian
fur
  CLDR: friulano
  Mozilla: friulian
fy
  CLDR: frisone occidentale
  Mozilla: frisian
gn
  CLDR: guaraní
  Mozilla: guarani
gv
  CLDR: mannese
  Mozilla: manx
haw
  CLDR: hawaiano
  Mozilla: hawaiiano
hsb
  CLDR: alto sorabo
  Mozilla: lusaziano superiore
ht
  CLDR: haitiano
  Mozilla: haitian
ik
  CLDR: inupiak
  Mozilla: inupiaq
jv
  CLDR: giavanese
  Mozilla: javanese
kk
  CLDR: kazako
  Mozilla: cazaco
ks
  CLDR: kashmiri
  Mozilla: kashmiro
kw
  CLDR: cornico
  Mozilla: cornish
ky
  CLDR: chirghiso
  Mozilla: kirghiso
li
  CLDR: limburghese
  Mozilla: limburgan
lo
  CLDR: lao
  Mozilla: laotiano
ltg
  CLDR: letgallo
  Mozilla: latgalliano
mg
  CLDR: malgascio
  Mozilla: malvescio
nd
  CLDR: ndebele del nord
  Mozilla: ndebele, north
nr
  CLDR: ndebele del sud
  Mozilla: ndebele, south
nso
  CLDR: sotho del nord
  Mozilla: sotho, northern
ny
  CLDR: nyanja
  Mozilla: chichewa
or
  CLDR: oriya
  Mozilla: odia
os
  CLDR: ossetico
  Mozilla: ossetian
rm
  CLDR: romancio
  Mozilla: rhaeto-romanico
rn
  CLDR: rundi
  Mozilla: kirundi
se
  CLDR: sami del nord
  Mozilla: northern sami
si
  CLDR: singalese
  Mozilla: cingalese
ss
  CLDR: swati
  Mozilla: siswati
st
  CLDR: sotho del sud
  Mozilla: sotho, southern
su
  CLDR: sundanese
  Mozilla: sondanese
tg
  CLDR: tagico
  Mozilla: tajik
th
  CLDR: thai
  Mozilla: tailandese
ti
  CLDR: tigrino
  Mozilla: tigrinya
tk
  CLDR: turcomanno
  Mozilla: turkmeno
to
  CLDR: tongano
  Mozilla: tonga
tt
  CLDR: tataro
  Mozilla: tartaro
tw
  CLDR: ci
  Mozilla: twi
ty
  CLDR: taitiano
  Mozilla: tahitian
ug
  CLDR: uiguro
  Mozilla: uighur
ur
  CLDR: urdu
  Mozilla: urdo
wa
  CLDR: vallone
  Mozilla: walloon

Different values:
AS
  CLDR: Samoa americane
  Mozilla: Samoa Americana
AZ
  CLDR: Azerbaigian
  Mozilla: Azerbaijan
BA
  CLDR: Bosnia ed Erzegovina
  Mozilla: Bosnia Herzegovina
BL
  CLDR: Saint-Barthélemy
  Mozilla: Saint Barthelemy
BQ
  CLDR: Caraibi olandesi
  Mozilla: Bonaire, Sint Eustatius e Saba
BV
  CLDR: Isola Bouvet
  Mozilla: Isola di Bouvet
CD
  CLDR: Congo - Kinshasa
  Mozilla: Congo (Kinshasa)
CF
  CLDR: Repubblica Centrafricana
  Mozilla: Repubblica dell’Africa Centrale
CG
  CLDR: Congo-Brazzaville
  Mozilla: Congo (Brazzaville)
CP
  CLDR: Isola di Clipperton
  Mozilla: Clipperton
CX
  CLDR: Isola Christmas
  Mozilla: Isola di Natale
CZ
  CLDR: Cechia
  Mozilla: Repubblica Ceca
EH
  CLDR: Sahara occidentale
  Mozilla: Sahara Occidentale
FJ
  CLDR: Figi
  Mozilla: Fiji
FK
  CLDR: Isole Falkland
  Mozilla: Isole Falkland (Isole Malvinas)
FM
  CLDR: Micronesia
  Mozilla: Micronesia, Stati federati della
FO
  CLDR: Isole Fær Øer
  Mozilla: Isole Faroe
GF
  CLDR: Guyana francese
  Mozilla: Guiana Francese
GP
  CLDR: Guadalupa
  Mozilla: Guadalupe
GS
  CLDR: Georgia del Sud e Sandwich australi
  Mozilla: Georgia del Sud e isole Sandwich meridionali
HK
  CLDR: RAS di Hong Kong
  Mozilla: Hong Kong
HM
  CLDR: Isole Heard e McDonald
  Mozilla: Isola di Heard e isole McDonald
IO
  CLDR: Territorio britannico dell’Oceano Indiano
  Mozilla: Territorio Britannico dell’Oceano Indiano
KG
  CLDR: Kirghizistan
  Mozilla: Kyrgyzstan
KN
  CLDR: Saint Kitts e Nevis
  Mozilla: Saint Kitts and Nevis
KP
  CLDR: Corea del Nord
  Mozilla: Corea, Nord
KR
  CLDR: Corea del Sud
  Mozilla: Corea, Sud
LC
  CLDR: Saint Lucia
  Mozilla: Santa Lucia
MK
  CLDR: Repubblica di Macedonia
  Mozilla: Macedonia
MM
  CLDR: Myanmar (Birmania)
  Mozilla: Burma
MO
  CLDR: RAS di Macao
  Mozilla: Macau
MP
  CLDR: Isole Marianne settentrionali
  Mozilla: Isole Marianne Settentrionali
MY
  CLDR: Malaysia
  Mozilla: Malesia
MZ
  CLDR: Mozambico
  Mozilla: Mozambique
NF
  CLDR: Isola Norfolk
  Mozilla: Isola di Norfolk
NL
  CLDR: Paesi Bassi
  Mozilla: Olanda
PA
  CLDR: Panamá
  Mozilla: Panama
PF
  CLDR: Polinesia francese
  Mozilla: Polinesia Francese
PM
  CLDR: Saint-Pierre e Miquelon
  Mozilla: Saint Pierre e Miquelon
PR
  CLDR: Portorico
  Mozilla: Porto Rico
RE
  CLDR: Riunione
  Mozilla: Reunion
RU
  CLDR: Russia
  Mozilla: Federazione Russa
SH
  CLDR: Sant’Elena
  Mozilla: Sant’Elena, Ascension e Tristan da Cunha
SS
  CLDR: Sud Sudan
  Mozilla: Sudan Sud
ST
  CLDR: São Tomé e Príncipe
  Mozilla: Sao Tome e Principe
TF
  CLDR: Terre australi francesi
  Mozilla: Territori Francesi Meridionali e terre antartiche
TH
  CLDR: Thailandia
  Mozilla: Tailandia
UA
  CLDR: Ucraina
  Mozilla: Ukraina
VC
  CLDR: Saint Vincent e Grenadine
  Mozilla: San Vincenzo e Grenadine
VI
  CLDR: Isole Vergini Americane
  Mozilla: Isole Vergini Statunitensi
ZA
  CLDR: Sudafrica
  Mozilla: Sud Africa
Summary: Clean up language and region names → Verify language and region names based on CLDR
Changes landed for language names in: https://hg.mozilla.org/l10n-central/it/rev/a227515da8a34490610c03d57b6face7b264ddea

Language names corrected based on CLDR data:
ach:
There's no mention of "Acioli" on Wikipedia, only "Acholi".
https://it.wikipedia.org/wiki/Acholi 

Still, Treccani has "Acioli"
http://www.treccani.it/enciclopedia/acioli

I guess that's to mimic to pronounciation, given the "Acoli" would have a hard "c".

aa: https://it.wikipedia.org/wiki/Lingua_abcasa
av: https://it.wikipedia.org/wiki/Lingua_avara
ay[1]: https://it.wikipedia.org/wiki/Aymara
ba: https://it.wikipedia.org/wiki/Lingua_baschira
ce: https://it.wikipedia.org/wiki/Lingua_cecena
cv: https://it.wikipedia.org/wiki/Lingua_ciuvascia
dsb*: https://it.wikipedia.org/wiki/Lingua_soraba_inferiore
dz: https://it.wikipedia.org/wiki/Lingua_dzongkha
fj: https://it.wikipedia.org/wiki/Lingua_figiana
fur: https://it.wikipedia.org/wiki/Lingua_friulana
fy[2]: https://it.wikipedia.org/wiki/Lingua_frisone#Frisone_occidentale
gn: https://it.wikipedia.org/wiki/Lingua_guaran%C3%AD
gv: https://it.wikipedia.org/wiki/Lingua_mannese
haw: https://it.wikipedia.org/wiki/Lingua_hawaiana
hsb*: https://it.wikipedia.org/wiki/Lingua_soraba_superiore
ht: https://it.wikipedia.org/wiki/Lingua_creola_haitiana
jv: https://it.wikipedia.org/wiki/Lingua_giavanese
kk: https://it.wikipedia.org/wiki/Lingua_kazaka
ks: https://it.wikipedia.org/wiki/Lingua_kashmiri
kw: https://it.wikipedia.org/wiki/Lingua_cornica
ky: https://it.wikipedia.org/wiki/Lingua_chirghisa
li: https://it.wikipedia.org/wiki/Lingua_limburghese
lo*: https://it.wikipedia.org/wiki/Lingua_lao
ltg*: https://it.wikipedia.org/wiki/Lingua_letgalla
mg: https://it.wikipedia.org/wiki/Lingua_malgascia
nd: https://it.wikipedia.org/wiki/Lingua_ndebele_del_nord
nr: https://it.wikipedia.org/wiki/Lingua_ndebele_del_sud
nso: https://it.wikipedia.org/wiki/Lingue_sotho
ny[3]: https://it.wikipedia.org/wiki/Lingua_chewa
os: http://www.treccani.it/vocabolario/ossetico
rm: https://it.wikipedia.org/wiki/Lingua_romancia
rn:
  CLDR: rundi
  Mozilla: kirundi
  
Both seem valid, leaving "Kirundi" for now, following Mozilla
https://it.wikipedia.org/wiki/Lingua_kirundi

se: https://it.wikipedia.org/wiki/Lingue_sami
si*: https://it.wikipedia.org/wiki/Lingua_singalese
ss: Using "Swati" per https://en.wikipedia.org/wiki/Swazi_language
st: https://it.wikipedia.org/wiki/Lingue_sotho
su*: https://it.wikipedia.org/wiki/Lingua_sundanese
tg: https://it.wikipedia.org/wiki/Lingua_tagica
th*: https://it.wikipedia.org/wiki/Lingua_thailandese
ti: https://it.wikipedia.org/wiki/Lingua_tigrina
twi:
  CLDR: ci
  Mozilla: twi
  
'Twi' seems correct
https://it.wikipedia.org/wiki/Lingua_twi

But according to Treccani that's the less common form of Ci or Tchi. Again, phonetic…
Using 'Ci'

tk*: https://it.wikipedia.org/wiki/Lingua_turkmena
to: https://it.wikipedia.org/wiki/Lingua_tongana
tt*: https://it.wikipedia.org/wiki/Lingua_tatara
ug: https://it.wikipedia.org/wiki/Lingua_uigura
ur: https://it.wikipedia.org/wiki/Lingua_urdu
wa: https://it.wikipedia.org/wiki/Lingua_vallone

* The existing translation is also a valid option listed on Wikipedia
[1] 'ay' seems wrong in en-US for Mozilla: https://en.wikipedia.org/wiki/Aymara_language
 "Lusaziano" is a valid option.
[2] Defined as "Frisian" in Mozilla, "Western Frisian" in CLDR. Using only "Frisone" instead of "Frisone occidentale" for now.
[3] Mozilla uses 'Chichewa'. I think this should either be "Chewa" or "Nyanja" (like CLDR). https://en.wikipedia.org/wiki/Chewa_language
Issues with CLDR data:

csb
  CLDR: kashubian
  Mozilla: casciubo

Casciubo should be the correct name
http://www.treccani.it/vocabolario/casciubo
https://it.wikipedia.org/wiki/Lingua_casciuba

cu
  CLDR: slavo della chiesa
  Mozilla: church slavic

While "Slavo della chiesa" has the same meaning, "Slavo ecclesiastico" seems like a better choice
https://it.wikipedia.org/wiki/Lingua_slava_ecclesiastica
http://www.treccani.it/enciclopedia/tag/antico-slavo-ecclesiastico/

ik:
  CLDR: inupiak
  Mozilla: inupiaq
  
"Inupiaq" seems correct, also en has that in CLDR
https://it.wikipedia.org/wiki/Lingua_inupiaq

or
  CLDR: oriya
  Mozilla: odia

Mozilla changed from Oriya to Odia in bug 1275476. Keeping "Odia"

ty
  CLDR: taitiano
  Mozilla: tahitian

Taitiano is not the common form
http://www.treccani.it/vocabolario/tahitiano/  
https://it.wikipedia.org/wiki/Lingua_tahitiana
Changes landed: https://hg.mozilla.org/l10n-central/it/rev/c4d62fae8bf55147c29a6d85ca35f0e1f5041c75

Notes about some corrections:

CZ
  CLDR: Cechia
  Mozilla: Repubblica Ceca

Switching to Cechia 
http://www.ilpost.it/2016/07/12/repubblica-ceca-cechia/
http://www.accademiadellacrusca.it/it/lingua-italiana/consulenza-linguistica/domande-risposte/repubblica-ceca-cechia

MY
  CLDR: Malaysia
  Mozilla: Malesia
  
  
Malaysia seems correct
https://it.wikipedia.org/wiki/Wikipedia:Bar/Discussioni/Malesia_e_Malaysia_secondo_il_DOP
https://it.wikipedia.org/wiki/Discussioni_categoria:Malesia  

PA
  CLDR: Panamá
  Mozilla: Panama

While, according to Wikipedia, Panamá is an obsolete spelling, I can still find it in Treccani
https://it.wikipedia.org/wiki/Panama
http://www.treccani.it/enciclopedia/panama

PR
  CLDR: Portorico
  Mozilla: Porto Rico

Treccani uses Portorico
http://www.treccani.it/enciclopedia/puerto-rico/

Wikipedia has Porto Rico, but mentions Portorico too
https://it.wikipedia.org/wiki/Porto_Rico

Switching to Portorico

Potential CLDR corrections:

CX
  CLDR: Isola Christmas
  Mozilla: Isola di Natale
https://it.wikipedia.org/wiki/Isola_di_Natale

LC
  CLDR: Saint Lucia
  Mozilla: Santa Lucia
https://it.wikipedia.org/wiki/Santa_Lucia_(stato)  
  
VC
  CLDR: Saint Vincent e Grenadine
  Mozilla: San Vincenzo e Grenadine
https://it.wikipedia.org/wiki/Saint_Vincent_e_Grenadine
Some more fixes (typo, missed fixes from the previous comments)
https://hg.mozilla.org/l10n-central/it/rev/d35056fddb90de33bf40b908c165a72f3dd70bef
https://hg.mozilla.org/l10n-central/it/rev/1df8e01c3e36bd0f8c8164955cc25fdc21f1800b
https://hg.mozilla.org/l10n-central/it/rev/2487803f62ca858f8e88a9cedf20a612b94329d4

This leaves us with the following differences.

I'm going to file a ticket with CLDR for:
- languages: csb, cu, ik, or, ty
- regions: CX, LC, VC

-----
LOCALE: it

Different values:
csb
  CLDR: kashubian
  Mozilla: casciubo
cu
  CLDR: slavo della chiesa
  Mozilla: slavo ecclesiastico
fy
  CLDR: frisone occidentale
  Mozilla: frisone
ik
  CLDR: inupiak
  Mozilla: inupiaq
or
  CLDR: oriya
  Mozilla: odia
rn
  CLDR: rundi
  Mozilla: kirundi
ty
  CLDR: taitiano
  Mozilla: tahitian

Different values:
BQ
  CLDR: Caraibi olandesi
  Mozilla: Bonaire, Sint Eustatius e Saba
CD
  CLDR: Congo - Kinshasa
  Mozilla: Congo (Kinshasa)
CG
  CLDR: Congo-Brazzaville
  Mozilla: Congo (Brazzaville)
CX
  CLDR: Isola Christmas
  Mozilla: Isola di Natale
FK
  CLDR: Isole Falkland
  Mozilla: Isole Falkland (Isole Malvinas)
FM
  CLDR: Micronesia
  Mozilla: Micronesia, Stati federati della
GS
  CLDR: Georgia del Sud e Sandwich australi
  Mozilla: Georgia del Sud e isole Sandwich meridionali
HK
  CLDR: RAS di Hong Kong
  Mozilla: Hong Kong
LC
  CLDR: Saint Lucia
  Mozilla: Santa Lucia
MM
  CLDR: Myanmar (Birmania)
  Mozilla: Burma
MO
  CLDR: RAS di Macao
  Mozilla: Macau
SH
  CLDR: Sant’Elena
  Mozilla: Sant’Elena, Ascension e Tristan da Cunha
TF
  CLDR: Terre australi francesi
  Mozilla: Territori francesi meridionali e terre antartiche
VC
  CLDR: Saint Vincent e Grenadine
  Mozilla: San Vincenzo e Grenadine
Status: NEW → RESOLVED
Closed: 6 years ago
Resolution: --- → FIXED
Found all 3 territories listed in De Agostini in English (plus confirmation on Panamá). 

Let's stick to English for those.
http://www.deagostinigeografia.it/free_download_deagostini.jsp
(In reply to Francesco Lodolo [:flod] from comment #5)
> Found all 3 territories listed in De Agostini in English (plus confirmation
> on Panamá). 
> 
> Let's stick to English for those.
> http://www.deagostinigeografia.it/free_download_deagostini.jsp

https://hg.mozilla.org/l10n-central/it/rev/79337a209bfa751b5989b1c8a6e076f8b68a7bd2
Attached file Links for CLDR ticket
Whiteboard: cldr-data
You need to log in before you can comment on or make changes to this bug.

Attachment

General

Created:
Updated:
Size: