« Homograph attacks », la nouvelle menace des noms de domaine ?
Les attaques par le biais de noms de domaine homographiques, ou en anglais « homograph attacks », font planer un nouveau danger pour les titulaires de marques.
Depuis quelques années, un typosquatting d’un nouveau genre a fait son apparition. Sa particularité ? Le nom de domaine frauduleux est identique, ou presque, au nom de domaine légitime : même nombre de caractère, dans le même ordre, version majuscule et minuscule très proche visuellement du nom de domaine original…
Et pourtant, il s’agit bien d’un autre nom de domaine, déposé par un tiers. Si on connaissait l’usage de certains caractères tel que le chiffre 0 pour remplacer la lettre « o », ou le « i » majuscule pour la lettre L minuscule « l », il s’agit ici de caractères de remplacement issus de diacritiques de l’alphabet latin, voire d’autres alphabets tel que cyrillique, le grec ou le tamoul.
Ces nouvelles opportunités de nommage sont permises par le développement d’un internet multilingue et l’utilisation de noms de domaine dit internationalisés, ou « International Domain Names » (IDN).
IDN, ASCII, unicode et punycode
Historiquement, et ainsi marquée par une vision anglo-centrée, l’organisation de l’espace de nommage s’est développée autour de la langue anglaise. Ainsi, seuls certains caractères compris dans la norme ASCII pouvaient composer un nom de domaine : lettres non-accentuées de A à Z, les chiffres de 0 à 9 et le trait d’union.
Promouvoir et permettre un internet multilingue.
Dans le contexte d’internationalisation d’internet, cette restriction n’était pas tenable en ce qu’elle privait les utilisateurs non-occidentaux d’un nommage respectueux de leur usage. Comment par exemple envisager pour une société japonaise d’enregistrer sa marque écrite en katakana dans sa propre extension pays si celle-ci ne permet que les caractères latins ?
Aujourd’hui, plus de la moitié du contenu disponible sur le web est en anglais, langue qui ne représente pourtant que 6 % de la population mondiale.
[1]
Si le sujet est abordé par l’ICANN (International Corporation for Assigned Names and Numbers) et l’IETF (Internet Engineering Task Force) à la fin des années 90, il faudra toutefois attendre le début des années 2000, près de 20 ans après l’enregistrement du premier .COM, pour voir apparaitre les premiers noms de domaine contenant des caractères non-latins[2].
Pour cela, un nouveau standard est désormais utilisé, Unicode, répertoriant plus de 120 000 caractères. Il permet ainsi l’utilisation et la visualisation pour les internautes de caractères non-latins. Concrètement, le nom de domaine et plus largement les URL composés de tels caractères sont désormais visualisables dans les navigateurs web, clients email, etc.
Pour rappel, en France, l’Afnic a ouvert la possibilité d’enregistrer un nom de domaine en caractères accentués dans l’extension .FR le 3 mai 2012. En effet, les caractères accentués ne sont pas compris dans la norme ASCII. L’utilisation de caractère accentué relève ainsi des IDN.
Enfin, tout nom de domaine, quelque soient les caractères utilisés, peut être visualisable en caractères ASCII. Cette conversion est possible avec le standard punycode. Elle s’identifie facilement puisque les noms de domaine ainsi convertis débutent par [xn--].
- exemple de nom de domaine ASCII :
- exemple de nom de domaine Unicode :
- conversion punycode de café.com :
Diversité des alphabets et nouvelle forme de cybersquatting : un effet de bord des IDN ?
Comme nous l’avons vu, le standard Unicode répertorie plusieurs milliers de caractères issus des différentes régions du monde. Parmi celles-ci, il n’est pas rare que certains caractères très similaires, voire presque identiques, coexistent.
Caractère Mathematical Sans-serif Small A → Unicode U+1D5BA
Caractère Latina → Unicode 0061
Paradoxalement, ces nouvelles opportunités de détournement liées aux homoglyphes ont été identifiées dès les premières normes à ce sujet, tant par l’IETF que le consortium UNICODE lui-même :
RFC 3490 :
« An example of an important issue that is not considered in detail in IDNA is how to provide a high probability that a user who is entering a domain name based on visual information (such as from a business card or billboard) or aural information (such as from a telephone or radio) would correctly enter the IDN. Similar issues exist for ASCII domain names, for example the possible visual confusion between the letter 'O' and the digit zero, but the introduction of the larger repertoire of characters creates more opportunities of similar looking and similar sounding names. ».
Unicode Technical Report #36 - Unicode Security Considerations[3].
En 2002, la première démonstration d’attaque par homographe est effectuée[4] par deux étudiants de l’Institut de Technologie d'Israël Technion qui déposent , composé des caractères « c » et « o » de l’alphabet cyrillique.
Des possibilités de nommage limitées à certaines extensions
Toutes les extensions ne permettent pas l’enregistrement de nom de domaine utilisant des lettres autres que A à Z, et les jeux de caractères disponibles varient également selon les extensions. Néanmoins, plusieurs dizaines de registres[5] le permettent et des extensions génériques telles que le .COM[6] ou .INFO l’autorisent.
Une pratique en plein essor
S’il est techniquement possible de procéder à l’enregistrement de noms de domaine homoglyphes depuis plusieurs années, le danger paraissait jusqu’ici plus probable que véritable.
[7]
Durant plusieurs années, l’anti-phishing work group a répertorié[8] peu de cas de phishing réalisés par des noms de domaine homographes, constatant ainsi que ce danger était surévalué au regard des atteintes effectivement constatées. Les raisons suivantes étaient alors indiquées :
Given that IDNs have been widely available for years, why haven't phishers utilized IDN Homographic attacks more often?
- Phishers don’t need to resort to such attacks. As noted elsewhere in this report, the domain name itself usually does not matter to a phisher.
- By default, some browser manufacturers show the punycode version of the domain name (such as "xn--hotmal-t9a.net") in the address bar, instead of the native-character version. Users of those browsers therefore usually can’t see homographic attacks.
Plusieurs évolutions techniques ont néanmoins changé la donne, tel que l’affichage des noms de domaine IDN par les navigateurs. Aujourd’hui, chaque navigateur a ses propres règles concernant l’affichage ou non d’un nom de domaine IDN directement sous sa forme unicode (alphabet spécifique) ou punycode (caractères latin). Des règles[9] sont régulièrement mises en place afin d’éviter[10] l’affichage unicode d’un nom de domaine IDN visiblement homographique.
Opera
Safari
Internet Explorer
Firefox
Chrome
iPhone
Android
Si beaucoup de cas remontés jusqu’ici étaient des « proofs of concept » réalisés par des chercheurs ou journalistes, le cas récent d’un nom de domaine homograph visant la société Air France a rappelé l’existence de ces possibilités de nommage.
www.airfrạnce.com
En effet, début février 2018, plusieurs utilisateurs WhatsApp reçoivent une fausse annonce aux couleurs d’Air France, proposant de gagner des billets gratuits. Arnaque somme toute classique, au détail près que le nom de domaine vers lequel sont dirigés les utilisateurs est un nom de domaine homograph. Comment ? La lettre a de « France » a été remplacée par le caractère[11] « ạ ». Il s’agit bien d’un nom de domaine différent de celui utilisé par la compagnie aérienne, qui a été enregistré par un tiers.
accounts-goȯgle.com | → | xn--accounts-gogle-bkf.com |
accounts-gooġle.com | → | xn--accounts-goole-m8b.com |
accounts-googlė.com | → | xn--accounts-googl-e4b.com |
alịbaba.com | → | xn--albaba-cl8b.com |
alibàba.com | → | xn--alibba-lta.com |
alíbàba.com | → | xn--albba-tqa3g.com |
alibábá.com | → | xn--alibb-0qab.com |
ạṃazon.com | → | xn--azon-pd5a9y.com |
amåzon.com | → | xn--amzon-nra.com |
åmåzon.com | → | xn--mzon-poab.com |
amạẓon.com | → | xn--amon-6o5ard.com |
amàzón.com | → | xn--amzn-1na9i.com |
åmazön.com | → | xn--mazn-poa9h.com |
amazǫn.com | → | xn--amazn-m1b.com |
ạmazọn.com | → | xn--mazn-4q5azl.com |
amàzoń.com | → | xn--amzo-1na61d.com |
amaźoń.com | → | xn--amao-e2a63a.com |
ạmazoṇ.com | → | xn--mazo-ee5a3x.com |
ạmạzoṇ.com | → | xn--mzo-k5y0vb.com |
amaẓoṇ.com | → | xn--amao-ee5aou.com |
ạmaẓoṇ.com | → | xn--mao-k5yssvc.com |
aṃaẓoṇ.com | → | xn--aao-14ywa86b.com |
ạṃạẓoṇ.com | → | xn--o-npmn61akcb.com |
amazọṇ.com | → | xn--amaz-ee5a79a.com |
ạṃạẓọṇ.com | → | xn--yhgi1u0bb9x.com |
appľe.com | → | xn--appe-i1a.com |
appĺé.com | → | xn--app-dma81b.com |
åpplė.com | → | xn--ppl-tla7w.com |
ạpplė.com | → | xn--ppl-mra0298a.com |
appĺė.com | → | xn--app-mra8o.com |
appļė.com | → | xn--app-mra8p.com |
åpplë.com | → | xn--ppl-tla7a.com |
appĺë.com | → | xn--app-lma80b.com |
äppĺë.com | → | xn--pp-uia4a57a.com |
ăpplĕ.com | → | xn--ppl-8oa7g.com |
applē.com | → | xn--appl-eva.com |
ạpplẹ.com | → | xn--ppl-rgzsf.com |
appĺeid.com | → | xn--appeid-kcb.com |
appĺëid.com | → | xn--appid-psa66c.com |
appĺeíd.com | → | xn--apped-2sa15c.com |
appĺes.com | → | xn--appes-85a.com |
cïsco.com | → | xn--csco-5pa.com |
citï.com | → | xn--cit-1ma.com |
citïgroup.com | → | xn--citgroup-w2a.com |
cȯintelegraph.com | → | xn--cintelegraph-eue.com |
coıntelegraph.com | → | xn--contelegraph-24b.com |
coiṇtelegraph.com | → | xn--coitelegraph-r54f.com |
deloítte.com | → | xn--delotte-bza.com |
ḟacẹbook.com | → | xn--acbook-vl7b84c.com |
facḛbook.com | → | xn--facbook-pr3c.com |
ḟacebȯok.com | → | xn--acebok-lqc5238c.com |
fạcebọok.com | → | xn--fcebok-wc8b4n.com |
facebòók.com | → | xn--facebk-7wai.com |
facėbôôk.com | → | xn--facbk-9taa1z.com |
faceḅoọk.com | → | xn--faceok-sg7br0e.com |
foxṇews.com | → | xn--foxews-yt7b.com |
göógle.com | → | xn--ggle-qqar.com |
gõögle.com | → | xn--ggle-0qag.com |
gòőgle.com | → | xn--ggle-lqa48c.com |
gọȏgle.com | → | xn--ggle-bwb1625b.com |
googḻe.com | → | xn--googe-4j1b.com |
goöglë.com | → | xn--gogl-opa7d.com |
googlȅ.com | → | xn--googl-35b.com |
gọọglẹ.com | → | xn--ggl-ljz8da.com |
ḡọọḡḷẹ.com | → | xn--zgga0e00a7ca.com |
google-analytiçs.com | → | xn--google-analytis-rmb.com |
hsbç.com | → | xn--hsb-4la.com |
îapple.com | → | xn--apple-4sa.com |
ïd-apple.com | → | xn--d-apple-nza.com |
îkea.com | → | xn--kea-uma.com |
ikeɑ.com | → | xn--ike-isb.com |
întel.com | → | xn--ntel-zpa.com |
mcdonạlds.com | → | xn--mcdonlds-rx0d.com |
mįcrosoft.com | → | xn--mcrosoft-bkb.com |
mićrosoft.com | → | xn--mirosoft-18a.com |
micrösoft.com | → | xn--micrsoft-q4a.com |
mïcrösoft.com | → | xn--mcrsoft-oza9d.com |
micrọsoft.com | → | xn--micrsoft-180d.com |
mịcrọsoft.com | → | xn--mcrsoft-vw4cua.com |
microṣoft.com | → | xn--microoft-th0d.com |
microsòft.com | → | xn--microsft-r3a.com |
mïcrösöft.com | → | xn--mcrsft-iwa2db.com |
microsọft.com | → | xn--microsft-380d.com |
micrọsọft.com | → | xn--micrsft-fx4cb.com |
ṃicrosofṭ.com | → | xn--icrosof-r03c9o.com |
ṃicrosofṭ.com | → | xn--icrosof-r03c9o.com |
nèstlè.com | → | xn--nstl-5oad.com |
nestlë.com | → | xn--nestl-rsa.com |
ṅike.com | → | xn--ike-84y.com |
ņike.com | → | xn--ike-wwa.com |
ṇike.com | → | xn--ike-h5y.com |
nịke.com | → | xn--nke-llz.com |
niḳe.com | → | xn--nie-82y.com |
nikė.com | → | xn--nik-mra.com |
nikẹ.com | → | xn--nik-ljz.com |
nissɑn.com | → | xn--nissn-3jc.com |
öracle.com | → | xn--racle-iua.com |
orȧnge.com | → | xn--ornge-ucc.com |
orɑnge.com | → | xn--ornge-1jc.com |
orangę.com | → | xn--orang-n0a.com |
ṣamsung.com | → | xn--amsung-hz7b.com |
sàmsung.com | → | xn--smsung-ita.com |
sämsung.com | → | xn--smsung-bua.com |
sạmsung.com | → | xn--smsung-wc8b.com |
saṃsung.com | → | xn--sasung-4s7b.com |
starbụcks.com | → | xn--starbcks-8f1d.com |
verïzon.com | → | xn--verzon-kwa.com |
verïzonwireless.com | → | xn--verzonwireless-xmb.com |
verizonwïreless.com | → | xn--verizonwreless-2mb.com |
verïzonwïreless.com | → | xn--verzonwreless-rjbe.com |
vïsa.com | → | xn--vsa-zma.com |
visā.com | → | xn--vis-3oa.com |
viså.com | → | xn--vis-wla.com |
vodafoņe.com | → | xn--vodafoe-pkb.com |
whaṭsapp.com | → | xn--whasapp-gb4c.com |
whạtsạpp.com | → | xn--whtspp-xc8bc.com |
wwwgoôgle.com | → | xn--wwwgogle-83a.com |
щһатѕарр.com | → | xn--80aa2cah4b8e73b.com |
Cette histoire a défrayé la chronique mais n’est pas isolée. Sur un simple panel de grande marque, nous avons détecté avec notre technologie plusieurs centaines de dépôts au cours des précédents mois et nous constatons une hausse des enregistrements de ce type.
Voici un extrait des cas détectés ces dernières semaines.
Parmi ces 117 noms de domaine, 35 étaient en paramétrés pour permettre d’envoyer des emails.
[1] https://idnworldreport.eu/infographics/idns-and-linguistic-diversity-2/ [2] Il est précisé que la notion de caractère non-latin utilisée dans ce document fait référence, par abus de langage, aux caractères autres que les lettres non-accentuées de A à Z. [3] https://www.unicode.org/reports/tr36/ [4] http://www.csl.sri.com/users/neumann/insiderisks.html#140 [5] https://eurid.eu/en/register-a-eu-domain/domain-names-with-special-characters-idns/ [6] https://www.verisign.com/assets/idn-valid-language-tags.pdf [7] https://idnworldreport.eu/year-2017/facts-and-figures/key-numbers/ [8] http://docs.apwg.org/reports/APWG_Global_Phishing_Report_2H_2014.pdf [9] https://wiki.mozilla.org/IDN_Display_Algorithm [10] https://bug1332714.bmoattachments.org/attachment.cgi?id=8829419 [11] https://fr.wikipedia.org/wiki/%E1%BA%A0