11. Alfabets i signes diacrítics

 

Índex

Plantejament del problema

És prou conegut que hi ha moltes formes d'escriptura. Sense moure'ns d'Europa, hi trobem l'alfabet llatí, el grec i el ciríl·lic. A més, la major part de les llengües fa servir signes diacrítics, petits afegitons a les lletres ordinàries. El català, per exemple, fa servir l'accent greu, l'accent agut, la dièresi, la c trencada i el punt volat de la L geminada.

En tot document HTML cal distingir entre el que es veu quan s'observa mitjançant un intèrpret d'HTML (és a dir, mitjançant un navegador) i el codi que es veu quan s'observa com a document de text (per a editar-lo).

En la codificació d'un document es poden fer servir:

Tot i que es tendeix ràpidament a la unificació d'estàndars, no n'hi ha encara un de sol realment universal (i a més cal tenir presents els documents antics supervivents d'èpoques passades). Cal doncs indicar expressament quina codificació es fa servir; altrament el navegador podria interpretar erròniament els caràcters. Aquesta especificació es fa en un element META:

 

Els caràcters ASCII

Inicialment els ordinadors treballaven només amb les majúscules de l'alfabet llatí, sense cap modificació ni addició, més uns quants símbols auxiliars. Posteriorment s'hi van afegir les minúscules. El 1967 fou normalitzat un conjunt de 128 caràcters amb el nom d'American Standard Code for Information Interchange (ASCII), i fou modificat diverses vegades fins a la darrera, el 1986.

 

Les codificacions ISO-8859

Les codificacions ISO-8859 són conjunts de 256 codis, formats pels 128 codis ASCII i per 128 codis més que cobreixen els diacrítics propis de moltes llengües que fan servir l'alfabet llatí, els signes de puntuació i una sèrie de símbols especials d'ús internacional.

Els caràcters hi són representats per sengles nombres, que s'expressen de dues maneres possibles:

com es veurà en l'exemple.

Hi ha diverses variants del codi ISO-8859. La variant ISO-8859-1 cobreix les necessitats de les llengües europees occidentals (entre les quals el català).

A la taula següent es presenten les xifres hexadecimals que corresponen a l'ISO-8859-1. Cada codi té dues xifres; la primera és la que encapçala la fila i la segona la que encapçala la columna. Així, per exemple, el codi Ø correspon al caràcter Ø. Els codis corresponents a les caselles buides no tenen representació gràfica.


  0 1 2 3 4 5 6 7 8 9 A B C D E F
0
1
2 ! " # $ % & ' ( ) * + , - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ \ ] ^ _
6 ` a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | } ~
8
9
A ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ® ¯
B ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
C À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
E à á â ã ä å æ ç è é ê ë ì í î ï
F ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Les variants 2, 3, etc. cobreixen altres grups de llengües; hi ha també codificacions anàlogues per al grec, per a l'alfabet ciríl·lic, per a l'àrab i per a l'hebreu.

Exemple

 

La codificació Unicode (ISO 10646)

La multiplicitat de codificacions és un inconvenient. Pensem per exemple en un document escrit en una llengua però que té citacions en una altra que fa servir caràcters diferents. Aquest problema es va resolent amb l'establiment d'una codificació universal.

La codificació Unicode pretén abastar totes les llengües del món. Hi ha un consorci sense finalitat de lucre, on hi ha representats els principals productors de maquinari i de programari, que s'ocupa de la nova codificació i de la difusió d'aquesta. Els primers 256 caràcters d'aquest codi són els de la norma anterior. Estrictament parlant, la codificació Unicode i la norma ISO 10646 no són equivalents, però les diferències són molt menors.

Si es fan servir caràcters Unicode més enllà del decimal 255 (hexadecimal FF), cal especificar charset=UTF-8.

Exemple

A Internet hi ha repertoris d'Unicode; per exemple, a http://www.unicode.org/charts/.

 

Les referències descriptives de caràcters

Les referències descriptives de caràcters consisteixen en conjunts format pel signe &, seqüències de lletres llatines - ordinàriament indicatives del caràcter bàsic i de l'especificació de la variant (i per tant són molt més fàcilment entenedores uq les referències numèriques) - i es clouen amb el signe ;.

Alguns editors de documents HTML fan sistemàticament la conversió de tots els caràcters especials obtinguts directament del teclat a aquesta mena de codi, i així transformen el caràcter À en el seu codi &Aacute;.

Els principals codis són els següents:

< &lt;  
> &gt;  
& &amp;  
" &quot;  
° &deg;  
  &nbsp; non-breaking space
á &aacute; i anàlogament per a totes les vocals - inclosa la y, majúscules i minúscules, amb accent agut.
à &agrave; i anàlogament per a totes les vocals, majúscules i minúscules, amb accent greu.
ä &auml; i anàlogament per a totes les vocals - inclosa la y, majúscules i minúscules, amb dièresi.
ç &ccedil; i anàlogament per a la majúscula
ñ &ntilde; i anàlogament per a les vocals portugueses amb titlla
¿ &iquest;  
â &acirc; i anàlogament per a totes les vocals, majúscules i minúscules, amb accent circumflex.
· &middot; punt volat.
&euro;  
å &aring; i anàlogament per a la majúscula.
æ &aelig; i anàlogament per a la majúscula.
ð &eth; i anàlogament per a la majúscula.
þ &thorn; i anàlogament per a la majúscula.
ß &szlig; i anàlogament per a la majúscula.
ø &oslash; i anàlogament per a la majúscula.

Exemple

Les lletres gregues es fan servir molt sovint en matemàtiques i en física. Podem obtenir-les aplicant el mateix sistema als noms de les lletres gregues segons la transcripció estàndard en alfabet llatí. Si la inicial és majúscula, obtindrem la majúscula; si la inicial és minúscula, obtindram la minúscula.

Així obtenim la Ξ mitjançant la seqüència &Xi;, la β amb la seqüència &beta; i la λ amb la seqüència &lambda;.

Exemple

A Internet hi ha repertoris d'aquestes referències de caràcter; vegeu, per exemple, a Character Entity Reference

 

Representació dels caràcters usats en HTML

Els símbols especials que formen part de les etiquetes HTML (>, <, # i ") s'escriuen directament quan formen part d'una etiqueta i mitjançant el codi quan formen part d'un text. El símbol & s'ha d'escriure sempre mitjançant el codi, fins i tot quan forma part dels paràmetres annexats a una URL.

És obligatori representar per &nbsp; l'espai en blanc quan volem acumular-ne més d'un. L'espai representat així té, a més, la propietat d'evitar el trencament de la línia pel punt on es troba (nbsp significa justament non-breaking space).

 

Algunes eines útils

A Internet hi ha programes que, mitjançant un teclat virtual presentat en pantalla, ens permeten escriure en molts idiomes diversos; el resultat pot ésser retallat i enganxat; vegeu, per exemple, el Lexilogos.