Table of Contents

Formato dei dati

Prerequisiti

saper accendere il computer e usare un po' il mouse e la tastiera

Cosa faremo?

Scopriremo cosa sono le misteriose “estensioni” facendo degli esercizi in coppia.

Devi rispondere a tutte le domande su un foglio, alla fine consegnalo per la correzione. Domani sarai interrogato su queste stesse domande.

Esercizio sui caratteri della tastiera

Esercizio sulle estensioni dei file

Esercizio sulla codifica dei caratteri

Esercizio sulla codifica dei caratteri

<showif mayedit>

La comunicazione digitale

Il primo esempio di comunicazione “digitale” è il codice Morse (1840), che usava il punto, la linea e le pause. Oggi i computer usano le cifre 0 e 1.

I numeri nel computer

All'interno del computer i numeri interi (che possono misurare fino 4 Byte) possono essere memorizzati usando diversi metodi che si differenziano tra loro per l'ordine con cui si dispongono le cifre (i Byte): ad esempio, si può memorizzare e leggere le cifre del numero da sinistra verso destra o viceversa, cioè il numero 23 può essere rappresentato in memoria come 0023 oppure 2300, utilizzando la rappresentazione big-endian o little-endian. Questa scelta dipende dall'architettura elettronica della CPU di un computer. Ad esempio le CPU Intel adottano la disposizione big-endian mentre le CPU Motorola quella little-endian.

Quando è necessario, nei file, si può aggiungere un codice BOM (Byte Order Mark) che specifica il tipo di disposizione delle cifre (big-endian o little-endian), altrimenti sarebbe impossibile comprendere la disposizione dei numeri.

I caratteri nel computer

Tutto ciò che si trova nella memoria del computer è rappresentato come un numero. Il computer può rappresentare graficamente il carattere “A” usando diversi fonti tipografiche (in inglese font), come Arial, Serif, ecc., ma non ci occuperemo di questo problema.

Usiamo solo il blocco note, dove il testo non è formattato e la rappresentazione grafica non ha nessuna importanza. Il valore numerico del simbolo “A” della tastiera nella memoria del computer, quindi, non dipende dal font e non ne terremo conto.

La codifica dei caratteri

In passato, per memorizzare i simboli della tastiera, era adottata la codifica ASCII che conteneva solo 127 elementi (l'alfabeto inglese), per i quali è sufficiente usare un singolo Byte. Grazie a questo non si poneva il problema della memorizzazione di numeri con più cifre (big-endian o little-endian).

Per poter adottare anche lettere dell'alfabeto diverse da quello inglese, come italiano, francese, greco e cirillico, sono stati sviluppati nuove codifiche dei caratteri, come: ISO 8859, Windows-1252, UTF-8 e UTF-16.

La maggior parte di queste codifiche è compatibile con la codifica ASCII, nel senso che riescono a mostrare correttamente un vecchio testo.

Sul web è raccomandato l'uso della codifica UTF-8.

Gli ultimi sistemi operativi Linux adottano la codifica UTF-8.

Gli ultimi sistemi operativi Microsoft adottano la codifica UTF-16 (da verificare).

Gli ultimi sistemi operativi Apple adottano la codifica macintosh (Mac OS Roman)

bibliografia http://en.wikipedia.org/wiki/Western_Latin_character_sets_%28computing%29

altro

ascii, tastierino numerico, la codifica usata per le URL (no spazio nei nomi dei file)

l'editor esadecimale consente di vedere i numeri http://portableapps.com > Frhed

la codifica del sistema operativo (provare a passare un file da un sistema all'altro)

Cosa accade quando clicco su salva?

</showif>