User Tools

Site Tools


appunti3s:formato_del_testo

Formato dei dati

Prerequisiti

saper accendere il computer e usare un po' il mouse e la tastiera

Cosa faremo?

Scopriremo cosa sono le misteriose “estensioni” facendo degli esercizi in coppia.

Devi rispondere a tutte le domande su un foglio, alla fine consegnalo per la correzione. Domani sarai interrogato su queste stesse domande.

Esercizio sui caratteri della tastiera

  • Quiz: Misura il tuo punteggio… sei un utente attivo?
  • Quiz: Apri il Blocco note e salva un file di testo vuoto: poi segna le sue dimensioni in Byte.
    • Adesso alva un file di testo che contiene soltanto la parola “ciao” e controlla anche le sue dimensioni.
    • Prova a cercare di capire come cambiano le dimensioni in base al testo che viene digitato facendo anche altri esperimenti.
  • Quiz: Se nella memoria del computer ci sono solo numeri, come è possibile che sul monito si vedano anche le lettere della tastiera?
    • Suggerimento: cerca di capire a cosa serve la tabella dei codici ASCII (puoi farti aiutare da Internet)

Esercizio sulle estensioni dei file

  • Quiz: sul PC del prof si vedono le estensioni, mentre sul tuo PC non si vedono, ma perché? Prova a correggere questo problema da solo (puoi farti aiutare da Internet)
  • Quiz: crea un nuovo documento e una nuova immagine, se modificasse l'estensione in txt, si modificherebbe anche il contenuto?
  • Quiz: cosa vedi se adesso provi ad aprire questi file con il Blocco note? Cerca di spiegare il perché di questo fenomeno sul quaderno

Esercizio sulla codifica dei caratteri

  • Prova a creare un documento di testo con Wordpad e scrivi “ciao” in rosso. Salva.
  • Prova a fare la stessa cosa usando il Blocco note. Salva.
  • Spiega la differenza delle estensioni dei due file che hai appena creato.
  • Spiega per iscritto, con le tue parole, la differenza tra testo formattato e testo non formattato. La risposta non deve superare tre righe di lunghezza.

Esercizio sulla codifica dei caratteri

  • Nel precedente esercizio hai imparato a cosa serve la tabella dei codici ASCII.
  • Quiz: cosa accadrebbe se non ci fosse questa tabella?
  • Prova ad aprire i file nella seguente cartella compressa usando il browser
  • Li vedi tutti allo stesso modo? Spiega le loro differenze sul quaderno.
  • Quiz: Sapendo che i precedenti file non contengono errori, fai una ipotesi e prova a rispondere: dove può essere il problema di visualizzazione?

<showif mayedit>

La comunicazione digitale

Il primo esempio di comunicazione “digitale” è il codice Morse (1840), che usava il punto, la linea e le pause. Oggi i computer usano le cifre 0 e 1.

I numeri nel computer

All'interno del computer i numeri interi (che possono misurare fino 4 Byte) possono essere memorizzati usando diversi metodi che si differenziano tra loro per l'ordine con cui si dispongono le cifre (i Byte): ad esempio, si può memorizzare e leggere le cifre del numero da sinistra verso destra o viceversa, cioè il numero 23 può essere rappresentato in memoria come 0023 oppure 2300, utilizzando la rappresentazione big-endian o little-endian. Questa scelta dipende dall'architettura elettronica della CPU di un computer. Ad esempio le CPU Intel adottano la disposizione big-endian mentre le CPU Motorola quella little-endian.

Quando è necessario, nei file, si può aggiungere un codice BOM (Byte Order Mark) che specifica il tipo di disposizione delle cifre (big-endian o little-endian), altrimenti sarebbe impossibile comprendere la disposizione dei numeri.

I caratteri nel computer

Tutto ciò che si trova nella memoria del computer è rappresentato come un numero. Il computer può rappresentare graficamente il carattere “A” usando diversi fonti tipografiche (in inglese font), come Arial, Serif, ecc., ma non ci occuperemo di questo problema.

Usiamo solo il blocco note, dove il testo non è formattato e la rappresentazione grafica non ha nessuna importanza. Il valore numerico del simbolo “A” della tastiera nella memoria del computer, quindi, non dipende dal font e non ne terremo conto.

La codifica dei caratteri

In passato, per memorizzare i simboli della tastiera, era adottata la codifica ASCII che conteneva solo 127 elementi (l'alfabeto inglese), per i quali è sufficiente usare un singolo Byte. Grazie a questo non si poneva il problema della memorizzazione di numeri con più cifre (big-endian o little-endian).

Per poter adottare anche lettere dell'alfabeto diverse da quello inglese, come italiano, francese, greco e cirillico, sono stati sviluppati nuove codifiche dei caratteri, come: ISO 8859, Windows-1252, UTF-8 e UTF-16.

  • Lo standard internazionale ISO 8859 divide in 16 parti gli alfabeti. Ad esempio, quello dell'europa occidentale si trova nelle parti ISO 8859-1 (detta anche latin1) e ISO 8859-15 (che contiene anche il simbolo dell'euro).
  • Microsoft per questo gruppo di lingue crea la codifica Windows-1252 che è molto simile alla ISO 8859-1 insieme alla ISO 8859-15, però con alcune differenze. Questo crea anche oggi l'errata convinzione che siano la stessa cosa. Ci si accorge della differenza usando il simbolo euro e alcune virgolette. La codifica Windows-1252 viene chiamata anche ANSI (American National Standards Institute), ma in realtà non è mai stata uno standard ANSI.
  • Universal Character Set (UCS) è un insieme di caratteri, che contiene circa 100000 simboli, definiti da un nome e un numero intero. Tale numero può essere usato per memorizzare un carattere nella memoria del computer. La più diffusa codifica usata dai computer per codificare nelle memorie dei calcolatori i caratteri UCS è l'UTF-8, ma essendo una codifica che utilizza fino a 4 Byte, si può distingure tra UTF-8 big-endian, little-endian, con o senza BOM.

La maggior parte di queste codifiche è compatibile con la codifica ASCII, nel senso che riescono a mostrare correttamente un vecchio testo.

Sul web è raccomandato l'uso della codifica UTF-8.

Gli ultimi sistemi operativi Linux adottano la codifica UTF-8.

Gli ultimi sistemi operativi Microsoft adottano la codifica UTF-16 (da verificare).

Gli ultimi sistemi operativi Apple adottano la codifica macintosh (Mac OS Roman)

bibliografia http://en.wikipedia.org/wiki/Western_Latin_character_sets_%28computing%29

altro

ascii, tastierino numerico, la codifica usata per le URL (no spazio nei nomi dei file)

l'editor esadecimale consente di vedere i numeri http://portableapps.com > Frhed

la codifica del sistema operativo (provare a passare un file da un sistema all'altro)

Cosa accade quando clicco su salva?

</showif>

appunti3s/formato_del_testo.txt · Last modified: 2020/06/08 22:19 by 127.0.0.1