ein klares Verständnis von Datei, Datei-encoding, Datei-format
Mir fehlt ein klares Verständnis der Konzepte der Datei, der Datei-Codierung und Dateiformat. Google half bis zu einem gewissen Punkt.
Aus was ich bisher verstehe, alle Dateien sind Binär, d.h., jedes byte in eine solche Datei enthalten, kann jede der 256 möglichen strings von bits. ASCII-Dateien (und hier kommen wir zu der Codierung Teil) sind eine Teilmenge von binären Dateien, bei denen jedes byte verwendet nur 7 bits.
Und hier ist, wo die Dinge Durcheinander. Eine Datei format zu sein scheint, eine Weise zu interpretieren, die bytes in eine Datei, und die Datei-Erweiterungen zu sein scheinen eine der am häufigsten verwendeten Möglichkeiten der Identifizierung eines Datei-format.
Bedeutet dies es sind die Formate definiert für binäre Dateien und definierten Formaten für ASCII-Dateien? Sind Formate wie xml, pdf, doc, rtf, html, xls, sql, tex, java, cs ", die sich" in ASCII-Dateien? In der Erwägung, dass Formate wie jpg, mp3, avi, eps -, obj -, aus -, dll-sind ein Hinweis darauf, dass wir reden über binäre Dateien?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich glaube nicht, dass Sie darüber sprechen können ASCII - und BINÄRE Dateien, aber TEXT und BINÄRE - Dateien.
In diesem Sinn sind text-Dateien: XML, HTML, RTF, SQL, TEXT, JAVA, CSS, EPS.
Und diese sind binäre Dateien: PDF, DOC, XLS, JPG, MP3, AVI -, OBJ -, DLL.
ASCII ist nur eine Tabelle der Zeichen in der zu Beginn der Datenverarbeitung zur Darstellung von text, aber es ist heutzutage eher abgeraten, da es nicht darstellen von text in Sprachen wie Chinesisch, Arabisch, Spanisch (Wort ñ, ñ, Tilden), Französisch und andere. Heute anderen CHARAKTER DARSTELLUNGEN sind ermutigt, anstelle von ASCII. Die bekannteste ist wohl UTF-8. Aber es gibt andere wie ISO-8859-1, ISO-8859-3 und so. Werfen Sie einen Blick auf diese Artikel von Joel Spolsky reden über UNICODE. Es ist sehr aufschlussreich.
Datei-Formate sind nur ein ganz anderes Problem. Datei-Formate sind Protokolle, welche Programme Sie Stimmen zu, auf, zu vertreten, Informationen. In diesem Sinne, ein JPG - Datei ist ein Bild, das ein (gut wissen) interne format, das erlaubt, Programme (Browser, Tabellenkalkulationen, Textverarbeitungsprogramme) verwenden Sie als Bilder.
Text-Dateien auch die Formate (I. E., es gibt Spezifikationen für Textdateien wie XML und HTML). Das format, wie in JPG und anderen binären Dateien, die Anwendungen ermöglicht, um Sie in eine kohärente und konkrete Möglichkeit, etwas zu erreichen: I. E., Rendern einer Webseite (HTML-und XHTML-Datei-format).
Die tatsächliche Art und Weise die Datei ist gespeichert auf der Festplatte ist definiert durch das OS. Der eigentliche Inhalt der Datei kann beschrieben werden als array von bytes - jeder hat bis zu eine Größe (in byte) mögliche Werte.
Text-Dateien - entweder den 256 Zeichen (ASCII) eingestellt - und dann können Sie Sie Lesen oder einfach eine breitere char setzen - in diesem Fall - nur passende apps Lesen kann.
Den rest - das, was Sie vielleicht binäre call (und andere Formate, die "unlesbare" durch "text" Viewer) - sind die Formate, die entwickelt, um gelesen werden zu einer bestimmten anderen apps oder dem OS.
wenn es ist ausführbar - das OS kann Sie Lesen und ausführen, andere - wie jpg - entwickelt, um "zu verstehen" durch Foto-Viewer ect....
Dies ist eine alte Frage, aber immer noch sehr relevant. Ich war verwirrt von diesem als gut, und bat um Aufklärung. Hier ist die Zusammenfassung (hoffe, dass es jemandem hilft):
Format: Datei/Aufnahme-format ist der Weg Daten dargestellt. Verwenden Sie CSV, TSV, JSON, Apache-Log-format, Secondhand-format, Protobuf-format etc. zur Darstellung Ihrer Daten. Format ist verantwortlich für die Sicherstellung der Daten ist strukturiert, ordentlich und korrekt dargestellt werden. Ex: wenn Sie Lesen, eine json-Datei haben, sollten Sie verschachtelte Schlüssel-Wert-Paare; das ist die Garantie immer vorhanden.
Codierung: Codierung im Grunde wandelt Ihre Daten (in einem beliebigen format oder plain text) zu einem bestimmten Schema. Nun, was ist das Schema? Regelung ist spezifisch für den Zweck der Codierung. Beispiel, während der übertragung von Daten über Draht (internet), wir würden wollen, stellen Sie sicher, dass das obige Beispiel json erreichen der anderen Seite richtig, sollte nicht beschädigt werden. Um dies zu gewährleisten, würden wir hinzufügen, dass einige meta-Informationen wie Prüfsumme, die verwendet werden können, um zu überprüfen Daten auf Richtigkeit. Die weitere Verwendung der Codierung umfassen die Verkürzung von Daten, den Austausch von geheimen etc.
Ich denke, es ist erwähnenswert, dass mit Medien-Dateien, mpeg und andere sind eine form der Medien-codecs. Erklären Sie, wie digitale Daten können express-visual und audio. Sie sind in der Regel befindet sich in einem Medien-container-Datei wie eine avi-Datei, die ist wirklich ein riff Datei-Typ für die Medien.