スクレイピングのためのxml入門

とある目的のためにクローラーを自作すべく、xmlについて学んでみた。

※今から書く事には間違いが多く存在する可能性があり。

 

XMLは元々SGMLというマークアップ言語から派生してできている様子。

ただXMLという言語があると思っていたのだが、読んでいくとそうではなさそう。

XMLはタグによって木構造で表される文書やデータの構造を表す枠組み?

HTMLでは<br>とか<p>みたいな特殊文字を使って意味を表すけど、

HTMLはXMLの一つかな?

その中でXMLの書き方をみんなで統一して誰が書いたものも理解しあえるように

するために生まれたのがスキーマ言語でその中で代表的なものがDTDと呼ばれるもの。

 

DTDは<ENTITY % abc "">などのような書き方をするが、この書き方のルールと意味を定めているのがDTDである。

ここまで読み進めていって、ここから先は文字コードの細かい話になったので、一旦終了。

勉強していくとやはり根本が気になってくる。コンピュータアーキテクチャの読みやすい本はないだろうか。