トッカンソフトウェア

LibreOffice Calc WEBデータの取得(WEBSERVICE関数、 FILTERXML関数)

WEBからデータを取得し、そこからデータを抜き出す方法を説明します。




まずWEBからデータ(XMLデータ)を取得するにはWEBSERVICE関数を使用します。

WEBSERVICE(URI)

URI : 取得するWEBアドレス

今回の例では 「=WEBSERVICE("http://thread.main.jp/")でWEBよりデータを取得しています。



次に上記で取得したデータをFILTERXML関数で指定データを抽出します。

FILTERXML(XMLデータ; XPath式)

XMLデータ : 抽出元となるXML形式のデータ
XPath式 : 抽出条件

今回の例では 「=FILTERXML(WEBSERVICE("http://thread.main.jp/"), "/html/body/h1")でWEBよりデータを取得しています。

今回の抽出元となるXML形式のデータは以下となっており、 <html> <head> <meta charset='UTF-8' /> <title>トッカンソフトウェア</title> </head> <body> <h1>トッカンソフトウェア</h1> 思いつくまま色んなソフトを作っていきたいと思います。 <br /> <br /> 作り中のソフト <table> <tr> <td><a href="buncho/index.html">人工無能 文鳥</a></td> </tr> <tr> <td><a href="diet/diet0.html">踏み台昇降で旅</a></td> </tr> </table> <br /> その他、メモなど <table> <tr> <td><a href="calc/libreofficecalc.html">LibreOffice Calc のちょっとした操作</a></td> </tr> </table> </body> </html> ここから「/html/body/h1」を指定することで html → body → h1 とたどって「トッカンソフトウェア」文字列を取得しています。


ちなみに、上記ソースから文字列「人工無能 文鳥」を取得する場合、XPath式は「/html/body/table/tr/td」を指定し
文字列「踏み台昇降で旅」を取得する場合、XPath式は「/html/body/table/tr[2]/td」を指定します。

ページのトップへ戻る