HOME >> 鉄道模型実験室 > Pythonを触ってみよう 情報取込み方法 超簡単だ 

鉄道模型実験室 No.216  Pythonを触ってみよう 情報取込み方法 超簡単だ    

 80の手習いとしてPython に触れている。 先回は応用問題として、市のウエブサイトで公開されているPDFファイルからデータ情報を取込み、新型コロナ感染者数の推移グラフを作成することが出来た。 とりあえず目的を達したので今回のプロジェクトは完了としたのですが、ピポットテーブルを使った超簡単な方法を見つけたので追加報告します。

  .

  .

  

 

■  ピポットテーブルを使うと一発だ

 いろいろ工夫してやっと集計できるようになったが、教則本のExcel の章をパラパルとめくっていると、ピポットテーブルの使い方に目がとまった。 PDFからデータを取込んでも同様な手法が活用できるのではないかと考えて、いろいろ触ってみた。

 表を取扱うので、データフレームとして同じ処理が可能と推定したのである。 先回と同様に中間でCSVファイルの出力し、そのデータを処理してみると、先回苦労した方法が、

pd.pivot_table(・・・・・・)

のたった一行で処理できてしまった。 まいったね、これには・・・・・・・・!

 でも、成果物はいまいちである。 項目名がくしゃくしゃだったり、余分なデータがあったりでしたが、肝となる集計部分は間違いはなかった。 CSVファイルでなく、Excel ファイルに出力しても同じであったので、後処理の楽なCSVファイルで出力することにした。 データとして活用するには、行や列を入れ替えたり、整形するなどの手間がかかるが、処理は一発で完了した。

 この時のプログラム内容を下に示す。

 

■ 他の市のデータもトライしてみる

 わが市だけでなく、周りの市のデータも調べてみた。 すでに同じような解析を実施しているところも有ったり、公表していないところなど、市によって対応がバラバラであった。 さらに、公表されている形式もそれぞれであり、すんなりと同じ方法が使えなかった。 特に、表データ以外に余分な記述が多いPDF資料は、正確に処理されているのかどうか不安になる出力状態であったの。 この場合は、PDF形式のファイルの状態で、余分な部分を削除するなどの整形が必要と思われるが、このためには、有料のソフトAdobe Acrobat などが必要となります。

 無料で実施するには、PDFファイルをブラウザで表示している状態にし、データ部分をコピーし、メモ帳にペーストして処理する方法もあります。 半角空白などをコンマに変換するなどの工夫が必要ですが、この状態でデータ類を整形することも可能です。

 いろいろ弄ってみるのも趣味の範囲ですが、勉強になります。

  ************************************************************

 

ページトップへ戻る  .


 2022/8/7