so-wi.com_blog

DataFrame, ndarray, list の使い分けについて実用的に考える

2025-07-11T00:00:00+00:00

このブログではデータハンドリングの基本である、DataFrame, ndarray, list の形式変換について「DataFrame, ndarray, list の使い分けについて実用的に考える」という問いに対してブログにしました。

データ分析をするデータセットはそのほとんどは、n行ｘｍ列の２次元のデータです。２次元のデータを扱うためのデータ形式には、Pandas のデータフレーム、Numpyのndarray、Python標準の list が一般的です。それぞれの形式をその用途に合わせて変換します。

このブログでは、２次元のデータに絞って、以下の図をデータ分析の観点から使い方に合わせて変換できることを目標にしています。

DataFrame <-> ndarray <-> list 間のコンバージョン

Pandas DataFrame がデータセットを用意するツール

Pandasは、Pythonでのデータ分析ライブラリとして最も活⽤されているライブラリです。Pandas はNumpyを基盤に、シリーズ（Series、１次元データ）とデータフレーム（DataFrame、二次元データ）という二つのデータ型を提供します。データフレームは使いやすく、豊富な機能(メソッド）でデータ分析のための無くてはならないライブラリです。

DataFrameの使い道

DataFrameはインデックス（index）やカラム（column）名を指定して、Excelのシートのようにデータセットを用意するために利用します

数値計算に特化したNumpy ndarray

Numpyを利⽤すると、Python標準のリスト型に⽐べて、多次元配列のデータを効率よく扱うことができます。また、Numpyは標準偏差や分散といった統計量を出⼒してくれる関数が⽤意されており、科学技術計算の基盤となっており、その延長線上で機械学習、ディープラーニングでも使われています。

Numpyには、ndarrayと呼ばれるデータ型が⽤意されています。 ndarrayは⼀⾒すると、Python標準のリスト型（list）と似ていますが、ベクトル計算のように、内部の要素それぞれを⼀括して計算します。

ndarray と list の計算の違い

ndarrayの使い道

機械学習での学習用と検証用に分割したデータセットなど分析モデルの入出力形式です

Pandas, Numpyとも「統計量」を算出するメソッドは多数提供されています。Pandas の方が使いやすく、見やすいという意見も多いです。

Python標準の配列データの形式がlist

⼀つの変数に複数のデータを⼊れて扱う、配列データとして使うのがリスト型（list)です。したがって、Pythonプログラムの入出力の標準データ形式がlist ということになります。

listの使い道

インデックス番号（添字と呼んだりします）で要素を指定することができる、Pyhtonプログラムの入出力データの標準的な配列形式です

まとめ

	DataFrame	ndarray	list
利用するライブラリ	Pandas	Numpy	Python標準
ラベルインデックス (列、行に任意の名前を付けること)	可（列名、行名を指定してにデータの操作が可能）	不可(0から始まるインデックス番号で操作する)	不可(0から始まるインデックス番号で操作する)
特徴	使いやすい、メソッドが豊富	計算に特化した配列形式	tuple, dictionaryと並ぶ配列形式の一つ
目的	欠損値処理、標準化等の分析データの整形	機械学習、ディープラーニングの目的、説明変数等	Pythonプログラムのデータの入出力等

seaborn barplot の棒グラフに平均値のannotationをつける

2025-06-11T00:00:00+00:00

seabornはmatplotlibをベースにしたデータビジュアライゼーションライブラリです。countplot はカテゴリカルデータを集計から度数分布図までを一気に行なってくれる大変便利なツールです。

barplot で棒グラフを作成し、各々のbarの値をannotationしたいと思います。Excelの代わりにseanborn でサクサク、グラフ化します。

サンプルデータセット

１．日本語化した棒グラフを作成するためにデータセットを用意します。
２．Kagle のHRデータを編集して使っています。HRデータのうち、Age, EducationField, TotalWorkingYears　MonthlyIncome の列をそれぞれ、「年齢」、「専攻」、「勤続年数」、「月収」と書き換えました。
３．EducationFieldで含まれるカテゴリカルデータを日本語するとろまでは同じです。
４．二次元データを作るために、「専攻」のカテゴリカルデータを軸にgroupbyメソッドでデータを集約します。
５．groupbyメソッドを使うとmean()平均値やsum()トータルで各カテゴリー値を集約できますが、平均値で各カテゴリの値を集約したいと思います。

groupby での集約のイメージ

reset_index()でx軸、y軸をColumnに配置する

seaborn の barplotを利用するためには、ｘ軸、y軸ともデータフレームのcolumn で指定する必要があります。　しかし、groupby で集約したカテゴリカルデータのcolumn は、集約化されたデータフレームではラベルインデックスとして配置されています。　従って、reset_index()でカテゴリをcolumnに再配置させます。そのコードとデータフレームを図示しておきます。

1
2
3
4
5
#月収の列のみにする
df_gsum =  df_gsum.iloc[:, [2]]

#ラベルインデックスをreset_index()で列に配置する
df_gsum = df_gsum.reset_index()

Python コードの紹介

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
import numpy as np
import pandas as pd
import seaborn as sns
#matplotlibのグラフをRetinaの高解像度で表示する
%config InlineBackend.figure_formats = {'png', 'retina'}
#Jupyter Notebookの中で作図した画像を表示させる
%matplotlib inline
#matplotlib をインポートする
import matplotlib.pyplot as plt

#日本語タイトルのため、japanizeをインポートする
import japanize_matplotlib
plt.rcParams['font.family'] = 'IPAexGothic'

order = ['マーケティング', '理工学', '医薬、保健','人文科学','教育・人事','その他']
title = '専攻分野別平均月収'
y_name = '月収'
x_name = '専攻'
y_label = '平均月収(US$)'

ax = plt.subplots(figsize =(9,9))
ax = sns.barplot(x = x_name, y = y_name,
                   data = df_gsum, 
                   palette='pastel',
                  order = order)

plt.title(title, fontsize=18, fontweight='bold' )
plt.xticks(rotation=90)
plt.xlabel(x_name, fontsize = 14, fontweight='bold')
plt.ylabel(y_label, fontsize = 14, fontweight='bold')

for p in ax.patches:
    ax.annotate(format(p.get_height(), '.2f'), 
                   (p.get_x() + p.get_width() / 2., 
                    p.get_height()), 
                    ha = 'center', 
                    va = 'center', 
                    xytext = (0, 9), 
                    textcoords = 'offset points',
                    fontsize = 14,
                    color = 'blue')

小数点何位までの表示とするかの指定

数字表記の肝心な点として小数点何位まで表記するかだと思います。　平均値のため、小数点第二位まで表記するようにしています。　以下のformat( ‘.2f’)の部分がそれに相当します。

Point！

format(p.get_height(), '.2f')
値pの小数点以下何位まで表記かを指定する　.2f = 小数点第二位

度数分布図、任意のカテゴリー順

order = [‘マーケティング’, ‘理工学’, ‘医薬、保健’,’人文科学’,’教育・人事’,’その他’]として order = orderとすると、orderで指定した順に棒グラフが並びます。イメージは以下のとおりです。

WinPython でオフライン環境でPythonを使う

2025-04-08T00:00:00+00:00

新製品のテストデータや人事情報など機微な情報を扱う場合、多くの企業ではデータ流出の懸念からインターネット接続のない、いわゆるクローズドネットワークやスタンドアロンPCでPythonを使うことも少なくありません。 WinPythonでオフライン環境のPython開発環境構築されている方は少なく無いと思います。このBlogではWinPythonでの定番モジュールの追加のTips をまとめました。

WinPythonとは

PythonおよびWindow 用のPython 処理系とNumpy, Pandas, Scikit-learn, Tensorflow、Matplotlib などの主要な Python パッケージを１つにまとめポータブルアプリケーションとしてパッケージ化したソフトウェアです。

管理者権限でのアプリケーション導入の必要がありません。自己解凍形式(exeファイル)でまとめられているパッケージをサイトよりダウンロードして解凍するだけで使うことができます。ポータブルアプリケーションとして自己完結しておりOSと隔離して稼働が可能です。

インストールはZIP解凍するだけ

WinPython の最大の特徴は、自己解凍形式exeで圧縮されており好きなフォルダ配下でダブルクリックして解凍するだけの非常に簡単なインストールできてしまうところです。

不要となりアンインストールしたい時にはそのフォルダを削除するだけです。しかも、主要なパッケージが組み込まれているので　解凍すればすぐに使えます。オフライン条件下のPython開発環境には持って来いのソフトウェアと言えます。

利用可能なPythonのバージョンは、3.3から3.10までラインナップされていますので、プロジェクト等での標準バージョンに合わせてダウンロードして環境を構築できます。

460以上のパッケージが組み込まれており、以下の定番モジュールはすぐに使うことができます。全リストはGitHubのレポジトリから確認することができます。

WinPython64-3.8.30 (2020-02-May)

Name	Version	Description
Python	3.8.3	Python 標準パッケージ（いわゆるBase)
flask	1.1.2	Web Applications フレームワーク
jupyter	1.0.0	Jupyter notebook (説明不要ですね)
keras	2.3.1	TensorFlow上で動くニューラルネットワークライブラリ
matplotlib	3.2.1	グラフ描画ライブラリ
numpy	1.18.4+mkl	NumPy （説明不要ですね）mkl付です。
pandas	1.0.3	Pandas （説明不要ですね）
pip	20.1.1	Pythonパッケージインストールユーティリティ
scikit_learn	0.23.1	機械学習ライブラリ
tensorflow_cpu	2.2.0	Google が公開したのDeep learning ライブラリ
xlrd	1.2.0	Microsoft Excel 読み込み・書き込みライブラリ

オフライン環境でのライブラリの追加

主要なパッケージも同梱されており、すぐに使えて便利そうですが、使い込んでいくうちに、「当然ある」と思うようなパッケージや日本語化ライブラリが入っておらず、追加でライブラリをインストールする必要がどうしても出てきます。

インターネット接続した環境であればpipコマンドで必要なモジュール名を指定すれば、依存関係を解いた上でインストールも問題なく行えます。

オフライン環境ではどうでしょうか。以下の手順がおすすめです。

おすすめ手順

インターネット接続した別のPC(オンラインPC)を用意する
オンラインPCから追加で必要はライブラリをダウンロードして、オフラインPCにUSB等で移動させておく
WinPython Control Panel から以下の動画のようにインストール

サンプルとしてopenpyxlを使えるようにした際の動画を載せています。参考にしてください。動画を見てお気づきのとおり、openpyxl以外にjdcal とet_xml を一緒にインストールしないとインストールができません。注意してください。

サンプル動画　- openpyxl - のインストール

ひとこと

WinPython は解凍するだけですぐに使えるターンキーソリューションです。オフライン環境での構築には威力を発揮します。しかし、オンライン環境では気にしなかったモジュールの依存関係、目的のモジュールとバンドルしてインストールされるモジュール等の管理のためには、オフライン環境とは別に、オンラインテスト環境での事前準備が必須になるかと思います。

Python と SPSS® Modeler で XGBoost の特徴量選択を比較する

2025-02-04T00:00:00+00:00

特徴量選択（feature selection）＝「どれを説明変数として使うか」は、データ分析では重要です。このBlogでは、特徴量選択についてXGBoostのアルゴリズムでSPSS® Modeler の特徴量選択とPython Scikit-Learnの結果を比較してみたいと思います。

特徴量選択は、実際のところドメイン知識が大きな力を発揮するため、データサイエンスに精通しないがドメイン知識をもつ専門家にもっと、モデルを作成してもらうためIBM のSPSS® Modeler等の統計ソフトを大手企業、官公庁向の研究者やテータ分析担当者向けに導入が進んでいます。

SPSS® Modeler には、Python 固有のアルゴリズムを使用するためのノードが用意されています。XGBoost Tree© は、ツリーモデルを基本モデルとして使用する勾配ブースティング・アルゴリズムを実装しており、Python で実装されています。

前提PC環境

この記事で扱うPC環境は以下のとおりです。

ソフトウエア	バージョン
SPSS Modeler	18.3 on Windows 10
XGBoost on Scikit-learn	1.4.0 on Python 3.8

使うデータはカリフォルニア住宅価格です。Scikit-Learnの標準データセットです。

20640 rows × 9 columns　のサイズです。各々のカラムの意味は以下のとおりです。

F0: (MedInc)median income in block- 収入の中央値

F1: (HouseAge)median house age in block- 築年数の中央値

F2: (AveRooms)average number of rooms- 平均部屋数

F3: (AveBedrms)average number of bedrooms-平均ベッドルーム数

F4: (Population)block population- 人口

F5: (AveOccup)average house occupancy- 平均住宅占有率

F6: (Latitude)house block latitude- 家屋の緯度

F7: (Longitude)house block longitude- ハウスブロックの経度

目的変数はカリフォルニア地区の住宅価格で単位は10万ドルです。データセット自体は1990年の米国国勢調査(U.S. census) のもので、一行に国勢調査で使われるブロックグループ単位で集計されています。ブロックグループは米国国勢調査において、最小の地理的な単位です。概ね、600～3,000人を一つのグループにしています。　

世帯（household) は一つの住宅に居住する人数です。平均部屋数、ベッドルーム数はこの統計が世帯当たりで計算していますが、しばしばブロックグループ単位で計算すると「数世帯」と「多くの空き家」があるようなリゾート地では現実離れした大きな数字になる場合があります。それら大きな数字は外れ値としての処理が必要です。

外れ値の求め方には色々な方法があります。代表的な方法は以下の二つです。　いずれも、SPSS Modeler でサポートされています。

平均から標準偏差のn倍(例：3倍）を範囲外とする
全体のnパーセンタイル（例：0.99)を超えるものを範囲外とする

ここでは、方法2の 99パーセンタイルで平準化した場合の分布イメージを載せます。

ドメイン知識による次元削減

特徴量の抽出で重要なタスクはドメイン知識を持つ、データセット由来の業界知識・専門知識を持ついわゆる専門家からデータセットのカラムのうち、特徴量（説明変数）としては適切で無いものを除外する事です。今回の不動産価格においてはその地理的座標は不要とのことなので、ブロックの地理的座標軸（経度:F6、緯度:F7）は除きます。

ドメイン知識

説明変数のうちドメイン知識よりブロックの地理的座標軸（経度:F6、緯度:F7）は除きます。

ドメイン知識で除かれる経度:F6、緯度:F7のデータの影響を可視化

経度:F6、緯度:F7を除く前のXGBoostによるFeature Imporanceの計算をPythonで行ない、経度:F6、緯度:F7の影響を見ておく事とします。 Code は以下の通りです。　とても簡単なコードですね。

from sklearn.datasets import fetch_california_housing
import pandas as pd
import seaborn as sns
import xgboost as xgb
import matplotlib.pyplot as plt 
from pylab import rcParams
%matplotlib inline
rcParams['figure.figsize'] = 9,6

housing_array = fetch_california_housing()
x = housing_array.data
y = housing_array.target

xgb_model = xgb.XGBRegressor()
xgb_model.fit(x,y)

特徴量を可視化します。左の図のとおり、経度:F6、緯度:F7は計算上は、住宅価格の決定要因としては、収入に次ぐ要因となっています。それらを除外して再計算した結果を右側に並べて見るとその影響がよく分かります。

Python (Sciki-Learn) vs SPSS® Modeler 特徴量計算を比較する

次に同じデータセットでSPSS® Modeler を使って計算します。　左がPythonで右がSPSS® Modeler での計算結果です。計算結果に少しだけ、差異があります。 Python では：

F0: (MedInc)median income in block-収入の中央値

F5: (AveOccup)average number of household members-平均世帯人数

F2: (AveRooms)average number of rooms-平均部屋数

と平均住宅占有率が２番目に大きな影響力があるとい結果でしたが

SPSS® Modeler では：

F0: (MedInc)median income in block-収入の中央値

F2: (AveRooms)average number of rooms-平均部屋数

F5: (AveOccup)average number of household members-平均世帯人数

とPython では3番目の平均部屋数が２番目という結果でしたが、それ以外は同じ順位でした。

＊SPSS® Modelerでは、Feature をF1から始めて作図されます。本ブログではPythonとの比較のため、Python と同じようにF0からに変更しています。

SPSS® Modeler ストリームと設定

SPSS® Modeler 上でのストリームと設定の概要は以下のとおりです。

ストリーム画面

データ型ノードの設定

XGBoost Tree Pythonノードの作成オプション

カルフォルニアの住宅価格の決定要因

収入(お金に余裕があるかどうか)　＞　部屋数（家の広さ）＞　平均世帯人数（何人暮らしか）
築年数はさほど影響しない
計算に使用したアルゴリズム XGBoostにおいてPython, SPSS® ともほぼ同じ結論を導いている

イラレのアピアランスパネルを理解する

2025-02-04T00:00:00+00:00

アピアランスパネルは、オブジェクトの実体は同じままで、見た目を変えるものです。修正に強く流用しやすいパーツを作るのに欠かせない機能を提供します。同じ見た目を他のオブジェクトに展開して効率的にデザインの統一感を出すことができます。イラストレーターの数ある機能の中で押さえておくべアピアランス機能について深堀りします。

アピアランスパネルとは見た目を変えるためのパネル

アピアランスパネルは、ウインドウ→アピアランスで出現します。

通常、一つのオブジェクトに対して「塗り」と「線」の設定をひとつずつ行うことができます。アピアランスパネルを使うと、この一対の塗りと線の設定を複数設定し編集することができます。

アピアランスとは英語で外見とか見た目と訳されます。　すなわち、オブジェクトの実体（内面）は同じままで、見た目を変えるためのパネルということです。

イラストレーターでのアピアランスは、「塗り」「線」,「効果」,「不透明度」の4つの属性から構成されています。アピアランスパネルでは４つすべての属性を操作できます。

以下の図では、

この図では、３層のアピアランスの構造になっています。上からパス、「線」,「塗」りの順に重なっています。

概要

パス＝オブジェクトに対してのアピアランスです。実際のオブジェクトは左の円です。
線には、イエロー(#FFFF00)で太さは3ptのアピアランスがあたっています。　この部分だけ色が変わっていますが、線のアピアランスを選択しています。
塗りは、オレンジ(#C1272D)のアピアランスがかかっています
CSVファイルをデータフレームとして読み込むにあたりdelimiter ="," CSVファイルなのでカンマを区切り文字にします。　
アピアランスは、パス、線、塗それぞれにかけることが可能です。さらにグループ、サブレイヤー、レイヤのレベルまでアピアランスの対象になることができます。

最も一般的なパス、線、塗に対するアピアランスについて研究します。

見た目が違うだけで、図形は元のままだから修正に強い

「塗り」、「線」、「効果」の各属性は追加して複数の属性を持つことができます。特に、効果を使うとオブジェクトの形状を変えることなく効果があたり、見た目の形状を変えることができます。
以下の動画では、パス、線、塗りにそれぞれ、ジグザグの効果をあてて、円からばくだん に見た目の形状を変えています。　パス、線、塗り、それぞれのジグザグの「あて方」で効果がパス、線、塗りのそれぞれにあたる、そしてそれらが合わさるとはどういうことか、この例で理解できると思います。

見た目が複雑になっても、オブジェクトは元の図形のままです。試しに「表示」メニューで「アウトライン」をすれば一目瞭然です。このことが、アピアランスパネルの活用は修正に強く、流用しやすいパーツ作成のための必須ツールと言われる理由です。

アピアランスの当たり方はそれぞれの重なり順で決まります

新規線の追加とは実態となる線に対して、効果を重ねることです。　例えば、動画のケースで新規線を追加すると、線のアピアランスが複製され、黄色で2ptのアピアランスを２つ持つ線です。　複製されたアピアランスは一番上に追加されます。

二つアピアランスがあるこの線の下側のアピアランスの色を黄から青に変えても、上のアピアランス（このケースでは黄色）が有効となり、青色とするアピアランスは見えません。

試しに、動画のように黄色のアピアランスの太さを2pt から 1pt に変えてみます。すると下の青色の線の半分が見えてきます。重なりの半分が無くなり、下側のアピアランスが見えてきたということですね。

このように、アピアランスをかけた結果、どのように見えるかはアピアランスの重なり順で決まります。したがって、アピアランスの順序によって同じ種類のアピアランスの集まりでも、見た目が変わります。

グラフィックスタイルに登録すれば、アピアランスを別のオブジェクトに簡単に反映できます

アピアランスをコピーする場合には「ウィンドウ」メニューから「グラフィックスタイル」のパネルを開きます。そしてアピアランスパネルから作成したこのアピアランスをグラフィックスタイルのパネルにドラッグしていきます。
そうすることで、ここで設定したこのアピアランスを登録することができます。

選択されている図形に対して再度、アピアランスを１から設定するのではなく「グラフィックスタイル」から選択することで同じアピアランスを別のオブジェクトに反映することができます。

アピアランスの分割でオブジェクトの中身にも反映させます

「オブジェクト」メニューから「アピアランスを分割」を選択します。すると、「アウトライン」で見るとこれまで、見た目だけのアピアランスが実際の図形として認識されています。ダイレクト選択ツールなどでこのオブジェクトを部分的に編集が可能になります。

アピアランス分割前は、実体の図形への編集には限度がありました。アピアランスを分割後には今までのアピアランスは認識さないので、色を変える等のアピアランスの編集作業が簡単にできなくなってしまいます。

アピアランスパネルで座布団を作成する

2025-02-04T00:00:00+00:00

テキストの背面に敷いた四角形や楕円形を「座布団」と呼んだりします。アピアランスとグラフィックスタイルで作成すると関単に文字に座布団を敷けます。アピアランスパネルだけで作成する座布団の基本的な手順を覚え、それを応用すれば、文字に視覚的な効果のバリエーションが一気に広がります。

アピアランスで作成、グラフィックスタイルで複製

アピアランスパネルだけで座布団を作成し、アピアランスパネルの内容をグラフィックスタイルに登録すれば、簡単に他のオブジェクトにアピアランス反映することができます。以下の動画のように、文字を装飾するアピアランスをグラフィックスタイルに登録すれば、後は文字を入力し、グラフィックスタイルを適用するだけで、簡単に対象の文字に対して座布団を敷いてみたり、囲みをいれたり、反射文字に変更することができます。　

動画では、イラストレーターがデフォルトで提供している、グラデーションやお化けの装飾に変えるグラフィックスタイルの適用例も入れています。

可変長と固定長座布団

動画では、座布団の大きさも文字の長さ（文字数）によって座布団も長くなる 可変長 の例を示しています。また、文字数によらず決まった長さの 固定長 座布団も可能です。いずれも座布団の真ん中に文字が乗っかる配置になります。座布団と言われる所以でしょうか。

可変長座布団のアピアランスパネル

可変長座布団のアピアランスパネルを解説します。　Hello World の文字に対して黄色の角丸長方形の座布団を敷くアピアランスパネルです。

字色と座布団のための2つの「塗り」を用意する

塗りのキホン

「線」はなし、「塗り」はブルー(#2E3192)が元々の文字の基本アピアランスです。　ここでの「塗り」が文字の色になります。
座布団となる二つ目の「塗り」黄色(#FCEE21)を追加しています。　この「塗り」で座布団の色を決めています。
オブジェクトのアウトライン化と角丸長方形の効果を追加して座布団の形状や、文字の位置を調整しています。

角丸長方形の形状オプションを指定しています。オプション の項目の サイズの (R) サイズ可変 を指定して、文字からどれだけ座布団の端を設けるかその値を指定しています。　各々サイズが実際の長方形の形状に該当するかは、図内のサイズで確認できます。

Attention!

このサンプルのアピアランスパネルでは、バウンディングボックスを表示させないようにするため、オブジェクトを選択していません。
実際のアピアランスパネルの操作では、必ずオブジェクトを選択しておく必要があります。その場合は、「テキスト」とアピアランスパネルの上部で表示します。

固定長の座布団の場合は、オプション の項目の サイズで、(A)値を指定

ドロップシャドウで座布団の立体感を出す

今回の座布団では、ごく薄く ドロップシャドウ の効果を与えて立体感を出すようにしています。　その効果のあて具合は以下パネルのような内容です。

ポイント

テキスト内のオブジェクトを指定すると、テキストがやや上付きに位置しています。そのままだと座布団の上でもやや上付きになります
真ん中に自動的に位置合わせをするには、文字と長方形二つのオブジェクトのアウトライン化します。
アピアランスパネルで最初にアウトライン化の効果を追加し、テキストをアウトライン化したことにします。
効果の重ね順も大切なポイントです。角丸長方形の効果を当てる前にパスのアウトライン化をします。

字に囲みを入れるアピアランスパネル

黄色の「塗り」に太さの違う赤と青の「線」を二つ重ねて、黄色の文字に、赤い囲み（内側）と青い囲み（外側）をつけるアピアランスパネルの例を示します。

アピアランスのかかり方はパネルの上から下にかかりますので、内側に位置する赤い囲みの「線」4ptを上にしてその下に外側に位置する青い囲みの「線」 10pt の順にパネル上で効果をスタックしています。　

例えば、青の囲み線を赤の囲み線の上にパネル上で並べる（図中の２と３を逆にする）と、青が10pt と太いため、それに隠れて赤の囲みが見えなくなります。　パネルを重ねる順番で見え方が変わることがこのサンプルでよく理解できると思います。

反射文字が入るアピアランスパネル

「塗り」がピンクに「線」がなしの文字をベースに、あたかもその文字を鏡面に置いたかのように、反射するさまをアピアランスパネルで表現します。反射する文字のための「塗り」を追加し、その「塗り」に対して：

How To

変形効果で反射を表現用に垂直方向に縮小、移動、リフレクトさせます
パスの自由変形で右45度に反射画像を曲げます
「塗り」もグラデーション効果で先に行くほど薄くさせています

垂直方向に縮小、移動、リフレクト、パスの自由変形の効果をあてるアピアランスパネルの例

グラデーション効果 の効果をあてるアピアランスパネルの例

おまけ　リボンの形の座布団のアピアランスパネル

おまけとして、リボンの形にした座布団のアピアランスパネルを紹介します。　

１から５まで番号がふられている６つのパネルは、リボンの先にあたる部分を表現する効果の詳細です。

やや複雑なアピアランスパネルです。興味のある方はチャレンジしみてください。

Excelファイルの内容をKey Word検索する

2024-11-22T00:00:00+00:00

Excelファイルの内容をKey Word検索するPython Scriptをまとめました。フォルダ内のExcelファイルのタイトルではなく中身について検索するPython Script になります。

if “検索文字” in “検索対象文字列” を理解する

検索には、if “検索文字” in “検索対象文字列”の構文を使っています。以下の例で理解できます。検索対象文字列に対して検索文字を含む部分検索が可能です。

1
2
3
4
5
6
7
if 'リンゴ' in 'リンゴみかん':
    print('Matched')
else:
    print("No Matched")

>>> Matched
# 'リンゴみかん'の文字列には文字列'リンゴ'はある。

1
2
3
4
5
6
7
if 'リンゴみかん' in 'リンゴ':
    print('Matched')
else:
    print("No Matched")

>>> No Matched
# 'リンゴ'の文字列には文字列'リンゴみかん'はない。

1
2
3
4
5
6
7
if 'リンゴみかん' in 'リンゴみかんレモン':
    print('Matched')
else:
    print("No Matched")

>>> Matched
#  'リンゴみかんレモン'の文字列には文字列'リンゴみかん'はある。

Docker for Windows でJupyter Notebook コンテナを起動させる

2024-11-09T00:00:00+00:00

Docker 環境があると、ちょっとPythDon の勉強用の試しコード作成等や本来ならば個人のPCでやるべきようなことを仕事用などのPCを使う場合等、PCを汚したくない時にDocker環境の中にJupyter Notebook稼働環境を作ってPC環境から独立して使うことができます。

この記事で扱うPC環境は以下のとおりです。

仕様	内容
PCの仕様	Windows 10 Pro バージョン21H1　16GB RAM
Docker	Docker Desktop for Windows (version 20.10.8, build 3967b7d)
その他	VS Code 1.62.2

Docker Dockerfile の中身は以下のとおりです。ファイルの設置先は、Jupyter Notebook のドキュメントルートとなるWORKDIR に設置します。

チートシート

コマンド	用途
FROM	ベースとなるイメージを指定します。この例ではpython3.8-slim バージョンとしています。
WORKDIR	RUN, CMD等実行するコンテナプロセスのワークディレクトリを指定します。この例では、/docker_jupyter としています。
RUN	docker build 時に実行するコマンドこの例ではnumpy, pandas, jupyter notebook をインストールを指定しています
EXPOSE	Listen するポート番号を指定する環境変数です。この例ではjupyter notebook の一般的な8888 を指定しています
CMD	docker run 時に実行するコマンドこの例ではjupyter notebookの起動オプションとしてjupyter notebook –no-browser –port=8888 –ip=0.0.0.0 –allow-root　としています。
ノートブック起動オプション	–no-browser 起動後にブラウザでノートブックを開かない。ログとして吐き出されるトークン付きURLをブラウザに直接貼り付けて開く必要があります。 –allow-root ノートブックをrootユーザーから実行できるようにします。 –ip= ノートブックサーバが待ち受ける IP アドレス。 Default: 'localhost‘ 　0.0.0.0 とするとすべてのインターフェースで待ち受けることとなります。　 --port= ノートブックがリスンするポート番号(env: JUPYTER_PORT). Default: 8888

DockerイメージをDockerFileからビルドする

Dockerfile で指定したWORKDIRと同じディレクトリを作成します。このディレクトリの直下にDockerfile を設置します。

コマンドプロンプトよりdocker build -t dev_jupyter . と入力します。dev_jupyterという名前のDockerイメージが作られます。後述するcompose.ymlでもコンテナが無い場合は、Dockerイメージは作成されますが、Dockerfileで記述した内容どおりイメージファイルが作成されることを確認したいので、まずは以下のとおりDockerfille を起動します。

PS C:\Users\xxxx\docker_jupyter> docker build -t dev_jupyter . 
[+] Building 62.5s (10/10) FINISHED
    省略
 => => naming to docker.io/library/dev_jupyter

入力した内容とその詳細は下図を参照してください。

docker imagesとコマンド入力し、作成されたDocker イメージを確認します。添付のスクリーンショットのとおり作成されました。赤枠が今回作成したDockerイメージに相当します。

コンテナを作成する

イメージを作成しただけではノートブックは使えません。ノートブックを使えるようにするため、コンテナを作成します。コマンドプロンプトからRUNコマンドで作成する方法とdocker-composeを使う方法を紹介します。

Point！

コンテナが消滅してもプログラムなどのユーザデータはWindows PC上に保存できるようでJupyter NotebookのファイルをコンテナとPC間で共有できる
Windows標準のコマンドプロンプト-【方法1】
GitBashとdocker-composeを使う方法-【方法2】

Windows標準のコマンドプロンプトの方法

コマンドプロンプトからRUNコマンドを入力して、コンテナをすぐ使える起動状態で作成します。Windows版のDocker を使っています。共有できるようにするため、volumeを定義します。

C:\Users\xxxx\docker_jupyterをコンテナとPCの共有ディレクトリとし、Pythonコード等をPCからエキスプローラで直接共有できるようにします。コマンドの詳細は下図のとおりです。 Windows標準のコマンドプロンプトからコマンド投入することを前提にしたコマンドフォーマットを紹介します。　

Windows標準のコマンドプロンプトからコマンド投入することを前提にしたコマンドフォーマットを紹介します。　

docker container run -p 8888:8888 -v “%cd%”:/docker_jupyter dev_jupyter
以下が実際のコマンド投入後のログになります。

C:\Users\xxxx\docker_jupyter>docker images
REPOSITORY    TAG       IMAGE ID       CREATED        SIZE
dev_jupyter   latest    xxx93b79b3   20 hours ago   395MB

C:\Users\xxxx\docker_jupyter>docker container run -p 8888:8888  -v "%cd%":/docker_jupyter  dev_jupyter
   
  << 省略>>
    
    To access the notebook, open this file in a browser:

起動オプションで指定したとおり、ノートブックはブラウザから自動的に起動しません。copy and paste one of these URLs:とあるURLをブラウザのURL指定部分にコピペすると、下図のとおりノートブックがコンテナを起動した際のカレントディレクトリを共有ディレクトリ（コンテナの外のDirectory）上に起動します。これらのファイルはDocker コンテナーからアクセスしJupyter Notebook が起動するだけでなく、PCからもエキスプローラでアクセスできるようになります。

docker-compose を使う方法

docker-compose.ymlというcompose ファイルをDockefile と同じディレクトリに配下に設置します。

docker-compose.ymlの中身は以下のとおりです。ここでは、volume の記述${PWD}がとlinux 用のbashで記述していますので、Windows コマンドプロンプトではなく、Git Bash からdocker-compose upコマンドを打つ必要があります。

コンテナが無い場合は、Dockerfile を参照してキャッシュからイメージを再作成した上でコンテナを作成します。

$ docker-compose up
　　[+] Building 7.4s (8/8) FINISHED
 　　=> [internal] load build definition from Dockerfile 

 << 省略>>

str.contain否定演算子”~”による「指定の文字列を含まない行」を抽出する

2024-11-02T00:00:00+00:00

Pandas のstr.contaisを利用して指定の値を含まない行の抽出方法をまとめました。データフレームの中身をクリーニング等で抽出作業は必須スキルです。今回は、 str.contains(“除きたい文字列”)と否定演算子 ** ~ ** を使って** ~df ** として指定の文字列を含まない行の抽出方法をまとめました。

行いたいことを図示します。

以下の事をPandas のデータフレーム上で行いたいと思います。

str.contains と否定演算子を使う

str.contains(“除きたい文字列”) と否定演算子 ~ を使えば、簡単に抽出できます。また、print(‘before/after:’, df.shape)を前後に挟むことで、データフレームの前後のサイズを把握します。

1
2
3
print('before:', df.shape)
df = df[~df['メールアドレス'].str.contains('@example.org')]
print('after:', df.shape)

前後に配置したdf.shape でデータフレームのサイズのBefore/After を記録して抽出サイズ（削除された行数）を把握します。

>> before: (8, 3)
>> after: (6, 3)

抽出後のデータフレームは以下のとおりです。

練習データで指定する「値を含む」場合を示します

このブログで利用した練習用データフレームの作成から抽出までのコードは以下のとおりです。　今回は、「指定値を含む」ケースです。

1
2
3
4
5
6
7
8
9
10
11
12
13
# 演習用のデータフレームを作成します。
df = pd.DataFrame({ '顧客番号': ['01285679', '01340788', '02123782', '10541976', '12297411', 
                             '13299899', '30144450', '47339981'],
                   '都道府県名': ["北海道","北海道",'青森県','群馬県','千葉県','東京都','和歌山県','沖縄県'],
                  'メールアドレス':   ["nabe@example.net","hiro@example.net","aatsu@example.net",
                               "hi106@example.org","im_to@example.co.jp","ka713@example.org",
                               "sato@example.com","oka_h@example.net"]},
                    index=[0, 1, 2, 3, 4, 5, 6,7])
# オリジナルのデータフレームを表示

df = df[df['メールアドレス'].str.contains('@example.org')]

display(df)

まとめ

Point

df = df[df['メールアドレス'].str.contains('@example.org')]　含むで抽出
df = df[~df['メールアドレス'].str.contains('@example.org')]　含まないで抽出

カテゴリカルデータの個数、構成比率、トータル行を集計、整形する

2024-09-01T00:00:00+00:00

カテゴリカルデータの個数、構成比率、トータル行を集計、整形する方法をまとめました。

サンプルコードの紹介

カテゴリカルデータのそれぞれの個数を大きい順に表示し、その構成比率とトータル行を追加した内容をデータフレームとして提供するスクリプトになります。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
col_name = '部門' # 集計したい列名
tab = df[col_name].value_counts()
tab = pd.DataFrame(tab)
tab = tab.rename_axis(col_name)
tab['構成比']=(tab['count'] / tab['count'].sum())
tab.rename(columns={col_name: '会社数', 'count': '件数'}, inplace = True)

# Total 行を追加する関数
def append_sum_row_label(df):
    df.loc['Total'] = df.sum(numeric_only=True)
    return df

tab = append_sum_row_label(tab)
format_dict = {'構成比': '{:.1%}', '件数' : '{:n}'}
display(tab.style.format(format_dict))

サンプルデータフレーム

以下のとおり、サンプルデータフレームの集計結果をデータフレームとして得ることができます。

1
2
3
4
5
6
7
8
9
10
# 演習用のデータフレームを作成します。
df = pd.DataFrame({ 'ID': ['01285679', '01340788', '02123782', '10541976', '12297411', 
                             '13299899', '48144450', '55339981'],
                   '出身地': ["東京都","山口県",'大阪府','千葉県','東京都',
                          '埼玉県','千葉県','千葉県'],
                  '部門':   ["首都圏営業部","関西支部","本部総務",
                               "研究開発","東北支部","北海道支部",
                               "首都圏営業部","研究開発"]},
                    index=[0, 1, 2, 3, 4, 5, 6,7])
# オリジナルのデータフレームを表示

サンプルデータフレームを表示:

>> display(df)

–> 部門別に集計します。

スクリプトの結果

‘部門’で集計結果を表示:

>> format_dict = {'構成比': '{:.1%}', '件数' : '{:n}'}
>> display(tab.style.format(format_dict))

so-wi.com_blog

DataFrame, ndarray, list の使い分けについて実用的に考える

DataFrame <-> ndarray <-> list 間のコンバージョン

Pandas DataFrame がデータセットを用意するツール

数値計算に特化したNumpy ndarray

ndarray と list の計算の違い

Python標準の配列データの形式がlist

まとめ

seaborn barplot の棒グラフに平均値のannotationをつける

サンプルデータセット

groupby での集約のイメージ

reset_index()でx軸、y軸をColumnに配置する

Python コードの紹介

小数点何位までの表示とするかの指定

度数分布図、任意のカテゴリー順

WinPython でオフライン環境でPythonを使う

WinPythonとは

インストールはZIP解凍するだけ

オフライン環境でのライブラリの追加

サンプル動画 - openpyxl - のインストール

ひとこと

Python と SPSS® Modeler で XGBoost の特徴量選択を比較する

前提PC環境

ドメイン知識による次元削減

ドメイン知識で除かれる経度:F6、緯度:F7のデータの影響を可視化

Python (Sciki-Learn) vs SPSS® Modeler 特徴量計算を比較する

SPSS® Modeler ストリームと設定

ストリーム画面

データ型ノードの設定

XGBoost Tree Pythonノードの作成オプション

イラレのアピアランスパネルを理解する

アピアランスパネルとは見た目を変えるためのパネル

見た目が違うだけで、図形は元のままだから修正に強い

アピアランスの当たり方はそれぞれの重なり順で決まります

グラフィックスタイルに登録すれば、アピアランスを別のオブジェクトに簡単に反映できます

アピアランスの分割でオブジェクトの中身にも反映させます

アピアランスパネルで座布団を作成する

アピアランスで作成、グラフィックスタイルで複製

可変長と固定長座布団

可変長座布団のアピアランスパネル

字色と座布団のための2つの「塗り」を用意する

ドロップシャドウで座布団の立体感を出す

字に囲みを入れるアピアランスパネル

反射文字が入るアピアランスパネル

おまけ リボンの形の座布団のアピアランスパネル

Excelファイルの内容をKey Word検索する

if “検索文字” in “検索対象文字列” を理解する

Docker for Windows でJupyter Notebook コンテナを起動させる

チートシート

DockerイメージをDockerFileからビルドする

コンテナを作成する

Windows標準のコマンドプロンプトの方法

docker-compose を使う方法

str.contain否定演算子”~”による「指定の文字列を含まない行」を抽出する

行いたいことを図示します。

str.contains と 否定演算子を使う

練習データで指定する「値を含む」場合を示します

まとめ

カテゴリカルデータの個数、構成比率、トータル行を集計、整形する

サンプルコードの紹介

サンプルデータフレーム

スクリプトの結果

サンプル動画　- openpyxl - のインストール

おまけ　リボンの形の座布団のアピアランスパネル

str.contains と否定演算子を使う