ちゅーりんぐくんの備忘録

機械学習の基礎

ラベル付きのデータを用意して学習モデルを構築する方法。
具体的には所得の関係を調べたいと思ったら、人々の詳細のデータ(性別、職種、年齢などの属性)を集めたデータベースを用いて、所得データをラベル付する
 
ラベル付きのデータを用いないで、学習モデルを構築する方法。与えられたデータだけでその潜在的な本質を抽出する必要がある。
 
分類の仕方
二値化
数値を0か1に変換すること。設定した閾値によって二値化することができる。
 
平均値引き
任意の値の平均値を任意の値に引く。こうすることで、特徴量の中心が原点になる。これをほどこした平均値の値は1に近づき、標準偏差は1になる。
 
スケーリング
複数の特徴量を同じスケールにすること正規化と標準化がある
 
正規化
L1正規化 ベクトルの要素の絶対値の和が1になるようにするもの
L2正規化 各行の要素の二乗の和が1になるようにするもの
 
ラベルには単語や数字が使われる。数字の場合はそのまま用いることができるが、単語の場合は、単語に数字を対応付けるようにラベル付けをする必要がある。
scikit-learnパッケージを用いる
encoder.fit(単語のリスト)でラベルと数字が対応付けされ、それがencoder.classes_に格納されている。
ラベル付けが完了したら以降はtransform()メソッドで単語を数字にinverse_transform()メソッドで数字から単語に変換することができる。