統計におけるp値とt値 ~聞くは一時の恥、聞かぬは一生の恥~


■p値

回帰分析で求めた変数xの係数kに対し、『変数xは有効ではない』という帰無仮説を考えたとして、『偶然に係数がk以上になる確率』を表す

p値の解釈についてはコチラの表現がわかりやすい

 

カンタンに言うと「その仮説が正しいと仮定したら、今回みたいな結果が起きる確率はこんなにも低いんだ。偶然こんなに低い確率を引いたと考えるより、その仮説は正しくないと考える方が自然じゃない?」と主張するときの『こんなに低い確率』 https://atarimae.biz/archives/12011#p

 

仮説を否定するときの基準は『p値0.05以下』が広く用いられている

まわりくどいように感じるが、まとめると以下の流れ。
・変数xは有効ではないという仮説を立てる
・偶然では考えにくいような結果が出た
・きっと仮説は誤っていた、つまり変数xは有効だ!

 


■t値

・2つの集団に対して平均値に有意差がありかどうか判定する基準値

 

例えばトレーニング前の体力測定データの集合Xと、トレーニング後の体力測定データデータの集合Yを用意して、t値を算出することでトレーニングによる有意差があるかどうか検定ができる。

 

 

<数式の直感的な解釈>

分子:2つの集団間で平均値の差が大きいほどt値(有意差)が大きくなる

分母:それぞれ集団の分散が大きいほど、たまたま2集団間の平均値が離れただけの可能性があるのでt値(有意差)が小さくなる

分母:サンプルサイズ(mとn)が大きいほど、XとYの平均値が母集団を正確に表現できているのでt値が大きくなる

全員リーダーの組織論

大学選手権9連覇中の帝京大学の岩出監督の言葉

・過剰なトレーニングを強いるのは指導者の不安解消でしかない

・楽しくさせてやったら人間だれでも動く

 

BS1スペシャル
「“全員リーダー”の組織論~帝京大ラグビー9連覇~」
ラグビー大学選手権で前人未到の9連覇を果たした帝京。脱体育会系を掲げ選手一人一人に考える力を求めた岩出監督と選手15人のインタビューで負けない組織の核心に迫る。 

http://www4.nhk.or.jp/bs1sp/x/2018-01-28/11/15594/3115361/

 

コントロールするのではなく、自発的に動く環境を作る。やはりこれに尽きるようですね。

どシンプルながらも強力なPruningによるネットワーク高速化 ~Pruning Filters for Efficient ConvNets~

本日はPruningによるネットワーク高速化の論文を取り上げます。背景としてはディープニューラルネットワークではConv層の計算量やパラメータ数が膨大で、処理時間増大やメモリ圧迫が生じるのでなんとかしたいというところから来ていますね。

特に、ディープラーニングを組み込みで動かす場合はこのあたりの話はかなりシビアに効いてきます。


Pruning Filters for Efficient ConvNets (2017)(PDF
Hao Li, Asim Kadav, Igor Durdanovic, Hanan Samet, Hans Peter Graf

・Pruningによる高速化手法。
・Conv層をカーネルごと削減する手法を提案。


・L1ノルムが最小のカーネルを有効性が低いと仮定して削除する。
・既存のBLAS等のライブラリで実現可能。

 

・ResNetなど複雑な構造のネットワークでもConv層のPruningは可能
・関連するLayerもあわせて次元削減して次元数を揃える点に要注意
・Residualを出力するConv層を基準に削除次元を選定すると良いとのこと

 

・ランダムにカーネル選定するよりはL1を用いた方がわずかに良かった

 

・Layer別にPruning時の性能低下率と速度向上率を検証。
・性能低下を招きやすいLayerや、速度向上しやすいLayerがあることを示した。


所感

カーネル選定手法はまだまだ議論の余地はありそうですが、ポピュラーな構造のネットワークについて丁寧に検証されている論文でした。

ニューロンの重要度を逆伝搬的に算出してPruning ~NISP: Pruning Networks using Neuron Importance Score Propagation~

NISP: Pruning Networks using Neuron Importance Score Propagation
University of Maryland & IBM T. J. Watson Research
https://arxiv.org/abs/1711.05908

2017年11月に発表された論文。タイトルから察するにNIPSでNISPという技術を発表してウケを狙ったのかな・・・?(未確認)


概要

ディープニューラルネットワークの高速化技術に該当。

特にCNNではパラメータが膨大すぎて計算時間がかかることが課題視されており様々な研究がなされている。

主な手法は不要なニューロンを削って高速化するPruningと、量子化対応(例えば16bitのところを近似して8bitにする)による計算高速化。

こちらの論文はPruningによって高速化を図っており、いかに不要なニューロンを削って、重要なニューロンを残すのか、その選定手法を提案している。


手法

ディープニューラルネットワークの最後のLayer(識別結果出力の直前)にて各ニューロンの重要度を算出。

 

重要度算出には、このLayerにおける各ニューロンは入力Xを抽象化して得られた特徴量であると解釈して、下記の特徴量選定手法(ICV2015)を適用。

https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Roffo_Infinite_Feature_Selection_ICCV_2015_paper.html

 

それ以外の手前のLayerでは下記手順で重要度を算出

①そのニューロンをPruningした場合としなかった場合との差分を算出

②各ニューロンでの差分*各ニューロンでの重要度の和によって「Pruningによる影響」を算出

③「Pruningによる影響」が最も小さいニューロンをPruningに選定する

※直感的には、このニューロンを削ったとしても重要度の高いニューロンに影響がないようなものをのPruning対象に選択する


所感

比較対象がRandomにPruning対象を選んだ場合や、Pruningのたびにゼロから学習しなおした場合(scratch)なので、もっとそれらしい手法と比較をしてほしかった。

 

しかし、なんとなくではなく理論立てて納得感のあるPruning候補選定をした点は希少と感じており、今後このような研究が増えてほしい。

IoTシステム技術検定 試験対策⑥

IoT技術テキスト -MCPC IoTシステム技術検定 対応

今回はIoTシステム技術検定の試験対策として「第7章 IoT情報セキュリティ」を中心にまとめます


SHODAN:
モノのインターネット(IoT)デバイスを探す検索エンジン。企業のネットワーク管理者はこれらを利用して外部から脆弱性がないかどうか確認を出来る。

CENSYS:
SHODANと同じく、モノのインターネット(IoT)デバイスを探す検索エンジン。

耐タンパー性:
物理的にデバイスを盗まれたときに、内部のデータを解析困難にしていること。

セキュアブート:
デバイス電源投入時にデバイス内のソフトウェアが正規品であるかどうか検証してからソフト実行する仕組み。

WAF:
Web Application Firewallの略。WEBアプリにおいてHTTP通信等を解析して攻撃を検知・防御する。

CSMS:
組織の産業用オートメーション及び制御システム(IACS:Industrial Automation and Control System)を対象として、その構築から運用・保守に渡ってサイバー攻撃から守るためのセキュリティ対策を実施し、システムを運用するもの。

oneM2Mセキュリティ規格:
サービス層におけるIoTプラットフォーム標準化を推進する団体。セキュリティ機能は共通サービスエンティティ(CSE)の1つとして提供される。

IoTシステム技術検定 試験対策③

IoT技術テキスト -MCPC IoTシステム技術検定 対応

今回はIoTシステム技術検定の試験対策として「第3章 IoT通信方式」を中心にまとめます


高周波の電波のメリット:
・情報伝送容量が大きい
・アンテナが小さくなる

高周波の電波のデメリット:
・伝搬損失が大きい(周波数と距離2乗に比例)
・障害物を回り込みにくい
・ガラスなどの透過損失が大きい
・伝送距離が比較的短い

ISMバンド:
産業で容易に利用してもいい周波数帯。日本では2.4GHz(無線LAN、Bluetooth)や920MHzが広く利用されている。

スター型:
ゲートウェイは常に稼働している必要あり。ゲートウェイに複数センサが繋がるので、データが衝突しないように送信順番を制御する必要あり。中央集権なので信頼性の低いネットワークになる。

ツリー型:
階層構造によって多くのセンサをゲートウェイに接続可能。上位のノードにデータが集約されるため、一定のスペックが求められる。混信しないようにデータ送信純の制御や周波数帯域の使い分けが必要。

メッシュ型:
到達ルートが複数あるため信頼性の高いネットワークを構築可能。ただし通信が混線しないように周波数を使い分ける必要あり。ノードが常に受信待機のため稼働していないといけないので電力面にデメリットあり。

BLE
通信可能距離はBluetoothよりも短い。通信速度も低速。低消費電力に特化させた通信。

ZigBee:
周波数帯 2.4GHz
通信速度 250kbps
通信距離 100m
マルチホップが特徴。センサネットワーク形成に用いられる。

Wi-SUM:
周波数帯 920MHz
通信速度 1Mbps
通信距離 2km
マルチホップが特徴。屋外長距離通信に用いられる。

RFID:
無線通信機能を持ったタグ。電池内蔵で自らデータ送信するアクティブ型と、受信電波をエネルギー源として電波を返送するパッシブ型がある。

トランスファージット:
近距離無線転送技術。4.48GHzで560Mbpsという高スペック。KIOSKでの広告等コンテンツ配信に用いられる。

Z-Wave:
1GHz以下で無線LANなどと混線することなくフルメッシュネットワークを形成する。

EnOcean:
低消費電力性に注力した928.35MHzの通信技術。確認信号であるACKを使わないことで低電力化、その代わりに1回の送信でランダム間隔に3回データ送信する。

DustNetwork:
「きれない無線」を目指したメッシュネットワーク。時間をスロット分割して、割り当てられたタイムスロットで送信させることにより衝突が発生しない。

LAPI(low access priority indicator ):
携帯電話などと比較して、IoT機器はネットワーク接続の優先順位を下げる仕組み。

報知情報:
ネットワーク混雑時にIoTデバイスにアクセス不可な旨を報知情報として届ける仕組み。これによりIoTデバイスは接続要求すら出さないので回線制御信号までも控えることが出来る。

IoT最適な標準化:
無駄なスペックをひたすら省こうとする試み。NB-IoTと言われるように最小限の帯域しか割り当てず、最低限の通信速度しか持たせない。

IoTとプロトコル(HTTP):
暗号化やプロキシといったセキュリティ面で強いが、ヘッダ情報が大きいため無駄なデータ伝送が多くなる。

IoTとプロトコル(CoAP):
そんなHTTPの欠点を改良したものがCoAP。軽量版HTTPと思っておけばだいたいOK。

IoTとプロトコル(MQTT):
パブリッシャーとサブスクライバーという構成が特徴。トピックの一致をもってデータ送受信がなされる。HTTPなどよ比較してヘッダサイズが1/10以下。

IoTとプロトコル(WebSocket):
ベースはHTTPと似ているが、1度確立したセッションをそのまま維持し続ける点が特徴。TLSに対応しているためセキュリティにメリットがある。さらにリアルタイム性も強い。

プロトコルバインディング:
アプリ層やトランスポート層などでプロトコルが異なる場合に、その差を吸収する仕組み。

 




IoTシステム技術検定 試験対策②

IoT技術テキスト -MCPC IoTシステム技術検定 対応

今回はIoTシステム技術検定の試験対策として「第5章 IoTデータ活用技術」を中心にまとめます


Hadoop
大規模データの蓄積・分析を分散処理技術によって実現するフレームワーク

MapReduce
データを分類・仕分けするのがMap処理、仕分けされたデータごとに処理を施すのがReduce。

CEP
複合イベント処理。時系列に生み出されるデータを次々とリアルタイム処理する方式。

NoSQL(Key/Value型)
保存するデータをValueとして、ペアとなる一意のKeyを使ってValueの追加と呼出しを行う

NoSQL(ドキュメント)
JSON、XMLなどのフォーマットで記述されたデータを管理する。

NoSQL(グラフ)
データ間の関連性を管理可能。グラフ理論に基づくNoSQL。SNSなどの「ある人の友だちの友達」など互いの関連性を管理するときに利用されている。

Spark
Hadoopの後発として期待されるビッグデータ処理基盤。分散処理フレームワーク。

1人でもアンチがいたら周囲からの評価が下がる?

たまには専門外の論文を読んでみるのもいいなと思い、今回は『心理学研究』の論文を漁ってみました。

今思えば大学時代は一般教養科目で妙に人気だった心理学、いったいどんな論文が投稿されているのでしょうか・・・

今回は優秀論文賞を受賞したものから「表情の快・不快情報が選好判断に及ぼす影響」という論文を読みました。

https://www.jstage.jst.go.jp/article/jjpsy/advpub/0/advpub_87.15043/_article/-char/ja/


要約

内容①:対象物Xへの選好判断は、周囲の人物から対象物Xへのシグナルにより影響を受ける。

そりゃそうだって感じですね。みんなが好きなものは好きになってしまうのが日本人。行列があれば並びたくなるのが日本人ですからね。

内容②:他者が示すシグナルによる選好判断への影響を調査する。
内容③:無意味図形を好感度評価の対象として実験を行う。

無意味図形を使うというのは面白いですね。理由は好きや嫌いの事前情報が存在しにくいため。食べ物や芸能人だったら他人が示すシグナルに影響を受けようが「好きなものは好き!」となってしまいますから。

内容④:無意味図形を表示後に他者の表情を変化させて実験する。

むむむ、このあたりから怪しくなってきた・・・。つまり無意味図形の周辺に何人かの顔画像(無表情)が表示されて、図形表示後に喜んだり嫌悪感を示したりするということ。これで問題設定がきちんとモデル化できてるのか少々疑問です。

内容⑤:周囲が喜びを示すと、対象物に好感を抱く場合が多い。

なるほど、ここまでは直感と一致した結果ですね。

内容⑥:参加者のうち喜びを示す割合が多いほど好感を抱きやすい。
内容⑦:好感度の上がり具合には、喜びを示す絶対数ではなく割合が重要。

これは予想外。つまり50/100よりも6/10のほうが好感度の上がり具合が大きいということ。まぁたしかにファンが何人いるかということよりも、誰もが好きって方が説得力を感じなくもないですね。

内容⑧:嫌悪を示す人がいると好感度は下がる。
内容⑨:割合に関係なく1人でも嫌悪を示す人がいると好感度は下がる。
内容⑩:好感度の下がり具合は人数と関係なく、1人でも10人でも同程度下がる。

これですよこれ。つまり1人でもアンチがいればそれだけで好感度を下げうるということ。好感度を上げるのはあんなに大変だったのに。

これも直感通りと言えば直感通りかもしれません。火の無いところに煙は立たないというように、1人でもアンチがいれば「ひょっとして…」と思うのが人間の心理なのでしょう。Amazonレビューでもそうな気がします。


まとめ

おおむね直感通りでしたが、無意味図形を用いるなど実験環境の問題設定だったり、他要因の排除だったりに工夫を感じる研究でした。

Bluemix で LINE Bot するときに詰まったところ

UIの評判が高いLINE。クラウドと組み合わせることで様々なアプリが期待できます。

と、いうわけで、今回はベース部分を作ってみました。

AWSが人気ですが、今回はあえてBluemixでチャレンジします。理由はありません、私が天邪鬼なだけです。ちなみにいずれも無料枠の範囲内で作れます。

今回はベース部分だけを作るので、話しかけると定型文を返すだけのBotです。


開発用LINEアカウント取得

LINE Bot 制作前に、コチラの記事を参考にアカウントを取得してください。

 


つまったところ1

Access to this API denied due to the following reason: Your ip address [***.***.***.***] is not allowed to access this API. Please add your IP to the IP whitelist in the developer center.

対策:
LINEアカウント側でWhiteListの設定をしてください。

 


つまったところ2

“message”:”The request body has 1 error(s)”,
“details”:[{“message”:”May not be empty”,”property”:”messages”}]}”

対策
POSTするときのpayloadでMessagesを配列形式で定義してください


NodeRED用のソース。

クリップボードに以下を張り付けて、トークンだけご自身のアカウントのものに差し替えればOKです。

 

以上

未来志向は『So what?』、5W1Hでは思考が止まる

ビジネスを進めるときに5H1Wという思考を用いますが、これらは現在または過去に考えをはせるための思考法です。

未来を考えるには『So if ?(もし~ならば)』という思考が適切。

 

となると、酒を飲みながら無邪気に妄想したり、仮定の元で議論するというのは非常に良いのではないかと思った。

以前に『情報は光の速度でしか届かない。それが問題になるシーンは?』というタイトルで遊びの議論をしたことがある。こういうのが重要・・・なのかもしれな。

 

以上、簡易メモでした