『ハッキング思考』(ブルース・シュナイアー著、日経BP、2023年10月16日発行)

2020年ロシアの対外情報庁(SVR)はソーラーウィンズ社(SolarWinds: ネットワークソフトウェアメーカー)の所有するアップデートサーバーをハック。オリオン(Orion)に対するアップデートデータにバックドアを仕掛けた。Orionの顧客17,000社以上がアップデートデータをダウンロードしてインストールしたためSVRがシステムに侵入するのを許してしまった。ひとたび侵入されたネットワークは、ゼロから再構築しないと完全なセキュリティを確保できない。

認知に対するハッキングの危険性が増している。2020年ゴーストライターはロシア起源と推定されているが、東ヨーロッパのニュースサイト数社のCMSに侵入してフェイク記事を掲載した。認知に関するハッキングは数世代続く可能性がある。

特化型狭いAI、汎用の広いAI。広いAIは実現に時間がかかるかもしれない。AIの3要素:自律性、自動性、物理的主体性、これを備えたもの。自動運転のような特化型AIはすでに実現されている。機械学習(ML)システムはAIの下部システム。

2016年マイクロソフトTwitter上のチャットボット「ティ(Tay)」は少女の会話パターンをモデルにして、ユーザーとの会話を学習していく予定だったが、匿名掲示板「4Chan」のグループがティへの応答をいじって、ティを人種差別的、女性蔑視的、反ユダヤ的アカウントに変えてしまった。

2015年ディープ・ペイシェントというAIシステムに約70万人の健康・医療データを入力し、疾病予測の実験をした。AIシステムで統合失調症のような精神疾患の発症を高い確度で予測した。しかし、その理由を説明することができなかった。

アマゾンの社内用AI求人システムは過去10年間の採用データでトレーニングされていたが、同社が男性優位なため、AIが自己学習で女性差別的になってしまった。(経営陣が理解してシステムを廃止した。)

AIによってパーソナライズされ、最適化された情報が個別に届けられたら、従来の信用詐欺と大量配信の広告メッセージの融合となる。これにより認知ハックにかかる可能性が大きくなる。

2016年ジョージア大学のロボットに対する人間の信頼に関する研究では、緊急事態では人間がロボットを完全に信頼して行動することが示された。ロボットは人間の信頼をハックできる。

 

 

 

 

『暴君誕生』(マット・タイービ著、ダイヤモンド社、2017年12月20日発行)

「礼儀だの正義だのといった堅苦しいルールは無視して、自分の考えを率直に表現する勇気をもとう」というトランプのメッセージに、日頃アメリカの現状に不満を募らせてきた人々の多くが、魅力を感じた。(p.46)

「何でもかんでもファックだ。移民も、移民の子供のファックだ。それが嫌ならお前もファックだ。」がトランプの唯一のメッセージ。(p.51)

「テレビを唯一の情報源としている今日の有権者の大半は、どんなに複雑な問題でも、必ず番組の枠内で解決されることを期待しているため、ひとつひとつのニュースに長い時間を費やしている余裕がない。」トランプはテレビ狂。

ブッシュの知能レベルの低さ。しかし、ブッシュは操れた。ブッシュに大統領職を8年も務めさせたのはロバにベートーベンのピアノソナタ21番を教えるよりも難しかったはずだ。

若者たちがヒラリーを見限った理由。ヒラリーは何が正しいかではなく、その時々で自分のとって最も特になる選択をしてきたために、何が正しいかがわからなくなっていた。(p.189)

民主党はサンダースの善戦の意味を理解できていなかった。

 

 

『南海トラフ地震の真実』(小沢 慧一著、東京新聞、2023年8月31日)

南海トラフ地震の発生確率は、時間予測モデルで計算されている。その考え方は、隆起量に基づく。2013年に30年以内に発生する確率が60%~70%とされた。2018年70%~80%に改定される。

2013年当時の地震調査研究推進本部の海溝型分科会の委員は、科学的に疑義があると指摘した。他の地域で使用している単純平均モデルだと20%程度となる。

しかし、防災関係者に受け入れられず。

時間予測モデルの依拠データは高知の室津港の海面からの深さの計測データを使っているが、計測した方法などが不明である。また、室津港地震の度に隆起するので掘削を繰り返している。このためデータの信頼性が低い。

こうしたことを検証せずに計算し、防災的な観点から高い数字を採用し、多額の防災予算をつぎ込んできた。

実際には、地震は想定外の場所でばかり発生している。南海トラフの高確率が注目を集めて、他の地域に油断が生まれるている。

ファクトチェックが甘い。特に政府が絡んでくると危ない。

『オホーツク核要塞 歴史と衛星画像で読み解くロシアの極東軍事戦略』(小泉 悠著、朝日新書、2024年2月28日発行)

オホーツク海は大陸とカムチャッカ半島とサハリン、千島列島に囲まれた領域。

ソ連時代:ソ連太平洋艦隊と潜水艦部隊(結局何の役にも立たなかった?)が極東に配置されていた。ベトナムカムラン湾にも1979年頃から配置。空母ミンスク。インド洋にも展開。外堀(外洋で米海軍と戦う能力)、内堀(アクセス路の制限、縦深防御、いざというとき逃げ込める)

ソ連崩壊後:1990年代は惨憺たる状態だった。最新鋭潜水艦艦長が極貧で暮らす。

ロシア復活:2000年代後半~2010年は米露が一種のパートナー関係にあった。

2014年ウクライナに対する軍事介入で西側との関係が悪化。

太平洋艦隊の潜水艦部隊は幾らか再強化されたが、陸上兵力・防衛ミサイルなどはウクライナ戦争にだいぶ配転されたようだ。

『日本製鉄の転生 巨艦はいかに甦ったか』(上阪 欣史著、日経BP、2024年1月22日発行)

日本製鉄はいま一番熱い、攻めてる会社じゃないだろうか。会社はリーダー次第だが、橋本英二社長こそその典型例だ。

キーワードが多い

・価格は売り手が決める

・論理と数字がすべて

・事上磨錬(王陽明

マーケティング営業

・トラブル減少による経験不足、トラブルが起きた時スムースに復旧できない

M&A・合併企業の運営

国際法

技術的・資源要素

・AI高炉

・高級鋼(ハイテン、など)、結晶構造

・脱炭素(水素還元製鉄)、試験と実用化、水素の確保

・対ギガキャスト

資源メジャーによる寡占化

市場

・グローバル展開対各国内で調達の波

・日本国内市場の縮小とコストアップ対策

などなど

『わが投資術 市場は誰に微笑むか』(清原 達郎著、KADOKAWA、2024年3月1日発行)

大型株の株価には何が織り込まれているかわからない。

小型割安株は隙だらけなのでチャンスがある。

1998年K1ファンド運用開始。小型株をロングする。小型株は基本割安に放置されている。

ネットキャッシュ=流動資産+投資有価証券×70%ー負債

ネットキャッシュ比率=ネットキャッシュ/時価総額

ネットキャッシュがマイナスの会社はネットデッド(純負債)のある会社

☆70%を掛けるのは現金化で税金を引く必要があるため。

時価総額20億円以上を対象にネットキャッシュ比率でランキングする。ネットキャッシュが1を超えるとただで買える会社といえる。ネットキャッシュマイナスの会社には投資しない。ネットキャッシュが大きい会社は利益が続いてお金を貯めた会社といえる。

大型株:時価総額3000億円以上(ネットキャッシュ1以上はなし)

中型株:同500億円以上(ネットキャッシュ1以上11社)

小型株:同500億円未満(ネットキャッシュ1以上304社)

☆かっこないは最後のランキング時

PER=株価/一株あたり当期利益=時価総額/当期利益

キャッシュニュートラルPER=PER×(1-ネットキャッシュ比率)

☆ネットキャッシュで自社株買いをすると仮定したときのPER=財務構造をそろえて比較する

留意点:ネットキャッシュの計算では固定資産を計算に入れていない。土地などを評価していない。製造業の設備が古いときは設備更新でマイナスになる可能性があるという問題がある。

バリュートラップとは、割安に見えるが実は割安ではないこと。その主因はPBR。PBRが小さくても利益がでていないときは株価は上がらない。

IPO銘柄はマザーズから出ることが多いが、厚化粧されているので、マザーズは見ない。

1986年に店頭登録株の投信への組み込み制限が解除された。そのとき、大手の投信会社がこぞって小型株ファンドを始めた。小さな市場に資金が流入したため暴騰した。次に利食い売りの投信解約で暴落した。このときのトラウマがあったためK1ファンドを初めた1998年当時小型株が割安になっていた。

小型株にはリスクがいろいろある。それが安い理由だが、まわりにつられて安くなっている銘柄があるので、それを見つける。イメージの悪い業界:小型不動産(プレサンス)、家具(ニトリ(昔))、メッキ(上村工業)。小型株は経営者が9割。

相場があがるときは、日経225の先物から買われる。そこで、日経225採用の大型株が上がる。小型株は出遅れる。

負のフィードック:例)電力会社は原料価格が下がると儲かるが、翌年は電気代を値下げしないといけない。鉄道、電力などの公共機関は株主のために存在していない。なので、配当の低い公共機関の株を保有する意味はない。

トレンドフォロワーとは、上昇相場についていき、相場が下がり始めたら売る。コントラリアンとは日本語では逆張りコントラリアンは、底値で買おうとするが、底値は誰にもわからないので、株を買うと決まって最初は損をする。逆に2割、3割上がったくらいでは売ってはいけない。

イベントドリブンとはある事柄がおきたとき、または起きると予想したときに短期売買で儲ける。2011年オリンパス粉飾決算の暴落で購入、2012年JAL再上場購入、2013年東芝粉飾決算暴落で購入、UTグループ日特エンジニアリング(EV大本命)。

『入門自然言語処理』(Steven Bird他著、オライリー・ジャパン、2010年11月8日発行)

NLTKは元もとペンシルバニア大学で作成されたPythonによる自然言語処理ライブラリー。

バイグラムは単語のペアである。コロケーションは頻繁に共起するバイグラム:例 red wine。

テキストコーパス

語彙資源:語彙項目(見出し語+品詞+語彙定義などで構成する)のリスト、語彙リストコーパスストップワードコーパス、発音辞書(単語+音素リスト)、比較語彙リスト(約200の単語をいくつかの言語で記す)

WordNetシソーラスに似ているがよりリッチ。階層構造(概念として上位、下位、最上位語は一般的概念)、メロニムはある要素からそれを含む構成要素への関係(木を構成するのは幹、枝)、ホロニムは構成要素とそれを含む要素(木は森を形成する)、類似性(非常に具体的な上位語を共有する)。

生テキストの処理

グーテンベルグプロジェクト

トークン化で文字列を単語と句読点のような基本単位に分割する。

テキストの正規化

ステマー:単語から接辞を取り除くのをステミングという。

見出し語化:語形を辞書に記述されている語形に変換する。

単語分割では、単語の境界が視覚的にわかるように文字の後ろに単語境界があるかどうかを示す論理値を各文字に振る方法がある。(トークン化が多義的なときはどうするんだろう?)

単語の分類

品詞:名詞、動詞、形容詞、副詞など。単語を品詞分類し、タグ付けするのは品詞タグ付け、POSタグ付け、タグ付けという。品詞タガーまたはPOSタガー。REFuse(廃棄物:名詞)とrefUSE(拒否する:動詞)はアクセントが違う別の単語であり、同音異義語ではない。正しい発音には品詞タグ付けが必要。

オープンクラス(名詞など、あたらな語彙が生まれやすい)とクローズドクラス(長い時間をかけてゆっくり変化する:前置詞、冠詞、法助詞(should、mayなど)、人称代名詞など)

タグ付き単語の形式:(単語, タグ)。タグ付きコーパス

自動タグ付け:デフォルトタガー(例:すべてのトークンに同じタグをつける)、正規表現タガー(パターンマッチングでタグ付け)、ルックアップタガー

Nグラムタグ付け:ユニグラムタガーは一つの要素のみでタグ付けする。Nグラムタガーは現在の単語とその前のn-1個のトークンの品詞タグを文脈として利用する。

ブリルタグ付けはまず一度タグを推定し、戻って誤りを訂正する方法。教師あり学習。訂正ルールのリストを作る。

テキスト分類の学習

教師あり分類器

素性集合:分類に使われるそれぞれの入力の基礎的な情報を表すもの。素性集合とラベルのペアを機械学習アルゴリズムに渡す。

素性抽出器は試行錯誤で構築されるのが普通である。

コーパスを開発セットとテストセットに分ける。開発セットは訓練セットと検証セットに細分する。

品詞タガーの場合、一般的な接尾辞を素性として使うと決定木分類器を訓練できる。

Pythonは、Cのような低レベル言語と比べて、学習アルゴリズムが時間とメモリを大量に消費する。

決定木:根節点からスタート、入力値の素性による判断で枝に分岐、次の決定節点で別の素性で分岐、葉節点でラベルが付く。エントロピーと情報利得を計算して決定株を決める。決定木の下になるほど、データ量が減るので過学習が起きやすくなる。

単純ベイズ分類器:ベイジアンネットワークグラフ。単純ベイズ仮定(独立仮定)とはすべての入力値がまずクラスラベルを選んだ後に、それぞれの素性を生成していると仮定する。

P(label|features)=P(features, label)/P(features)

最大エントリピー分類器:訓練コーパスの全体尤度を最大化する。

テキストからの情報抽出

構造化データと実体と関係が予測可能な形で組織化、正規化されているもの。例:企業名と住所を表の形で提供する。その時、住所から企業を探すのは簡単。自然言語は構造化されていないので文章から同じことが困難である。

情報抽出とは構造化されていないデータを構造化データに変換すること。パイプライン:生テキスト⇒文分割⇒トークン化⇒品詞タグ付け⇒固有表現認識⇒関係認識

チャンキング、チャンカ

文構造の分析

構文解析器は、入力文を文法の生成規則に従って処理して、文法に沿った一つ以上の構成素構造を作る。再帰下降構文解析、Shift-Reduce構文解析

JEITA形態素解析済みコーパスChaSen形式)

ChaSen形式:出現形、読み、原形、品詞、活用

日本語WordNet

fcbond (Francis Bond) · GitHub

形態素:意味を持つ最小の言語単位。形態素解析とは与えられた文を形態素単位に区切ること。日本語では品詞など形態素の情報を記述した辞書を参照して形態素解析をする。

MeCab、Juman 

JUMAN - LANGUAGE MEDIA PROCESSING LAB

KAKASI

KAKASI - 漢字→かな(ローマ字)変換プログラム GPL

Namazu: a Full-Text Search Engine GPL