『わが投資術 市場は誰に微笑むか』(清原 達郎著、KADOKAWA、2024年3月1日発行)

大型株の株価には何が織り込まれているかわからない。

小型割安株は隙だらけなのでチャンスがある。

1998年K1ファンド運用開始。小型株をロングする。小型株は基本割安に放置されている。

ネットキャッシュ=流動資産+投資有価証券×70%ー負債

ネットキャッシュ比率=ネットキャッシュ/時価総額

ネットキャッシュがマイナスの会社はネットデッド(純負債)のある会社

☆70%を掛けるのは現金化で税金を引く必要があるため。

時価総額20億円以上を対象にネットキャッシュ比率でランキングする。ネットキャッシュが1を超えるとただで買える会社といえる。ネットキャッシュマイナスの会社には投資しない。ネットキャッシュが大きい会社は利益が続いてお金を貯めた会社といえる。

大型株:時価総額3000億円以上(ネットキャッシュ1以上はなし)

中型株:同500億円以上(ネットキャッシュ1以上11社)

小型株:同500億円未満(ネットキャッシュ1以上304社)

☆かっこないは最後のランキング時

PER=株価/一株あたり当期利益=時価総額/当期利益

キャッシュニュートラルPER=PER×(1-ネットキャッシュ比率)

☆ネットキャッシュで自社株買いをすると仮定したときのPER=財務構造をそろえて比較する

留意点:ネットキャッシュの計算では固定資産を計算に入れていない。土地などを評価していない。製造業の設備が古いときは設備更新でマイナスになる可能性があるという問題がある。

バリュートラップとは、割安に見えるが実は割安ではないこと。その主因はPBR。PBRが小さくても利益がでていないときは株価は上がらない。

IPO銘柄はマザーズから出ることが多いが、厚化粧されているので、マザーズは見ない。

1986年に店頭登録株の投信への組み込み制限が解除された。そのとき、大手の投信会社がこぞって小型株ファンドを始めた。小さな市場に資金が流入したため暴騰した。次に利食い売りの投信解約で暴落した。このときのトラウマがあったためK1ファンドを初めた1998年当時小型株が割安になっていた。

小型株にはリスクがいろいろある。それが安い理由だが、まわりにつられて安くなっている銘柄があるので、それを見つける。イメージの悪い業界:小型不動産(プレサンス)、家具(ニトリ(昔))、メッキ(上村工業)。小型株は経営者が9割。

相場があがるときは、日経225の先物から買われる。そこで、日経225採用の大型株が上がる。小型株は出遅れる。

負のフィードック:例)電力会社は原料価格が下がると儲かるが、翌年は電気代を値下げしないといけない。鉄道、電力などの公共機関は株主のために存在していない。なので、配当の低い公共機関の株を保有する意味はない。

トレンドフォロワーとは、上昇相場についていき、相場が下がり始めたら売る。コントラリアンとは日本語では逆張りコントラリアンは、底値で買おうとするが、底値は誰にもわからないので、株を買うと決まって最初は損をする。逆に2割、3割上がったくらいでは売ってはいけない。

イベントドリブンとはある事柄がおきたとき、または起きると予想したときに短期売買で儲ける。2011年オリンパス粉飾決算の暴落で購入、2012年JAL再上場購入、2013年東芝粉飾決算暴落で購入、UTグループ日特エンジニアリング(EV大本命)。

『入門自然言語処理』(Steven Bird他著、オライリー・ジャパン、2010年11月8日発行)

NLTKは元もとペンシルバニア大学で作成されたPythonによる自然言語処理ライブラリー。

バイグラムは単語のペアである。コロケーションは頻繁に共起するバイグラム:例 red wine。

テキストコーパス

語彙資源:語彙項目(見出し語+品詞+語彙定義などで構成する)のリスト、語彙リストコーパスストップワードコーパス、発音辞書(単語+音素リスト)、比較語彙リスト(約200の単語をいくつかの言語で記す)

WordNetシソーラスに似ているがよりリッチ。階層構造(概念として上位、下位、最上位語は一般的概念)、メロニムはある要素からそれを含む構成要素への関係(木を構成するのは幹、枝)、ホロニムは構成要素とそれを含む要素(木は森を形成する)、類似性(非常に具体的な上位語を共有する)。

生テキストの処理

グーテンベルグプロジェクト

トークン化で文字列を単語と句読点のような基本単位に分割する。

テキストの正規化

ステマー:単語から接辞を取り除くのをステミングという。

見出し語化:語形を辞書に記述されている語形に変換する。

単語分割では、単語の境界が視覚的にわかるように文字の後ろに単語境界があるかどうかを示す論理値を各文字に振る方法がある。(トークン化が多義的なときはどうするんだろう?)

単語の分類

品詞:名詞、動詞、形容詞、副詞など。単語を品詞分類し、タグ付けするのは品詞タグ付け、POSタグ付け、タグ付けという。品詞タガーまたはPOSタガー。REFuse(廃棄物:名詞)とrefUSE(拒否する:動詞)はアクセントが違う別の単語であり、同音異義語ではない。正しい発音には品詞タグ付けが必要。

オープンクラス(名詞など、あたらな語彙が生まれやすい)とクローズドクラス(長い時間をかけてゆっくり変化する:前置詞、冠詞、法助詞(should、mayなど)、人称代名詞など)

タグ付き単語の形式:(単語, タグ)。タグ付きコーパス

自動タグ付け:デフォルトタガー(例:すべてのトークンに同じタグをつける)、正規表現タガー(パターンマッチングでタグ付け)、ルックアップタガー

Nグラムタグ付け:ユニグラムタガーは一つの要素のみでタグ付けする。Nグラムタガーは現在の単語とその前のn-1個のトークンの品詞タグを文脈として利用する。

ブリルタグ付けはまず一度タグを推定し、戻って誤りを訂正する方法。教師あり学習。訂正ルールのリストを作る。

テキスト分類の学習

教師あり分類器

素性集合:分類に使われるそれぞれの入力の基礎的な情報を表すもの。素性集合とラベルのペアを機械学習アルゴリズムに渡す。

素性抽出器は試行錯誤で構築されるのが普通である。

コーパスを開発セットとテストセットに分ける。開発セットは訓練セットと検証セットに細分する。

品詞タガーの場合、一般的な接尾辞を素性として使うと決定木分類器を訓練できる。

Pythonは、Cのような低レベル言語と比べて、学習アルゴリズムが時間とメモリを大量に消費する。

決定木:根節点からスタート、入力値の素性による判断で枝に分岐、次の決定節点で別の素性で分岐、葉節点でラベルが付く。エントロピーと情報利得を計算して決定株を決める。決定木の下になるほど、データ量が減るので過学習が起きやすくなる。

単純ベイズ分類器:ベイジアンネットワークグラフ。単純ベイズ仮定(独立仮定)とはすべての入力値がまずクラスラベルを選んだ後に、それぞれの素性を生成していると仮定する。

P(label|features)=P(features, label)/P(features)

最大エントリピー分類器:訓練コーパスの全体尤度を最大化する。

テキストからの情報抽出

構造化データと実体と関係が予測可能な形で組織化、正規化されているもの。例:企業名と住所を表の形で提供する。その時、住所から企業を探すのは簡単。自然言語は構造化されていないので文章から同じことが困難である。

情報抽出とは構造化されていないデータを構造化データに変換すること。パイプライン:生テキスト⇒文分割⇒トークン化⇒品詞タグ付け⇒固有表現認識⇒関係認識

チャンキング、チャンカ

文構造の分析

構文解析器は、入力文を文法の生成規則に従って処理して、文法に沿った一つ以上の構成素構造を作る。再帰下降構文解析、Shift-Reduce構文解析

JEITA形態素解析済みコーパスChaSen形式)

ChaSen形式:出現形、読み、原形、品詞、活用

日本語WordNet

fcbond (Francis Bond) · GitHub

形態素:意味を持つ最小の言語単位。形態素解析とは与えられた文を形態素単位に区切ること。日本語では品詞など形態素の情報を記述した辞書を参照して形態素解析をする。

MeCab、Juman 

JUMAN - LANGUAGE MEDIA PROCESSING LAB

KAKASI

KAKASI - 漢字→かな(ローマ字)変換プログラム GPL

Namazu: a Full-Text Search Engine GPL

『磯田道史と日本史を語ろう 達人たちと語る歴史の秘密』(磯田 道史著、文春新書、2024年1月20日)

日本の歴史の中で一番の革命児・稀有なリーダーは織田信長であるということは専門家の一致する見解のようだ。あと源頼朝の評価が高いのが割と予想外。

本書のリーダー論はなかなか面白い。しかし、幕末の新選組剣客や龍馬暗殺者の議論など、あまり面白いとも思えない。

 

『暴力とポピュリズムのアメリカ史 ミリシアがもたらす分断』(中野 博文著、岩波新書、2024年1月19日発行)

アメリカという国は、建国前から暴動や戦争が多発している国という印象を受ける。市民による自治あるいは自衛のために基本になっているミリシアという仕組みができたが、ミリシア連邦政府に対抗する手段としても認められていた。しかし、対外戦争(イギリス、メキシコ、スペインなど)や、第一次、第二次世界大戦を通じて連邦政府の軍事組織に組み込まれていったということのようだ。

ミリシアの組成に、人種差別に対する州ごとの違いが大きな影響を与えているなど、アメリカという国の問題が浮き彫りになっている。

しかし、本書は文章が全体として少しわかりにくいと思う。

『検索と発見のためのデザイン』(Peter Morville他著、オライリー・ジャパン、2010年11月26日初版発行)

質問ー検索ーフィルタリングーブラウジング間のモード移行

SERP:検索エンジン結果一覧ページはユーザーインターフェイスの急所を突いている。

ファセット型ナビゲーションには構造化されたメタデータが必要

ファセット検索(ファセットナビゲーション)とは 意味/解説 - シマウマ用語集

アマゾンは書籍に関して検索とナビゲーション用に豊富なインデックスを持っている。

小規模な企業のWebサイトには検索はいらない。ブラウジングで十分だが、ブラウジングはスケーラビリティに欠ける。

大抵のユーザーは正面玄関から来ない。

ポータル:ポータルはWebサイトのホームページと上位から2~3階層まで。

検索:検索では横断検索とファセット性と高速性が必要。
コンテンツの利用経験が増えると検索の単語が増える傾向がある。スニペットで絞り込みのあたりを付ける。絞り込み。ファセットで分類。

検索結果無しを防ぐ方法。パールグローイングは良さそうな文書を選んでそのコンテンツやメタデータからキーワードを探す。類似ページはその一種。オートコンプリートで入力ミスを防ぎ、オートサジェスションで検索のやり直しの方向を勧告する。

「お探しのものがみつからなければ」という文章と一緒に正しいスペルの候補を示すかわりに、「もしかして」に変更することで利用頻度が跳ね上がった。(Google

段階的な組み立て、段階的な追加表示、高速性、代替表示(複数のビュー)、ソート順序の切り替え、アクセシビリティ、予測可能性(検索結果に移行しないでロールオバーで表示する)、欲しいものリストに追加、視覚的オブジェクトの直接操作(Drag&Drop)、検索履歴

デザインパターン

オートコンプリートには、候補を不含むデータの情報源が必要。オートサジェスト

音声検索

ベストファースト(検索結果上位)

ファセット型ナビゲーション:絞り込みフィルタリング

 FaThumb: a facet-based interface for mobile search

https://www.microsoft.com/en-us/research/wp-content/uploads/2006/01/chi2006-fathumb.pdf

詳細検索

パーソナライズ機能

ページネーション:Googleの10個の青いリンクがその例。スニペット、サムネイル、商品画像など

構造化された結果:多くのデータを検索結果に埋め込む

アクション可能な結果:音楽をかけるなど

検索とブラウジングの統合

『Apache Solr入門』(打田 智子他著、技術評論社、2017年5月10日発行)

LuceneJavaインターフェイスなのに対して、SolrはJSON over HTTP

ドキュメントの重みづけはLucene/Solr V6からOkapi BM25

スキーマは、フィールドとフィールドタイプ(数値、文字列、日付)を指定する。フィールドは非テキスト系とテキスト系に分かれる。非テキスト系には、製品名、ジャンルなど単語分割が必要ない文字列が含まれる。テキスト系はAnalyzerの指定が必要。

Analyserは、文字フィルタ、トークナイザ、トークンフィルタを指定する。

文字フィルター:例えば、文字フィルタで半角カタカナを全角カタカナに変換してからトークナイザに渡す。MappingCharFilterFactory, ICUNormalizer2CharFilterFactory, PatternReplaceCharFilterFactory, HTMLStripCharFilterFactory

トークナイザ:JapaneseTokeniserFactoryは、kuromojiを利用する。kuromojiは20万語の辞書をもつ。ユーザ辞書の定義も可能。トークナイザの出力であるトークンには位置情報(文字が隣接しているかなど)、文書内オフセット情報も持つ。タームは文字列情報のみで、転置インデックスを参照する単位である。出力されるトークンはトークナイザ依存。他にWhiteSpaceTokunizerFactory, StandardTokunizerFactory(日本語以外), NGramTokunizerFactoryがある。

トークンフィルター:日本語のトークンフィルターには、JapaneseBaseFormFilterFactory(活用する品詞を語幹形にする)、JapanesePartOfSpeechStopFilterFactory(助詞や記号を除去する)、StopFilterFactory(日本語では、「です」「ます」「あの」「その」など)、CJKWidthFilterFactory(半角カタカナを全角に)、JapaneseKatakanaStemFilterFactory(長音記号の表記揺れを吸収する)、LowerCaseFilterFactory(ASCII大文字を小文字に)、SynonymFilterFactory(シノニム辞書を使う)

検索結果の処理:ソート(スコアによる、特定フィールドによる)、ハイライト、絞り込み、ファセット(フィールド毎のグルーピング)

ドキュメントの追加、削除、コミットあるいはオプティマイズをJSONコマンドによるバッチ処理XMLデータによるバッチ処理の両方でできる。コミットはインデックスの更新を確定して検索結果に反映する操作。

インデクシング前処理:正規表現による文字列置換、スクリプトJavaScriptなど)で記述した前処理をする、デフォルト値の設定、時間に「NOW」を設定、UUID、フィールドの追加、sourceからdestへのコピー、multivalueの値の連結、同件数カウント、文字列長カウント、言語判定と言語別フィールドへの切分け、値が最大のフィールド値、同最小フィールド値、HTMLタグを取り除く、指定のパターン無視、空文字削除、値の両端をトリム、最大文字列でカット、ハッシュ計算で同一ハッシュ値を登録しない、フィールドの重複値を除く、URLの特徴を抽出

PDF、Word文書などバイナリ形式のデータを登録する。Apache TikaからApache PDFbox、Apache POIを呼び出す。

クエリパーサはユーザが入力した検索キーワードの文字列をSolrが解釈できる構造に変換する。

Lucentクエリパーサ(標準クエリ):論理演算(AND,OR,NOT)、フレーズ検索(複数の単語の出現順序を保証する)、ワイルドカード検索、あいまい検索(検索語に距離が近い語を検索する)、近傍検索(指定した複数の単語が近くに出現するドキュメントを検索する)、正規表現による検索、範囲検索、単語の重み付け、定数スコア

語の距離:Levenshtein距離アルゴリズム

http://www.levenshtein.net

複数のフィールドをまたがるクエリ、日付型演算

ハイライト:スニペットと検索語の強調を行うハイライタ

ファセット:フィールドの値でグループ化して、グループ別の件数などを検索する。

サーチハンドラに、サーチコンポーネントが登録される。solarconfig.xmlに設定。

空間検索:地図情報は持っていない。ドキュメントで経度・緯度を登録する。境界ボックスや円で検索とフィルタリングする、経度・緯度などの形状情報、地点間・矩形間の距離でソートまたはブースト。地球を完全な球体として距離を計算する。

ファンクションクエリ:フィールドの値を検索結果のスコアに反映する

検索するとき、トークナイズされたトークンをフレーズとして扱うかどうか(オプション)。例:検索エンジンで検索するとき、「検索」と「エンジン」にトークナイズする。フレーズとして扱わないときは「検索」または「エンジン」でヒットした文書を返す。フレーズとして扱うときは、「検索」の次に「エンジン」が来る文書を返す。

検索精度

適合率=(検索された文書中の適合文書数)/(検索された文書数)

再現率=(検索された文書中の適合文書数)/(適合文書数)

適合率と再現率はトレードオフなので、F値=両者の調和平均を見る。

ランキング

キーワードと文書の類似度:TFIDFSimilarity, BM25Similarity

『在日米軍基地 米軍と国連軍、「2つの顔の80年史」』(川名 晋史著、中公新書、2024年1月25日発行)

在日米軍基地は第2次世界大戦後の連合国による日本占領から現在まで続いている。当初の目的は日本の軍事的無力化であった。1952年4月のサンフランシスコ平和条約で日本は主権を回復したが、その前の1950年6月25日勃発の朝鮮戦争で日本本土の基地を朝鮮戦争出撃基地として使える必要性が生じた。

日米安保条約によって米軍が日本に駐留する権利や極東の安全のために利用する権利を得た。サンフランシスコ平和条約日米安保条約、吉田・アチソン交換公文の三位一体により戦後日本の安全保障の枠組みの基礎ができた。

日米安保条約に根拠をもつ在日米軍は日本を直接的に防衛するための存在ではない。」ということは米国政府も、日本政府も認めているところのようだ。在日米軍は米軍基地や米国人を防衛する義務は(米国の中で)ある。

朝鮮戦争時の国連軍の後方司令部は今も横田基地にあり、極東に事が起きれば、国連軍地位協定によって日本政府に事前相談なしに活動でき、日本政府は支援する義務がある。この枠組みは今も維持されている。

2015年に成立した平和安全法制によって、さらに国連軍参加国は、国連軍の立場でいくのか、それとも外国の軍隊として自衛隊と協力するかを選択できるようになった。