Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

根據網頁內容過濾內容農場 #60

Open
c2xusnpq6 opened this issue May 18, 2021 · 19 comments
Open

根據網頁內容過濾內容農場 #60

c2xusnpq6 opened this issue May 18, 2021 · 19 comments

Comments

@c2xusnpq6
Copy link

c2xusnpq6 commented May 18, 2021

$title="人民日报网"

$title="人民日报" and "官网" # 要求標題要有官網二字 是怕誤殺新聞...

$title="日报",domain="*.cn"
$title="日报",$domain="*.cn"
#title:"日报" #domain:"*.cn"
title:"日报" and domain:"*.cn"
title="日报" and domain="*.cn"

這幾個您參考一下~........😅

@danny0838
Copy link
Owner

如何定義「標題」?

@c2xusnpq6
Copy link
Author

如何定義「標題」?

image

<title></title>

<meta name="description" content="">

@c2xusnpq6
Copy link
Author

c2xusnpq6 commented May 19, 2021

還有...希望可以支援youtube 在瀏覽某部來自阿共影片的時候可以給予提示
(即支援封鎖指定內容上傳者)

封鎖某reddit用戶? 某subreddit? 阿共的Facebook page? twitter用戶?

@c2xusnpq6
Copy link
Author

c2xusnpq6 commented May 19, 2021

還有為了省電著想 希望可以在regex規則前套用domain過濾(那個規則只套用在某個/某些網站這樣) 那樣就可以減少不必要的系統硬件支出

@danny0838
Copy link
Owner

這沒有那麼簡單。因為要偵測網頁裡的內容,一定要先載入網頁,但是超連結標示功能需要檢查網頁中的每個超連結,先不說效能會很差,不分青紅皂白載入所有超連結也是不安全的,有可能誤觸比如登出帳號、刪除資料等危險操作。

當然我們是可以限制偵測網頁內容的相關功能只作用於目前網頁,超連結標示一律不做這樣的偵測,但這樣會讓規則變得複雜混亂(有的超連結沒標示,點進去卻是被封鎖的網頁?)這種只能封鎖目前網頁卻不能標示超連結的規則也不會太有用。說到底,用標題篩選內容農場本身就非常不可靠,要抓哪些元素、用何種方式篩選也是很複雜的問題,倒不如老老實實去把相關網域抓出來寫進規則。

@danny0838
Copy link
Owner

danny0838 commented May 19, 2021

還有...希望可以支援youtube 在瀏覽某部來自阿共影片的時候可以給予提示
(即支援封鎖指定內容上傳者)

封鎖某reddit用戶? 某subreddit? 阿共的Facebook page? twitter用戶?

請不要提出與目前 issue 無關的問題。

目前社群農場黑名單有類似功能,但是偵測網址就只能做到標示及封鎖部分使用者的頻道本身,無法完全阻止播放影片。

我們有考慮過類似的事,但是偵測哪些 YouTube 影片來自哪個使用者是非常困難的問題,複雜到大概要為每個平台寫專門的套件才能處理,想做成能用簡單的規則語法表達都會很困難。除非有高手願意協助研究處理這些技術細節,否則短期內大概沒辦法......

@danny0838
Copy link
Owner

danny0838 commented May 19, 2021

還有為了省電著想 希望可以在regex規則前套用domain過濾(那個規則只套用在某個/某些網站這樣) 那樣就可以減少不必要的系統硬件支出

請不要提出與目前 issue 無關的問題。

這個要另外發明一套規則,有方案嗎?

前面說過終結內容農場目標是簡單易用,規則太複雜可能就不會考慮。

@c2xusnpq6
Copy link
Author

c2xusnpq6 commented May 19, 2021

youtube的話相對方便很多, 請看圖 (白色部份)

image

@c2xusnpq6
Copy link
Author

c2xusnpq6 commented May 19, 2021

youtube的話相對方便很多, 請看圖 (白色部份)

image

如上圖所示 你可以很方便地過濾掉影片id, 頻道id, 影片標題, 影片網址, 頻道名稱, 頻道網址等等

而且你可以限制那些youtube規則只生效於youtube.com
(其他地方的youtube 好像也會轉到youtube.com 所以不用太擔心)

如果只參考在youtube.com等少數網域的話 效能方面應該不用太擔心
不過可能就需要請你模塊化整個套件 真的麻煩了

如果youtube facebook等主流平台可以支援的話 這個瀏覽器套件一定會出名 因為這樣的話適用範圍會非常非常之廣

而且台灣的新聞非常之亂 幸好還有新媒體才沒有真正的死去

我想應該也有不少人非常多的人希望盡量不去看紅色媒體/內容農場的文章, 的新聞

@danny0838
Copy link
Owner

問題才沒那麼簡單……

YouTube 首頁或播放清單的頁面裡列出一大堆影片,每個都可以原地即時點播,請問你說的方法要如何阻止影片被點播?

還有如前所述,若要偵測網頁中的內容,要嘛是自動走訪每個超連結(有安全風險,不可行),要嘛是超連結標示全部失效,那些連往YouTube 農場影片的超連結完全無法封鎖……。

@c2xusnpq6
Copy link
Author

c2xusnpq6 commented May 19, 2021

問題才沒那麼簡單……

YouTube 首頁或播放清單的頁面裡列出一大堆影片,每個都可以原地即時點播,請問你說的方法要如何阻止影片被點播?

還有如前所述,若要偵測網頁中的內容,要嘛是自動走訪每個超連結(有安全風險,不可行),要嘛是超連結標示全部失效,那些連往YouTube 農場影片的超連結完全無法封鎖……。

參考一下ublock adguard的方法? 或者是youtube downloader?

你覺得不可行的話就把它關掉吧😃

@danny0838
Copy link
Owner

請問 uBlock Origin 和 Youtube Downloader 哪裡有擋特定頻道影片播放的功能?你示範給我看看……

@c2xusnpq6
Copy link
Author

我不是很懂詳細的技術細節 所以如果有不合理/不可能做到的事 麻煩跟我講一聲 我們一起想辦法吧....😁

如果在youtube首頁比較難做到的話...

要不要試試..... 假設你有一個youtube規則,
那些規則只會適用在 youtube.com/watch? (從首頁點擊影片後會轉到的網頁) 有這個前提的話應該會節省很多很多的效能 (不會適用於全部網站/網頁,雖然我覺得這點你懂但我還是想講一講~)

然後再從這個頁面搜尋這部影片的創作者是誰 是哪一個頻道的 這個我在之前的圖片好像有示範過? 你可以參考一下
或許我們也可以篩選影片簡介的內容(例如封鎖影片簡介包含支持中共政府的影片)

youtube首頁的話...就暫時先不做吧?

如果做到上面這些的話 首頁做不做其實已經沒有太大影響了 只不過首頁也支援篩選的話會更佳!

@c2xusnpq6
Copy link
Author

c2xusnpq6 commented May 22, 2021

image

而且很多中共大外宣 極端思想人士 極端宗教團體也是利用了youtube reddit facebook等主流平台傳播他們的所謂想法

你覺得有人會特意去中共對外媒體CGTN的官網去看新聞嗎? 現在的話大多數人都是在facebook google那些平台剛好滑到的吧? 所以我才那麼想要您支援它們😗

@danny0838
Copy link
Owner

danny0838 commented May 22, 2021

你沒有正面回答問題。

終結內容農場的設計是兩大封鎖機制:

  • 一是在載入網頁前預先根據網址判定是否為內容農場,是就攔截載入。
  • 二是檢查網頁中每個超連結的網址,如果是連往內容農場,就加上標示。

如果要偵測網頁裡的內容決定是否攔截,一定要先載入網頁,

  • 對於第一種情況,如果要載入網頁後才根據內容判定是否為內容農場,那就不是「載入網頁前」攔截。這種情況下內容農場已經接到流量、收益了,那就失去了封鎖的意義。
  • 對於第二種情況,前面也提過,如果每個連結都要預先主動走訪,會有安全風險,基本上不可行。

這兩個問題如果沒有解決,講再多都是空談而已。

你打算用什麼方式解決這兩個問題?

@c2xusnpq6
Copy link
Author

c2xusnpq6 commented May 22, 2021

若果你要封鎖的是內容農場:
第一種情況的話 其實就跟adguard的防毒功能一樣 請伺服器先瀏覽一遍 掃描分析一遍 但是這樣的話需要開發者設立這樣的一個系統 在這個項目 顯然不可行 畢竟你沒有收錢 而且如果沒有事先大規模爬蟲 預先掃描的話 加載時間長 體驗就會很差
所以這個我暫時也想不到怎樣解決

但...若果你已經有adblocker 已經可以封鎖絕大部分廣告以及追蹤器 而且你對內容農場多賺少少錢沒有所謂的話.. 或者說你要封鎖的是紅色媒體 我在加載完 等了好幾秒以後 你再跟我講這個網站是否紅色媒體:
其實... 這個..就可以直接用吧~
只要你有跟我講這是內容農場/紅色媒體令我有所警惕就可以了
因為我想..用戶也是想避免錯誤吸收內容農場或者紅色媒體的虛假資訊? 🤔😗

@c2xusnpq6
Copy link
Author

c2xusnpq6 commented May 22, 2021

這種情況下內容農場已經接到流量、收益了,那就失去了封鎖的意義。

我個人認為其實真的沒有什麼大不了 相比於用戶不知道那是紅色媒體或者內容農場而言的話啦 不是嗎?...😗

@danny0838 danny0838 changed the title 過濾網站標題 根據網頁內容過濾內容農場 May 25, 2021
@sv158
Copy link

sv158 commented Oct 31, 2021

這個issue從一開始就跑題了吧,ban掉内容農場的意義在於:去除自己可見的無用信息(噪音)+不給場主獲取流量收益,而 @c2xusnpq6 提的需求是過濾掉自己不想看到的内容。

換個角度,前者的功能只是後者的子集,這些按標題按内容過濾的方法注定有一部分會超出交集範疇。簡單的情況,比如搜索結果的條目概要裏帶有不想看到的赤匪集團關聯實體的名字or關鍵詞:
image

這種情況可以直接在現有項目代碼基礎上擴展過濾功能(也許會多耗點電),再複雜點的情形,只要涉及到請求發送和頁面預載,都背離了擴展的初衷。

倒不如説,如果只是想屏蔽特定内容,一些廣告屏蔽插件(比如前面提到的 adguard/ublock)可能更合適點,沒必要用内容農場終結者。如果提這個issue的出發點是想用一個擴展達到兩個擴展的效果,那從子集出發也顯然找錯了方向,在帶有内容過濾的擴展那邊提議加入農場過濾功能應該更容易。

P.S. 中文網絡也好,國際網絡也好,個人印象裏赤匪的影響力(或者説製造出來的噪音)還沒有超過内容農場吧?美國實際控制的幾個主要互聯網平臺對赤匪外宣的打壓已經很明顯了,平時見到不多(也許跟我不怎麽在youtube和reddit上看時政類信息or主要看外語内容有關)。退一步來講,如果在fb和reddit上碰到意見不合的人或group,不應該從平臺本身出發考慮如何屏蔽的問題嗎?btw,把赤匪外宣和内容農場相提并論,這要是外宣知道了不得高興一晚上。

@danny0838
Copy link
Owner

@v3470 感謝回饋,這的確是我們目前的考量點。

技術上來說,要在 uBlock Origin 等專業的封鎖器加上這些功能不難,但那些工具的作者八成會認為沙盒檢視被封鎖的網頁和標示農場連結之類功能不是封鎖器該做的XD

反過來說,終結內容農場是比較簡化及特化的內容農場封鎖/提醒工具,目前提案的確可以算是廣義上與抵制內容農場有關,只是要在目前基礎加上那些功能還需要非常多相關研究及解決非常多可能的相關問題就是…

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants